このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220520となっている論文です。

PDF登録状況(公開日: 20220520)

TitleAuthorsAbstract論文公表日・翻訳日
# 半教師あり学習におけるほぼ完全回復

Almost exact recovery in noisy semi-supervised learning ( http://arxiv.org/abs/2007.14717v3 )

ライセンス: Link先を確認
Konstantin Avrachenkov and Maximilien Dreveton(参考訳) グラフに基づく半教師付き学習手法は、グラフ構造とラベル付きデータを組み合わせてラベルなしデータを分類する。 本研究では,うるさいオラクルが分類に与える影響について検討する。 特に、雑音の多いオラクルがラベルのごく一部を明らかにすると、Degree Corrected Stochastic Block Model (DC-SBM) をクラスタリングするための最大 A Posteriori (MAP) 推定器を導出する。 次に,地図の連続緩和から導かれるアルゴリズムを提案し,その一貫性を確立する。 数値実験により,非常にノイズの多いラベル付きデータであっても,合成および実データに対して有望な性能が得られた。

Graph-based semi-supervised learning methods combine the graph structure and labeled data to classify unlabeled data. In this work, we study the effect of a noisy oracle on classification. In particular, we derive the Maximum A Posteriori (MAP) estimator for clustering a Degree Corrected Stochastic Block Model (DC-SBM) when a noisy oracle reveals a fraction of the labels. We then propose an algorithm derived from a continuous relaxation of the MAP, and we establish its consistency. Numerical experiments show that our approach achieves promising performance on synthetic and real data sets, even in the case of very noisy labeled data.
翻訳日:2022-11-05 20:00:45 公開日:2022-05-20
# テキストの簡易化に関する調査

A Survey on Text Simplification ( http://arxiv.org/abs/2008.08612v3 )

ライセンス: Link先を確認
Punardeep Sikka and Vijay Mago(参考訳) Text Simplification (TS)は、コンテンツの言語的複雑さを減らし、理解しやすくすることを目的としている。 TSの研究は、特にTSへのアプローチが手作業による手作業によるルールから、自動化された単純化へと移行したことにより、大きな関心を集めてきた。 本調査では, TSの概要を概観し, 従来のアプローチの簡潔な説明, 単純化の諸側面(語彙, 意味, 構文)の議論, 現場で活用されている最新の技術について述べる。 この分野の研究は、tsを実行するためのディープラーニング技術の利用に明らかに移行しており、単純化に利用可能なデータ不足に対処するためのソリューションの開発に特化している。 また、一般的に使用されるデータセットと評価指標の議論や、意味的類似性のような自然言語処理(NLP)の関連分野の議論も含む。

Text Simplification (TS) aims to reduce the linguistic complexity of content to make it easier to understand. Research in TS has been of keen interest, especially as approaches to TS have shifted from manual, hand-crafted rules to automated simplification. This survey seeks to provide a comprehensive overview of TS, including a brief description of earlier approaches used, discussion of various aspects of simplification (lexical, semantic and syntactic), and latest techniques being utilized in the field. We note that the research in the field has clearly shifted towards utilizing deep learning techniques to perform TS, with a specific focus on developing solutions to combat the lack of data available for simplification. We also include a discussion of datasets and evaluations metrics commonly used, along with discussion of related fields within Natural Language Processing (NLP), like semantic similarity.
翻訳日:2022-10-27 11:51:43 公開日:2022-05-20
# 直交群の部分群上の同期問題への統一的アプローチ

A Unified Approach to Synchronization Problems over Subgroups of the Orthogonal Group ( http://arxiv.org/abs/2009.07514v2 )

ライセンス: Link先を確認
Huikang Liu, Man-Chung Yue, Anthony Man-Cho So(参考訳) 群 $\mathcal{G}$ 上の同期問題は、群要素の集合 $G^*_1, \dots, G^*_n \in \mathcal{G}$ を、形式 $G^*_i {G^*_j}^{-1}$ の任意の対比の集合の雑音的な観測に基づいて推定することを目的としている。 このような問題は近年注目を集め、幅広い科学や工学分野に応用されている。 本稿では、群が直交群の閉部分群である同期問題のクラスを考える。 このクラスは、実際に発生する多くのグループ同期問題をカバーする。 私たちの貢献は5倍です。 まず,一般化パワー法に基づく適切な初期化ステップと反復的改良ステップからなる群同期問題に対する統一的な解法を提案し,群,測定グラフ,雑音,初期化における推定誤差の強い理論的保証を享受することを示す。 第二に、我々のアプローチで要求される2つの幾何学的条件を定式化し、それらが直交群の様々な実用的な部分群に対して成り立つことを示す。 条件は部分群の誤差有界幾何と密接に関連しており、最適化の重要な概念である。 第3に、標準ランダムグラフとランダム行列モデルに対する測定グラフとノイズの仮定を検証する。 第4に、古典的な距離エントロピーの概念に基づいて、新しいスペクトル型推定器を開発し分析する。 最後に,提案手法が計算速度,スケーラビリティ,推定誤差の点で既存の手法よりも優れていることを示す。

The problem of synchronization over a group $\mathcal{G}$ aims to estimate a collection of group elements $G^*_1, \dots, G^*_n \in \mathcal{G}$ based on noisy observations of a subset of all pairwise ratios of the form $G^*_i {G^*_j}^{-1}$. Such a problem has gained much attention recently and finds many applications across a wide range of scientific and engineering areas. In this paper, we consider the class of synchronization problems in which the group is a closed subgroup of the orthogonal group. This class covers many group synchronization problems that arise in practice. Our contribution is fivefold. First, we propose a unified approach for solving this class of group synchronization problems, which consists of a suitable initialization step and an iterative refinement step based on the generalized power method, and show that it enjoys a strong theoretical guarantee on the estimation error under certain assumptions on the group, measurement graph, noise, and initialization. Second, we formulate two geometric conditions that are required by our approach and show that they hold for various practically relevant subgroups of the orthogonal group. The conditions are closely related to the error-bound geometry of the subgroup -- an important notion in optimization. Third, we verify the assumptions on the measurement graph and noise for standard random graph and random matrix models. Fourth, based on the classic notion of metric entropy, we develop and analyze a novel spectral-type estimator. Finally, we show via extensive numerical experiments that our proposed non-convex approach outperforms existing approaches in terms of computational speed, scalability, and/or estimation error.
翻訳日:2022-10-18 00:56:35 公開日:2022-05-20
# 高内在性次元近傍における検索の脆弱性の代替的証明

An alternative proof of the vulnerability of retrieval in high intrinsic dimensionality neighborhood ( http://arxiv.org/abs/2010.00990v2 )

ライセンス: Link先を確認
Teddy Furon(参考訳) 本稿では,データ解析と機械学習において重要なツールである近傍探索の脆弱性について検討する。 この脆弱性は、攻撃者が隣接するランクを変更するためにデータセットポイントに追加する必要がある相対的な摂動量として評価されている。 この量の統計的分布は単純な仮定から導かれる。 6つの大規模データセットに関する実験では、このモデルをいくつかの外れ値まで検証している。

This paper investigates the vulnerability of the nearest neighbors search, which is a pivotal tool in data analysis and machine learning. The vulnerability is gauged as the relative amount of perturbation that an attacker needs to add onto a dataset point in order to modify its neighbor rank w.r.t. a query. The statistical distribution of this quantity is derived from simple assumptions. Experiments on six large scale datasets validate this model up to some outliers which are explained in term of violations of the assumptions.
翻訳日:2022-10-12 01:14:20 公開日:2022-05-20
# 導出による証明のための意味推論を実現する定義量化器

Definitional Quantifiers Realise Semantic Reasoning for Proof by Induction ( http://arxiv.org/abs/2010.10296v2 )

ライセンス: Link先を確認
Yutaka Nagashima(参考訳) 証明アシスタントは、誘導によって証明を適用する戦術を提供するが、これらの戦術は、人間のエンジニアが与える入力に依存する。 そこで本研究では,Isabelle/HOLにおけるインダクタンス・戦術の適用方法に関する経験者の知識を表現し,インダクタンス・戦術にSeLFiEで記述した帰納的ヒューリスティックを適用し,インダクタンス・戦術に引数を適用した場合,その問題に対して議論が妥当かどうかを,そのヒューリスティックに従って判断し,関連する定数の構文構造と定義の両方を検証した。 構文解析と定数定義の分析の複雑な相互作用を調べるために,定義量化器を導入する。 評価のために,SeLFiEを用いた自動誘導証明器を開発した。 347の帰納的問題に基づく評価の結果,1.0秒のタイムアウトのベースライン証明よりも1.4×10^3%向上し,スピードアップの中央値が4.48倍となった。

Proof assistants offer tactics to apply proof by induction, but these tactics rely on inputs given by human engineers. To automate this laborious process, we developed SeLFiE, a boolean query language to represent experienced users' knowledge on how to apply the induct tactic in Isabelle/HOL: when we apply an induction heuristic written in SeLFiE to an inductive problem and arguments to the induct tactic, the SeLFiE interpreter judges whether the arguments are plausible for that problem according to the heuristic by examining both the syntactic structure of the problem and definitions of the relevant constants. To examine the intricate interaction between syntactic analysis and analysis of constant definitions, we introduce definitional quantifiers. For evaluation we build an automatic induction prover using SeLFiE. Our evaluation based on 347 inductive problems shows that our new prover achieves 1.4 x 10^3% improvement over the corresponding baseline prover for 1.0 second of timeout and the median value of speedup is 4.48x.
翻訳日:2022-10-05 22:59:33 公開日:2022-05-20
# ホモトピックアプローチによるラッソ計算におけるウォームアップ段階の加速

Accelerate the Warm-up Stage in the Lasso Computation via a Homotopic Approach ( http://arxiv.org/abs/2010.13934v2 )

ライセンス: Link先を確認
Yujie Zhao, Xiaoming Huo(参考訳) 最適化において、目的関数が厳密な凸かつ十分に条件付けられたとき、勾配に基づくアプローチは、例えば指数的収束率を達成するなど非常に効果的であることが知られている。 一方、既存のラッソ型推定器は、原点における絶対関数が望ましくない振舞いのために最適速度を達成することができない。 ホモトピー的手法は、サロゲート関数の列を使って、ラッソ型推定器で使われる$\ell_1$ペナルティを近似する。 サーロゲート関数は lasso estimator の $\ell_1$ ペナルティに収束する。 同時に、それぞれの代理関数は厳密な凸であり、証明可能なより高速な収束率を可能にする。 本稿では,代用関数を厳密に定義することにより,ラッソ型推定器の計算方法よりも高速な数値収束率を証明できることを実証する。 すなわち、最先端アルゴリズムは$O(1/\epsilon)$または$O(1/\sqrt{\epsilon})$収束率しか保証できないが、新たに提案されたアルゴリズムに対して$O([\log(1/\epsilon)]^2)$を証明できる。 数値シミュレーションにより,新しいアルゴリズムは経験的にも優れた性能を示す。

In optimization, it is known that when the objective functions are strictly convex and well-conditioned, gradient-based approaches can be extremely effective, e.g., achieving the exponential rate of convergence. On the other hand, the existing Lasso-type estimator in general cannot achieve the optimal rate due to the undesirable behavior of the absolute function at the origin. A homotopic method is to use a sequence of surrogate functions to approximate the $\ell_1$ penalty that is used in the Lasso-type of estimators. The surrogate functions will converge to the $\ell_1$ penalty in the Lasso estimator. At the same time, each surrogate function is strictly convex, which enables a provable faster numerical rate of convergence. In this paper, we demonstrate that by meticulously defining the surrogate functions, one can prove a faster numerical convergence rate than any existing methods in computing for the Lasso-type of estimators. Namely, the state-of-the-art algorithms can only guarantee $O(1/\epsilon)$ or $O(1/\sqrt{\epsilon})$ convergence rates, while we can prove an $O([\log(1/\epsilon)]^2)$ for the newly proposed algorithm. Our numerical simulations show that the new algorithm also performs better empirically.
翻訳日:2022-10-02 18:39:40 公開日:2022-05-20
# 注意機構による大規模多目的最適化のためのバランシング探索と爆発

Balancing Exploration and Exploitation for Solving Large-scale Multiobjective Optimization via Attention Mechanism ( http://arxiv.org/abs/2205.10052v1 )

ライセンス: Link先を確認
Haokai Hong, Min Jiang, Liang Feng, Qiuzhen Lin and Kay Chen Tan(参考訳) 大規模な多目的最適化問題(LSMOP)は、複数の競合する最適化目標と数百から数千の決定変数を持つ最適化問題を指す。 LSMOPを解く上で重要なポイントは、アルゴリズムが巨大な決定空間を効率的に探索できるように、探索と搾取のバランスをとる方法である。 大規模多目的進化アルゴリズムは、個人の視点から探究と搾取のバランスを考慮する。 しかし、これらのアルゴリズムは決定変数の観点からこの問題に取り組むことの重要性を無視しており、アルゴリズムには異なる次元から探索する能力がなく、アルゴリズムの性能が制限される。 本稿では,LMOAMと呼ばれる注意機構に基づく大規模多目的最適化アルゴリズムを提案する。 注意機構は、各決定変数に固有の重みを割り当て、LMOAMは、この重みを使って、決定変数レベルからの探索とエクスプロイトのバランスを取る。 本論文で提案するアルゴリズムを検証するために9種類のlsmopベンチマークを実施し,本手法の有効性を実験的に検証した。

Large-scale multiobjective optimization problems (LSMOPs) refer to optimization problems with multiple conflicting optimization objectives and hundreds or even thousands of decision variables. A key point in solving LSMOPs is how to balance exploration and exploitation so that the algorithm can search in a huge decision space efficiently. Large-scale multiobjective evolutionary algorithms consider the balance between exploration and exploitation from the individual's perspective. However, these algorithms ignore the significance of tackling this issue from the perspective of decision variables, which makes the algorithm lack the ability to search from different dimensions and limits the performance of the algorithm. In this paper, we propose a large-scale multiobjective optimization algorithm based on the attention mechanism, called (LMOAM). The attention mechanism will assign a unique weight to each decision variable, and LMOAM will use this weight to strike a balance between exploration and exploitation from the decision variable level. Nine different sets of LSMOP benchmarks are conducted to verify the algorithm proposed in this paper, and the experimental results validate the effectiveness of our design.
翻訳日:2022-06-26 15:19:28 公開日:2022-05-20
# 視覚変換器の統一的かつ生物学的に有理な関係グラフ表現

A Unified and Biologically-Plausible Relational Graph Representation of Vision Transformers ( http://arxiv.org/abs/2206.11073v1 )

ライセンス: Link先を確認
Yuzhong Chen, Yu Du, Zhenxiang Xiao, Lin Zhao, Lu Zhang, David Weizhong Liu, Dajiang Zhu, Tuo Zhang, Xintao Hu, Tianming Liu, Xi Jiang(参考訳) 視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。 これらのvitモデルの重要な特徴は、ニューラルネットワーク(anns)内の空間パッチ情報の異なる集約戦略を採用することである。 しかし、モデル表現性能の体系的理解と評価のために異なるViTアーキテクチャの統一表現が依然として欠如している。 さらに、これらの優れたViT ANNが、実際の生物学的ニューラルネットワーク(BNN)とどのように似ているかはほとんど解明されていない。 これらの基本的な質問に答えるために、我々は初めて、ViTモデルの統一的で生物学的に証明可能な関係グラフ表現を提案する。 具体的には、提案した関係グラフ表現は、アグリゲーショングラフとアフィングラフの2つの重要な部分グラフからなる。 前者はViTトークンをノードとみなし、その空間的相互作用を記述し、後者はネットワークチャネルをノードとみなし、チャネル間の情報通信を反映している。 この統合リレーショナルグラフ表現を用いることで、以下のことが分かりました。 a) 集約グラフのスイートスポットは,予測性能を著しく改善したViTに導かれる。 b) クラスタリング係数と平均経路長のグラフは、特に小規模サンプルのデータセットに適用する場合において、モデル予測性能の2つの有効な指標である。 c) 我々の発見は様々なViTアーキテクチャと複数のデータセットで一致している。 d)ViTのリレーショナルグラフ表現は脳科学データから得られた実BNNと高い類似性を有する。 全体として、我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。

Vision transformer (ViT) and its variants have achieved remarkable successes in various visual tasks. The key characteristic of these ViT models is to adopt different aggregation strategies of spatial patch information within the artificial neural networks (ANNs). However, there is still a key lack of unified representation of different ViT architectures for systematic understanding and assessment of model representation performance. Moreover, how those well-performing ViT ANNs are similar to real biological neural networks (BNNs) is largely unexplored. To answer these fundamental questions, we, for the first time, propose a unified and biologically-plausible relational graph representation of ViT models. Specifically, the proposed relational graph representation consists of two key sub-graphs: aggregation graph and affine graph. The former one considers ViT tokens as nodes and describes their spatial interaction, while the latter one regards network channels as nodes and reflects the information communication between channels. Using this unified relational graph representation, we found that: a) a sweet spot of the aggregation graph leads to ViTs with significantly improved predictive performance; b) the graph measures of clustering coefficient and average path length are two effective indicators of model prediction performance, especially when applying on the datasets with small samples; c) our findings are consistent across various ViT architectures and multiple datasets; d) the proposed relational graph representation of ViT has high similarity with real BNNs derived from brain science data. Overall, our work provides a novel unified and biologically-plausible paradigm for more interpretable and effective representation of ViT ANNs.
翻訳日:2022-06-26 08:20:00 公開日:2022-05-20
# (参考訳) MPI:事前訓練された言語モデルにおけるパーソナリティの評価と誘導

MPI: Evaluating and Inducing Personality in Pre-trained Language Models ( http://arxiv.org/abs/2206.07550v1 )

ライセンス: CC BY 4.0
Guangyuan Jiang, Manjie Xu, Song-Chun Zhu, Wenjuan Han, Chi Zhang, Yixin Zhu(参考訳) 哲学的な探求として始まり、個性は思考、感覚、行動の点で個人がどう異なるかを明らかにする。 人間と日常的に連携するソーシャルマシンの構築に向けて,(1)既存の事前学習済み言語モデルは,人間と同じような個性を持つか? もしそうなら、(2)どうやって評価できるのか? さらに、この評価枠組みを前提として、(3)完全に制御可能な方法で特定の個性をいかに誘導できるか。 これらの3つの疑問に対処するために,機械パーソナリティ・インベントリ(MPI)データセットを提案する。MPIは,ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors, ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ・アセスメント・インベントリに基づいて,標準化されたパーソナリティ・テストに従う。 MPIを用いてモデルを評価することにより、事前学習された言語モデルにおけるパーソナリティの存在を示す最初の証拠を提供する。 さらに,特定の個性を持つ言語モデルを制御可能な方法で誘導し,多様な振る舞いを生成できるチェーン・プロンプト法を考案する。 我々は、さまざまな下流業務にパーソナリティを必須の心理的ガイダンスとして採用し、より人間的な対話エージェントを構築し、今後の研究に光を当てたい。

Originated as a philosophical quest, personality discerns how individuals differ from each other in terms of thinking, feeling, and behaving. Towards building social machines that work with humans on a daily basis, we are motivated to ask: (1) Do existing pre-trained language models possess personality, akin to their human counterpart? If so, (2) how can we evaluate them? Further, given this evaluation framework, (3) how can we induce a certain personality in a fully controllable fashion? To tackle these three questions, we propose the Machine Personality Inventory (MPI) dataset for evaluating the machine personality; MPI follows standardized personality tests, built upon the Big Five Personality Factors (Big Five) theory and personality assessment inventories. By evaluating models with MPI, we provide the first piece of evidence showing the existence of personality in pre-trained language models. We further devise a Chain Prompting method to induce the language model with a specific personality in a controllable manner, capable of producing diversified behaviors. We hope to shed light on future studies by adopting personality as the essential psychological guidance for various downstream tasks, building more human-like and in situ dialogue agents.
翻訳日:2022-06-20 01:57:00 公開日:2022-05-20
# ダメなの? 自殺ノートから知覚されたバーデンサム性および抑止性の検出に向けて

Am I No Good? Towards Detecting Perceived Burdensomeness and Thwarted Belongingness from Suicide Notes ( http://arxiv.org/abs/2206.06141v1 )

ライセンス: Link先を確認
Soumitra Ghosh, Asif Ekbal and Pushpak Bhattacharyya(参考訳) 世界保健機関(who)は、2030年の国連持続可能な開発目標(sdg)を達成するための自殺防止努力を著しく加速することの重要性を強調している。 本稿では,自殺の危険因子であるPB(Perceived Burdensomeness)とTB(Thwarted Belongingness)を,自殺ノートから検出するためのエンドツーエンドマルチタスクシステムを提案する。 また, CEASE-v2.0データセットに基づいて, 時間方向, PB, TBラベルをアノテートしたコード混入自殺メモコーパス, CoMCEASE-v2.0を導入する。 自殺ノートの時間方向と感情情報を活用し,全体的なパフォーマンスを向上させる。 提案手法の包括的評価のために,既存のstop-v2.0データセットと新たに発表されたcomcease-v2.0データセットの最先端手法と比較する。 経験的評価は、時間的および感情的な情報がpbとtbの検出を大幅に改善できることを示唆している。

The World Health Organization (WHO) has emphasized the importance of significantly accelerating suicide prevention efforts to fulfill the United Nations' Sustainable Development Goal (SDG) objective of 2030. In this paper, we present an end-to-end multitask system to address a novel task of detection of two interpersonal risk factors of suicide, Perceived Burdensomeness (PB) and Thwarted Belongingness (TB) from suicide notes. We also introduce a manually translated code-mixed suicide notes corpus, CoMCEASE-v2.0, based on the benchmark CEASE-v2.0 dataset, annotated with temporal orientation, PB and TB labels. We exploit the temporal orientation and emotion information in the suicide notes to boost overall performance. For comprehensive evaluation of our proposed method, we compare it to several state-of-the-art approaches on the existing CEASE-v2.0 dataset and the newly announced CoMCEASE-v2.0 dataset. Empirical evaluation suggests that temporal and emotional information can substantially improve the detection of PB and TB.
翻訳日:2022-06-19 23:29:03 公開日:2022-05-20
# 粗粒状状態空間ネットワークの持続的ホモロジー

Persistent Homology of Coarse Grained State Space Networks ( http://arxiv.org/abs/2206.02530v1 )

ライセンス: Link先を確認
Audun D. Myers, Firas A. Khasawneh, Elizabeth Munch(参考訳) この研究は、動的状態検出のための複雑な遷移ネットワークのトポロジカル解析に特化している。 遷移ネットワークは時系列データから形成され、グラフ理論ツールを利用して基礎となる動的システムに関する情報を明らかにする。 しかし、従来のツールはそのようなグラフに存在する複雑なトポロジーを要約することができない。 本研究では,位相的データ解析から永続的ホモロジーを活用し,ネットワーク構造の研究を行う。 我々は、CGSSNとTDAを用いた時系列からの動的状態検出と、TDAと組み合わせたOPN(Ordinal Partition Networks)と、信号の時間遅延埋め込みに対する永続的ホモロジーの標準適用の2つの方法の対比を行った。 cgssnは,opnsと比較して動的状態検出と雑音ロバスト性が著しく向上していることが証明されるように,動的システムの動的状態に関する豊富な情報をキャプチャする。 また, cgssnの計算時間は信号の長さに依存しないため, tdaを時系列の時間分解埋め込みに適用するよりも計算効率が高いことを示した。

This work is dedicated to the topological analysis of complex transitional networks for dynamic state detection. Transitional networks are formed from time series data and they leverage graph theory tools to reveal information about the underlying dynamic system. However, traditional tools can fail to summarize the complex topology present in such graphs. In this work, we leverage persistent homology from topological data analysis to study the structure of these networks. We contrast dynamic state detection from time series using CGSSN and TDA to two state of the art approaches: Ordinal Partition Networks (OPNs) combined with TDA, and the standard application of persistent homology to the time-delay embedding of the signal. We show that the CGSSN captures rich information about the dynamic state of the underlying dynamical system as evidenced by a significant improvement in dynamic state detection and noise robustness in comparison to OPNs. We also show that because the computational time of CGSSN is not linearly dependent on the signal's length, it is more computationally efficient than applying TDA to the time-delay embedding of the time series.
翻訳日:2022-06-12 09:34:17 公開日:2022-05-20
# (参考訳) 相対的事前学習と逆フィルタリングを用いたロバストタスク指向対話生成

Robust Task-Oriented Dialogue Generation with Contrastive Pre-training and Adversarial Filtering ( http://arxiv.org/abs/2205.10363v1 )

ライセンス: CC BY 4.0
Shiquan Yang, Xinting Huang, Jey Han Lau, Sarah Erfani(参考訳) データアーティファクトは、データのショートカットを利用して機械学習モデルにインセンティブを与えて、非伝達可能な一般化を学習し、近年の自然言語処理ベンチマークでディープラーニングモデルが達成した強力な結果にデータアーティファクトが寄与する証拠が増えている。 本稿では,タスク指向対話に着目し,MultiWOZなどの一般的なデータセットにそのようなデータアーティファクトが含まれているかどうかを検討する。 トレーニング例に頻繁なフレーズだけを保持することで、最先端のモデルがフルデータでトレーニングされた変種と同等のパフォーマンスを発揮することが分かり、これらのスプリアス相関を利用して課題を解決することを示唆した。 そこで本研究では,これらのヒントを無視し,一般化可能なパターンの学習に焦点をあてたコントラスト型学習フレームワークを提案する。 また,モデルが"よりハード"なインスタンスから学習することに集中できるように,"簡単な"トレーニングインスタンスを削除するために,逆フィルタリングも実験した。 我々は、我々のアプローチの堅牢性を評価するために、多くの一般化実験(クロスドメイン/データセットや逆行テストなど)を行い、非常にうまく機能することを発見した。

Data artifacts incentivize machine learning models to learn non-transferable generalizations by taking advantage of shortcuts in the data, and there is growing evidence that data artifacts play a role for the strong results that deep learning models achieve in recent natural language processing benchmarks. In this paper, we focus on task-oriented dialogue and investigate whether popular datasets such as MultiWOZ contain such data artifacts. We found that by only keeping frequent phrases in the training examples, state-of-the-art models perform similarly compared to the variant trained with full data, suggesting they exploit these spurious correlations to solve the task. Motivated by this, we propose a contrastive learning based framework to encourage the model to ignore these cues and focus on learning generalisable patterns. We also experiment with adversarial filtering to remove "easy" training instances so that the model would focus on learning from the "harder" instances. We conduct a number of generalization experiments -- e.g., cross-domain/dataset and adversarial tests -- to assess the robustness of our approach and found that it works exceptionally well.
翻訳日:2022-06-06 01:29:40 公開日:2022-05-20
# (参考訳) 強制探索による非定常環境における最適アームのアクティブトラッキング

Actively Tracking the Optimal Arm in Non-Stationary Environments with Mandatory Probing ( http://arxiv.org/abs/2205.10366v1 )

ライセンス: CC BY 4.0
Gourab Ghatak(参考訳) 非定常環境で定期的に全ての腕を探査するようエージェントに委任する新しいマルチアームバンディット(MAB)について検討する。 特に,古典的なトンプソンサンプリング(TS)と全腕のブロードキャスト・プロブリング(BP)を同時にバランスさせて,報酬分布の変化を積極的に検出する「texttt{TS-GE}」を開発した。 システムレベルの変更が検出されると、変更されたアームはgroup exploration(ge)と呼ばれるオプションのサブルーチンによって識別され、$k-$armed bandit設定で$\log_2(k)$にスケールされる。 環境パラメータの観点から,誤検出の確率と誤警報の確率を特徴付ける。 変化検出のレイテンシは$\sqrt{T}$で上界されるが、$\sqrt{T}$では、すべての腕は少なくとも一度は調査される。 本稿では,現在最先端のアルゴリズム,特に \texttt{ADSWITCH} や \texttt{M-UCB} よりも高い性能を示す条件を強調した。 さらに、既存のバンディットアルゴリズムとは異なり、 \texttt{TS-GE} は、次世代無線通信ネットワークの重要な特徴である、タイムリーなステータス更新、クリティカルコントロール、ワイヤレスエネルギー転送などのアプリケーションにデプロイすることができる。 IIoT(Industrial Internet-of-Things)ネットワークにおいて,SWIPT(Interactive Wireless Information and Power Transfer)とSWIPT(Industrial Internet-of-Things)を併用し,その有効性を実証した。

We study a novel multi-armed bandit (MAB) setting which mandates the agent to probe all the arms periodically in a non-stationary environment. In particular, we develop \texttt{TS-GE} that balances the regret guarantees of classical Thompson sampling (TS) with the broadcast probing (BP) of all the arms simultaneously in order to actively detect a change in the reward distributions. Once a system-level change is detected, the changed arm is identified by an optional subroutine called group exploration (GE) which scales as $\log_2(K)$ for a $K-$armed bandit setting. We characterize the probability of missed detection and the probability of false-alarm in terms of the environment parameters. The latency of change-detection is upper bounded by $\sqrt{T}$ while within a period of $\sqrt{T}$, all the arms are probed at least once. We highlight the conditions in which the regret guarantee of \texttt{TS-GE} outperforms that of the state-of-the-art algorithms, in particular, \texttt{ADSWITCH} and \texttt{M-UCB}. Furthermore, unlike the existing bandit algorithms, \texttt{TS-GE} can be deployed for applications such as timely status updates, critical control, and wireless energy transfer, which are essential features of next-generation wireless communication networks. We demonstrate the efficacy of \texttt{TS-GE} by employing it in a n industrial internet-of-things (IIoT) network designed for simultaneous wireless information and power transfer (SWIPT).
翻訳日:2022-06-06 01:06:08 公開日:2022-05-20
# (参考訳) ニューラルサンプル分割によるニューロシンボリックレグレックス合成フレームワーク

Neuro-Symbolic Regex Synthesis Framework via Neural Example Splitting ( http://arxiv.org/abs/2205.11258v1 )

ライセンス: CC BY 4.0
Su-Hyeon Kim, Hyunjoon Cheon, Yo-Sub Han, Sang-Ki Ko(参考訳) 正規表現 (regexes,略してregexes) の実践的な重要性のため、正および負の文字列例からregexsを自動的に生成する研究が数多く行われている。 我々は,'ニューラルサンプル分割'と呼ばれる新しいアプローチに依拠して,正弦と負弦からより早く学習する問題に取り組む。 提案手法は,正弦から類似のサブストリングをグループ化するニューラルネットワークを用いて,各サンプル文字列を複数の部分に分割する。 これはregexをより速く、正確に学習するのに役立ちます。 本稿では,'split'正のサブストリングからサブレゲックスを合成し,合成したサブレゲックスを連結して最終レゲックスを生成する'splitregex'という効果的なレゲックス合成フレームワークを提案する。 負のサンプルに対しては, サブレゲックス合成プロセス中に生成したサブレゲックスを利用して, 負の文字列に対するマッチングを行う。 すると、最終的なregexはすべての負の文字列と一致する。 SplitRegexはターゲットのregexsを学習するための分割および参照のフレームワークであり、(=divide)正の文字列を分割し、(=divide)複数の部分に対して部分的なregexsを推論する。 提案するSplitRegexフレームワークは,4つのベンチマークデータセットに対して,以前のregex合成アプローチを大幅に改善することを示す。

Due to the practical importance of regular expressions (regexes, for short), there has been a lot of research to automatically generate regexes from positive and negative string examples. We tackle the problem of learning regexes faster from positive and negative strings by relying on a novel approach called `neural example splitting'. Our approach essentially split up each example string into multiple parts using a neural network trained to group similar substrings from positive strings. This helps to learn a regex faster and, thus, more accurately since we now learn from several short-length strings. We propose an effective regex synthesis framework called `SplitRegex' that synthesizes subregexes from `split' positive substrings and produces the final regex by concatenating the synthesized subregexes. For the negative sample, we exploit pre-generated subregexes during the subregex synthesis process and perform the matching against negative strings. Then the final regex becomes consistent with all negative strings. SplitRegex is a divided-and-conquer framework for learning target regexes; split (=divide) positive strings and infer partial regexes for multiple parts, which is much more accurate than the whole string inferring, and concatenate (=conquer) inferred regexes while satisfying negative strings. We empirically demonstrate that the proposed SplitRegex framework substantially improves the previous regex synthesis approaches over four benchmark datasets.
翻訳日:2022-06-06 00:48:11 公開日:2022-05-20
# (参考訳) ドメインランダム化のための合成大腸内視鏡ビデオの自動生成

Automatic Generation of Synthetic Colonoscopy Videos for Domain Randomization ( http://arxiv.org/abs/2205.10368v1 )

ライセンス: CC BY 4.0
Abhishek Dinkar Jagtap, Mattias Heinrich, Marian Himstedt(参考訳) 大腸内視鏡的ガイダンスと補助システムの増加は、大量の高品質のトレーニングデータを必要とする機械学習アルゴリズムに依存している。 高いパフォーマンスを保証するために、後者は可能な構成のかなりの部分に似ている必要がある。 これは特に、動きのぼやけや照明の不十分により劣化する可能性のある様々な解剖、粘膜の外観、イメージセンサーの特徴に対処する。 機械学習モデルの一般化能力の低下につながる、これらすべての可能な設定を考慮に入れた、利用可能なトレーニングデータハッタの限られた量。 本稿では,実際の環境を模倣しながら,内部大腸の識別的ドメインランダム化表現を学習できる,実質的な外観と解剖学的バリエーションを備えた大腸内視鏡映像合成のための模範的なソリューションを提案する。

An increasing number of colonoscopic guidance and assistance systems rely on machine learning algorithms which require a large amount of high-quality training data. In order to ensure high performance, the latter has to resemble a substantial portion of possible configurations. This particularly addresses varying anatomy, mucosa appearance and image sensor characteristics which are likely deteriorated by motion blur and inadequate illumination. The limited amount of readily available training data hampers to account for all of these possible configurations which results in reduced generalization capabilities of machine learning models. We propose an exemplary solution for synthesizing colonoscopy videos with substantial appearance and anatomical variations which enables to learn discriminative domain-randomized representations of the interior colon while mimicking real-world settings.
翻訳日:2022-06-06 00:26:47 公開日:2022-05-20
# (参考訳) 深部圧縮を用いたコルテックスM型マイクロコントローラにおけるエネルギー効率の良い深部学習モデルの展開

Deployment of Energy-Efficient Deep Learning Models on Cortex-M based Microcontrollers using Deep Compression ( http://arxiv.org/abs/2205.10369v1 )

ライセンス: CC BY 4.0
Mark Deutel and Philipp Woller and Christopher Mutschler and J\"urgen Teich(参考訳) 大きなディープニューラルネットワーク(DNN)は、巨大なデータセットでトレーニングされたときに正確な予測を行う能力のため、今日の人工知能のバックボーンである。 モノのインターネットのような先進的な技術によって、センサーが生成する大量のデータを解釈することが、ますます重要なタスクになりつつある。 しかし、多くのアプリケーションにおいて、予測性能だけでなく、ディープラーニングモデルのエネルギー消費も大きな関心を集めている。 本稿では,資源制約されたマイクロコントローラアーキテクチャ上での深層学習モデルのネットワーク圧縮による効率的な展開について検討する。 本稿では,ARM Cortex-Mをベースとした低消費電力システムを対象とした,異なるDNNプルーニング,量子化,展開戦略の体系的探索手法を提案する。 この調査では、正確性、メモリ消費、実行時間、電力消費といった重要なメトリクス間のトレードオフを分析することができる。 3種類のdnnアーキテクチャの実験結果について検討し, 予測品質が低下する前に, 元のパラメータ数を10\%以下に圧縮できることを示した。 また、cortex-mベースのマイクロコントローラにデプロイし、評価することも可能です。

Large Deep Neural Networks (DNNs) are the backbone of today's artificial intelligence due to their ability to make accurate predictions when being trained on huge datasets. With advancing technologies, such as the Internet of Things, interpreting large quantities of data generated by sensors is becoming an increasingly important task. However, in many applications not only the predictive performance but also the energy consumption of deep learning models is of major interest. This paper investigates the efficient deployment of deep learning models on resource-constrained microcontroller architectures via network compression. We present a methodology for the systematic exploration of different DNN pruning, quantization, and deployment strategies, targeting different ARM Cortex-M based low-power systems. The exploration allows to analyze trade-offs between key metrics such as accuracy, memory consumption, execution time, and power consumption. We discuss experimental results on three different DNN architectures and show that we can compress them to below 10\% of their original parameter count before their predictive quality decreases. This also allows us to deploy and evaluate them on Cortex-M based microcontrollers.
翻訳日:2022-06-06 00:21:19 公開日:2022-05-20
# (参考訳) 多様性と認識可能性:ワンショット生成モデルにおける人間的一般化

Diversity vs. Recognizability: Human-like generalization in one-shot generative models ( http://arxiv.org/abs/2205.10370v1 )

ライセンス: CC BY 4.0
Victor Boutin, Lakshya Singhal, Xavier Thomas and Thomas Serre(参考訳) 新しい概念への堅牢な一般化は、長い間、人間の知性に特有の特徴として残されてきた。 しかし、近年の深層生成モデルの進歩により、単一のトレーニング例から未知の視覚概念の新たなインスタンスを合成できるニューラルネットワークが誕生した。 しかし、これらのモデルと人間とのより正確な比較は、生成モデル(例えば、FID、IS、可能性)の既存のパフォーマンス指標が単発生成シナリオには適さないため不可能である。 本稿では,2つの軸に沿った1ショット生成モデル(サンプル認識可能性対多様性(クラス内変動性))を評価するための新しい枠組みを提案する。 この枠組みを用いて,全文手書きデータセット上で,代表的ワンショット生成モデルの体系的評価を行う。 まず,gan様モデルとvae様モデルが,多様性認識可能性空間の両端に落下することを示す。 キーモデルパラメータの効果の広範な分析により、空間的注意と文脈統合が多様性認識可能性トレードオフに線形に寄与することが明らかとなった。 対照的に、乱れは、認識可能性の最大化に使用できる放物線曲線に沿ってモデルを輸送する。 多様性認識性フレームワークを用いて、人間のデータを近似したモデルとパラメータを同定することができた。

Robust generalization to new concepts has long remained a distinctive feature of human intelligence. However, recent progress in deep generative models has now led to neural architectures capable of synthesizing novel instances of unknown visual concepts from a single training example. Yet, a more precise comparison between these models and humans is not possible because existing performance metrics for generative models (i.e., FID, IS, likelihood) are not appropriate for the one-shot generation scenario. Here, we propose a new framework to evaluate one-shot generative models along two axes: sample recognizability vs. diversity (i.e., intra-class variability). Using this framework, we perform a systematic evaluation of representative one-shot generative models on the Omniglot handwritten dataset. We first show that GAN-like and VAE-like models fall on opposite ends of the diversity-recognizability space. Extensive analyses of the effect of key model parameters further revealed that spatial attention and context integration have a linear contribution to the diversity-recognizability trade-off. In contrast, disentanglement transports the model along a parabolic curve that could be used to maximize recognizability. Using the diversity-recognizability framework, we were able to identify models and parameters that closely approximate human data.
翻訳日:2022-06-05 23:58:39 公開日:2022-05-20
# (参考訳) Open Arms: オープンソースアーム、ハンド&コントロール

Open Arms: Open-Source Arms, Hands & Control ( http://arxiv.org/abs/2205.12992v1 )

ライセンス: CC BY 4.0
David Hanson, Alishba Imran, Gerardo Morales, Vytas Krisciunas, Aditya Sagi, Aman Malali, Rushali Mohbe, Raviteja Upadrashta(参考訳) open armsは、ヒューマノイドロボットの把持と操作の能力とアクセシビリティを拡張するために設計された28自由度(dof)のリアルな人間のようなロボットハンドとアームハードウェアの、新しいオープンソースプラットフォームである。 open armsフレームワークにはオープンsdkと開発環境、シミュレーションツール、オープンアームの構築と運用のためのアプリケーション開発ツールが含まれている。 本稿では,遠隔操作型看護ロボットを用いたハンズコントロール,センシング,機構,審美設計,製造,実世界への応用について述べる。 2015年から2022年にかけて、我々は、ヒューマノイドロボットアプリケーションと、低コストの義肢の緊急需要の両方に対応するために、低コストで高機能なロボットアームハードウェアおよびソフトウェアフレームワークとしてOpen Armsを設計、確立しました。 そこで我々は,消費者製品製造技術を用いて,人手の繊細さと感度を近似する,モジュール式で低コストな技術を定義した。 そこで本研究では,様々な物体の入力画像からのロバストな対脚把持をリアルタイム速度 (22ms) で生成できる新しい生成的把持残差cnn(ggr-cnn)モデルを提案する。 各種の家庭用オブジェクトを含む標準コーネルグレーピングデータセットのモデルアーキテクチャを用いて92.4%の最先端精度を実現した。

Open Arms is a novel open-source platform of realistic human-like robotic hands and arms hardware with 28 Degree-of-Freedom (DoF), designed to extend the capabilities and accessibility of humanoid robotic grasping and manipulation. The Open Arms framework includes an open SDK and development environment, simulation tools, and application development tools to build and operate Open Arms. This paper describes these hands controls, sensing, mechanisms, aesthetic design, and manufacturing and their real-world applications with a teleoperated nursing robot. From 2015 to 2022, we have designed and established the manufacturing of Open Arms as a low-cost, high functionality robotic arms hardware and software framework to serve both humanoid robot applications and the urgent demand for low-cost prosthetics. Using the techniques of consumer product manufacturing, we set out to define modular, low-cost techniques for approximating the dexterity and sensitivity of human hands. To demonstrate the dexterity and control of our hands, we present a novel Generative Grasping Residual CNN (GGR-CNN) model that can generate robust antipodal grasps from input images of various objects at real-time speeds (22ms). We achieved state-of-the-art accuracy of 92.4% using our model architecture on a standard Cornell Grasping Dataset, which contains a diverse set of household objects.
翻訳日:2022-06-05 23:57:33 公開日:2022-05-20
# (参考訳) DELMAR:ヒト脳の階層的機能的結合性を抽出するための概略再構成

DELMAR: Deep Linear Matrix Approximately Reconstruction to Extract Hierarchical Functional Connectivity in the Human Brain ( http://arxiv.org/abs/2205.10374v1 )

ライセンス: CC BY 4.0
Wei Zhang, Yu Bao(参考訳) マトリックス分解技術は、人間の脳における機能的接続の階層構造を解析するための重要な計算手法である。 しかし、これらの方法論にはまだ4つの欠点がある。 大規模なトレーニングサンプル; 2)。 手動でハイパーパラメータをチューニングします。 時間を消費し、広い計算ソースを必要とする 4)。 唯一の固定点への収束を保証することはできない。 そこで本稿では,Deep Linear Matrix Approximate Reconstruction (DELMAR) と呼ばれる新しい行列分解手法を提案する。 提案手法の利点は,まず第一に提案したDEMARが重要なハイパーパラメータを自動的に推定し,さらに行列バックプロパゲーションを用いて潜在的な累積誤差を低減し,最後に直交射影を導入して,逆行列を直接計算するのではなく,DLMARのすべての変数を更新する。 ヒト脳の実際のMRI信号を用いた3つのピア法とDELMARの検証実験により、提案手法はfMRI信号の空間的特徴を他のピア法よりも高速かつ高精度に識別できることを示した。 さらに、理論解析により、DELMARはユニークな固定点に収束し、元の入力をDNNとして正確に近似できることを示した。

The Matrix Decomposition techniques have been a vital computational approach to analyzing the hierarchy of functional connectivity in the human brain. However, there are still four shortcomings of these methodologies: 1). Large training samples; 2). Manually tuning hyperparameters; 3). Time-consuming and require extensive computational source; 4). It cannot guarantee convergence to a unique fixed point. Therefore, we propose a novel deep matrix factorization technique called Deep Linear Matrix Approximate Reconstruction (DELMAR) to bridge the abovementioned gaps. The advantages of the proposed method are: at first, proposed DELMAR can estimate the important hyperparameters automatically; furthermore, DELMAR employs the matrix backpropagation to reduce the potential accumulative errors; finally, an orthogonal projection is introduced to update all variables of DELMAR rather than directly calculating the inverse matrices. The validation experiments of three peer methods and DELMAR using real functional MRI signal of the human brain demonstrates that our proposed method can efficiently identify the spatial feature in fMRI signal even faster and more accurately than other peer methods. Moreover, the theoretical analyses indicate that DELMAR can converge to the unique fixed point and even enable the accurate approximation of original input as DNNs.
翻訳日:2022-06-05 23:47:04 公開日:2022-05-20
# (参考訳) 畳み込みニューラルネットワークのための動的重み付き表法

A Dynamic Weighted Tabular Method for Convolutional Neural Networks ( http://arxiv.org/abs/2205.10386v1 )

ライセンス: CC BY 4.0
Md Ifraham Iqbal, Md. Saddam Hossain Mukta, Ahmed Rafi Hasan(参考訳) Support Vector Machine、Random Forest、Logistic Regressionといった従来の機械学習(ML)モデルは、一般に表データセットの分類タスクに好まれる。 タブラルデータは、それぞれインスタンスと特徴に対応する行と列で構成される。 過去の研究では、従来の分類器は複雑な表型データセットで不十分な結果を生み出すことが多い。 したがって、研究者は強力な畳み込みニューラルネットワーク(CNN)を表のデータセットに利用しようと試みる。 最近の研究では、表データに畳み込みニューラルネットワーク(CNN)を適用するためのSuperTML、CTGAN、Tabular Convolution(TAC)などの技術が提案されている。 これらのモデルは従来の分類器よりも優れ、表データの性能を大幅に向上させる。 本研究では,統計手法に基づく特徴量重みを動的に用い,表型データセットにcnnを適用する新しい手法であるdynamic weighted tabular method (dwtm)を提案する。 本手法は,各特徴量にアソシエーションの強さに基づく重みをクラスラベルに動的に割り当てる。 各データポイントはイメージに変換され、CNNモデルに供給される。 特徴は、その重みに基づいて、画像キャンバス空間に割り当てられる。 DWTMは、前述のメソッドで提供される静的な設定ではなく、実験的な設定全体を動的に実装するので、上記のメソッドの改善である。 さらに、画像キャンバス空間を作成するために機能重みを使用するという斬新なアイデアを使う。 本稿では、DWTMを6つのベンチマークされた表付きデータセットに適用し、それらすべてに対して優れた性能(平均精度=95%)を達成する。

Traditional Machine Learning (ML) models like Support Vector Machine, Random Forest, and Logistic Regression are generally preferred for classification tasks on tabular datasets. Tabular data consists of rows and columns corresponding to instances and features, respectively. Past studies indicate that traditional classifiers often produce unsatisfactory results in complex tabular datasets. Hence, researchers attempt to use the powerful Convolutional Neural Networks (CNN) for tabular datasets. Recent studies propose several techniques like SuperTML, Conditional GAN (CTGAN), and Tabular Convolution (TAC) for applying Convolutional Neural Networks (CNN) on tabular data. These models outperform the traditional classifiers and substantially improve the performance on tabular data. This study introduces a novel technique, namely, Dynamic Weighted Tabular Method (DWTM), that uses feature weights dynamically based on statistical techniques to apply CNNs on tabular datasets. The method assigns weights dynamically to each feature based on their strength of associativity to the class labels. Each data point is converted into images and fed to a CNN model. The features are allocated image canvas space based on their weights. The DWTM is an improvement on the previously mentioned methods as it dynamically implements the entire experimental setting rather than using the static configuration provided in the previous methods. Furthermore, it uses the novel idea of using feature weights to create image canvas space. In this paper, the DWTM is applied to six benchmarked tabular datasets and it achieves outstanding performance (i.e., average accuracy = 95%) on all of them.
翻訳日:2022-06-05 23:45:02 公開日:2022-05-20
# (参考訳) EGR:3次元タンパク質複合体の等価グラフ微細化と評価

EGR: Equivariant Graph Refinement and Assessment of 3D Protein Complex Structures ( http://arxiv.org/abs/2205.10390v1 )

ライセンス: CC BY 4.0
Alex Morehead, Xiao Chen, Tianqi Wu, Jian Liu, Jianlin Cheng(参考訳) タンパク質複合体は、すべての生物の機能と健康に必須の高分子である。 タンパク質複合体の構造として、特に複数のタンパク質サブユニット(すなわち鎖)間の相互作用領域は、複合体の生物学的機能に顕著な影響を与え、タンパク質複合体の3d構造の品質の精製と評価に迅速かつ効果的に使用できる計算手法は、新しい治療法の開発を加速し、将来のワクチンの有効性を向上させるために薬物発見パイプライン内で直接使用できる。 本研究では,マルチタスク構造改善のための新しいE3-equivariant Graph Neural Network (GNN) であるEquivariant Graph Refiner (EGR)を導入し,タンパク質複合体の評価を行う。 本研究で公開している新しい多種多様なタンパク質複合体データセットに関する実験は, タンパク質複合体の原子的精製および評価におけるEGRの最先端の有効性と今後の研究の方向性を示すものである。 そこで我々は,分子微細化と構造解析における今後の研究のベースラインを確立する。

Protein complexes are macromolecules essential to the functioning and well-being of all living organisms. As the structure of a protein complex, in particular its region of interaction between multiple protein subunits (i.e., chains), has a notable influence on the biological function of the complex, computational methods that can quickly and effectively be used to refine and assess the quality of a protein complex's 3D structure can directly be used within a drug discovery pipeline to accelerate the development of new therapeutics and improve the efficacy of future vaccines. In this work, we introduce the Equivariant Graph Refiner (EGR), a novel E(3)-equivariant graph neural network (GNN) for multi-task structure refinement and assessment of protein complexes. Our experiments on new, diverse protein complex datasets, all of which we make publicly available in this work, demonstrate the state-of-the-art effectiveness of EGR for atomistic refinement and assessment of protein complexes and outline directions for future work in the field. In doing so, we establish a baseline for future studies in macromolecular refinement and structure analysis.
翻訳日:2022-06-05 23:30:19 公開日:2022-05-20
# (参考訳) 計算強化学習における特殊好奇性の3つの鍵特性の試作

Prototyping three key properties of specific curiosity in computational reinforcement learning ( http://arxiv.org/abs/2205.10407v1 )

ライセンス: CC BY 4.0
Nadia M. Ady, Roshan Shariff, Johannes G\"unther and Patrick M. Pilarski (University of Alberta Department of Computing Science and Alberta Machine Intelligence Institute)(参考訳) 機械エージェントの好奇心は、激しい研究の焦点となっている。 人間と動物の好奇心、特に特定の好奇心の研究は、機械学習者にとって重要な利益をもたらすいくつかの特性を発掘してきたが、マシンインテリジェンスではまだよく研究されていない。 本研究は,これらの特性の最も直接的な3つの特性,すなわち,指示性,満足度,随意曝露性を導入し,概念強化学習エージェントで組み合わせて実施する方法を示し,また,好奇心誘導位置と好奇心誘導対象を含む単純な非エポゾディックグリッドワールド環境において,このエージェントの行動に現れる特性がどのように現れるかを示す。 希望するように、エージェントは、好奇心を誘発する状況を適応的に求めるために、長期的な嗜好を更新しながら、短期的な指示行動を示す。 この研究は、特定の好奇心がどのように機能し、将来は複雑な環境におけるゴール探索、意思決定エージェントの行動に統合されるかもしれない、という新しい見解を提示する。

Curiosity for machine agents has been a focus of intense research. The study of human and animal curiosity, particularly specific curiosity, has unearthed several properties that would offer important benefits for machine learners, but that have not yet been well-explored in machine intelligence. In this work, we introduce three of the most immediate of these properties -- directedness, cessation when satisfied, and voluntary exposure -- and show how they may be implemented together in a proof-of-concept reinforcement learning agent; further, we demonstrate how the properties manifest in the behaviour of this agent in a simple non-episodic grid-world environment that includes curiosity-inducing locations and induced targets of curiosity. As we would hope, the agent exhibits short-term directed behaviour while updating long-term preferences to adaptively seek out curiosity-inducing situations. This work therefore presents a novel view into how specific curiosity operates and in the future might be integrated into the behaviour of goal-seeking, decision-making agents in complex environments.
翻訳日:2022-06-05 23:14:00 公開日:2022-05-20
# (参考訳) シンノニム抽出の最近の動向とアプローチ:アラビア語への潜在的適応

Current Trends and Approaches in Synonyms Extraction: Potential Adaptation to Arabic ( http://arxiv.org/abs/2205.10412v1 )

ライセンス: CC BY 4.0
Eman Naser-Karajah, Nabil Arman, Mustafa Jarrar(参考訳) 辞書やコーパスから同義語を抽出することは、NLPアプリケーションの性能向上に重要な役割を果たすため、特に注目されている。 本稿では,同義語の自動抽出に使用される様々なアプローチと傾向について調査する。 これらのアプローチは4つの主要なカテゴリに分類できる。 最初のアプローチは、翻訳グラフを使って同義語を見つけることである。 第二のアプローチは、(アラビア語と英語)、(アラビア語とフランス語)のような新しい遷移ペアを見つけることである。 第3のアプローチは、同義グラフを探索して新しいWordNetを構築することであり、第4のアプローチは、単語埋め込みや最近のBERTモデルのようなディープラーニング手法を用いて、コーパスから類似した単語を見つけることである。 また、これらのアプローチの比較分析を行い、将来的な研究としてアラビア語でシノニムを自動生成する可能性を強調した。

Extracting synonyms from dictionaries or corpora is gaining special attention as synonyms play an important role in improving NLP application performance. This paper presents a survey of the different approaches and trends used in automatically extracting the synonyms. These approaches can be divided into four main categories. The first approach is to find the Synonyms using a translation graph. The second approach is to discover new transition pairs such as (Arabic-English) (English-France) then (Arabic-France). The third approach is to construct new WordNets by exploring synonymy graphs, and the fourth approach is to find similar words from corpora using Deep Learning methods, such as word embeddings and recently BERT models. The paper also presents a comparative analysis between these approaches and highlights potential adaptation to generate synonyms automatically in the Arabic language as future work.
翻訳日:2022-06-05 23:06:15 公開日:2022-05-20
# (参考訳) ARLO: 強化学習を自動化するフレームワーク

ARLO: A Framework for Automated Reinforcement Learning ( http://arxiv.org/abs/2205.10416v1 )

ライセンス: CC BY 4.0
Marco Mussi, Davide Lombarda, Alberto Maria Metelli, Francesco Trov\`o, Marcello Restelli(参考訳) 自動強化学習(Automated Reinforcement Learning, AutoRL)は比較的新しい研究分野であり、注目を集めている。 AutoRLの目的は、データ収集、アルゴリズムの選択、ハイパーパラメータチューニングといった主な課題を緩和することで、一般大衆への強化学習(RL)技術の活用を緩和することにある。 本稿では,自動学習のための自動化パイプラインを構築するために,arlo: automated reinforcement learning optimizerという汎用的で柔軟なフレームワークを提案する。 これに基づいて,オフラインとオンラインrl用のパイプラインを提案し,コンポーネントやインタラクションについて議論し,これら2つの設定の違いを強調する。 さらに、このようなパイプラインのpython実装を提供し、オープンソースライブラリとしてリリースしています。 本実装はlqgドメインと古典的なmujoco環境上でテストされ,人間の介入を制限した競争性能に到達できることを示した。 また,機能選択とモデル生成タスクを自動的に実行して,現実的なダム環境上で全パイプラインを示す。

Automated Reinforcement Learning (AutoRL) is a relatively new area of research that is gaining increasing attention. The objective of AutoRL consists in easing the employment of Reinforcement Learning (RL) techniques for the broader public by alleviating some of its main challenges, including data collection, algorithm selection, and hyper-parameter tuning. In this work, we propose a general and flexible framework, namely ARLO: Automated Reinforcement Learning Optimizer, to construct automated pipelines for AutoRL. Based on this, we propose a pipeline for offline and one for online RL, discussing the components, interaction, and highlighting the difference between the two settings. Furthermore, we provide a Python implementation of such pipelines, released as an open-source library. Our implementation has been tested on an illustrative LQG domain and on classic MuJoCo environments, showing the ability to reach competitive performances requiring limited human intervention. We also showcase the full pipeline on a realistic dam environment, automatically performing the feature selection and the model generation tasks.
翻訳日:2022-06-05 22:54:41 公開日:2022-05-20
# (参考訳) タンパク質フォールディングシミュレーションの幾何学的アンタングル表現の学習

Learning Geometrically Disentangled Representations of Protein Folding Simulations ( http://arxiv.org/abs/2205.10423v1 )

ライセンス: CC BY-SA 4.0
N. Joseph Tatro, Payel Das, Pin-Yu Chen, Vijil Chenthamarakshan, Rongjie Lai(参考訳) 薬物標的タンパク質の大規模分子シミュレーションは、疾患のメカニズムを理解し治療薬を開発するための道具として使われてきた。 本研究は、計算コストの高い分子シミュレーションから得られた薬物標的タンパク質(例えばsars-cov-2スパイクタンパク質)の構造的アンサンブルに基づく生成的ニューラルネットワークの学習に焦点を当てている。 モデル課題は、様々な薬物分子に結合するタンパク質の構造的変動を特徴づけることと、分子シミュレーションエンジンの補完となるタンパク質配座を効率的に生成することである。 具体的には,タンパク質構造の内在的および外在的ジオメトリの遅延空間符号化を学習するための幾何学的オートエンコーダフレームワークを提案する。 この目的のために、提案するタンパク質幾何オートエンコーダ(progae)モデルは、タンパク質の接触マップとタンパク質の骨格結合の配向に基づいて訓練される。 プロゲエ潜在性埋め込みを用いて,タンパク質のコンフォメーションアンサンブルを実験分解能付近で再構成し生成し,学習した潜在性空間からタンパク質構造生成の観点でより優れた解釈性と制御性を得る。 さらに、プロゲエモデルは、同じタンパク質の異なる状態または異なる大きさの新しいタンパク質に転送可能であり、そこでは潜在表現からデコードされる高密度層のみが再訓練される必要がある。 以上の結果から,本手法は複雑な構造変化を生成するための精度と効率の両立を図示し,薬物標的タンパク質の高コストシミュレーション解析と拡張のためのスケーラブルで改良されたアプローチへの道筋を示した。

Massive molecular simulations of drug-target proteins have been used as a tool to understand disease mechanism and develop therapeutics. This work focuses on learning a generative neural network on a structural ensemble of a drug-target protein, e.g. SARS-CoV-2 Spike protein, obtained from computationally expensive molecular simulations. Model tasks involve characterizing the distinct structural fluctuations of the protein bound to various drug molecules, as well as efficient generation of protein conformations that can serve as an complement of a molecular simulation engine. Specifically, we present a geometric autoencoder framework to learn separate latent space encodings of the intrinsic and extrinsic geometries of the protein structure. For this purpose, the proposed Protein Geometric AutoEncoder (ProGAE) model is trained on the protein contact map and the orientation of the backbone bonds of the protein. Using ProGAE latent embeddings, we reconstruct and generate the conformational ensemble of a protein at or near the experimental resolution, while gaining better interpretability and controllability in term of protein structure generation from the learned latent space. Additionally, ProGAE models are transferable to a different state of the same protein or to a new protein of different size, where only the dense layer decoding from the latent representation needs to be retrained. Results show that our geometric learning-based method enjoys both accuracy and efficiency for generating complex structural variations, charting the path toward scalable and improved approaches for analyzing and enhancing high-cost simulations of drug-target proteins.
翻訳日:2022-06-05 22:32:13 公開日:2022-05-20
# (参考訳) 時間変動型自己スーパービジョンによるDense Rewardの学習

Learning Dense Reward with Temporal Variant Self-Supervision ( http://arxiv.org/abs/2205.10431v1 )

ライセンス: CC BY 4.0
Yuning Wu, Jieliang Luo, Hui Li(参考訳) 報酬は強化学習において重要な役割を果たす。 明確に定義された報酬関数を持つルールベースのゲーム環境とは対照的に、コンタクトリッチな操作のような複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。 従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。 本稿では,より効率的で堅牢なサンプリングと学習手法を提案することで,この取り組みを拡大することを目的とする。 特に,サンプリング手法では時間変化を利用して操作タスクの変動状態と動作分布をシミュレートする。 そこで我々は,潜在表現に時間情報を取り込むための自己教師付き学習のためのネットワークアーキテクチャを提案する。 我々は,共同組立とドア開放という2つの実験装置でアプローチを検証した。 予備的な結果は,本手法が高密度報酬の学習に有効かつ効率的であることを示し,学習報酬はベースラインよりも早く収束することを示した。

Rewards play an essential role in reinforcement learning. In contrast to rule-based game environments with well-defined reward functions, complex real-world robotic applications, such as contact-rich manipulation, lack explicit and informative descriptions that can directly be used as a reward. Previous effort has shown that it is possible to algorithmically extract dense rewards directly from multimodal observations. In this paper, we aim to extend this effort by proposing a more efficient and robust way of sampling and learning. In particular, our sampling approach utilizes temporal variance to simulate the fluctuating state and action distribution of a manipulation task. We then proposed a network architecture for self-supervised learning to better incorporate temporal information in latent representations. We tested our approach in two experimental setups, namely joint-assembly and door-opening. Preliminary results show that our approach is effective and efficient in learning dense rewards, and the learned rewards lead to faster convergence than baselines.
翻訳日:2022-06-05 22:18:09 公開日:2022-05-20
# (参考訳) Neur2SP: ニューラルな2段階確率プログラミング

Neur2SP: Neural Two-Stage Stochastic Programming ( http://arxiv.org/abs/2205.12006v1 )

ライセンス: CC BY 4.0
Justin Dumouchelle, Rahul Patel, Elias B. Khalil, Merve Bodur(参考訳) 確率プログラミングは不確実性の下で意思決定のための強力なモデリングフレームワークである。 本研究では,最も広く応用され研究されている2段階確率型プログラム (2SP) について検討する。 2spsの解くには、計算上難解な期待値関数の評価が必要である。 さらに、混合整数線形プログラム(MIP)または非線形プログラム(NLP)を第2段階で持つと、さらに問題を悪化させる。 このような場合、問題構造を利用する特殊なアルゴリズムが用いられる場合でも、それらの解決は違法にコストがかかる可能性がある。 このような設定では、問題構造を活用せずに高品質な(第1ステージ)ソリューションを見つけることが重要です。 ニューラルネットワークを用いて期待値関数を近似する新しい手法Neur2SPを開発し,従来の広範囲な定式化手法よりも効率的に解ける代理モデルを得る。 さらに、Neur2SPは問題構造、特に第2段階の問題については仮定せず、既成の解法とオープンソースライブラリを使って実装することができる。 異なる構造を持つ4つの問題クラス(MIPおよびNLP第2ステージ問題を含む)のベンチマーク2SPデータセットに対する広範な計算実験は、Neur2SPの効率(時間)と有効性(ソリューション品質)を示している。 具体的には,提案手法はすべての問題に対して1.66秒未満の時間を要し,シナリオの数が増えても高品質なソリューションを実現する。 すなわち、最も一般的なベースラインメソッドは通常、同等の品質のソリューションを見つけるのに数分から数時間かかる。

Stochastic programming is a powerful modeling framework for decision-making under uncertainty. In this work, we tackle two-stage stochastic programs (2SPs), the most widely applied and studied class of stochastic programming models. Solving 2SPs exactly requires evaluation of an expected value function that is computationally intractable. Additionally, having a mixed-integer linear program (MIP) or a nonlinear program (NLP) in the second stage further aggravates the problem difficulty. In such cases, solving them can be prohibitively expensive even if specialized algorithms that exploit problem structure are employed. Finding high-quality (first-stage) solutions -- without leveraging problem structure -- can be crucial in such settings. We develop Neur2SP, a new method that approximates the expected value function via a neural network to obtain a surrogate model that can be solved more efficiently than the traditional extensive formulation approach. Moreover, Neur2SP makes no assumptions about the problem structure, in particular about the second-stage problem, and can be implemented using an off-the-shelf solver and open-source libraries. Our extensive computational experiments on benchmark 2SP datasets from four problem classes with different structures (containing MIP and NLP second-stage problems) show the efficiency (time) and efficacy (solution quality) of Neur2SP. Specifically, the proposed method takes less than 1.66 seconds across all problems, achieving high-quality solutions even as the number of scenarios increases, an ideal property that is difficult to have for traditional 2SP solution techniques. Namely, the most generic baseline method typically requires minutes to hours to find solutions of comparable quality.
翻訳日:2022-06-05 22:10:33 公開日:2022-05-20
# (参考訳) PETの探索:分布的・知覚的手法による潜在的エフェミスティックな用語の探索

Searching for PETs: Using Distributional and Sentiment-Based Methods to Find Potentially Euphemistic Terms ( http://arxiv.org/abs/2205.10451v1 )

ライセンス: CC BY 4.0
Patrick Lee and Martha Gavidia and Anna Feldman and Jing Peng(参考訳) 本稿では,言語的に駆動された概念の証明として,潜在的にエフェヘミスティックな用語(PET)を求める。 PETは特定の意味のある話題の表現として一般的に使用される傾向があることを認識して,文から句候補を選択し,フィルタリングするために分布的類似性を利用して,単純な感情ベースの指標を用いてそれらをランク付けする。 本研究は, ユーフェミズムを含む文のコーパスを用いて, 幅広い話題から単語・多語PETの検出の有効性を実証した。 また,この課題に対する感情ベース手法の今後の可能性についても論じる。

This paper presents a linguistically driven proof of concept for finding potentially euphemistic terms, or PETs. Acknowledging that PETs tend to be commonly used expressions for a certain range of sensitive topics, we make use of distributional similarities to select and filter phrase candidates from a sentence and rank them using a set of simple sentiment-based metrics. We present the results of our approach tested on a corpus of sentences containing euphemisms, demonstrating its efficacy for detecting single and multi-word PETs from a broad range of topics. We also discuss future potential for sentiment-based methods on this task.
翻訳日:2022-06-05 21:41:47 公開日:2022-05-20
# (参考訳) 文レベル対象の事前学習型変換器モデルによる解答文選択

Pre-training Transformer Models with Sentence-Level Objectives for Answer Sentence Selection ( http://arxiv.org/abs/2205.10455v1 )

ライセンス: CC BY 4.0
Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti(参考訳) QAシステムを設計するための重要なタスクは、検索した関連文書の集合から質問に対する回答を含む(または構成する)文を選択する、回答文選択(AS2)である。 本稿では,文書内および文書間における段落レベルの意味論を取り入れた3つの新しい文レベルトランスフォーマーの事前学習目標を提案し,AS2のトランスフォーマーの性能を改善し,大規模ラベル付きデータセットの要求を緩和する。 3つのパブリックおよび1つの産業用AS2データセットに関する実験は、RoBERTaやELECTRA for AS2といったベースラインモデルよりも事前学習したトランスフォーマーの実証的な優位性を実証している。

An important task for designing QA systems is answer sentence selection (AS2): selecting the sentence containing (or constituting) the answer to a question from a set of retrieved relevant documents. In this paper, we propose three novel sentence-level transformer pre-training objectives that incorporate paragraph-level semantics within and across documents, to improve the performance of transformers for AS2, and mitigate the requirement of large labeled datasets. Our experiments on three public and one industrial AS2 datasets demonstrate the empirical superiority of our pre-trained transformers over baseline models such as RoBERTa and ELECTRA for AS2.
翻訳日:2022-06-05 21:27:01 公開日:2022-05-20
# (参考訳) 不均一学習率を有するPSO畳み込みニューラルネットワーク

PSO-Convolutional Neural Networks with Heterogeneous Learning Rate ( http://arxiv.org/abs/2205.10456v1 )

ライセンス: CC BY 4.0
Nguyen Huu Phong, Augusto Santos, Bernardete Ribeiro(参考訳) Convolutional Neural Networks (ConvNets) はコンピュータビジョンや関連分野の領域に広範に展開されている。 それでも、これらのニューラルネットワークのトレーニングのダイナミクスはまだ解明されていない。 この課題を克服し、音声認識や画像認識、行動認識などの画像処理におけるいくつかの問題に対処するために、数多くのアーキテクチャとトレーニング戦略が提案されている。 本稿では,新しい粒子群最適化(PSO)によるConvNetsのトレーニングを提案する。 このようなフレームワークでは、各ConvNetの重みのベクトルは、一般に位相空間における粒子の位置としてキャストされ、PSOの協調力学は、訓練性能と一般化を促進するためにSGD(Stochastic Gradient Descent)と相互作用する。 私たちのアプローチは以下の通りです。 i) [ウォームアップフェーズ] 各ConvNetは、SGDを介して独立して訓練される。 二 損失関数の勾配推定とともに、その重み(又は粒子配置)の現在のベクトル間で、[協調相]凸体を共有すること。 異なるステップサイズは、異なるconvnetによって作られる。 より保守的なステップサイズとConvNetを適切に組み合わせることで、Cifar-10の他のPSOベースのアプローチ(98.31%の精度)に対して競合性能のアルゴリズムを提案する。 これらの精度レベルは、たった4つのConvNetを使用して取得される。 ソースコードはhttps://github.com/leonlha/pso-convnet-dynamicsからダウンロードできる。

Convolutional Neural Networks (ConvNets) have been candidly deployed in the scope of computer vision and related fields. Nevertheless, the dynamics of training of these neural networks lie still elusive: it is hard and computationally expensive to train them. A myriad of architectures and training strategies have been proposed to overcome this challenge and address several problems in image processing such as speech, image and action recognition as well as object detection. In this article, we propose a novel Particle Swarm Optimization (PSO) based training for ConvNets. In such framework, the vector of weights of each ConvNet is typically cast as the position of a particle in phase space whereby PSO collaborative dynamics intertwines with Stochastic Gradient Descent (SGD) in order to boost training performance and generalization. Our approach goes as follows: i) [warm-up phase] each ConvNet is trained independently via SGD; ii) [collaborative phase] ConvNets share among themselves their current vector of weights (or particle-position) along with their gradient estimates of the Loss function. Distinct step sizes are coined by distinct ConvNets. By properly blending ConvNets with large (possibly random) step-sizes along with more conservative ones, we propose an algorithm with competitive performance with respect to other PSO-based approaches on Cifar-10 (accuracy of 98.31%). These accuracy levels are obtained by resorting to only four ConvNets -- such results are expected to scale with the number of collaborative ConvNets accordingly. We make our source codes available for download https://github.com/leonlha/PSO-ConvNet-Dynamics.
翻訳日:2022-06-05 21:11:49 公開日:2022-05-20
# (参考訳) 満足感と時間的目標からの合成

Synthesis from Satisficing and Temporal Goals ( http://arxiv.org/abs/2205.10464v1 )

ライセンス: CC BY 4.0
Suguman Bansal, Lydia Kavraki, Moshe Y. Vardi, Andrew Wells(参考訳) 線形時間論理LTLで表現されるハード制約とディスカウントサム(DS)報酬で表現されるソフト制約を組み合わせた高レベル仕様からの反応性合成は、計画と強化学習に応用できる。 既存のアプローチでは、LTL合成の技法とDS報酬の最適化を組み合わせているが、音響アルゴリズムは得られていない。 LTL合成と満足なDS報酬(しきい値を達成するリワード)を組み合わせた別のアプローチは、整数割引係数に対して健全で完備であるが、実際には分数割引係数が望まれる。 この研究は既存の満足度アプローチを拡張し、LTLとDSの報酬を分数割引係数で合成するための最初の音響アルゴリズムを提示する。 ロボット計画領域におけるアルゴリズムの有用性を実証する。

Reactive synthesis from high-level specifications that combine hard constraints expressed in Linear Temporal Logic LTL with soft constraints expressed by discounted-sum (DS) rewards has applications in planning and reinforcement learning. An existing approach combines techniques from LTL synthesis with optimization for the DS rewards but has failed to yield a sound algorithm. An alternative approach combining LTL synthesis with satisficing DS rewards (rewards that achieve a threshold) is sound and complete for integer discount factors, but, in practice, a fractional discount factor is desired. This work extends the existing satisficing approach, presenting the first sound algorithm for synthesis from LTL and DS rewards with fractional discount factors. The utility of our algorithm is demonstrated on robotic planning domains.
翻訳日:2022-06-05 20:42:16 公開日:2022-05-20
# (参考訳) アメリカ手話における行動認識

Action Recognition for American Sign Language ( http://arxiv.org/abs/2205.12261v1 )

ライセンス: CC BY 4.0
Nguyen Huu Phong, Bernardete Ribeiro(参考訳) 本研究では,手の動きの連続からアメリカ手話を認識するための知見を提示する。 文学研究の多くは静的な手形のみに焦点を当てているが、我々の研究はダイナミックな手振りを対象としている。 dynamic signデータセットは非常に少ないので、最初の150ビデオのデータセットを10のサインに、225の動画を15のサインに拡張します。 時間的設定の異なるビデオに対して,ディープニューラルネットワークと背景減算を組み合わせたトランスファー学習モデルを適用する。 主に,DenseNet201,LSTM,12フレームのビデオシーケンスを用いて,0.86$と0.71$の精度が得られることを示す。

In this research, we present our findings to recognize American Sign Language from series of hand gestures. While most researches in literature focus only on static handshapes, our work target dynamic hand gestures. Since dynamic signs dataset are very few, we collect an initial dataset of 150 videos for 10 signs and an extension of 225 videos for 15 signs. We apply transfer learning models in combination with deep neural networks and background subtraction for videos in different temporal settings. Our primarily results show that we can get an accuracy of $0.86$ and $0.71$ using DenseNet201, LSTM with video sequence of 12 frames accordingly.
翻訳日:2022-06-05 20:17:35 公開日:2022-05-20
# (参考訳) 生理的信号に基づく感情認識に関する調査

A Survey on Physiological Signal Based Emotion Recognition ( http://arxiv.org/abs/2205.10466v1 )

ライセンス: CC BY 4.0
Zeeshan Ahmad, Naimul Khan(参考訳) 生理学的信号は、被験者によって意図的に制御できないため、感情認識のための最も信頼できる信号である。 生理的信号に基づく感情認識に関する既存のレビュー論文は、前処理、特徴抽出、分類などの感情認識のワークフローに関わる通常のステップのみを調査した。 これらは重要なステップであるが、信号処理アプリケーションではそのようなステップが必要である。 感情認識は、強固なシステムに対処する上で非常に重要な、独自の課題を提起します。 そこで,既存の文献のギャップを埋めるために,本論文では,感情認識におけるオブジェクト間データ分散の効果,感情認識における重要なデータアノテーション技術とその比較,各生理的信号に対するデータ前処理技術,感情認識モデルの一般化と異なるマルチモーダル融合技術とその比較について概説する。 最後に,この分野における課題と今後の方向性について考察する。

Physiological Signals are the most reliable form of signals for emotion recognition, as they cannot be controlled deliberately by the subject. Existing review papers on emotion recognition based on physiological signals surveyed only the regular steps involved in the workflow of emotion recognition such as preprocessing, feature extraction, and classification. While these are important steps, such steps are required for any signal processing application. Emotion recognition poses its own set of challenges that are very important to address for a robust system. Thus, to bridge the gap in the existing literature, in this paper, we review the effect of inter-subject data variance on emotion recognition, important data annotation techniques for emotion recognition and their comparison, data preprocessing techniques for each physiological signal, data splitting techniques for improving the generalization of emotion recognition models and different multimodal fusion techniques and their comparison. Finally we discuss key challenges and future directions in this field.
翻訳日:2022-06-05 20:13:51 公開日:2022-05-20
# QADAM:Pareto-Optimalityのための量子化対応DNN加速器モデリング

QADAM: Quantization-Aware DNN Accelerator Modeling for Pareto-Optimality ( http://arxiv.org/abs/2205.13045v1 )

ライセンス: Link先を確認
Ahmet Inci, Siri Garudanagiri Virupaksha, Aman Jain, Venkata Vivek Thallam, Ruizhou Ding, Diana Marculescu(参考訳) 機械学習とシステムコミュニティは、カスタムディープニューラルネットワーク(DNN)アクセラレータ、様々なビット精度または量子化レベルを通じて、より高いエネルギー効率を達成するために努力しているため、正確で高速なパワー、パフォーマンス、領域モデルを持ちながら、量子化対応処理要素(PE)をアクセラレーション空間に組み込むデザインスペース探索フレームワークが必要である。 本稿では,DNNアクセラレータのための高パラメータ化量子化対応パワー,性能,領域モデリングフレームワークQADAMを提案する。 我々のフレームワークは、ビット精度、PEタイプ、スクラッチパッドサイズ、グローバルバッファサイズ、総PE数、DNN構成など、様々な設計選択のための設計空間探索およびDNNアクセラレータのパレート効率に関する将来の研究を促進することができる。 この結果から,ビット精度とPEタイプの違いが,面積とエネルギーあたりの性能に有意な差をもたらすことが明らかとなった。 具体的には,領域ごとのパフォーマンスとエネルギーがそれぞれ5倍と35倍に変化する,幅広い設計ポイントを特定する。 また,提案した軽量処理素子 (LightPE) は,精度とハードウェア効率の点でパレート最適化結果を一貫して達成していることを示す。 提案手法では,int16をベースとする最良設計に比べて,面積当たりの効率が最大5.7倍向上し,省エネ性が向上することを示した。

As the machine learning and systems communities strive to achieve higher energy-efficiency through custom deep neural network (DNN) accelerators, varied bit precision or quantization levels, there is a need for design space exploration frameworks that incorporate quantization-aware processing elements (PE) into the accelerator design space while having accurate and fast power, performance, and area models. In this work, we present QADAM, a highly parameterized quantization-aware power, performance, and area modeling framework for DNN accelerators. Our framework can facilitate future research on design space exploration and Pareto-efficiency of DNN accelerators for various design choices such as bit precision, PE type, scratchpad sizes of PEs, global buffer size, number of total PEs, and DNN configurations. Our results show that different bit precisions and PE types lead to significant differences in terms of performance per area and energy. Specifically, our framework identifies a wide range of design points where performance per area and energy varies more than 5x and 35x, respectively. We also show that the proposed lightweight processing elements (LightPEs) consistently achieve Pareto-optimal results in terms of accuracy and hardware-efficiency. With the proposed framework, we show that LightPEs achieve on par accuracy results and up to 5.7x more performance per area and energy improvement when compared to the best INT16 based design.
翻訳日:2022-05-29 20:40:45 公開日:2022-05-20
# 量子カーラー学習

Quantum Kerr Learning ( http://arxiv.org/abs/2205.12004v1 )

ライセンス: Link先を確認
Junyu Liu, Changchun Zhong, Matthew Otten, Cristian L. Cortes, Chaoyang Ti, Stephen K Gray, Xu Han(参考訳) 量子機械学習は急速に進化する分野であり、量子コンピューティングの重要な応用を促進し、データサイエンスに大きな影響を及ぼす可能性がある。 我々の研究では、複雑性理論や物理学の様々な理由に基づいて量子カーネル法を使用する場合、単一のカーモードが追加の量子拡張をもたらすかもしれないと論じている。 さらに、回路QEDに基づいて「emph{quantum Kerr learning}」と呼ぶ実験プロトコルを確立する。 カーネル法、ニューラル・タンジェント・カーネル理論、カー非線形性の一階摂動理論、非摂動数値シミュレーションを用いた詳細な研究により、量子拡張は収束時間と一般化誤差の観点から起こりうることが示され、一方、明示的なプロトコルは高次元入力データに対しても構築されている。

Quantum machine learning is a rapidly evolving area that could facilitate important applications for quantum computing and significantly impact data science. In our work, we argue that a single Kerr mode might provide some extra quantum enhancements when using quantum kernel methods based on various reasons from complexity theory and physics. Furthermore, we establish an experimental protocol, which we call \emph{quantum Kerr learning} based on circuit QED. A detailed study using the kernel method, neural tangent kernel theory, first-order perturbation theory of the Kerr non-linearity, and non-perturbative numerical simulations, shows quantum enhancements could happen in terms of the convergence time and the generalization error, while explicit protocols are also constructed for higher-dimensional input data.
翻訳日:2022-05-25 12:36:15 公開日:2022-05-20
# 多重空間プロテオミクスチャネルの臨床駆動型生成画像合成のためのSSIMガイドcGANアーキテクチャ

A SSIM Guided cGAN Architecture For Clinically Driven Generative Image Synthesis of Multiplexed Spatial Proteomics Channels ( http://arxiv.org/abs/2205.10373v1 )

ライセンス: Link先を確認
Jillur Rahman Saurav, Mohammad Sadegh Nasr, Paul Koomey, Michael Robben, Manfred Huber, Jon Weidanz, Br\'id Ryan, Eytan Ruppin, Peng Jiang, and Jacob M. Luber(参考訳) 本稿では,複数空間プロテオミクス画像中の光精度の高いタンパク質チャネルを生成するために,画像合成(i2i)を生成的に行う構造類似度指標尺度(SSIM)について述べる。 このアプローチは、ベンチまたはクリニックでの実験データ収集中に含まれなかった空間的プロテオミクスチャネルを正確に生成するために利用できる。 HuBMAP(Human BioMolecular Atlas Program)から得られた実験空間プロテオミクスデータは、U-Netベースの画像合成パイプラインを介して欠失タンパク質の空間的表現を生成するために用いられた。 HuBMAPチャネルは、タンパク質の空間的景観に代表される基盤生物学を再カプセル化するために必要な最小限のセットを得るために、ヒューリスティックとして(SSIM)によって階層的にクラスタリングされた。 その後、ssimベースのアーキテクチャにより、最大100チャンネルのスライドによる生成画像合成のスケーリングが可能になり、11チャンネルのデータに限定されたartアルゴリズムの現在の状態よりも優れていることを証明します。 我々は,ヒト肺腺癌組織から得られた新しい実験的空間プロテオミクスデータを生成し,HuBMAPで訓練されたモデルが我々の新しいデータセットからチャネルを正確に合成できることを検証した。 空間的プロテオミクスを含む疎染色多重組織スライドからの実験データを再カプセル化できることは、医療診断や薬物開発に多大な影響を与え、臨床現場で生成画像合成によって生成されたデータを活用するという医療倫理に重要な疑問を提起する。 本稿では,プロテオミクスに基づく組織染色の時間とコストを削減できるとともに,実験によって生成できるデータ量を増大させるアルゴリズムを提案する。

Here we present a structural similarity index measure (SSIM) guided conditional Generative Adversarial Network (cGAN) that generatively performs image-to-image (i2i) synthesis to generate photo-accurate protein channels in multiplexed spatial proteomics images. This approach can be utilized to accurately generate missing spatial proteomics channels that were not included during experimental data collection either at the bench or the clinic. Experimental spatial proteomic data from the Human BioMolecular Atlas Program (HuBMAP) was used to generate spatial representations of missing proteins through a U-Net based image synthesis pipeline. HuBMAP channels were hierarchically clustered by the (SSIM) as a heuristic to obtain the minimal set needed to recapitulate the underlying biology represented by the spatial landscape of proteins. We subsequently prove that our SSIM based architecture allows for scaling of generative image synthesis to slides with up to 100 channels, which is better than current state of the art algorithms which are limited to data with 11 channels. We validate these claims by generating a new experimental spatial proteomics data set from human lung adenocarcinoma tissue sections and show that a model trained on HuBMAP can accurately synthesize channels from our new data set. The ability to recapitulate experimental data from sparsely stained multiplexed histological slides containing spatial proteomic will have tremendous impact on medical diagnostics and drug development, and also raises important questions on the medical ethics of utilizing data produced by generative image synthesis in the clinical setting. The algorithm that we present in this paper will allow researchers and clinicians to save time and costs in proteomics based histological staining while also increasing the amount of data that they can generate through their experiments.
翻訳日:2022-05-24 20:18:57 公開日:2022-05-20
# グラフニューラルネットワークによるおそらくハードな代表選択の処理

Tackling Provably Hard Representative Selection via Graph Neural Networks ( http://arxiv.org/abs/2205.10403v1 )

ライセンス: Link先を確認
Seyed Mehran Kazemi, Anton Tsitsulin, Hossein Esfandiari, MohammadHossein Bateni, Deepak Ramachandran, Bryan Perozzi, Vahab Mirrokni(参考訳) 代表選択(rs)は、ラベルのないデータセットから例題の小さなサブセットを見つける問題であり、要約、アクティブラーニング、データ圧縮、その他多くの領域で多くの応用がある。 本稿では,選択した代表者に対して学習したモデルの精度を最適化する代表者を見つけることに焦点を当てる。 属性グラフとして表されるデータのRSについて検討する。 グラフニューラルネットワークに基づく表現学習型rsモデルrs-gnnを開発した。 実験により,rs-gnn がサーロゲート関数を最適化する確立されたベースラインよりも大幅に改善できることを示し,既定のグラフ構造問題やノード特徴類似性に起因するグラフ問題に対する rs-gnn の有効性を実証した。 理論的には、RSが任意の妥当な係数内で多項式時間内で近似することが困難であることを証明することによって、RSの新たな硬度結果を確立する。これは、広く使われている代用関数の最適解とモデルの実際の精度との間に大きなギャップを生じさせ、代用関数に対するRS-GNNのような表現学習に基づくアプローチの優位性に対する正当化を与える。

Representative selection (RS) is the problem of finding a small subset of exemplars from an unlabeled dataset, and has numerous applications in summarization, active learning, data compression and many other domains. In this paper, we focus on finding representatives that optimize the accuracy of a model trained on the selected representatives. We study RS for data represented as attributed graphs. We develop RS-GNN, a representation learning-based RS model based on Graph Neural Networks. Empirically, we demonstrate the effectiveness of RS-GNN on problems with predefined graph structures as well as problems with graphs induced from node feature similarities, by showing that RS-GNN achieves significant improvements over established baselines that optimize surrogate functions. Theoretically, we establish a new hardness result for RS by proving that RS is hard to approximate in polynomial time within any reasonable factor, which implies a significant gap between the optimum solution of widely-used surrogate functions and the actual accuracy of the model, and provides justification for the superiority of representation learning-based approaches such as RS-GNN over surrogate functions.
翻訳日:2022-05-24 19:51:23 公開日:2022-05-20
# OOD検出のグラディエントはどの程度有用か?

How Useful are Gradients for OOD Detection Really? ( http://arxiv.org/abs/2205.10439v1 )

ライセンス: Link先を確認
Conor Igoe, Youngseog Chung, Ian Char, Jeff Schneider(参考訳) リアルタイムアプリケーションに高性能な機械学習モデルをデプロイする上で重要な課題のひとつは、分散(OOD)検出である。 分布(ID)データに基づいて精度の高い予測モデルが与えられた場合、OOD検出システムは、入力が新規で予測に自信がほとんどない場合に予測を遅延するオプションをモデルに装備する。 近年,OOD検出のための事前学習モデルにおける勾配情報の利用に対する関心が高まっている。 これらの手法は競争力のある性能を示しているが、それらの基盤となる真のメカニズムについての誤解があり、その性能は勾配の必要性と一致している。 本研究では,グラデーションに基づく手法の詳細な解析と比較を行い,そのood検出性能を保障するキーコンポーネントを明らかにする。 さらに,OOD検出における性能と計算効率の両面で,従来のベースラインよりも向上した汎用的,非段階的なOOD検出手法を提案する。

One critical challenge in deploying highly performant machine learning models in real-life applications is out of distribution (OOD) detection. Given a predictive model which is accurate on in distribution (ID) data, an OOD detection system will further equip the model with the option to defer prediction when the input is novel and the model has little confidence in prediction. There has been some recent interest in utilizing the gradient information in pre-trained models for OOD detection. While these methods have shown competitive performance, there are misconceptions about the true mechanism underlying them, which conflate their performance with the necessity of gradients. In this work, we provide an in-depth analysis and comparison of gradient based methods and elucidate the key components that warrant their OOD detection performance. We further propose a general, non-gradient based method of OOD detection which improves over previous baselines in both performance and computational efficiency.
翻訳日:2022-05-24 19:30:37 公開日:2022-05-20
# e2fl:等しく公平な連合学習

E2FL: Equal and Equitable Federated Learning ( http://arxiv.org/abs/2205.10454v1 )

ライセンス: Link先を確認
Hamid Mozaffari, Amir Houmansadr(参考訳) フェデレートラーニング(FL)により、データ所有者はプライベートデータを共有することなく、共有グローバルモデルをトレーニングできる。 クライアントのデータ分散の不均一性のため、最終的なトレーニングモデルは、参加するクライアント間で不均質なアドバンテージを与えることができます。 本研究では,等等等等等分連立学習(e2fl)を提示し,公平連立学習モデルを構築し,公平性と平等性という2つの主公平性を同時に保持する。 実世界の異なるFLアプリケーションにおいて、E2FLの効率性と公正性を検証し、E2FLが既存のベースラインよりも高い効率、異なるグループの公平性、公平性を示す。

Federated Learning (FL) enables data owners to train a shared global model without sharing their private data. Unfortunately, FL is susceptible to an intrinsic fairness issue: due to heterogeneity in clients' data distributions, the final trained model can give disproportionate advantages across the participating clients. In this work, we present Equal and Equitable Federated Learning (E2FL) to produce fair federated learning models by preserving two main fairness properties, equity and equality, concurrently. We validate the efficiency and fairness of E2FL in different real-world FL applications, and show that E2FL outperforms existing baselines in terms of the resulting efficiency, fairness of different groups, and fairness among all individual clients.
翻訳日:2022-05-24 19:30:22 公開日:2022-05-20
# 複数基準ヒューリスティックレーティング推定

Multiple-criteria Heuristic Rating Estimation ( http://arxiv.org/abs/2205.10428v1 )

ライセンス: Link先を確認
Anna K\k{e}dzior and Konrad Ku{\l}akowski(参考訳) もっとも広範な多基準意思決定手法の一つが分析階層プロセス (AHP) である。 AHPはペアワイズ比較法と階層的アプローチをうまく組み合わせている。 意思決定者は、すべてのランク付けされた選択肢に対して優先順位を設定することができる。 しかし、もし彼らのランクの値が知られている場合(例えば、異なる方法で決定できる場合)はどうでしょう? 2014年に提案されたヒューリスティックレーティング推定(HRE)手法は、この問題に答えを導こうとした。 しかし、その考慮は多くの基準を考慮しないモデルに限られていた。 本稿では、さらに一歩進めて、AHP階層フレームワークの一部としてHREをどのように使用できるかを分析する。 理論的考察には、HREが多重基準決定法であることを示す説明例が伴っている。

One of the most widespread multi-criteria decision-making methods is the Analytic Hierarchy Process (AHP). AHP successfully combines the pairwise comparisons method and the hierarchical approach. It allows the decision-maker to set priorities for all ranked alternatives. But what if, for some of them, their ranking value is known (e.g., it can be determined differently)? The Heuristic Rating Estimation (HRE) method proposed in 2014 tried to bring the answer to this question. However, the considerations were limited to a model that did not consider many criteria. In this work, we go a step further and analyze how HRE can be used as part of the AHP hierarchical framework. The theoretical considerations are accompanied by illustrative examples showing HRE as a multiple-criteria decision-making method.
翻訳日:2022-05-24 19:21:18 公開日:2022-05-20
# ソーシャルメディア投稿の教師なし埋め込みクラスタを用いたcovid-19ケースロードの予測

Forecasting COVID-19 Caseloads Using Unsupervised Embedding Clusters of Social Media Posts ( http://arxiv.org/abs/2205.10408v1 )

ライセンス: Link先を確認
Felix Drinkall, Stefan Zohren and Janet B. Pierrehumbert(参考訳) 本稿では,感染症モデルにトランスフォーマー言語モデルを組み込んだ新しい手法を提案する。 テキスト由来の機能は、特定の米国のCOVID-19サブレディット内のReddit投稿の文レベル表現の高密度クラスタを追跡することで定量化される。 他の高品質データセットから抽出した特徴に対して,これらのクラスタ化埋め込み機能をベンチマークする。 閾値分類タスクでは,上向きのトレンド信号の予測において他の特徴型を上回っており,疫学的データが信頼できない地域における感染症モデルの重要な結果である。 その後、時系列予測タスクにおいて、ケースロードの予測力をフル活用し、変圧器ベースの時系列モデルにおいて、異なる補足データセットを共変量特徴集合として使用する場合の相対強度を比較する。

We present a novel approach incorporating transformer-based language models into infectious disease modelling. Text-derived features are quantified by tracking high-density clusters of sentence-level representations of Reddit posts within specific US states' COVID-19 subreddits. We benchmark these clustered embedding features against features extracted from other high-quality datasets. In a threshold-classification task, we show that they outperform all other feature types at predicting upward trend signals, a significant result for infectious disease modelling in areas where epidemiological data is unreliable. Subsequently, in a time-series forecasting task we fully utilise the predictive power of the caseload and compare the relative strengths of using different supplementary datasets as covariate feature sets in a transformer-based time-series model.
翻訳日:2022-05-24 19:19:00 公開日:2022-05-20
# 仮想現実感システムによる視覚補綴物の視力評価

Assessing visual acuity in visual prostheses through a virtual-reality system ( http://arxiv.org/abs/2205.10395v1 )

ライセンス: Link先を確認
Melani Sanchez-Garcia, Roberto Morollon-Ruiz, Ruben Martinez-Cantin, Jose J. Guerrero and Eduardo Fernandez-Jover(参考訳) 現在の視覚インプラントは解像度が非常に低く視野が限られており、移植患者の視力に制限がある。 最新技術を活用した人工視覚シミュレーションシステムの新たな戦略の開発は、新しい視覚デバイスの開発において最優先事項である。 本研究では,可搬型ヘッドマウントディスプレイと組み合わせた仮想現実感ソフトウェアを活用し,視野や画素数を可変に設定した模擬人工視覚下での正常視者の性能評価を行った。 人工視覚のシミュレーションにより, 将来の視覚義肢の設計パラメータを調べるための簡単な実験が可能である。 通常は10人の被験者が視力調査に志願した。 被験者は,視覚視力検査に一般的に用いられる光知覚,時間分解能,光位置,運動知覚に基づいて,コンピュータ生成したlandolt-cギャップ方向と異なる刺激を識別することが求められた。 視覚視力スコアは電極数と視野の大きさの異なる条件で記録された。 その結果,すべての条件において20{\deg} と 1000 のホスフェンの視野が最も良く,視力は1.3 logmarであった。 さらに、性能はホスフィン密度と相関しているように見えるが、視野が20{\deg}未満の場合のリターンは減少する。 新しい人工視覚シミュレーションシステムの開発は、新しい視覚デバイスの開発と視野と解像度の最適化を導くのに役立つ。

Current visual implants still provide very low resolution and limited field of view, thus limiting visual acuity in implanted patients. Developments of new strategies of artificial vision simulation systems by harnessing new advancements in technologies are of upmost priorities for the development of new visual devices. In this work, we take advantage of virtual-reality software paired with a portable head-mounted display and evaluated the performance of normally sighted participants under simulated prosthetic vision with variable field of view and number of pixels. Our simulated prosthetic vision system allows simple experimentation in order to study the design parameters of future visual prostheses. Ten normally sighted participants volunteered for a visual acuity study. Subjects were required to identify computer-generated Landolt-C gap orientation and different stimulus based on light perception, time-resolution, light location and motion perception commonly used for visual acuity examination in the sighted. Visual acuity scores were recorded across different conditions of number of electrodes and size of field of view. Our results showed that of all conditions tested, a field of view of 20{\deg} and 1000 phosphenes of resolution proved the best, with a visual acuity of 1.3 logMAR. Furthermore, performance appears to be correlated with phosphene density, but showing a diminishing return when field of view is less than 20{\deg}. The development of new artificial vision simulation systems can be useful to guide the development of new visual devices and the optimization of field of view and resolution to provide a helpful and valuable visual aid to profoundly or totally blind patients.
翻訳日:2022-05-24 18:21:34 公開日:2022-05-20
# ビデオ超解像検出のためのコントラストと教師付き学習の組み合わせ

Combining Contrastive and Supervised Learning for Video Super-Resolution Detection ( http://arxiv.org/abs/2205.10406v1 )

ライセンス: Link先を確認
Viacheslav Meshchaninov, Ivan Molodetskikh, Dmitriy Vatolin(参考訳) アップスケールビデオ検出はマルチメディア法医学において有用なツールであるが、様々なアップスケールおよび圧縮アルゴリズムを必要とする課題である。 補間やディープラーニングに基づく超解像など、多くの解像度向上手法があり、ユニークな痕跡を残している。 本研究では,コントラストとクロスエントロピーの損失を用いた視覚表現の学習に基づく,新しい高分解能検出法を提案する。 本手法がビデオの検出方法を説明するために,本フレームワークの主要なコンポーネントを体系的に検証し,特に,ほとんどのデータ拡張アプローチが本手法の学習を妨げることを示す。 様々なデータセットに関する広範囲な実験を通じて,圧縮ビデオにおいても効果的にスケールアップを検知し,最先端の代替手段よりも優れていることを示す。 コードとモデルはhttps://github.com/msu-video-group/SRDMで公開されている。

Upscaled video detection is a helpful tool in multimedia forensics, but it is a challenging task that involves various upscaling and compression algorithms. There are many resolution-enhancement methods, including interpolation and deep-learning-based super-resolution, and they leave unique traces. In this work, we propose a new upscaled-resolution-detection method based on learning of visual representations using contrastive and cross-entropy losses. To explain how the method detects videos, we systematically review the major components of our framework - in particular, we show that most data-augmentation approaches hinder the learning of the method. Through extensive experiments on various datasets, we demonstrate that our method effectively detects upscaling even in compressed videos and outperforms the state-of-the-art alternatives. The code and models are publicly available at https://github.com/msu-video-group/SRDM
翻訳日:2022-05-24 18:21:08 公開日:2022-05-20
# ディエンス検出アンカーを用いたサッカー映像における時間的高精度なアクションスポッティング

Temporally Precise Action Spotting in Soccer Videos Using Dense Detection Anchors ( http://arxiv.org/abs/2205.10450v1 )

ライセンス: Link先を確認
Jo\~ao V. B. Soares, Avijit Shah, Topojoy Biswas(参考訳) 本稿では,ビデオ中の時間的高精度な動作スポッティングのモデルを提案する。このモデルでは,検出アンカーの集合を用いて,検出信頼度と各アンカーの微細な時間的変位を推定する。 U-netの1次元バージョンと Transformer Encoder (TE) の2つのトランクアーキテクチャを実験し、どちらも大きな時間的コンテキストを組み込むとともに、正確なローカライゼーションに必要な小さな特徴を保存している。 また,このようなモデルのトレーニングには,シャープネス・アウェア・ミニミゼーション(sam)とミックスアップデータ拡張を適用することでベストプラクティスを提案する。 我々は,その種のサッカービデオデータセットである soccernet-v2 について,時間的局所化を著しく改善した新しい最新技術を実現する。 さらに, 時間的変位の予測の重要性, u-net と TE トランク間のトレードオフ, SAM とmixup によるトレーニングのメリットが示唆された。

We present a model for temporally precise action spotting in videos, which uses a dense set of detection anchors, predicting a detection confidence and corresponding fine-grained temporal displacement for each anchor. We experiment with two trunk architectures, both of which are able to incorporate large temporal contexts while preserving the smaller-scale features required for precise localization: a one-dimensional version of a u-net, and a Transformer encoder (TE). We also suggest best practices for training models of this kind, by applying Sharpness-Aware Minimization (SAM) and mixup data augmentation. We achieve a new state-of-the-art on SoccerNet-v2, the largest soccer video dataset of its kind, with marked improvements in temporal localization. Additionally, our ablations show: the importance of predicting the temporal displacements; the trade-offs between the u-net and TE trunks; and the benefits of training with SAM and mixup.
翻訳日:2022-05-24 18:20:51 公開日:2022-05-20
# ゆがんだ潜在空間変数をもつ非拘束ジェネレータネットワークによる非線形運動分離と心臓MRIへの応用

Nonlinear motion separation via untrained generator networks with disentangled latent space variables and applications to cardiac MRI ( http://arxiv.org/abs/2205.10367v1 )

ライセンス: Link先を確認
Abdullah and Martin Holler and Karl Kunisch and Malena Sabate Landman(参考訳) 本稿では,ビデオデータ中の異なる動作タイプを分離するための非線形アプローチを提案する。 これは特にダイナミック・メディカル・イメージング(PET、MRIなど)において、患者の動きが画像再構成やその後の解釈に影響を及ぼすため重要な課題となる。 ここでは、ジェネレータニューラルネットワークを介して潜伏変数列の前方マッピングとして動的イメージを表現した新しい手法を提案する。 潜在変数は、フレームの一般的な構造を特徴付ける静的潜在変数とは独立に、データの時間的変動が動的潜在変数を介して表現されるように構成される。 特に、動きの種類以外の全てについて1次元の事前情報を用いた潜伏空間の異方性によって、異なる種類の動きも独立に特徴付けられる。 この表現は、運動型の選択を凍結し、他の関心の力学の正確な独立表現を得ることを可能にする。 さらに、提案アルゴリズムはトレーニング不要、すなわち、すべてのネットワークパラメータが単一のビデオから直接学習される。 本手法をファントムおよび実データmriを用いて検討し,呼吸運動と心臓運動の分離に成功した。

In this paper, a nonlinear approach to separate different motion types in video data is proposed. This is particularly relevant in dynamic medical imaging (e.g. PET, MRI), where patient motion poses a significant challenge due to its effects on the image reconstruction as well as for its subsequent interpretation. Here, a new method is proposed where dynamic images are represented as the forward mapping of a sequence of latent variables via a generator neural network. The latent variables are structured so that temporal variations in the data are represented via dynamic latent variables, which are independent of static latent variables characterizing the general structure of the frames. In particular, different kinds of motion are also characterized independently of each other via latent space disentanglement using one-dimensional prior information on all but one of the motion types. This representation allows to freeze any selection of motion types, and to obtain accurate independent representations of other dynamics of interest. Moreover, the proposed algorithm is training-free, i.e., all the network parameters are learned directly from a single video. We illustrate the performance of this method on phantom and real-data MRI examples, where we successfully separate respiratory and cardiac motion.
翻訳日:2022-05-24 16:30:59 公開日:2022-05-20
# Multi2WOZ:タスク指向対話のためのロバストな多言語データセットと会話事前学習

Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining for Task-Oriented Dialog ( http://arxiv.org/abs/2205.10400v1 )

ライセンス: Link先を確認
Chia-Chien Hung, Anne Lauscher, Ivan Vuli\'c, Simone Paolo Ponzetto, Goran Glava\v{s}(参考訳) マルチドメイン)タスク指向ダイアログ(tod)の研究は、主に英語に焦点を当てており、主に他の言語での堅牢なtodデータセットが不足しており、この重要なnlpアプリケーション領域における言語間転送の体系的な調査を妨げている。 本研究では,中国語,ドイツ語,アラビア語,ロシア語の4つのタイプにまたがる英語データセットであるmultiwozから派生した,新しい多言語多言語todデータセットであるmulti2wozについて紹介する。 並行的な取り組みとは対照的に、Multi2WOZは、英語データセットの開発とテスト部分と直接比較可能なターゲット言語におけるゴールド標準ダイアログを含み、TODの言語間転送性能の信頼性と比較評価を可能にする。 次に,任意のダウンストリームtodタスクの言語間転送を容易にするために,プリトレーニング言語モデル(prlms)の多言語会話特化のための新しいフレームワークを提案する。 具体的な対象言語に特化した対話型prlmを用いて,対話状態追跡と応答検索という2つの標準todタスクに対して,ゼロショットおよび少数ショットの言語間転送アプローチを体系的にベンチマークする。 実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。 最も重要なことは、ターゲット言語における会話の特殊化によって、下流のTODタスクに対して、例外的にサンプル効率の良い数ショット転送が可能であることである。

Research on (multi-domain) task-oriented dialog (TOD) has predominantly focused on the English language, primarily due to the shortage of robust TOD datasets in other languages, preventing the systematic investigation of cross-lingual transfer for this crucial NLP application area. In this work, we introduce Multi2WOZ, a new multilingual multi-domain TOD dataset, derived from the well-established English dataset MultiWOZ, that spans four typologically diverse languages: Chinese, German, Arabic, and Russian. In contrast to concurrent efforts, Multi2WOZ contains gold-standard dialogs in target languages that are directly comparable with development and test portions of the English dataset, enabling reliable and comparative estimates of cross-lingual transfer performance for TOD. We then introduce a new framework for multilingual conversational specialization of pretrained language models (PrLMs) that aims to facilitate cross-lingual transfer for arbitrary downstream TOD tasks. Using such conversational PrLMs specialized for concrete target languages, we systematically benchmark a number of zero-shot and few-shot cross-lingual transfer approaches on two standard TOD tasks: Dialog State Tracking and Response Retrieval. Our experiments show that, in most setups, the best performance entails the combination of (I) conversational specialization in the target language and (ii) few-shot transfer for the concrete TOD task. Most importantly, we show that our conversational specialization in the target language allows for an exceptionally sample-efficient few-shot transfer for downstream TOD tasks.
翻訳日:2022-05-24 16:26:16 公開日:2022-05-20
# 環境変化のための適応的フェアネスアウェアオンラインメタラーニング

Adaptive Fairness-Aware Online Meta-Learning for Changing Environments ( http://arxiv.org/abs/2205.11264v1 )

ライセンス: Link先を確認
Chen Zhao, Feng Mi, Xintao Wu, Kai Jiang, Latifur Khan, Feng Chen(参考訳) フェアネスを意識したオンライン学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれました。 学習者の目標は、時間とともに次々に来る新しいタスクを順次学習することであり、学習者は、異なる保護されたサブ人口(人種や性別など)にまたがる新しいタスクの統計的なパリティを保証する。 既存の方法の大きな欠点は、データに対するi.i.d仮定を多用することで、フレームワークに静的な後悔の分析を提供することだ。 しかし、低い静的後悔は、異種分布からタスクをサンプリングする環境の変化において、良いパフォーマンスを示すものではない。 本稿では,環境変化における公平性を考慮したオンライン学習の問題に対処するため,まず,長期的公正性制約を強く適応された損失後悔に付加することにより,新たな後悔度尺度であるFairSARを構築した。 さらに,各ラウンドの良質なモデルパラメータを決定するために,バイアス制御とモデル精度の両方で変化する環境に適応可能な,適応的フェアネスアウェアオンラインメタラーニングアルゴリズム,fairsaomlを提案する。 この問題は、モデルの精度と公平性に関連付けられたモデルの基本パラメータと双対パラメータに関して、二レベル凸凹最適化の形で定式化される。 この理論解析は、損失後悔と累積公正性制約の違反の両方に線形上界を与える。 変化する環境の設定による異なる実世界のデータセットの実験的評価から,提案するfairsaomlは,オンライン学習の最良のアプローチに基づく代替案を有意に上回っていることが示唆された。

The fairness-aware online learning framework has arisen as a powerful tool for the continual lifelong learning setting. The goal for the learner is to sequentially learn new tasks where they come one after another over time and the learner ensures the statistic parity of the new coming task across different protected sub-populations (e.g. race and gender). A major drawback of existing methods is that they make heavy use of the i.i.d assumption for data and hence provide static regret analysis for the framework. However, low static regret cannot imply a good performance in changing environments where tasks are sampled from heterogeneous distributions. To address the fairness-aware online learning problem in changing environments, in this paper, we first construct a novel regret metric FairSAR by adding long-term fairness constraints onto a strongly adapted loss regret. Furthermore, to determine a good model parameter at each round, we propose a novel adaptive fairness-aware online meta-learning algorithm, namely FairSAOML, which is able to adapt to changing environments in both bias control and model precision. The problem is formulated in the form of a bi-level convex-concave optimization with respect to the model's primal and dual parameters that are associated with the model's accuracy and fairness, respectively. The theoretic analysis provides sub-linear upper bounds for both loss regret and violation of cumulative fairness constraints. Our experimental evaluation on different real-world datasets with settings of changing environments suggests that the proposed FairSAOML significantly outperforms alternatives based on the best prior online learning approaches.
翻訳日:2022-05-24 16:05:04 公開日:2022-05-20
# 帰属方法の理解を深める

Towards Better Understanding Attribution Methods ( http://arxiv.org/abs/2205.10435v1 )

ライセンス: Link先を確認
Sukrut Rao, Moritz B\"ohle, Bernt Schiele(参考訳) ディープニューラルネットワークは多くの視覚タスクで非常に成功したが、ブラックボックスの性質のため解釈が難しい。 これを解決するために、モデル決定に最も影響を及ぼす画像領域を特定するために、様々なポストホック属性法が提案されている。 このような手法の評価は、基礎的な真理の帰属は存在しないため難しい。 そこで本研究では,これらの手法の忠実性をより確実に測定し,比較を公平にし,視覚的検査をより体系的に行うための3つの評価手法を提案する。 信頼度に対処するために,入力のどの部分が出力に影響を与えるかを慎重に制御して,不可能な属性と区別できる新しい評価設定(DiFull)を提案する。 公平性に対処するために、異なるメソッドが異なるレイヤに適用されることに留意し、同じレイヤ上のすべてのメソッド(ML-Att)を評価し、これが定量的メトリクスのパフォーマンスに与える影響について議論する。 より体系的な可視化を行うため,完全データセット上の手法を質的に評価する手法(AggAttt)を提案する。 これらの評価手法を用いて, 広く用いられている帰属法の強みと欠点について検討した。 最後に,いくつかの帰属法の性能を大幅に向上させる処理後の平滑化ステップを提案し,その適用可能性について考察する。

Deep neural networks are very successful on many vision tasks, but hard to interpret due to their black box nature. To overcome this, various post-hoc attribution methods have been proposed to identify image regions most influential to the models' decisions. Evaluating such methods is challenging since no ground truth attributions exist. We thus propose three novel evaluation schemes to more reliably measure the faithfulness of those methods, to make comparisons between them more fair, and to make visual inspection more systematic. To address faithfulness, we propose a novel evaluation setting (DiFull) in which we carefully control which parts of the input can influence the output in order to distinguish possible from impossible attributions. To address fairness, we note that different methods are applied at different layers, which skews any comparison, and so evaluate all methods on the same layers (ML-Att) and discuss how this impacts their performance on quantitative metrics. For more systematic visualizations, we propose a scheme (AggAtt) to qualitatively evaluate the methods on complete datasets. We use these evaluation schemes to study strengths and shortcomings of some widely used attribution methods. Finally, we propose a post-processing smoothing step that significantly improves the performance of some attribution methods, and discuss its applicability.
翻訳日:2022-05-24 15:58:23 公開日:2022-05-20
# AIプログラムからDNNを自動で学習する

Learning to Reverse DNNs from AI Programs Automatically ( http://arxiv.org/abs/2205.10364v1 )

ライセンス: Link先を確認
Simin Chen and Hamed Khanpour and Cong Liu and Wei Yang(参考訳) エッジデバイス上でのDNNの民営化デプロイにより、デバイス上のDNNのセキュリティが大きな懸念を浴びている。 デバイス上でのDNNのモデル漏洩リスクを自動的に定量化するために,ドメイン知識のないAIプログラムからDNNを逆転可能な,最初の学習ベース手法であるNNReverseを提案する。 NNReverseは、DNNレイヤのバイナリコードのセマンティクスを表現するために、表現モデルをトレーニングする。 我々のデータベースで最もよく似た関数を検索することで、NNReverseは関数のバイナリコードのレイヤタイプを推測する。 アセンブリ命令のセマンティクスを正確に表現するために、NNReverseはより微細な埋め込みモデルを提案し、アセンブリ関数のテキスト的および構造的意味を表現する。

With the privatization deployment of DNNs on edge devices, the security of on-device DNNs has raised significant concern. To quantify the model leakage risk of on-device DNNs automatically, we propose NNReverse, the first learning-based method which can reverse DNNs from AI programs without domain knowledge. NNReverse trains a representation model to represent the semantics of binary code for DNN layers. By searching the most similar function in our database, NNReverse infers the layer type of a given function's binary code. To represent assembly instructions semantics precisely, NNReverse proposes a more fine-grained embedding model to represent the textual and structural-semantic of assembly functions.
翻訳日:2022-05-24 15:52:36 公開日:2022-05-20
# マスキング言語モデルを用いた時間表現の多言語正規化

Multilingual Normalization of Temporal Expressions with Masked Language Models ( http://arxiv.org/abs/2205.10399v1 )

ライセンス: Link先を確認
Lukas Lange, Jannik Str\"otgen, Heike Adel, Dietrich Klakow(参考訳) 時間表現の検出と正規化は多くのアプリケーションにとって重要なタスクであり、前処理のステップである。 しかし、正規化に関する先行研究はルールベースであり、新しいルールのコストがかかるため、現実の多言語設定の適用性が著しく制限される。 マスキング言語モデルに基づく時間表現の正規化のための新しいニューラル手法を提案する。 本手法は,多くの言語,特に低リソース言語において従来のルールベースシステムよりも優れており,その性能は平均して35 f1まで向上している。

The detection and normalization of temporal expressions is an important task and a preprocessing step for many applications. However, prior work on normalization is rule-based, which severely limits the applicability in real-world multilingual settings, due to the costly creation of new rules. We propose a novel neural method for normalizing temporal expressions based on masked language modeling. Our multilingual method outperforms prior rule-based systems in many languages, and in particular, for low-resource languages with performance improvements of up to 35 F1 on average compared to the state of the art.
翻訳日:2022-05-24 15:10:46 公開日:2022-05-20
# FIND:メタ学習のための説明可能なフレームワーク

FIND:Explainable Framework for Meta-learning ( http://arxiv.org/abs/2205.10362v1 )

ライセンス: Link先を確認
Xinyue Shao, Hongzhi Wang, Xiao Zhu, Feng Xiong(参考訳) メタラーニングは、データと事前知識を組み合わせることで、機械学習モデルの自動選択を有効にするために使用される。 従来のメタ学習技術では、説明可能性や透明性と公平性の欠点が欠如しているため、メタ学習の説明可能性を達成することが不可欠である。 本稿では、メタ学習アルゴリズム選択の推奨結果を説明するだけでなく、ビジネスシナリオと組み合わせた特定のデータセット上での推奨アルゴリズムのパフォーマンスをより完全かつ正確に説明できる解釈可能なメタ学習フレームワークであるFINDを提案する。 この枠組みの有効性と正確性は広範な実験によって実証されている。

Meta-learning is used to efficiently enable the automatic selection of machine learning models by combining data and prior knowledge. Since the traditional meta-learning technique lacks explainability, as well as shortcomings in terms of transparency and fairness, achieving explainability for meta-learning is crucial. This paper proposes FIND, an interpretable meta-learning framework that not only can explain the recommendation results of meta-learning algorithm selection, but also provide a more complete and accurate explanation of the recommendation algorithm's performance on specific datasets combined with business scenarios. The validity and correctness of this framework have been demonstrated by extensive experiments.
翻訳日:2022-05-24 15:07:12 公開日:2022-05-20
# 相関情報に基づく交通流予測のための時空間ネットワーク

A Correlation Information-based Spatiotemporal Network for Traffic Flow Forecasting ( http://arxiv.org/abs/2205.10365v1 )

ライセンス: Link先を確認
Weiguo Zhu, Yongqi Sun, Xintong Yi, Yan Wang(参考訳) 輸送モードの増大に伴い、インテリジェントな輸送システムでは高い交通予測精度が求められる。 これまでのほとんどの作品は、グラフニューラルネットワークに基づくトランスフォーマーアーキテクチャとアテンションメカニズムを使用して、時空間依存と動的関係を発見する。 しかし,時空間列間の相関情報は十分に考慮されていない。 本稿では,空間相関情報(scorr)と時間相関情報(tcorr)の2つの精巧な時空間表現について,最大情報係数に基づく時空間列について述べる。 SCorrを用いて、空間構造に相関情報を効果的に組み込んだ動的グラフニューラルネットワークコンポーネントと、空間相関情報を利用して動的時間依存性を正確に抽出するマルチヘッドアテンションコンポーネントを含む、新しい相関情報に基づく時空間ネットワーク(CorrSTN)を提案する。 tcorrを用いて,異なる周期データ間の相関パターンを探索し,関連するデータを特定するための新しいデータ選択手法を提案する。 高速道路交通流 (pems07, pems08) とメトロ・クラウド・フロー (hzme inflow and outflow) データセットの実験結果は,corrstnが予測性能の点で最先端の手法よりも優れていることを示している。 特にhzme(outflow)データセットでは,最新のモデルであるastgnnと比較して,mae,rmse,mapeの指標がそれぞれ12.7%,14.4%,27.4%,大幅に改善した。

With the growth of transport modes, high traffic forecasting precision is required in intelligent transportation systems. Most previous works utilize the transformer architecture based on graph neural networks and attention mechanisms to discover spatiotemporal dependencies and dynamic relationships. The correlation information among spatiotemporal sequences, however, has not been thoroughly considered. In this paper, we present two elaborate spatiotemporal representations, spatial correlation information (SCorr) and temporal correlation information (TCorr), among spatiotemporal sequences based on the maximal information coefficient. Using SCorr, we propose a novel correlation information-based spatiotemporal network (CorrSTN), including a dynamic graph neural network component incorporating correlation information into the spatial structure effectively and a multi-head attention component utilizing spatial correlation information to extract dynamic temporal dependencies accurately. Using TCorr, we further explore the correlation pattern among different periodic data and then propose a novel data selection scheme to identify the most relevant data. The experimental results on the highway traffic flow (PEMS07 and PEMS08) and metro crowd flow (HZME inflow and outflow) datasets demonstrate that CorrSTN outperforms the state-of-the-art methods in terms of predictive performance. In particular, on the HZME (outflow) dataset, our model makes significant improvements compared with the latest model ASTGNN by 12.7%, 14.4% and 27.4% in the metrics of MAE, RMSE and MAPE, respectively.
翻訳日:2022-05-24 15:07:01 公開日:2022-05-20
# 骨折動物骨の3次元モデルから抽出した新しい特徴集合を用いた破砕剤による破片の分類

Using machine learning on new feature sets extracted from 3D models of broken animal bones to classify fragments according to break agent ( http://arxiv.org/abs/2205.10430v1 )

ライセンス: Link先を確認
Katrina Yezzi-Woodley, Alexander Terwilliger, Jiafeng Li, Eric Chen, Martha Tappen, Jeff Calder, Peter J. Olver(参考訳) 古人類学的遺跡における骨改質の除去剤は、大型動物資源の初期のホミニン利用とそれらの生存行動が初期のホミニンの進化に与える影響を理解するための研究の根底にある。 しかし, 骨髄移植のシグナルとしての破壊パターン解析の現在の手法では, 同等性を克服できなかった。 さらに、現在および新興の骨変化の分析方法の再現性と妥当性について、研究者は議論している。 ここでは, ホミニン骨骨折と肉食動物による骨片の識別を目的とした骨折パターン解析の新しい手法を提案する。 この方法では、断片的な骨の3Dモデルを用いて、これまで骨折パターン解析に使用されていた特徴セットよりも透明性が高くレプリカ性の高いデータセットを抽出する。 教師付き機械学習アルゴリズムは、骨の断片を平均77%の平均精度で破砕剤に従って分類するために適切に使用される。

Distinguishing agents of bone modification at paleoanthropological sites is at the root of much of the research directed at understanding early hominin exploitation of large animal resources and the effects those subsistence behaviors had on early hominin evolution. However, current methods, particularly in the area of fracture pattern analysis as a signal of marrow exploitation, have failed to overcome equifinality. Furthermore, researchers debate the replicability and validity of current and emerging methods for analyzing bone modifications. Here we present a new approach to fracture pattern analysis aimed at distinguishing bone fragments resulting from hominin bone breakage and those produced by carnivores. This new method uses 3D models of fragmentary bone to extract a much richer dataset that is more transparent and replicable than feature sets previously used in fracture pattern analysis. Supervised machine learning algorithms are properly used to classify bone fragments according to agent of breakage with average mean accuracy of 77% across tests.
翻訳日:2022-05-24 15:06:36 公開日:2022-05-20
# ファジィハイパーボックスを用いた動的アンサンブル選択

Dynamic Ensemble Selection Using Fuzzy Hyperboxes ( http://arxiv.org/abs/2205.10438v1 )

ライセンス: Link先を確認
Reza Davtalab, Rafael M.O. Cruz and Robert Sabourin(参考訳) ほとんどの動的アンサンブル選択(DES)法は、K-Nearest Neighbors (KNN)アルゴリズムを用いて、クエリサンプルを囲む小さな領域における分類器の能力を評価する。 しかし、KNNはデータの局所分布に非常に敏感である。 さらに、メモリに全データを格納し、推論中に複数の距離計算を実行する必要があるため、計算コストも高い。 したがって、KNNアルゴリズムへの依存は、大規模問題に対するDES技術の使用を制限することになる。 本稿ではFH-DESと呼ばれるファジィハイパーボックスに基づく新しいDESフレームワークを提案する。 各ハイパーボックスは、2つのデータポイント(MinとMaxのコーナー)のみを使用してサンプルのグループを表現することができる。 したがって、ハイパーボックスベースのシステムは、他の動的選択法よりも計算量が少ない。 さらに、KNNベースのアプローチにもかかわらず、ファジィハイパーボックスはローカルデータ分布に敏感ではない。 したがって,サンプルの局所分布はシステムの性能に影響を与えない。 さらに本研究では, 従来の核融合法では観測されていない分類器の能力を評価するために, 初めて誤分類試料を用いた。 実験の結果,提案手法は最先端の動的選択法に比べて複雑度が低く,分類精度が高いことがわかった。 実装されたコードはhttps://github.com/redavtalab/fh-des_ijcnn.gitで入手できる。

Most dynamic ensemble selection (DES) methods utilize the K-Nearest Neighbors (KNN) algorithm to estimate the competence of classifiers in a small region surrounding the query sample. However, KNN is very sensitive to the local distribution of the data. Moreover, it also has a high computational cost as it requires storing the whole data in memory and performing multiple distance calculations during inference. Hence, the dependency on the KNN algorithm ends up limiting the use of DES techniques for large-scale problems. This paper presents a new DES framework based on fuzzy hyperboxes called FH-DES. Each hyperbox can represent a group of samples using only two data points (Min and Max corners). Thus, the hyperbox-based system will have less computational complexity than other dynamic selection methods. In addition, despite the KNN-based approaches, the fuzzy hyperbox is not sensitive to the local data distribution. Therefore, the local distribution of the samples does not affect the system's performance. Furthermore, in this research, for the first time, misclassified samples are used to estimate the competence of the classifiers, which has not been observed in previous fusion approaches. Experimental results demonstrate that the proposed method has high classification accuracy while having a lower complexity when compared with the state-of-the-art dynamic selection methods. The implemented code is available at https://github.com/redavtalab/FH-DES_IJCNN.git.
翻訳日:2022-05-24 15:05:12 公開日:2022-05-20
# 交通事故における傷害の重大性予測--新しい不均衡データセットとベンチマーク

Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced Dataset and Benchmark ( http://arxiv.org/abs/2205.10441v1 )

ライセンス: Link先を確認
Paschalis Lagias, George D. Magoulas, Ylli Prifti and Alessandro Provetti(参考訳) 本稿では,交通事故における傷害の深刻度予測における機械学習アルゴリズムの性能を評価するための新しいデータセットを提案する。 データセットは、英国運輸省から公開されているデータセットを集約することで作成されます。 本稿では,道路交通事故の公開データから発生したデータ分析パイプラインについて述べる。 これは、MissForestモデルで公開データの巨大な不完全性に対処する。 また,損傷予測器の作成には,教師付きニューラルネットワークと強化学習モデルという2つのベースラインアプローチも導入した。 このデータセットは、不均衡データセットに関する機械学習研究の多様な側面を刺激する可能性があり、この領域でより高度な学習アルゴリズムをテストする場合、2つのアプローチはベースライン参照として使用できる。

The paper introduces a new dataset to assess the performance of machine learning algorithms in the prediction of the seriousness of injury in a traffic accident. The dataset is created by aggregating publicly available datasets from the UK Department for Transport, which are drastically imbalanced with missing attributes sometimes approaching 50\% of the overall data dimensionality. The paper presents the data analysis pipeline starting from the publicly available data of road traffic accidents and ending with predictors of possible injuries and their degree of severity. It addresses the huge incompleteness of public data with a MissForest model. The paper also introduces two baseline approaches to create injury predictors: a supervised artificial neural network and a reinforcement learning model. The dataset can potentially stimulate diverse aspects of machine learning research on imbalanced datasets and the two approaches can be used as baseline references when researchers test more advanced learning algorithms in this area.
翻訳日:2022-05-24 15:04:51 公開日:2022-05-20
# 短期電力需要予測のためのハイブリッドモデル

A Hybrid Model for Forecasting Short-Term Electricity Demand ( http://arxiv.org/abs/2205.10449v1 )

ライセンス: Link先を確認
Maria Eleni Athanasopoulou, Justina Deveikyte, Alan Mosca, Ilaria Peri and Alessandro Provetti(参考訳) 現在、英国電気市場は、規制当局が30分毎に発行する負荷(需要)予測によってガイドされている。 需要予測の重要な要因は気象条件であり、天気予報は毎時発行される。 本稿では,特徴工学(候補予測器の選定)とモバイルウィンドウ予測器,最後はlstmエンコーダ・デコーダを組み合わせたハイブリッド予測モデルhyenaを提案する。 hyena は mape の損失を 16\% 削減し、rmse の損失を最高のベンチマークモデルよりも 10\% 削減した。

Currently the UK Electric market is guided by load (demand) forecasts published every thirty minutes by the regulator. A key factor in predicting demand is weather conditions, with forecasts published every hour. We present HYENA: a hybrid predictive model that combines feature engineering (selection of the candidate predictor features), mobile-window predictors and finally LSTM encoder-decoders to achieve higher accuracy with respect to mainstream models from the literature. HYENA decreased MAPE loss by 16\% and RMSE loss by 10\% over the best available benchmark model, thus establishing a new state of the art for the UK electric load (and price) forecasting.
翻訳日:2022-05-24 15:04:29 公開日:2022-05-20
# オープンセット音声言語識別の近代化

Modernizing Open-Set Speech Language Identification ( http://arxiv.org/abs/2205.10397v1 )

ライセンス: Link先を確認
Mustafa Eyceoz, Justin Lee, and Homayoon Beigi(参考訳) ほとんどの現代音声言語識別法はクローズドセットであるが,オープンセット問題に対して修正や適応が可能であるか確かめたい。 オープンセット問題に切り替えると、ソリューションは、既知の言語オプションにマッチしない場合に、オーディオ入力を拒否する機能を提供します。 クローズドセット言語識別に現代最先端の2つのアプローチを適用することで、オープンセットタスクに取り組む。 MFCC,ログスペクトル特徴,ピッチを用いた入力特徴埋め込みの強化に加えて,しきい値を用いた言語検出と,基本的に検証タスクを実行するための2つのアプローチを試みます。 我々は,TDNNとCRNNの性能および検出手法の比較を行う。

While most modern speech Language Identification methods are closed-set, we want to see if they can be modified and adapted for the open-set problem. When switching to the open-set problem, the solution gains the ability to reject an audio input when it fails to match any of our known language options. We tackle the open-set task by adapting two modern-day state-of-the-art approaches to closed-set language identification: the first using a CRNN with attention and the second using a TDNN. In addition to enhancing our input feature embeddings using MFCCs, log spectral features, and pitch, we will be attempting two approaches to out-of-set language detection: one using thresholds, and the other essentially performing a verification task. We will compare both the performance of the TDNN and the CRNN, as well as our detection approaches.
翻訳日:2022-05-24 14:16:26 公開日:2022-05-20
# 画像分類のための深部ニューラルネットワークのロバスト対応学習

Robust Sensible Adversarial Learning of Deep Neural Networks for Image Classification ( http://arxiv.org/abs/2205.10457v1 )

ライセンス: Link先を確認
Jungeum Kim and Xiao Wang(参考訳) 堅牢性の概念は、現代統計分析の中心的で批判的である。 しかし、近年のディープニューラルネットワーク(DNN)の発展にもかかわらず、多くの研究で、DNNは敵の攻撃に弱いことが示されている。 画像に認識不能な変更を加えると、DNNモデルは悪性腫瘍として良性モールを分類し、速度制限標識として停止標識を分類するなど、誤った分類を高い信頼性で行うことができる。 堅牢性と標準精度のトレードオフはDNNモデルでは一般的である。 本稿では, 直感的対角学習を導入し, 標準的な自然精度の追求と頑健さの相乗効果を示す。 具体的には,高い自然な正確性を維持しつつ,頑健なモデルを学ぶ上で有用な,賢明な逆境を定義する。 理論上、ベイズ分類器は知覚可能な逆学習下で 0-1 の損失を持つ最も頑健なマルチクラス分類器である。 暗黙的損失切り換えを用いたロバストモデルを学習する新しい効率的なアルゴリズムを提案する。 我々は,MNISTと呼ばれる手書きデジタル画像データセットと,CIFAR10と呼ばれるオブジェクト認識カラー画像データセットに,大規模画像分類のための有能な逆学習を適用した。 我々は,本手法を他の競合手法と比較するために,広範な比較研究を行った。 実験により,本手法はハイパーパラメータに敏感ではなく,モデルキャパシティが小さくても崩壊しないとともに,各種攻撃に対する堅牢性を向上し,高い自然精度を維持することが実証された。

The idea of robustness is central and critical to modern statistical analysis. However, despite the recent advances of deep neural networks (DNNs), many studies have shown that DNNs are vulnerable to adversarial attacks. Making imperceptible changes to an image can cause DNN models to make the wrong classification with high confidence, such as classifying a benign mole as a malignant tumor and a stop sign as a speed limit sign. The trade-off between robustness and standard accuracy is common for DNN models. In this paper, we introduce sensible adversarial learning and demonstrate the synergistic effect between pursuits of standard natural accuracy and robustness. Specifically, we define a sensible adversary which is useful for learning a robust model while keeping high natural accuracy. We theoretically establish that the Bayes classifier is the most robust multi-class classifier with the 0-1 loss under sensible adversarial learning. We propose a novel and efficient algorithm that trains a robust model using implicit loss truncation. We apply sensible adversarial learning for large-scale image classification to a handwritten digital image dataset called MNIST and an object recognition colored image dataset called CIFAR10. We have performed an extensive comparative study to compare our method with other competitive methods. Our experiments empirically demonstrate that our method is not sensitive to its hyperparameter and does not collapse even with a small model capacity while promoting robustness against various attacks and keeping high natural accuracy.
翻訳日:2022-05-24 14:10:36 公開日:2022-05-20
# Down and Across: 新しいNLPベンチマークとしてクロスワードソルビングを導入する

Down and Across: Introducing Crossword-Solving as a New NLP Benchmark ( http://arxiv.org/abs/2205.10442v1 )

ライセンス: Link先を確認
Saurabh Kulshreshtha, Olga Kovaleva, Namrata Shivagunde, Anna Rumshisky(参考訳) クロスワードパズルを解くには、様々な推論能力、言語や世界に関する膨大な知識へのアクセス、パズルの構造によって課される制約を満たす能力が必要である。 本研究では,新しい自然言語理解課題としてクロスワードパズルの解法を導入する。 われわれは、ニューヨーク・タイムズの日刊クロスワードから収集されたクロスワードパズルのコーパスを25年間にわたって公開し、合計で約9万個のパズルからなる。 これらのパズルには、歴史的、事実的、単語の意味、同義語/匿名、補足詞、略語、接頭辞、接頭辞、接頭辞、言葉遊び、および他の手がかりへの答えに依存する手がかりが含まれる。 我々はこれらのパズルからヒント-回答ペアを50万以上のユニークなヒント-回答ペアを含むオープンドメイン質問応答データセットとして別々にリリースする。 質問応答タスクには、いくつかのシーケンス・ツー・シーケンスと検索に基づく生成モデルが含まれる。 また,クロスワードパズル全体を解くための非パラメトリック制約満足度基準を導入する。 最後に,いくつかの相補的パフォーマンス指標からなる評価フレームワークを提案する。

Solving crossword puzzles requires diverse reasoning capabilities, access to a vast amount of knowledge about language and the world, and the ability to satisfy the constraints imposed by the structure of the puzzle. In this work, we introduce solving crossword puzzles as a new natural language understanding task. We release the specification of a corpus of crossword puzzles collected from the New York Times daily crossword spanning 25 years and comprised of a total of around nine thousand puzzles. These puzzles include a diverse set of clues: historic, factual, word meaning, synonyms/antonyms, fill-in-the-blank, abbreviations, prefixes/suffixes, wordplay, and cross-lingual, as well as clues that depend on the answers to other clues. We separately release the clue-answer pairs from these puzzles as an open-domain question answering dataset containing over half a million unique clue-answer pairs. For the question answering task, our baselines include several sequence-to-sequence and retrieval-based generative models. We also introduce a non-parametric constraint satisfaction baseline for solving the entire crossword puzzle. Finally, we propose an evaluation framework which consists of several complementary performance metrics.
翻訳日:2022-05-24 14:08:23 公開日:2022-05-20
# (参考訳) 画像分類のための深層伝達学習:調査

Deep transfer learning for image classification: a survey ( http://arxiv.org/abs/2205.09904v1 )

ライセンス: CC BY 4.0
Jo Plested, Tom Gedeon(参考訳) 畳み込みニューラルネットワーク(CNN)やトランスフォーマーのようなディープニューラルネットワークは、近年、画像分類において多くの成功を収めている。 画像分類のベストプラクティスは、大量のラベル付きデータに基づいて大きな深層モデルを訓練できることが一貫して示されている。 しかし、最高のパフォーマンスを得るために、大量のトレーニングデータの要求が満たされない、現実世界のシナリオはたくさんあります。 これらのシナリオでは、転校学習はパフォーマンスを改善するのに役立つ。 これまで、画像分類全体に関するディープトランスファー学習を包括的にレビューする調査は行われていない。 しかし,近年のディープトランスファー学習の一般調査や,特定対象画像分類タスクに関連する調査結果が公表されている。 私たちは、現在のすべての知識が照合され、包括的なパターンが分析され議論される分野の今後の進歩にとって重要であると考えています。 本調査では,Deep Transfer Learningと画像分類に関して解決しようとする課題を正式に定義する。 我々は、現場の現状を調査し、最近の進展がどこにあるかを特定する。 現在の知識のギャップがどこにあるかを示し、これらの知識のギャップを埋めるためにどのようにフィールドを前進させるかを提案する。 画像分類における転写学習の応用の新しい分類法を提案する。 この分類は、転送学習が効果的で、その潜在能力を達成できないという、全体的なパターンを見やすくする。 これにより、問題のある場所や、それがより効果的に使用できる方法も提案できます。 この新たな分類法の下では、転送学習が非効率であるか、あるいは性能を阻害するアプリケーションの多くは、ソースとターゲットのデータセットと使用するテクニックを考慮に入れれば、期待できることが示されている。

Deep neural networks such as convolutional neural networks (CNNs) and transformers have achieved many successes in image classification in recent years. It has been consistently demonstrated that best practice for image classification is when large deep models can be trained on abundant labelled data. However there are many real world scenarios where the requirement for large amounts of training data to get the best performance cannot be met. In these scenarios transfer learning can help improve performance. To date there have been no surveys that comprehensively review deep transfer learning as it relates to image classification overall. However, several recent general surveys of deep transfer learning and ones that relate to particular specialised target image classification tasks have been published. We believe it is important for the future progress in the field that all current knowledge is collated and the overarching patterns analysed and discussed. In this survey we formally define deep transfer learning and the problem it attempts to solve in relation to image classification. We survey the current state of the field and identify where recent progress has been made. We show where the gaps in current knowledge are and make suggestions for how to progress the field to fill in these knowledge gaps. We present a new taxonomy of the applications of transfer learning for image classification. This taxonomy makes it easier to see overarching patterns of where transfer learning has been effective and, where it has failed to fulfill its potential. This also allows us to suggest where the problems lie and how it could be used more effectively. We show that under this new taxonomy, many of the applications where transfer learning has been shown to be ineffective or even hinder performance are to be expected when taking into account the source and target datasets and the techniques used.
翻訳日:2022-05-24 09:02:07 公開日:2022-05-20
# (参考訳) 組成データのためのデータ拡張:微生物の予測モデルの改善

Data Augmentation for Compositional Data: Advancing Predictive Models of the Microbiome ( http://arxiv.org/abs/2205.09906v1 )

ライセンス: CC BY 4.0
Elliott Gordon-Rodriguez, Thomas P. Quinn, John P. Cunningham(参考訳) データ拡張は、現代の機械学習パイプラインにおいて重要な役割を果たす。 コンピュータビジョンと自然言語処理の文脈で多くの拡張戦略が研究されているが、他のデータモダリティでは知られていない。 我々の研究は、人間のマイクロバイオームの文脈において特に関心を持つ単純なデータ、すなわち単純なデータへのデータ拡張の成功を拡大する。 本研究は, 合成データ解析の鍵となる原理である, 単純体のアッチソン幾何や部分分解の原理に基づいて, このデータモダリティの新たな拡張戦略を定義する。 標準教師付き学習パイプラインにデータ拡張を組み込むことで、幅広い標準ベンチマークデータセットで一貫したパフォーマンス向上を実現します。 特に,大腸癌,2型糖尿病,クローン病などの重要な疾患予測タスクに対して,新たな最先端の課題を設定した。 さらに,マイクロバイオーム合成データに対する従来の表現学習アプローチを改良した,新しいコントラスト学習モデルを定義することが可能となった。 私たちのコードはhttps://github.com/cunningham-lab/augcodaで利用可能です。

Data augmentation plays a key role in modern machine learning pipelines. While numerous augmentation strategies have been studied in the context of computer vision and natural language processing, less is known for other data modalities. Our work extends the success of data augmentation to compositional data, i.e., simplex-valued data, which is of particular interest in the context of the human microbiome. Drawing on key principles from compositional data analysis, such as the Aitchison geometry of the simplex and subcompositions, we define novel augmentation strategies for this data modality. Incorporating our data augmentations into standard supervised learning pipelines results in consistent performance gains across a wide range of standard benchmark datasets. In particular, we set a new state-of-the-art for key disease prediction tasks including colorectal cancer, type 2 diabetes, and Crohn's disease. In addition, our data augmentations enable us to define a novel contrastive learning model, which improves on previous representation learning approaches for microbiome compositional data. Our code is available at https://github.com/cunningham-lab/AugCoDa.
翻訳日:2022-05-24 09:00:59 公開日:2022-05-20
# (参考訳) ばらばらな無限無作為特徴潜在変数モデリング

Sparse Infinite Random Feature Latent Variable Modeling ( http://arxiv.org/abs/2205.09909v1 )

ライセンス: CC BY 4.0
Michael Minyi Zhang(参考訳) 本稿では,インドのビュッフェ過程を先行して用いた非線型ベイズ型非パラメトリック潜在変数モデルを提案する。 後代では、潜在空間におけるインスタンス化された次元の数は有限であることが保証される。 インドのビュッフェプロセスを潜在変数に置く目的は次のとおりである。 1. 潜在次元の個数を自動的かつ確率的に選択する。 2.) 潜在空間にスパーシティを課し、インドのビュッフェ過程はどの要素が全くゼロかを選択する。 提案モデルでは, 潜在次元の数が自動的に選択されるような, スパースで非線形な潜在変数モデリングが可能となる。 推定はランダムフーリエ近似を用いて扱いやすくし,マルコフ連鎖モンテカルロサンプリングによる後方推定を容易に実装できる。 このアプローチはガウス的設定を超える多くの観測モデルに順応可能である。 本手法は, 各種合成, 生物学的, テキストのデータセットに対して有効性を示すとともに, 従来の潜在変数モデルと比較して, 優れたテストセット性能が得られることを示す。

We propose a non-linear, Bayesian non-parametric latent variable model where the latent space is assumed to be sparse and infinite dimensional a priori using an Indian buffet process prior. A posteriori, the number of instantiated dimensions in the latent space is guaranteed to be finite. The purpose of placing the Indian buffet process on the latent variables is to: 1.) Automatically and probabilistically select the number of latent dimensions. 2.) Impose sparsity in the latent space, where the Indian buffet process will select which elements are exactly zero. Our proposed model allows for sparse, non-linear latent variable modeling where the number of latent dimensions is selected automatically. Inference is made tractable using the random Fourier approximation and we can easily implement posterior inference through Markov chain Monte Carlo sampling. This approach is amenable to many observation models beyond the Gaussian setting. We demonstrate the utility of our method on a variety of synthetic, biological and text datasets and show that we can obtain superior test set performance compared to previous latent variable models.
翻訳日:2022-05-24 08:41:46 公開日:2022-05-20
# (参考訳) ファンデーションモデルはデータを乱すことができるか?

Can Foundation Models Wrangle Your Data? ( http://arxiv.org/abs/2205.09911v1 )

ライセンス: CC0 1.0
Avanika Narayan, Ines Chami, Laurel Orr, Christopher R\'e(参考訳) ファンデーションモデル(FM)は、大規模なデータコーパスに基づいて訓練されたモデルであり、非常に大規模に、タスク固有の微調整なしで新しいタスクに一般化することができる。 これらのモデルのサイズが拡大するにつれて、イノベーションはこれらのモデルが言語やイメージタスクでできることの境界を推し進めています。 本稿では,FMの未探索領域であるクリーニングや統合といった古典的なデータタスクを理解することを目的とする。 概念実証として,3つのデータクリーニングと統合タスクをタスクのプロンプトとして使用し,これらのタスク上でのFMの性能を評価する。 大規模なFMは,データ処理の訓練を受けなくても,データのクリーニングや統合作業において,SoTAのパフォーマンスを一般化し,達成している。 我々は、これらのモデルが提示する特定の研究課題と機会を特定し、プライベートデータや時間データによる課題、データ駆動システムが非専門家によりアクセスしやすくする機会を含む。 コードと実験はhttps://github.com/hazyresearch/fm_data_tasksで公開しています。

Foundation Models (FMs) are models trained on large corpora of data that, at very large scale, can generalize to new tasks without any task-specific finetuning. As these models continue to grow in size, innovations continue to push the boundaries of what these models can do on language and image tasks. This paper aims to understand an underexplored area of FMs: classical data tasks like cleaning and integration. As a proof-of-concept, we cast three data cleaning and integration tasks as prompting tasks and evaluate the performance of FMs on these tasks. We find that large FMs generalize and achieve SoTA performance on data cleaning and integration tasks, even though they are not trained for these data tasks. We identify specific research challenges and opportunities that these models present, including challenges with private and temporal data, and opportunities to make data driven systems more accessible to non-experts. We make our code and experiments publicly available at: https://github.com/HazyResearch/fm_data_tasks.
翻訳日:2022-05-24 08:25:53 公開日:2022-05-20
# (参考訳) 曖昧性集合を用いたベイズ最適実験設計のためのロバスト予測情報ゲイン

Robust Expected Information Gain for Optimal Bayesian Experimental Design Using Ambiguity Sets ( http://arxiv.org/abs/2205.09914v1 )

ライセンス: CC BY 4.0
Jinwoo Go, Tobin Isaac(参考訳) ベイズの実験設計における期待情報ゲイン(EIG)による実験のランキングは、モデルの事前分布の変化に敏感であり、サンプリングによって得られるEIGの近似は、乱れた事前の使用と同じような誤差を持つ。 我々は,kl-divergence の原点に近い分布のあいまいさ集合上の eig のアフィン緩和を最小化することにより,eig の最大化における目標の修正である \emph{robust expected information gain} (reig) を定義し,解析する。 EIGを推定するためのサンプリングベースアプローチと組み合わせると、REIGはEIGを推定するために使用されるサンプルの「log-sum-exp」安定化に対応し、実際に効率的に実装できることを示す。 REIGと変分ネストモンテカルロ(VNMC)、適応コントラスト推定(ACE)、相互情報ニューラル推定(MINE)を組み合わせる数値実験により、REIGは実際にはアンダーサンプル推定器の変動性も補償することが示された。

The ranking of experiments by expected information gain (EIG) in Bayesian experimental design is sensitive to changes in the model's prior distribution, and the approximation of EIG yielded by sampling will have errors similar to the use of a perturbed prior. We define and analyze \emph{robust expected information gain} (REIG), a modification of the objective in EIG maximization by minimizing an affine relaxation of EIG over an ambiguity set of distributions that are close to the original prior in KL-divergence. We show that, when combined with a sampling-based approach to estimating EIG, REIG corresponds to a `log-sum-exp' stabilization of the samples used to estimate EIG, meaning that it can be efficiently implemented in practice. Numerical tests combining REIG with variational nested Monte Carlo (VNMC), adaptive contrastive estimation (ACE) and mutual information neural estimation (MINE) suggest that in practice REIG also compensates for the variability of under-sampled estimators.
翻訳日:2022-05-24 08:03:26 公開日:2022-05-20
# (参考訳) CertiFair: ニューラルネットワークのグローバルフェアネス認定のためのフレームワーク

CertiFair: A Framework for Certified Global Fairness of Neural Networks ( http://arxiv.org/abs/2205.09927v1 )

ライセンス: CC BY 4.0
Haitham Khedr and Yasser Shoukry(参考訳) ニューラルネットワーク(NN)モデルがグローバルな個々人の公平性を満足するかどうかを考察する。 個人の公正さは、あるタスクに関して類似した個人が、決定モデルによって同様に扱われることを示唆している。 この作業では、主な目的が2つあります。 第一は、分類タスクにおいて、あるnnに対してフェアネス特性が保持されているか、または、違反している場合の反例を提供する検証者、すなわち、全ての類似した個人が同じ分類されている場合、モデルが公正であり、類似した個体のペアが異なる分類を行う場合に不公平であるかどうかをチェックする検証者を構築することである。 そこで我々は,ReLU NN分類器のグローバルな個性特性を距離ベース類似度測定値を用いて検証する音響完全検証器を構築した。 本研究の目的は,公平なnn分類器を不公平(偏り)データから訓練する方法を提供することである。 同様の個人に対して公平な成果を強制するために,トレーニング中に使用できる公平性損失を提案する。 次に、結果のNNの公平性に関する証明可能な境界を提供する。 一般に使用されるフェアネスデータセット上で実験を行い, テスト精度を低下させることなく, 全世界のフェアネスを96 %向上できることを示した。

We consider the problem of whether a Neural Network (NN) model satisfies global individual fairness. Individual Fairness suggests that similar individuals with respect to a certain task are to be treated similarly by the decision model. In this work, we have two main objectives. The first is to construct a verifier which checks whether the fairness property holds for a given NN in a classification task or provide a counterexample if it is violated, i.e., the model is fair if all similar individuals are classified the same, and unfair if a pair of similar individuals are classified differently. To that end, We construct a sound and complete verifier that verifies global individual fairness properties of ReLU NN classifiers using distance-based similarity metrics. The second objective of this paper is to provide a method for training provably fair NN classifiers from unfair (biased) data. We propose a fairness loss that can be used during training to enforce fair outcomes for similar individuals. We then provide provable bounds on the fairness of the resulting NN. We run experiments on commonly used fairness datasets that are publicly available and we show that global individual fairness can be improved by 96 % without significant drop in test accuracy.
翻訳日:2022-05-24 07:46:08 公開日:2022-05-20
# (参考訳) 時間的定位調整によるコンフォメーション予測

Conformal Prediction with Temporal Quantile Adjustments ( http://arxiv.org/abs/2205.09940v1 )

ライセンス: CC BY 4.0
Zhen Lin, Shubhendu Trivedi, Jimeng Sun(参考訳) 時系列データに対する回帰のための効率良く有効な予測間隔(pis)を構築するための一般的な手法であるtqa(temporal quantile adjustment)を開発した。 このようなデータは、econometricsやhealthcareなど、多くのドメインで一般的です。 医療における標準的な例は、生理的時系列データを用いて患者の予後を予測することである。 この設定の信頼性の高いPI推定器は、断面スライスを横断する断面カバレッジと、時系列ごとに時間次元に沿った縦カバレッジという、2つの異なるカバレッジの概念に対処する必要がある。 近年,連続予測(CP)を用いて時系列の文脈でPIを得る手法が研究されている。 しかしながら、両方のカバレッジの概念を同時に扱うものはない。 cp法は通常、キャリブレーションセット上の非共形性スコアの分布から予め規定された分位数をクエリする。 TQAはCPのクエリを$t$ごとに調整し、理論的に地平線で断面と縦の両方をカバーしている。 TQAのポストホック性は、任意の時系列回帰モデルに関する一般的なラッパーとしての使用を促進する。 我々はTQAの性能を広範囲にわたる実験により検証する:TQAは一般的に効率的なPIを取得し、断面被覆を保ちながら縦断被覆を改善する。

We develop Temporal Quantile Adjustment (TQA), a general method to construct efficient and valid prediction intervals (PIs) for regression on cross-sectional time series data. Such data is common in many domains, including econometrics and healthcare. A canonical example in healthcare is predicting patient outcomes using physiological time-series data, where a population of patients composes a cross-section. Reliable PI estimators in this setting must address two distinct notions of coverage: cross-sectional coverage across a cross-sectional slice, and longitudinal coverage along the temporal dimension for each time series. Recent works have explored adapting Conformal Prediction (CP) to obtain PIs in the time series context. However, none handles both notions of coverage simultaneously. CP methods typically query a pre-specified quantile from the distribution of nonconformity scores on a calibration set. TQA adjusts the quantile to query in CP at each time $t$, accounting for both cross-sectional and longitudinal coverage in a theoretically-grounded manner. The post-hoc nature of TQA facilitates its use as a general wrapper around any time series regression model. We validate TQA's performance through extensive experimentation: TQA generally obtains efficient PIs and improves longitudinal coverage while preserving cross-sectional coverage.
翻訳日:2022-05-24 07:26:28 公開日:2022-05-20
# (参考訳) 注意すべきクラスタリング:階層的クラスタリングによる統一イメージセグメンテーション

Clustering as Attention: Unified Image Segmentation with Hierarchical Clustering ( http://arxiv.org/abs/2205.09949v1 )

ライセンス: CC BY 4.0
Teppei Suzuki(参考訳) HCFormerと呼ばれる深層ニューラルネットワークのための階層的クラスタリングに基づく画像分割手法を提案する。 ピクセルクラスタリング問題として,セマンティック,インスタンス,パンオプティカルセグメンテーションを含む画像セグメンテーションを解釈し,ディープニューラルネットワークを用いたボトムアップ階層クラスタリングによって達成する。 階層クラスタリングでは,従来のセグメンテーションモデルから画素デコーダを取り除き,セグメンテーションパイプラインを単純化し,セグメンテーション精度と解釈性を向上させる。 HCFormerは、ピクセルクラスタリングが様々なイメージセグメンテーションの一般的なアプローチであるため、同じアーキテクチャでセマンティック、インスタンス、およびパン光学セグメンテーションに対処することができる。 実験では、HCFormerはセマンティックセグメンテーション(ADE20Kでは55.5 mIoU)、インスタンスセグメンテーション(COCOでは47.1 AP)、パノプティックセグメンテーション(COCOでは55.7 PQ)のベースライン手法と比較して、同等または優れたセグメンテーション精度を達成する。

We propose a hierarchical clustering-based image segmentation scheme for deep neural networks, called HCFormer. We interpret image segmentation, including semantic, instance, and panoptic segmentation, as a pixel clustering problem, and accomplish it by bottom-up, hierarchical clustering with deep neural networks. Our hierarchical clustering removes the pixel decoder from conventional segmentation models and simplifies the segmentation pipeline, resulting in improved segmentation accuracies and interpretability. HCFormer can address semantic, instance, and panoptic segmentation with the same architecture because the pixel clustering is a common approach for various image segmentation. In experiments, HCFormer achieves comparable or superior segmentation accuracies compared to baseline methods on semantic segmentation (55.5 mIoU on ADE20K), instance segmentation (47.1 AP on COCO), and panoptic segmentation (55.7 PQ on COCO).
翻訳日:2022-05-24 06:56:47 公開日:2022-05-20
# (参考訳) 微粒な局所スタイル学習によるファウショットフォント生成

Few-Shot Font Generation by Learning Fine-Grained Local Styles ( http://arxiv.org/abs/2205.09965v1 )

ライセンス: CC BY 4.0
Licheng Tang, Yiyang Cai, Jiaming Liu, Zhibin Hong, Mingming Gong, Minhu Fan, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wan(参考訳) いくつかの例で新しいフォントを生成することを目的としたFew-shotフォント生成(FFG)は、労働コストの大幅な削減により注目されている。 典型的なFFGパイプラインは、標準フォントライブラリ内の文字をコンテンツグリフとみなし、参照グリフからスタイル情報を抽出して新しいターゲットフォントに転送する。 既存のソリューションの多くは、コンテンツと参照グリフのスタイルをグローバルまたはコンポーネントワイズで明示的に切り離している。 しかし、グリフのスタイルは、主に地域の詳細、すなわち急進派、構成要素、ストロークのスタイルが共にグリフのスタイルを描いている。 そのため、一つの文字でも空間上に分散した異なるスタイルを含むことができる。 本稿では,学習による新しいフォント生成手法を提案する。 1) 参照からのきめ細かいローカルスタイル,及び 2) 内容と基準グリフの空間的対応 したがって、コンテンツグリフ内の各空間位置を、適切なきめ細かいスタイルで割り当てることができる。 この目的のために、クエリーとしてのコンテンツグリフの表現と、キーと値としての参照グリフの表現に対して、クロスアテンションを採用する。 グローバルやコンポーネントのモデリングを明示的に切り離す代わりに、クロスアテンションメカニズムは参照グリフの適切なローカルスタイルに対応し、参照スタイルを与えられたコンテンツグリフのきめ細かいスタイル表現に集約することができる。 実験の結果,提案手法はFFGの最先端手法よりも優れていた。 特にユーザスタディでは,アプローチのスタイル整合性が従来の手法よりも大幅に優れていたことも示している。

Few-shot font generation (FFG), which aims to generate a new font with a few examples, is gaining increasing attention due to the significant reduction in labor cost. A typical FFG pipeline considers characters in a standard font library as content glyphs and transfers them to a new target font by extracting style information from the reference glyphs. Most existing solutions explicitly disentangle content and style of reference glyphs globally or component-wisely. However, the style of glyphs mainly lies in the local details, i.e. the styles of radicals, components, and strokes together depict the style of a glyph. Therefore, even a single character can contain different styles distributed over spatial locations. In this paper, we propose a new font generation approach by learning 1) the fine-grained local styles from references, and 2) the spatial correspondence between the content and reference glyphs. Therefore, each spatial location in the content glyph can be assigned with the right fine-grained style. To this end, we adopt cross-attention over the representation of the content glyphs as the queries and the representations of the reference glyphs as the keys and values. Instead of explicitly disentangling global or component-wise modeling, the cross-attention mechanism can attend to the right local styles in the reference glyphs and aggregate the reference styles into a fine-grained style representation for the given content glyphs. The experiments show that the proposed method outperforms the state-of-the-art methods in FFG. In particular, the user studies also demonstrate the style consistency of our approach significantly outperforms previous methods.
翻訳日:2022-05-24 06:33:58 公開日:2022-05-20
# (参考訳) 目標条件強化学習を用いた経路計画における完全制御型エージェント

A Fully Controllable Agent in the Path Planning using Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2205.09967v1 )

ライセンス: CC BY 4.0
GyeongTaek Lee(参考訳) 経路計画の目的は,エージェントの経路を探索して開始点から目標に到達することである。 経路計画において、経路は変数の数によって異なり、エージェントが様々な目標を達成することが重要である。 しかし、多くの研究がユーザーが事前に定義した1つの目標に対処している。 本研究では,経路計画における完全制御可能なエージェントのための新しい強化学習フレームワークを提案する。 そこで,本稿では,エージェントとサブゴールの動作を目標条件のrl上で訓練した,エージェントの双方向特性を得るための双方向メモリ編集を提案する。 エージェントをさまざまな方向に移動させるには,政策ネットワークから切り離されたサブゴール専用ネットワークを利用する。 最後に,エージェントが目標に達するまでのステップ数を短縮するために,報酬シェーピングを提案する。 実験の結果、エージェントは訓練中にエージェントが訪れたことのない様々な目標に到達することができた。 我々は、エージェントがラウンドトリップのような困難なミッションを遂行できることを確認し、エージェントは報酬を形作るための短いルートを使った。

The aim of path planning is to reach the goal from starting point by searching for the route of an agent. In the path planning, the routes may vary depending on the number of variables such that it is important for the agent to reach various goals. Numerous studies, however, have dealt with a single goal that is predefined by the user. In the present study, I propose a novel reinforcement learning framework for a fully controllable agent in the path planning. To do this, I propose a bi-directional memory editing to obtain various bi-directional trajectories of the agent, in which the behavior of the agent and sub-goals are trained on the goal-conditioned RL. As for moving the agent in various directions, I utilize the sub-goals dedicated network, separated from a policy network. Lastly, I present the reward shaping to shorten the number of steps for the agent to reach the goal. In the experimental result, the agent was able to reach the various goals that have never been visited by the agent in the training. We confirmed that the agent could perform difficult missions such as a round trip and the agent used the shorter route with the reward shaping.
翻訳日:2022-05-24 06:16:36 公開日:2022-05-20
# (参考訳) グラフニューラルネットワークにおける動脈・てんかん不確実性の定量化のための一般フレームワーク

A General Framework for quantifying Aleatoric and Epistemic uncertainty in Graph Neural Networks ( http://arxiv.org/abs/2205.09968v1 )

ライセンス: CC BY 4.0
Sai Munikoti, Deepesh Agarwal, Laya Das, Balasubramaniam Natarajan(参考訳) Graph Neural Networks (GNN)は、グラフ理論と機械学習をエレガントに統合し、ネットワーク化されたデータのモデリングと分析を行う強力なフレームワークを提供する。 モデリング誤差と測定の不確かさから生じるgnnの予測の不確かさを定量化する問題を考える。 本研究では,ノードの特徴ベクトルにおける確率的リンクやノイズの形でのアレラトリックな不確実性を考察する一方で,モデルパラメータ上の確率分布によってエピステマティックな不確実性が組み込まれている。 本研究では, 推定密度フィルタを用いてアレエータ的不確かさを定量化し, モンテカルロドロップアウトがモデルパラメータの不確かさをキャプチャするベイズ的枠組みにおいて, 両方の不確実性源を統一的に扱う手法を提案する。 最後に、GNNの予測における総不確実性を推定するために、2つの不確実性源を集約する。 実世界のデータセットの結果は、ベイズモデルが頻繁なモデルと同等の性能を発揮することを示し、データとモデルの不確実性に敏感な予測の不確実性に関する追加情報を提供する。

Graph Neural Networks (GNN) provide a powerful framework that elegantly integrates Graph theory with Machine learning for modeling and analysis of networked data. We consider the problem of quantifying the uncertainty in predictions of GNN stemming from modeling errors and measurement uncertainty. We consider aleatoric uncertainty in the form of probabilistic links and noise in feature vector of nodes, while epistemic uncertainty is incorporated via a probability distribution over the model parameters. We propose a unified approach to treat both sources of uncertainty in a Bayesian framework, where Assumed Density Filtering is used to quantify aleatoric uncertainty and Monte Carlo dropout captures uncertainty in model parameters. Finally, the two sources of uncertainty are aggregated to estimate the total uncertainty in predictions of a GNN. Results in the real-world datasets demonstrate that the Bayesian model performs at par with a frequentist model and provides additional information about predictions uncertainty that are sensitive to uncertainties in the data and model.
翻訳日:2022-05-24 05:51:43 公開日:2022-05-20
# (参考訳) 決定木における記述冗長性に就て

On Tackling Explanation Redundancy in Decision Trees ( http://arxiv.org/abs/2205.09971v1 )

ライセンス: CC BY 4.0
Yacine Izza, Alexey Ignatiev and Joao Marques-Silva(参考訳) 決定木(DT)は機械学習(ML)モデルの解釈可能性の理想を表わしている。 決定木の解釈可能性は、いわゆる内在的解釈可能性による説明可能性アプローチを動機付け、高リスクアプリケーションに解釈可能なMLモデルを適用するための最近の提案の中核にある。 DT解釈可能性の信念は、DT予測の説明が簡潔であると一般的に期待されているという事実によって正当化される。 実際、DTの場合、説明はDTパスに対応します。 決定木は理想的に浅いため、経路は特徴の総数よりもはるかに少ないため、DTの説明は簡潔であり、解釈可能であることが期待される。 本稿では,決定木の解釈可能性と説明の簡潔さが等価である限り,決定木を解釈可能とみなすべきではないことを示す理論的および実験的議論について述べる。 本論文は,論理的な厳密な経路説明と経路説明冗長性を導入し,決定木が任意に大きい経路を提示しなければならない関数が存在することを証明した。 論文はまた、非常に制限された関数のクラスのみが説明冗長性を持たないDTで表現できることを証明している。 さらに,本論文は,異なる木学習アルゴリズムを用いて得られたものを含む決定木において,経路説明冗長性を至るところで観測できることを実証する実験結果を含む。 本論文では,経路説明冗長性を解消するための多項式時間アルゴリズムも提案している。 したがって、これらのアルゴリズムは間接的に既約かつ簡潔な決定木の説明を達成するのに役立つ。

Decision trees (DTs) epitomize the ideal of interpretability of machine learning (ML) models. The interpretability of decision trees motivates explainability approaches by so-called intrinsic interpretability, and it is at the core of recent proposals for applying interpretable ML models in high-risk applications. The belief in DT interpretability is justified by the fact that explanations for DT predictions are generally expected to be succinct. Indeed, in the case of DTs, explanations correspond to DT paths. Since decision trees are ideally shallow, and so paths contain far fewer features than the total number of features, explanations in DTs are expected to be succinct, and hence interpretable. This paper offers both theoretical and experimental arguments demonstrating that, as long as interpretability of decision trees equates with succinctness of explanations, then decision trees ought not be deemed interpretable. The paper introduces logically rigorous path explanations and path explanation redundancy, and proves that there exist functions for which decision trees must exhibit paths with arbitrarily large explanation redundancy. The paper also proves that only a very restricted class of functions can be represented with DTs that exhibit no explanation redundancy. In addition, the paper includes experimental results substantiating that path explanation redundancy is observed ubiquitously in decision trees, including those obtained using different tree learning algorithms, but also in a wide range of publicly available decision trees. The paper also proposes polynomial-time algorithms for eliminating path explanation redundancy, which in practice require negligible time to compute. Thus, these algorithms serve to indirectly attain irreducible, and so succinct, explanations for decision trees.
翻訳日:2022-05-24 05:33:59 公開日:2022-05-20
# (参考訳) SafeNet: プライベート機械学習におけるデータポリシ攻撃の軽減

SafeNet: Mitigating Data Poisoning Attacks on Private Machine Learning ( http://arxiv.org/abs/2205.09986v1 )

ライセンス: CC BY 4.0
Harsh Chaudhari, Matthew Jagielski and Alina Oprea(参考訳) セキュアなマルチパーティ計算(MPC)は、複数の不確実なデータ所有者が、組み合わせたデータ上で機械学習モデル(ML)を共同でトレーニングできるように提案されている。 しかし、MLモデルのトレーニングに使用されるデータセットは、データ中毒攻撃をインストールする敵の制御下にあり、MPCは、中毒を検出するためのトレーニングセットの検査を妨げている。 プライベートMLトレーニングのための複数のMPCフレームワークがバックドアや標的の毒殺攻撃の影響を受けやすいことを示す。 そこで本研究では,MPCにおけるアンサンブルモデル構築のためのフレームワークであるSafeNetを提案する。 プライベートMLトレーニングのセキュリティ定義を拡張して,有毒化を考慮し,SafeNetの設計が定義に満足していることを証明する。 いくつかの機械学習データセットとモデルに対して、SafeNetの効率性、正確性、毒性を示す。 例えばsafenetは、ニューラルネットワークモデルのバックドア攻撃成功を100%から0%に削減するとともに、dalskovらの4つのmpcフレームワークよりも39倍高速トレーニングと36倍の通信を実現している。

Secure multiparty computation (MPC) has been proposed to allow multiple mutually distrustful data owners to jointly train machine learning (ML) models on their combined data. However, the datasets used for training ML models might be under the control of an adversary mounting a data poisoning attack, and MPC prevents inspecting training sets to detect poisoning. We show that multiple MPC frameworks for private ML training are susceptible to backdoor and targeted poisoning attacks. To mitigate this, we propose SafeNet, a framework for building ensemble models in MPC with formal guarantees of robustness to data poisoning attacks. We extend the security definition of private ML training to account for poisoning and prove that our SafeNet design satisfies the definition. We demonstrate SafeNet's efficiency, accuracy, and resilience to poisoning on several machine learning datasets and models. For instance, SafeNet reduces backdoor attack success from 100% to 0% for a neural network model, while achieving 39x faster training and 36x less communication than the four-party MPC framework of Dalskov et al.
翻訳日:2022-05-24 05:32:44 公開日:2022-05-20
# (参考訳) SALTED: SALient Long-Tail Translation Error Detectionのためのフレームワーク

SALTED: A Framework for SAlient Long-Tail Translation Error Detection ( http://arxiv.org/abs/2205.09988v1 )

ライセンス: CC BY 4.0
Vikas Raunak, Matt Post, Arul Menezes(参考訳) 従来の機械翻訳(MT)メトリクスは、MTにおける行動問題の長い尾に敏感な平均的な翻訳品質を提供する。例えば、数字の翻訳、物理単位、削除された内容、幻覚などがある。 ニューラルネットワーク翻訳(NMT)において稀かつ予測不可能なこれらのエラーは、最先端MTシステムの信頼性を著しく損なう。 したがって、モデル開発中にこれらの問題を可視化することが重要である。 この方向に向かって、我々は、MTモデルの振る舞いテストのための仕様ベースのフレームワークであるSALTEDを紹介した。 私たちのアプローチの核心は、ソース文とシステム出力の間のエラー(または出力の正当性を検証)をフラグする高精度検出器の開発です。 これらの検出器は,MTシステムにおける有意な長テール誤差の同定だけでなく,トレーニングデータの高精細度フィルタリング,NMTにおけるモデル微調整によるターゲット誤差の修正,メタモルフィック試験のための新しいデータ生成などにも利用できることを示した。

Traditional machine translation (MT) metrics provide an average measure of translation quality that is insensitive to the long tail of behavioral problems in MT. Examples include translation of numbers, physical units, dropped content and hallucinations. These errors, which occur rarely and unpredictably in Neural Machine Translation (NMT), greatly undermine the reliability of state-of-the-art MT systems. Consequently, it is important to have visibility into these problems during model development. Towards this direction, we introduce SALTED, a specifications-based framework for behavioral testing of MT models that provides fine-grained views of salient long-tail errors, permitting trustworthy visibility into previously invisible problems. At the core of our approach is the development of high-precision detectors that flag errors (or alternatively, verify output correctness) between a source sentence and a system output. We demonstrate that such detectors could be used not just to identify salient long-tail errors in MT systems, but also for higher-recall filtering of the training data, fixing targeted errors with model fine-tuning in NMT and generating novel data for metamorphic testing to elicit further bugs in models.
翻訳日:2022-05-24 04:58:31 公開日:2022-05-20
# (参考訳) Few-Taskメタラーニングのためのセットベースメタ補間

Set-based Meta-Interpolation for Few-Task Meta-Learning ( http://arxiv.org/abs/2205.09990v1 )

ライセンス: CC BY 4.0
Seanie Lee, Bruno Andreis, Kenji Kawaguchi, Juho Lee, Sung Ju Hwang(参考訳) メタラーニングアプローチは、関連するタスクからの知識を活用し、いくつかの例で与えられた新しいタスクに機械学習システムが適応することを可能にする。 しかし、メタテスト中に未確認タスクを一般化するためには、まだ多くのメタトレーニングタスクが必要であり、タスク構築の困難さやコストなど様々な理由から、少数のタスクしか持たない現実的な問題に重大なボトルネックをもたらす。 近年,メタ学習タスクの分布を高密度化するために,ドメイン固有の知識を用いてタスク拡張手法が提案されている。 しかし、そのようなドメイン固有の知識に依存すると、これらのメソッドは他のドメインには適用できない。 Manifold Mixupをベースとしたタスク拡張手法はドメインに依存しないが,非イメージ領域では有効ではない。 そこで,これらの制約に対処するために,表現型ニューラルセット関数を用いた2レベル最適化によるメタ学習タスクの分散化を行う,新しいドメイン非依存タスク拡張法であるメタ補間を提案する。 画像分類,分子特性予測,テキスト分類,音声認識などの領域にまたがる8つのデータセットに対するメタ補間の有効性を実証的に検証した。 実験により,Meta-Interpolationは関連するすべてのベースラインを一貫して上回ることを示す。 理論的には、タスクと集合関数の補間は一般化を改善するためにメタリーナーを正則化する。

Meta-learning approaches enable machine learning systems to adapt to new tasks given few examples by leveraging knowledge from related tasks. However, a large number of meta-training tasks are still required for generalization to unseen tasks during meta-testing, which introduces a critical bottleneck for real-world problems that come with only few tasks, due to various reasons including the difficulty and cost of constructing tasks. Recently, several task augmentation methods have been proposed to tackle this issue using domain-specific knowledge to design augmentation techniques to densify the meta-training task distribution. However, such reliance on domain-specific knowledge renders these methods inapplicable to other domains. While Manifold Mixup based task augmentation methods are domain-agnostic, we empirically find them ineffective on non-image domains. To tackle these limitations, we propose a novel domain-agnostic task augmentation method, Meta-Interpolation, which utilizes expressive neural set functions to densify the meta-training task distribution using bilevel optimization. We empirically validate the efficacy of Meta-Interpolation on eight datasets spanning across various domains such as image classification, molecule property prediction, text classification and speech recognition. Experimentally, we show that Meta-Interpolation consistently outperforms all the relevant baselines. Theoretically, we prove that task interpolation with the set function regularizes the meta-learner to improve generalization.
翻訳日:2022-05-24 04:35:44 公開日:2022-05-20
# (参考訳) indistill: 刈り取られた中間層から知識を移す

InDistill: Transferring Knowledge From Pruned Intermediate Layers ( http://arxiv.org/abs/2205.10003v1 )

ライセンス: CC BY-SA 4.0
Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) スマートフォンやドローンのような限られたリソースでハードウェア上にディープニューラルネットワークをデプロイすることは、計算の複雑さのために大きな課題となる。 知識蒸留のアプローチは、大きなモデルから、それぞれ教師と学生として知られる軽量なモデルに知識を移すことを目標とし、中間層から知識を蒸留することは、そのタスクにさらなる監督を与える。 モデル間のキャパシティギャップ、そのアーキテクチャアライメントを崩壊させる情報エンコーディング、および複数のレイヤを転送するための適切な学習スキームの欠如は、既存のメソッドのパフォーマンスを制限している。 本稿では, チャネルプルーニングの特性を活用して, モデル間のキャパシティギャップを低減し, アーキテクチャアライメントを維持することにより, 既存の単層式知識蒸留法の性能を大幅に向上させることができる新しい手法InDistillを提案する。 さらに,複数の中間層からの知識伝達の有効性を高めるためのカリキュラム学習方式を提案する。 提案手法は3つのベンチマーク画像データセットの最先端性能を上回る。

Deploying deep neural networks on hardware with limited resources, such as smartphones and drones, constitutes a great challenge due to their computational complexity. Knowledge distillation approaches aim at transferring knowledge from a large model to a lightweight one, also known as teacher and student respectively, while distilling the knowledge from intermediate layers provides an additional supervision to that task. The capacity gap between the models, the information encoding that collapses its architectural alignment, and the absence of appropriate learning schemes for transferring multiple layers restrict the performance of existing methods. In this paper, we propose a novel method, termed InDistill, that can drastically improve the performance of existing single-layer knowledge distillation methods by leveraging the properties of channel pruning to both reduce the capacity gap between the models and retain the architectural alignment. Furthermore, we propose a curriculum learning based scheme for enhancing the effectiveness of transferring knowledge from multiple intermediate layers. The proposed method surpasses state-of-the-art performance on three benchmark image datasets.
翻訳日:2022-05-24 03:58:01 公開日:2022-05-20
# (参考訳) CoLabelによる構成的解釈可能性:協調的統合、補完的特徴、協調的学習

Constructive Interpretability with CoLabel: Corroborative Integration, Complementary Features, and Collaborative Learning ( http://arxiv.org/abs/2205.10011v1 )

ライセンス: CC BY 4.0
Abhijit Suprem, Sanjyot Vaidya, Suma Cherkadi, Purva Singh, Joao Eduardo Ferreira, Calton Pu(参考訳) 特にバイアス検出とリスク軽減を必要とする現実のミッションクリティカルなアプリケーションでは、説明可能な予測を備えた機械学習モデルがますます求められている。 モデルが解釈可能性のための基礎から設計される固有の解釈可能性は、モデル予測とパフォーマンスに関する直感的な洞察と透過的な説明を提供する。 本稿では,基底真理に根ざした解釈可能なモデルを構築するための手法であるcolabelを提案する。 車両形状認識(VMMR)における特徴抽出アプリケーションにおけるCoLabelの実証を行った。 CoLabelはVMMRを車両の色、型、メイクなどの解釈可能な特徴の複合体で実行し、いずれも基底真理ラベルの解釈可能なアノテーションに基づいている。 まず、CoLabelは、色、型、メイクの望ましいアノテーションのサブセットを持つ複数のデータセットと結合するために、相関的な統合を実行する。 次に、CoLabelは分解可能なブランチを使用して、所望のアノテーションに対応する補完的な特徴を抽出する。 最後に、CoLabelは最終的な予測のためにそれらを融合する。 機能融合の間、CoLabelは補完的なブランチを調和させ、VMMR機能は互いに互換性があり、分類のために同じセマンティックスペースに投影できる。 固有の解釈可能性により、CoLabelは最先端のブラックボックスモデルよりも優れた性能を発揮し、CompCars、Cars196、BoxCars116Kの精度は0.98、0.95、0.94である。 CoLabelは、建設的な解釈可能性による直感的な説明を提供し、ミッションクリティカルな状況下で高い精度とユーザビリティを達成する。

Machine learning models with explainable predictions are increasingly sought after, especially for real-world, mission-critical applications that require bias detection and risk mitigation. Inherent interpretability, where a model is designed from the ground-up for interpretability, provides intuitive insights and transparent explanations on model prediction and performance. In this paper, we present CoLabel, an approach to build interpretable models with explanations rooted in the ground truth. We demonstrate CoLabel in a vehicle feature extraction application in the context of vehicle make-model recognition (VMMR). CoLabel performs VMMR with a composite of interpretable features such as vehicle color, type, and make, all based on interpretable annotations of the ground truth labels. First, CoLabel performs corroborative integration to join multiple datasets that each have a subset of desired annotations of color, type, and make. Then, CoLabel uses decomposable branches to extract complementary features corresponding to desired annotations. Finally, CoLabel fuses them together for final predictions. During feature fusion, CoLabel harmonizes complementary branches so that VMMR features are compatible with each other and can be projected to the same semantic space for classification. With inherent interpretability, CoLabel achieves superior performance to the state-of-the-art black-box models, with accuracy of 0.98, 0.95, and 0.94 on CompCars, Cars196, and BoxCars116K, respectively. CoLabel provides intuitive explanations due to constructive interpretability, and subsequently achieves high accuracy and usability in mission-critical situations.
翻訳日:2022-05-24 03:43:15 公開日:2022-05-20
# (参考訳) 漢漢文書を朝鮮語・英語に翻訳する

Translating Hanja historical documents to understandable Korean and English ( http://arxiv.org/abs/2205.10019v1 )

ライセンス: CC BY 4.0
Juhee Son, Jiho Jin, Haneul Yoo, JinYeong Bak, Kyunghyun Cho, Alice Oh(参考訳) 朝鮮王朝の年代記(ajd)には朝鮮の近代国家に先立つ500年の王国である朝鮮の王の日々の記録が含まれている。 アナル文字は、1968年から1993年まで朝鮮語に翻訳された古来の朝鮮語書記法「般若」で書かれていた。 しかし、この翻訳は文字通り、古来の朝鮮語の単語を多く含んでいたため、2012年に新たな専門的な翻訳作業が始まり、わずか10年で1人の王の記録が完成した。 また、専門家翻訳家は英語翻訳に取り組んでおり、高いコストと進捗の遅いため、キングの記録は1つしか入手できない。 そこで本研究では,漢書を韓国語と英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。 多言語ニューラルマシン翻訳アプローチに基づき、古い韓国語翻訳の完全なデータセットと、最近翻訳された韓国語と英語の小さなデータセットの両方を使用して、ハンジャで書かれた歴史的文書を翻訳する。 本手法を2つのベースラインと比較する。1つは漢書の復元と翻訳を同時に行うモデルであり、もう1つは新たに翻訳されたコーパスのみをトレーニングしたトランスフォーマーである。 その結果,現代韓国語・英語訳のBLEUスコアでは,本手法が基調を著しく上回ることがわかった。 また,人間による評価を行い,翻訳が本来の専門家翻訳よりも望ましいことを示す。

The Annals of Joseon Dynasty (AJD) contain the daily records of the Kings of Joseon, the 500-year kingdom preceding the modern nation of Korea. The Annals were originally written in an archaic Korean writing system, `Hanja', and translated into Korean from 1968 to 1993. However, this translation was literal and contained many archaic Korean words; thus, a new expert translation effort began in 2012, completing the records of only one king in a decade. Also, expert translators are working on an English translation, of which only one king's records are available because of the high cost and slow progress. Thus, we propose H2KE, the neural machine translation model that translates Hanja historical documents to understandable Korean and English. Based on the multilingual neural machine translation approach, it translates the historical document written in Hanja, using both the full dataset of outdated Korean translation and a small dataset of recently translated Korean and English. We compare our method with two baselines: one is a recent model that simultaneously learns to restore and translate Hanja historical document and the other is the transformer that trained on newly translated corpora only. The results show that our method significantly outperforms the baselines in terms of BLEU score in both modern Korean and English translations. We also conduct a human evaluation that shows that our translation is preferred over the original expert translation.
翻訳日:2022-05-24 03:25:45 公開日:2022-05-20
# (参考訳) nowcastingのためのニューラルアダプティブモデル

Neural Additive Models for Nowcasting ( http://arxiv.org/abs/2205.10020v1 )

ライセンス: CC BY 4.0
Wonkeun Jo and Dongil Kim(参考訳) ディープニューラルネットワーク(dnn)は、マシンラーニングで最も注目される方法の1つである。 しかし、DNNはブラックボックスモデルであるため、予測には説明力がない。 近年、高い予測性能を維持しつつ、このパワーを提供するためにニューラルネットワーク添加モデル(nams)が提案されている。 本稿では,機械学習の重要な焦点領域を構成する多変量 nowcasting (nc)問題に対する新しいnam手法を提案する。 nc問題に使用される多変量時系列データについては、識別可能な時間ステップにおける変数の入力値ごとに説明を考慮すべきである。 一般化された加法モデルを用いることで、NAM-NCは複数の変数と時間ステップに対する各入力値の重要性をうまく説明できる。 おもちゃの例と2つの実世界のデータセットを含む実験結果は、nam-ncが最先端のニューラルネットワークと同じ精度で多変量時系列データを予測すると同時に、各入力値の説明の重要性も示している。 また,nam-ncを用いたパラメータ共有ネットワークを用いて,その複雑度を低減し,nam-mcのハードタイト特徴ネットを抽出した。

Deep neural networks (DNNs) are one of the most highlighted methods in machine learning. However, as DNNs are black-box models, they lack explanatory power for their predictions. Recently, neural additive models (NAMs) have been proposed to provide this power while maintaining high prediction performance. In this paper, we propose a novel NAM approach for multivariate nowcasting (NC) problems, which comprise an important focus area of machine learning. For the multivariate time-series data used in NC problems, explanations should be considered for every input value to the variables at distinguishable time steps. By employing generalized additive models, the proposed NAM-NC successfully explains each input value's importance for multiple variables and time steps. Experimental results involving a toy example and two real-world datasets show that the NAM-NC predicts multivariate time-series data as accurately as state-of-the-art neural networks, while also providing the explanatory importance of each input value. We also examine parameter-sharing networks using NAM-NC to decrease their complexity, and NAM-MC's hard-tied feature net extracted explanations with good performance.
翻訳日:2022-05-24 03:10:29 公開日:2022-05-20
# (参考訳) 人工内耳手術1カ月後の電極アレイインピーダンスの予測

Predicting electrode array impedance after one month from cochlear implantation surgery ( http://arxiv.org/abs/2205.10021v1 )

ライセンス: CC BY 4.0
Yousef A. Alohali, Yassin Abdelsamad, Tamer Mesallam, Fida Almuhawas, Abdulrahman Hagr, Mahmoud S. Fayed(参考訳) 感音難聴は人工内耳を用いて治療することができる。 電極アレイインピーダンス測定を用いて手術を行った後,インピーダンス値とダイナミックレンジの安定性を確認した。 音声認識スコアの劣化はインピーダンス値の増大により起こりうる。 医療は手術後1年間に何度も実施されていた。 電極インピーダンスの予測は、患者の聴力を高めるために決定を下すのに役立つ。 本研究は,12チャンネルのMED-EL FLEX28電極アレイを用いて人工内耳装用を行った小児80例を対象とした。 手術日から1カ月後に各チャネルの電極インピーダンスを予測した。 ニューラルネットワークや決定木など、さまざまな機械学習アルゴリズムを使用しました。 その結果,電極インピーダンスは予測可能であり,最適なアルゴリズムは電極チャネルによって異なることがわかった。 また、0〜3 KOの誤差範囲を受け入れると、電極チャネルに基づいて精度が66%〜100%に変化する。 電極インピーダンスの予測には3ヶ月、6ヶ月、1年後にはさらなる研究が必要である。

Sensorineural hearing loss can be treated using Cochlear implantation. After this surgery using the electrode array impedance measurements, we can check the stability of the impedance value and the dynamic range. Deterioration of speech recognition scores could happen because of increased impedance values. Medicines used to do these measures many times during a year after the surgery. Predicting the electrode impedance could help in taking decisions to help the patient get better hearing. In this research we used a dataset of 80 patients of children who did cochlear implantation using MED-EL FLEX28 electrode array of 12 channels. We predicted the electrode impedance on each channel after 1 month from the surgery date. We used different machine learning algorithms like neural networks and decision trees. Our results indicates that the electrode impedance can be predicted, and the best algorithm is different based on the electrode channel. Also, the accuracy level varies between 66% and 100% based on the electrode channel when accepting an error range between 0 and 3 KO. Further research is required to predict the electrode impedance after three months, six months and one year.
翻訳日:2022-05-24 02:58:04 公開日:2022-05-20
# (参考訳) ルワンダにおける大気汚染の傾向分析と予測

Trend analysis and forecasting air pollution in Rwanda ( http://arxiv.org/abs/2205.10024v1 )

ライセンス: CC BY 4.0
Paterne Gahungu, and Jean Remy Kubwimana(参考訳) 大気汚染は世界中の公衆衛生問題であるが、低所得国や中所得国ではデータ不足が世界的な問題となっている。 微粒子状物質(PM2.5)による大気汚染は、ルワンダの世界保健機関(WHO)のガイドラインを上回り、1メートルあたり平均42.6マイクログラムである。 監視と緩和戦略は、汚染データを集めるための機器への高価な投資を必要とする。 低コストのセンサ技術と機械学習手法が、意思決定のための信頼できる情報を得る代替ソリューションとして登場した。 本稿では,ルワンダにおける大気汚染の傾向を分析し,ルワンダに展開する低コストセンサネットワークによって収集されたデータに適した予測モデルを提案する。

Air pollution is a major public health problem worldwide although the lack of data is a global issue for most low and middle income countries. Ambient air pollution in the form of fine particulate matter (PM2.5) exceeds the World Health Organization guidelines in Rwanda with a daily average of around 42.6 microgram per meter cube. Monitoring and mitigation strategies require an expensive investment in equipment to collect pollution data. Low-cost sensor technology and machine learning methods have appeared as an alternative solution to get reliable information for decision making. This paper analyzes the trend of air pollution in Rwanda and proposes forecasting models suitable to data collected by a network of low-cost sensors deployed in Rwanda.
翻訳日:2022-05-24 02:49:54 公開日:2022-05-20
# (参考訳) 公正強化学習に関する調査:理論と実践

Survey on Fair Reinforcement Learning: Theory and Practice ( http://arxiv.org/abs/2205.10032v1 )

ライセンス: CC BY 4.0
Pratik Gajane, Akrati Saxena, Maryam Tavakol, George Fletcher, and Mykola Pechenizkiy(参考訳) fairness-aware learningは、データ駆動機械学習技術による通常のパフォーマンス基準に加えて、さまざまなフェアネス制約を満たすことを目的としている。 公正を意識した学習の研究のほとんどは、公正な教師付き学習の設定を採用する。 しかし、多くの動的実世界のアプリケーションはシーケンシャルな意思決定問題を用いてよりうまくモデル化することができ、公平な強化学習はこれらの問題に対処するのにより適した代替手段を提供する。 本稿では,強化学習(rl)フレームワークを通じて実装された公平性アプローチの概要について述べる。 本稿では,高い精度で公平な解を求めるために,rl法を適用した様々な実用的応用について考察する。 さらに、公正強化学習理論の様々な側面、それらを単一エージェントRL、複数エージェントRL、RLによる長期公正、オフライン学習に編成する。 さらに,fair-rlの分野を進めるために検討すべき重要な課題をいくつか紹介する。 一 社会的偏見の是正 二 集団公正又は個別公正の実現可能性、及び 三 RLの説明可能性 本研究は,実世界問題に関する実証的研究とともに数学的保証を提供する論文を議論する中で,研究者と実践者双方にとって有益である。

Fairness-aware learning aims at satisfying various fairness constraints in addition to the usual performance criteria via data-driven machine learning techniques. Most of the research in fairness-aware learning employs the setting of fair-supervised learning. However, many dynamic real-world applications can be better modeled using sequential decision-making problems and fair reinforcement learning provides a more suitable alternative for addressing these problems. In this article, we provide an extensive overview of fairness approaches that have been implemented via a reinforcement learning (RL) framework. We discuss various practical applications in which RL methods have been applied to achieve a fair solution with high accuracy. We further include various facets of the theory of fair reinforcement learning, organizing them into single-agent RL, multi-agent RL, long-term fairness via RL, and offline learning. Moreover, we highlight a few major issues to explore in order to advance the field of fair-RL, namely - i) correcting societal biases, ii) feasibility of group fairness or individual fairness, and iii) explainability in RL. Our work is beneficial for both researchers and practitioners as we discuss articles providing mathematical guarantees as well as articles with empirical studies on real-world problems.
翻訳日:2022-05-24 02:42:12 公開日:2022-05-20
# (参考訳) 事前学習言語モデルに対する極端パラメータ圧縮の探索

Exploring Extreme Parameter Compression for Pre-trained Language Models ( http://arxiv.org/abs/2205.10036v1 )

ライセンス: CC BY 4.0
Yuxin Ren, Benyou Wang, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 最近の研究は、自然言語処理における大規模なトランスフォーマーベースの事前学習モデル、特に事前学習言語モデル(plm)の可能性を検討した。 これは金融コストや二酸化炭素排出量といった様々な観点から多くの懸念を提起する。 BERTのような圧縮PLMは、高速な推論とより安価なデプロイメントのために、無視可能なパフォーマンス損失を持つ。 本研究では, PLM の圧縮比を増大させることを目標とし, テンソル分解はポテンシャルであるが, 未検討である。 圧縮時の効率と効率を改善するため、2つの分解・再構成プロトコルが提案されている。 Transformer層で${1}/{7}$パラメータを圧縮したBERTは、GLUEベンチマークでオリジナルのBERTよりも若干良い場合があります。 小さなバージョンは、$ {1}/{48} $ encoderパラメータ(埋め込み層を除く200M未満のパラメータ)と推論で2.7 \times$高速なBERT-baseのパフォーマンスを96.7\%で達成している。 提案手法が知識蒸留などの既存の圧縮手法と直交することを示すために, 蒸留bertにおける提案手法の利点についても検討する。

Recent work explored the potential of large-scale Transformer-based pre-trained models, especially Pre-trained Language Models (PLMs) in natural language processing. This raises many concerns from various perspectives, e.g., financial costs and carbon emissions. Compressing PLMs like BERT with negligible performance loss for faster inference and cheaper deployment has attracted much attention. In this work, we aim to explore larger compression ratios for PLMs, among which tensor decomposition is a potential but under-investigated one. Two decomposition and reconstruction protocols are further proposed to improve the effectiveness and efficiency during compression. Our compressed BERT with ${1}/{7}$ parameters in Transformer layers performs on-par with, sometimes slightly better than the original BERT in GLUE benchmark. A tiny version achieves $96.7\%$ performance of BERT-base with $ {1}/{48} $ encoder parameters (i.e., less than 2M parameters excluding the embedding layer) and $2.7 \times$ faster on inference. To show that the proposed method is orthogonal to existing compression methods like knowledge distillation, we also explore the benefit of the proposed method on a distilled BERT.
翻訳日:2022-05-24 02:10:39 公開日:2022-05-20
# (参考訳) sigmoidally preconditioned off-policy learning:強化学習のための新しい探索法

Sigmoidally Preconditioned Off-policy Learning:a new exploration method for reinforcement learning ( http://arxiv.org/abs/2205.10047v1 )

ライセンス: CC BY 4.0
Xing Chen, Dongcui Diao, Hechang Chen, Hengshuai Yao, Jielong Yang, Haiyin Piao, Zhixiao Sun, Bei Jiang, Yi Chang(参考訳) 強化学習の大きな難点の1つは、"em off-policy} サンプルから学習することであり、これはアルゴリズムが評価するもの(ターゲットポリシー)とは異なるポリシー(行動ポリシー)によって収集される。 オフポリシー学習は、行動ポリシーからターゲットポリシーへのサンプルの分布を補正する必要がある。 残念ながら、重要なサンプリングは本質的に高分散の問題であり、政策勾配法では勾配推定が不十分である。 本稿では,非政治的アクター・クリティカルアーキテクチャに着目し,保守政策イテレーション(CPI)の目的にプレコンディショナーを適用することで,重要度サンプリングの高分散を制御できるプリコンディショニング・プロキシ・ポリシー・オプティマイション(P3O)という新しい手法を提案する。 このプリコンディショニングは、ポリシーが変更されていない場合、勾配が最大であり、従ってポリシー勾配がパラメータ空間の効率的な探索のために大きなパラメータ更新を駆動する特別な方法で、sgmoid関数を使用する。 これは、既存の探査手法が状態や行動の新規性に基づいていることを考えれば、これまで研究されていない新しい探査方法である。 離散的タスクと連続的タスクの両方で最高のパフォーマンスのアルゴリズムを比較し、DECON測定値の「オフ・ポリティネス」に基づいて、P3OはPPOよりもオフ・ポリティシーであることが確認され、P3OはPPOよりも大きなポリシー空間で探索する。 また,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることを示した。

One of the major difficulties of reinforcement learning is learning from {\em off-policy} samples, which are collected by a different policy (behavior policy) from what the algorithm evaluates (the target policy). Off-policy learning needs to correct the distribution of the samples from the behavior policy towards that of the target policy. Unfortunately, important sampling has an inherent high variance issue which leads to poor gradient estimation in policy gradient methods. We focus on an off-policy Actor-Critic architecture, and propose a novel method, called Preconditioned Proximal Policy Optimization (P3O), which can control the high variance of importance sampling by applying a preconditioner to the Conservative Policy Iteration (CPI) objective. {\em This preconditioning uses the sigmoid function in a special way that when there is no policy change, the gradient is maximal and hence policy gradient will drive a big parameter update for an efficient exploration of the parameter space}. This is a novel exploration method that has not been studied before given that existing exploration methods are based on the novelty of states and actions. We compare with several best-performing algorithms on both discrete and continuous tasks and the results confirmed that {\em P3O is more off-policy than PPO} according to the "off-policyness" measured by the DEON metric, and P3O explores in a larger policy space than PPO. Results also show that our P3O maximizes the CPI objective better than PPO during the training process.
翻訳日:2022-05-24 01:24:08 公開日:2022-05-20
# (参考訳) 自己統治型収束保証による超高速二値最適化に向けて

Towards Extremely Fast Bilevel Optimization with Self-governed Convergence Guarantees ( http://arxiv.org/abs/2205.10054v1 )

ライセンス: CC BY 4.0
Risheng Liu, Xuan Liu, Wei Yao, Shangzhi Zeng, Jin Zhang(参考訳) グラデーション手法は、学習および視覚分野におけるbi-level optimization(blo)の主流技術となっている。 既存の作品の妥当性は、非常に高い精度で一連の近似部分問題を解くことに大きく依存している。 残念ながら、近似精度を達成するには、大量の時間を要するイテレーションを実行し、計算負荷を自然に発生させる必要がある。 そこで本研究では,この重要な計算問題に対処する。 特に,既存の明示的で暗黙的なGradient-based BLO(GBLO)を均一に理解するための単一レベル定式化を提案する。 これは我々の設計した反例とともに、gbloとそれらのナイーブ加速度の基本的な数値的および理論的問題を明確に示すことができる。 二値乗算器を新しい変数として導入することにより、二値補正による二値交互勾配(BAGDC)を確立する。 我々の収束結果の顕著な特徴は、元の非加速GBLOバージョンと比較して、高速なBAGDCは定常性に対する非漸近収束理論を統一的に認めることである。 提案するアルゴリズムフレームワークの優位性を示すために,様々な数値実験も行われている。

Gradient methods have become mainstream techniques for Bi-Level Optimization (BLO) in learning and vision fields. The validity of existing works heavily relies on solving a series of approximation subproblems with extraordinarily high accuracy. Unfortunately, to achieve the approximation accuracy requires executing a large quantity of time-consuming iterations and computational burden is naturally caused. This paper is thus devoted to address this critical computational issue. In particular, we propose a single-level formulation to uniformly understand existing explicit and implicit Gradient-based BLOs (GBLOs). This together with our designed counter-example can clearly illustrate the fundamental numerical and theoretical issues of GBLOs and their naive accelerations. By introducing the dual multipliers as a new variable, we then establish Bilevel Alternating Gradient with Dual Correction (BAGDC), a general framework, which significantly accelerates different categories of existing methods by taking specific settings. A striking feature of our convergence result is that, compared to those original unaccelerated GBLO versions, the fast BAGDC admits a unified non-asymptotic convergence theory towards stationarity. A variety of numerical experiments have also been conducted to demonstrate the superiority of the proposed algorithmic framework.
翻訳日:2022-05-24 01:08:00 公開日:2022-05-20
# (参考訳) SVMにおける指数収束率の1例

A Case of Exponential Convergence Rates for SVM ( http://arxiv.org/abs/2205.10055v1 )

ライセンス: CC BY 4.0
Vivien Cabannes, Stefano Vigogna(参考訳) 分類は、しばしば導入機械学習クラスで説明される最初の問題である。 分類の一般化保証は歴史的にvapnik-chervonenkis理論によって提供されてきた。 しかし、これらの保証は難解なアルゴリズムに基づいているため、分類におけるサロゲート法の理論が導かれる。 代理法によって提供される保証はキャリブレーションの不等式に基づいており、いくつかのマージン条件下では極めて準最適であることが示されている。 これらの「超」高速速度は滑らかなサロゲートではよく理解されているが、この画像は有名なサポートベクターマシンに関連するヒンジ損失のような非スムース損失に対してぼやけている。 本稿では,高速収束率を得るための簡単な機構を提案し,そのSVMへの応用について検討する。 特に,SVM は,固い Tsybakov マージン条件を仮定しなくても指数収束率を示すことを示す。

Classification is often the first problem described in introductory machine learning classes. Generalization guarantees of classification have historically been offered by Vapnik-Chervonenkis theory. Yet those guarantees are based on intractable algorithms, which has led to the theory of surrogate methods in classification. Guarantees offered by surrogate methods are based on calibration inequalities, which have been shown to be highly sub-optimal under some margin conditions, failing short to capture exponential convergence phenomena. Those "super" fast rates are becoming to be well understood for smooth surrogates, but the picture remains blurry for non-smooth losses such as the hinge loss, associated with the renowned support vector machines. In this paper, we present a simple mechanism to obtain fast convergence rates and we investigate its usage for SVM. In particular, we show that SVM can exhibit exponential convergence rates even without assuming the hard Tsybakov margin condition.
翻訳日:2022-05-24 00:53:05 公開日:2022-05-20
# (参考訳) 弱歪表現学習のための関係情報の活用

Leveraging Relational Information for Learning Weakly Disentangled Representations ( http://arxiv.org/abs/2205.10056v1 )

ライセンス: CC BY 4.0
Andrea Valenti, Davide Bacciu(参考訳) 絡み合いは神経表現を強制するのは難しい性質である。 これは、部分的には、神経表現の単一孤立次元におけるデータの変動の関連因子の分離に重きを置いている、絡み合う問題の形式化によるものかもしれない。 このような定義は制約的であり、下流タスクの点では必ずしも有益ではないと論じている。 本研究では,関係学習の概念を生かした,(弱々しい)非絡み合い表現の学習に対する代替的視点を示す。 我々は、生成因子の特定のインスタンスに対応する潜在空間の領域を特定し、それらの領域間の関係を学習し、潜在コードの制御された変更を行う。 また,このような弱い絡み合いアプローチを実装した複合生成モデルも導入する。 実験により、学習した表現は、高品質なデータサンプルを効果的に生成するのに必要な情報を保持しながら、データの変化の関連要因を分離できることを示した。

Disentanglement is a difficult property to enforce in neural representations. This might be due, in part, to a formalization of the disentanglement problem that focuses too heavily on separating relevant factors of variation of the data in single isolated dimensions of the neural representation. We argue that such a definition might be too restrictive and not necessarily beneficial in terms of downstream tasks. In this work, we present an alternative view over learning (weakly) disentangled representations, which leverages concepts from relational learning. We identify the regions of the latent space that correspond to specific instances of generative factors, and we learn the relationships among these regions in order to perform controlled changes to the latent codes. We also introduce a compound generative model that implements such a weak disentanglement approach. Our experiments shows that the learned representations can separate the relevant factors of variation in the data, while preserving the information needed for effectively generating high quality data samples.
翻訳日:2022-05-24 00:09:44 公開日:2022-05-20
# (参考訳) ディープ・エビデンシャル・レグレッションにおける不合理な効果

The Unreasonable Effectiveness of Deep Evidential Regression ( http://arxiv.org/abs/2205.10060v1 )

ライセンス: CC BY 4.0
Nis Meinert, Jakob Gawlikowski, Alexander Lavin(参考訳) 機械学習システムでは、安全性クリティカルな領域にますます展開されるため、原則に基づく不確実性推論が必要となる。 不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、アレター性およびてんかん性不確実性の学習に基づくもので、従来の決定論的手法や典型的なベイズ的NNよりも、特にアレター性およびてんかん性不確実性の解離を約束する。 ディープ・エビデンシャル・レグレッション(Dep Evidential Regression,DER)の実証的な成功にもかかわらず、なぜ提案手法が機能するのかという疑問を提起する数学的基礎には重要なギャップがある。 我々は、理論上の欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実な定量化ではなくヒューリスティックであることを示す。 今後,NN から動脈およびてんかんの不確かさを抽出する方法の補正と再定義を提案する。

There is a significant need for principled uncertainty reasoning in machine learning systems as they are increasingly deployed in safety-critical domains. A new approach with uncertainty-aware regression-based neural networks (NNs), based on learning evidential distributions for aleatoric and epistemic uncertainties, shows promise over traditional deterministic methods and typical Bayesian NNs, notably with the capabilities to disentangle aleatoric and epistemic uncertainties. Despite some empirical success of Deep Evidential Regression (DER), there are important gaps in the mathematical foundation that raise the question of why the proposed technique seemingly works. We detail the theoretical shortcomings and analyze the performance on synthetic and real-world data sets, showing that Deep Evidential Regression is a heuristic rather than an exact uncertainty quantification. We go on to propose corrections and redefinitions of how aleatoric and epistemic uncertainties should be extracted from NNs.
翻訳日:2022-05-23 23:55:17 公開日:2022-05-20
# (参考訳) Uzbek affix finite state machine for stemming(英語)

Uzbek affix finite state machine for stemming ( http://arxiv.org/abs/2205.10078v1 )

ライセンス: CC BY 4.0
Maksud Sharipov, Ulugbek Salaev(参考訳) 本研究は,有限状態機械を用いたウズベク語の形態解析器を提案する。 提案手法はウズベク語の形態素解析であり,接尾辞ストリッピングを用いて根を同定し,レキシコンを含まない。 本手法は,大量のテキストからの単語の形態解析を高速に行うとともに,語彙の保持にメモリを用いることは不要である。 ウズベクによれば、凝集言語は有限状態機械(FSM)で設計することができる。 従来の研究とは対照的に、ウズベク語の形態素規則を左右順に用いて、すべての単語クラスに対して完成したFSMをモデル化した。 本稿では,接尾辞の分類,接尾辞クラス毎のfsmの生成,単語解析のためのヘッドマシンへの組合せなど,この手法の段階について述べる。

This work presents a morphological analyzer for the Uzbek language using a finite state machine. The proposed methodology is a morphologic analysis of Uzbek words by using an affix striping to find a root and without including any lexicon. This method helps to perform morphological analysis of words from a large amount of text at high speed as well as it is not required using of memory for keeping vocabulary. According to Uzbek, an agglutinative language can be designed with finite state machines (FSMs). In contrast to the previous works, this study modeled the completed FSMs for all word classes by using the Uzbek language's morphotactic rules in right to left order. This paper shows the stages of this methodology including the classification of the affixes, the generation of the FSMs for each affix class, and the combination into a head machine to make analysis a word.
翻訳日:2022-05-23 23:37:21 公開日:2022-05-20
# (参考訳) ニューラルネットワークにおける独特な特徴の意図しない記憶

Unintended memorisation of unique features in neural networks ( http://arxiv.org/abs/2205.10079v1 )

ライセンス: CC BY 4.0
John Hartley, Sotirios A. Tsaftaris(参考訳) ニューラルネットワークは、記憶と漏洩トレーニングデータに対する適合性のために、プライバシのリスクを引き起こす。 ベンチマーク画像データセットで訓練された多層パーセプトロンと畳み込みニューラルネットワークによって、トレーニングデータに一度だけ発生するユニークな特徴が記憶されることを示す。 医用画像などセンシティブなトレーニングデータが利用できないような設定のために,本手法を設計する。 私たちの設定はユニークな特徴を知っていますが、トレーニングデータやモデルウェイト、ユニークな機能ラベルなどではありません。 本研究では,モデルの出力分布のkl偏差を比較することにより,モデルの感度をユニークな特徴量に推定するスコアを開発した。 オーバーフィッティングを防ぐための典型的な戦略は、ユニークな特徴の記憶を妨げない。 そして、その特徴を含む画像は、画像の他の特徴の影響にかかわらず、非常に影響力がある。 また,トレーニングシードによる記憶の変化も顕著である。 これらの結果は、ニューラルネットワークが、まれに発生するプライベートな情報に対してプライバシリスクをもたらすことを暗示している。 このリスクは、不完全なデータ洗浄プロセスのためにトレーニングデータに残ると、センシティブな患者情報が記憶されるため、医療アプリケーションではより顕著である。

Neural networks pose a privacy risk due to their propensity to memorise and leak training data. We show that unique features occurring only once in training data are memorised by discriminative multi-layer perceptrons and convolutional neural networks trained on benchmark imaging datasets. We design our method for settings where sensitive training data is not available, for example medical imaging. Our setting knows the unique feature, but not the training data, model weights or the unique feature's label. We develop a score estimating a model's sensitivity to a unique feature by comparing the KL divergences of the model's output distributions given modified out-of-distribution images. We find that typical strategies to prevent overfitting do not prevent unique feature memorisation. And that images containing a unique feature are highly influential, regardless of the influence the images's other features. We also find a significant variation in memorisation with training seed. These results imply that neural networks pose a privacy risk to rarely occurring private information. This risk is more pronounced in healthcare applications since sensitive patient information can be memorised when it remains in training data due to an imperfect data sanitisation process.
翻訳日:2022-05-23 23:27:57 公開日:2022-05-20
# (参考訳) 半教師付き自動icd符号化

Semi-self-supervised Automated ICD Coding ( http://arxiv.org/abs/2205.10088v1 )

ライセンス: CC BY 4.0
Hlynur D. Hlynsson, Steind\'or Ellertsson, J\'on F. Da{\dh}ason, Emil L. Sigurdsson, Hrafn Loftsson(参考訳) 臨床用テキストノート (CTN) には、医師が患者を診察しインタビューする際に、構造化されていない自由テキスト形式で書かれた推論プロセスが含まれている。 近年、icdコーディングとして知られる課題であるctnsから医師の診断を予測するために機械学習が有用であることを示すいくつかの研究が公表されている。 データアノテーションは、特に医療データの場合のように、専門化の程度が必要な場合には、時間がかかります。 本稿では,アイスランドのCTNの希少な注釈付きデータセットを,機械学習型計算で半自己管理的に拡張する方法を提案する。 我々は、注釈付きCTNの小さなセットでニューラルネットワークをトレーニングし、アノテーションなしCTNのセットから臨床特徴を抽出する。 これらの臨床的特徴は、医師が患者の相談中に答えを見つける可能性のある1000の潜在的な質問に対する回答から成り立っている。 この特徴は、特定の種類の疾患の診断のために分類器を訓練するために使用される。 本稿では,このデータ拡張法を医師に3層にわたって評価した結果について報告する。 データ拡張法では,患者の診査や診断からの臨床所見が得られれば,有意な有意な有意な効果が示される。 我々は,検査や検査を含まない臨床特徴に基づいて意思決定を行うシステムに対して,不足データセットを増大させる手法を推奨する。

Clinical Text Notes (CTNs) contain physicians' reasoning process, written in an unstructured free text format, as they examine and interview patients. In recent years, several studies have been published that provide evidence for the utility of machine learning for predicting doctors' diagnoses from CTNs, a task known as ICD coding. Data annotation is time consuming, particularly when a degree of specialization is needed, as is the case for medical data. This paper presents a method of augmenting a sparsely annotated dataset of Icelandic CTNs with a machine-learned imputation in a semi-self-supervised manner. We train a neural network on a small set of annotated CTNs and use it to extract clinical features from a set of un-annotated CTNs. These clinical features consist of answers to about a thousand potential questions that a physician might find the answers to during a consultation of a patient. The features are then used to train a classifier for the diagnosis of certain types of diseases. We report the results of an evaluation of this data augmentation method over three tiers of data availability to the physician. Our data augmentation method shows a significant positive effect which is diminished when clinical features from the examination of the patient and diagnostics are made available. We recommend our method for augmenting scarce datasets for systems that take decisions based on clinical features that do not include examinations or tests.
翻訳日:2022-05-23 23:08:29 公開日:2022-05-20
# (参考訳) テキストをプライベートにする方法? プライバシー保護自然言語処理のためのディープラーニング手法の体系的レビュー

How to keep text private? A systematic review of deep learning methods for privacy-preserving natural language processing ( http://arxiv.org/abs/2205.10095v1 )

ライセンス: CC BY 4.0
Samuel Sousa and Roman Kern(参考訳) 自然言語処理(nlp)タスクのためのディープラーニング(dl)モデルは、プライベートデータを処理し、侵入や開示に対する保護を要求することが多い。 欧州連合の一般データ保護規則(GDPR)のようなデータ保護法は、それによってプライバシーの必要性を強制する。 近年, プライバシ保護のためのNLP手法が数多く提案されているが, 組織化のためのカテゴリがまだ導入されていないため, 文献の進歩に追随することが困難である。 このギャップを埋めるために、この記事では、2016年から2020年にかけて発行されたプライバシー保護NLPに関する60以上のDLメソッドを体系的にレビューし、理論的基礎、プライバシー強化技術、および現実のシナリオに対するそれらの適合性の分析について述べる。 まず,既存の手法をデータ保護方法,信頼性手法,検証方法の3つのカテゴリに分類する新しい分類法を提案する。 第2に,プライバシの脅威,アプリケーションのデータセット,プライバシ評価のためのメトリクスの広範な要約を紹介する。 第3に,レビュー全体を通じて,nlpパイプラインのプライバシ問題について全体論的に説明する。 さらに,データのトレーサビリティ,計算オーバーヘッド,データセットサイズ,組込みにおける人間のバイアス,プライバシ利用トレードオフに関する,プライバシ保全nlpのオープンな課題について論じる。 最後に,プライバシ保護型nlpモデルの継続的な研究と開発を指導する今後の研究指針を提案する。

Deep learning (DL) models for natural language processing (NLP) tasks often handle private data, demanding protection against breaches and disclosures. Data protection laws, such as the European Union's General Data Protection Regulation (GDPR), thereby enforce the need for privacy. Although many privacy-preserving NLP methods have been proposed in recent years, no categories to organize them have been introduced yet, making it hard to follow the progress of the literature. To close this gap, this article systematically reviews over sixty DL methods for privacy-preserving NLP published between 2016 and 2020, covering theoretical foundations, privacy-enhancing technologies, and analysis of their suitability for real-world scenarios. First, we introduce a novel taxonomy for classifying the existing methods into three categories: data safeguarding methods, trusted methods, and verification methods. Second, we present an extensive summary of privacy threats, datasets for applications, and metrics for privacy evaluation. Third, throughout the review, we describe privacy issues in the NLP pipeline in a holistic view. Further, we discuss open challenges in privacy-preserving NLP regarding data traceability, computation overhead, dataset size, the prevalence of human biases in embeddings, and the privacy-utility tradeoff. Finally, this review presents future research directions to guide successive research and development of privacy-preserving NLP models.
翻訳日:2022-05-23 22:07:25 公開日:2022-05-20
# (参考訳) 信頼性に基づくメッシュ・グリッド画像再構成

Reliability-based Mesh-to-Grid Image Reconstruction ( http://arxiv.org/abs/2205.10138v1 )

ライセンス: CC BY 4.0
J\'an Koloda, J\"urgen Seiler and Andr\'e Kaup(参考訳) 本稿では,非整数位置に位置する試料からの画像再構成法であるメッシュについて述べる。 これは、スーパーレゾリューション、ワーピング、マルチカメラシステムでの仮想ビュー生成など、多くの画像処理アプリケーションで一般的なシナリオである。 提案手法は,リコンストラクションエラーを低減するためにデノイジングを用いる新たな信頼性ベースのコンテンツ適応フレームワークにより,後に洗練される一連の初期推定値に依存する。 初期推定の信頼性が計算され、より信頼性の低い推定に強い分別が適用される。 提案手法は,初期推定値に対して2dB以上(PSNR)で再現品質を向上し,最先端の復調法を最大0.7dB向上させる。

This paper presents a novel method for the reconstruction of images from samples located at non-integer positions, called mesh. This is a common scenario for many image processing applications, such as super-resolution, warping or virtual view generation in multi-camera systems. The proposed method relies on a set of initial estimates that are later refined by a new reliability-based content-adaptive framework that employs denoising in order to reduce the reconstruction error. The reliability of the initial estimate is computed so stronger denoising is applied to less reliable estimates. The proposed technique can improve the reconstruction quality by more than 2 dB (in terms of PSNR) with respect to the initial estimate and it outperforms the state-of-the-art denoising-based refinement by up to 0.7 dB.
翻訳日:2022-05-23 22:05:05 公開日:2022-05-20
# (参考訳) MIMOアーキテクチャにおける効率的な機能共有を目指して

Towards efficient feature sharing in MIMO architectures ( http://arxiv.org/abs/2205.10139v1 )

ライセンス: CC BY 4.0
R\'emy Sun, Alexandre Ram\'e, Cl\'ement Masson, Nicolas Thome, Matthieu Cord(参考訳) マルチ入力マルチアウトプットアーキテクチャは、1つのベースネットワーク内で複数のサブネットワークをトレーニングし、そのサブネットワークの予測を平均して、センスリングを無料で利用できるようにする。 相対的な成功にもかかわらず、これらのアーキテクチャはパラメータの使用に不便である。 実際、我々はこの論文で、学習したサブネットワークは、より小さなモバイルやAR/VRデバイスに適用性を制限する汎用的な機能でさえも共有できないことを強調した。 この挙動はマルチインプット・マルチアウトプット・フレームワークの不適切な部分に由来すると仮定する。 この問題を解決するために,サブネットワークが機能を適切に共有できるように,mimoアーキテクチャにおける新しい非混合ステップを提案する。 CIFAR-100の予備実験により,小型アーキテクチャにおける特徴共有とモデル性能の向上が可能となった。

Multi-input multi-output architectures propose to train multiple subnetworks within one base network and then average the subnetwork predictions to benefit from ensembling for free. Despite some relative success, these architectures are wasteful in their use of parameters. Indeed, we highlight in this paper that the learned subnetwork fail to share even generic features which limits their applicability on smaller mobile and AR/VR devices. We posit this behavior stems from an ill-posed part of the multi-input multi-output framework. To solve this issue, we propose a novel unmixing step in MIMO architectures that allows subnetworks to properly share features. Preliminary experiments on CIFAR-100 show our adjustments allow feature sharing and improve model performance for small architectures.
翻訳日:2022-05-23 21:56:56 公開日:2022-05-20
# (参考訳) 物体認識の堅牢性の発達的軌跡--子どもは小さな大人に似ているが、大きなディープニューラルネットワークとは異なっている

The developmental trajectory of object recognition robustness: children are like small adults but unlike big deep neural networks ( http://arxiv.org/abs/2205.10144v1 )

ライセンス: CC BY 4.0
Lukas S. Huber, Robert Geirhos, Felix A. Wichmann(参考訳) 実験室のオブジェクト認識タスクでは、大人の人間とディープニューラルネットワーク(dnn)の両方が天井近くで動作します。 物体認識性能が幅広い画像歪みに対して堅牢である成人と異なり、標準画像Net(1.3M画像)で訓練されたDNNは歪んだ画像では不十分である。 しかし、過去2年間、DNNの歪みの堅牢性は著しく向上し、主に大規模データセット$\unicode{x2014}$ordersがImageNetよりも大きくなった。 この単純なブルートフォースアプローチは、DNNにおいて人間のレベルの堅牢性を達成するのに非常に効果的であるが、人間の堅牢性も単に幼少期以降の視覚的入力による(歪んだ)経験によるものなのかという疑問を提起する。 本稿では,146名の子ども(年齢4$\unicode{x2013}$15)のコアオブジェクト認識性能を成人とdnnとの比較により検討する。 まず、すでに4$\unicode{x2013}$6の子供が、画像の歪みや、ImageNetで訓練されたDNNよりもはるかに堅牢であることがわかった。 第二に、$\unicode{x201C}$images$\unicode{x201D}$ childrenが生涯にわたって露出していると見積もった。 様々なDNNと比較して、子供の高い堅牢性は比較的少ないデータを必要とする。 第三に、オブジェクトを認識するとき、$\unicode{x2014}$like adultだが、DNNs$\unicode{x2014}$rely heavily on shape but not on texture cues。 以上の結果から, 歪みに対する顕著な堅牢性は, 人間の物体認識の発達過程の早期に出現し, 変形した視覚入力による経験の蓄積の結果である可能性が示唆された。 現在のDNNは、堅牢性に関して人間のパフォーマンスにマッチするが、それを行うには、異なる、より多くのデータ処理戦略に依存しているようだ。

In laboratory object recognition tasks based on undistorted photographs, both adult humans and Deep Neural Networks (DNNs) perform close to ceiling. Unlike adults', whose object recognition performance is robust against a wide range of image distortions, DNNs trained on standard ImageNet (1.3M images) perform poorly on distorted images. However, the last two years have seen impressive gains in DNN distortion robustness, predominantly achieved through ever-increasing large-scale datasets$\unicode{x2014}$orders of magnitude larger than ImageNet. While this simple brute-force approach is very effective in achieving human-level robustness in DNNs, it raises the question of whether human robustness, too, is simply due to extensive experience with (distorted) visual input during childhood and beyond. Here we investigate this question by comparing the core object recognition performance of 146 children (aged 4$\unicode{x2013}$15) against adults and against DNNs. We find, first, that already 4$\unicode{x2013}$6 year-olds showed remarkable robustness to image distortions and outperform DNNs trained on ImageNet. Second, we estimated the number of $\unicode{x201C}$images$\unicode{x201D}$ children have been exposed to during their lifetime. Compared to various DNNs, children's high robustness requires relatively little data. Third, when recognizing objects children$\unicode{x2014}$like adults but unlike DNNs$\unicode{x2014}$rely heavily on shape but not on texture cues. Together our results suggest that the remarkable robustness to distortions emerges early in the developmental trajectory of human object recognition and is unlikely the result of a mere accumulation of experience with distorted visual input. Even though current DNNs match human performance regarding robustness they seem to rely on different and more data-hungry strategies to do so.
翻訳日:2022-05-23 21:49:31 公開日:2022-05-20
# (参考訳) ベストレスポンス制約によるGANの再検討:展望,方法論,応用

Revisiting GANs by Best-Response Constraint: Perspective, Methodology, and Application ( http://arxiv.org/abs/2205.10146v1 )

ライセンス: CC BY 4.0
Risheng Liu, Jiaxin Gao, Xuan Liu and Xin Fan(参考訳) 近年,GAN(Generative Adversarial Networks)に対処するために,ミニマックス型単一レベル最適化の定式化とそのバリエーションが広く利用されている。 残念なことに、これらの交互学習戦略は、生成器と判別器との間の本質的な関係を正確に明らかにできないため、モードの崩壊、トレーニングフェーズにおける勾配の消失、振動など、一連の問題を引き起こすことが容易に証明されている。 本稿では,階層的最適化の観点からgansの基本機構を調べることにより,ジェネレータの判別器への潜在的依存性を明示的に定式化できる汎用学習フレームワークである最良応答制約(brc)を提案する。 既存の時間的二段階反復を採用するのではなく、我々の高速解戦略として、外積ヘッセン近似を用いた暗黙的な勾配スキームを設計する。 異なるモチベーションや定式化があっても、様々な既存のGAN ALLを柔軟BRC法により一様に改善できることを実証する。 以上の結果から,提案フレームワークの有効性,柔軟性,安定性が検証された。

In past years, the minimax type single-level optimization formulation and its variations have been widely utilized to address Generative Adversarial Networks (GANs). Unfortunately, it has been proved that these alternating learning strategies cannot exactly reveal the intrinsic relationship between the generator and discriminator, thus easily result in a series of issues, including mode collapse, vanishing gradients and oscillations in the training phase, etc. In this work, by investigating the fundamental mechanism of GANs from the perspective of hierarchical optimization, we propose Best-Response Constraint (BRC), a general learning framework, that can explicitly formulate the potential dependency of the generator on the discriminator. Rather than adopting these existing time-consuming bilevel iterations, we design an implicit gradient scheme with outer-product Hessian approximation as our fast solution strategy. \emph{Noteworthy, we demonstrate that even with different motivations and formulations, a variety of existing GANs ALL can be uniformly improved by our flexible BRC methodology.} Extensive quantitative and qualitative experimental results verify the effectiveness, flexibility and stability of our proposed framework.
翻訳日:2022-05-23 21:48:11 公開日:2022-05-20
# (参考訳) 混合画像のためのスワッピングセマンティックコンテンツ

Swapping Semantic Contents for Mixing Images ( http://arxiv.org/abs/2205.10158v1 )

ライセンス: CC BY 4.0
R\'emy Sun, Cl\'ement Masson, Gilles H\'enaff, Nicolas Thome, Matthieu Cord(参考訳) ディープアーキテクチャは、十分な量のラベル付きデータを提供する多くのタスクを解決できることが証明されている。 実際、Semi-Supervised Learningのような低ラベル設定では、利用可能なラベル付きデータの量が主要なボトルネックになっている。 データ拡張の混合は通常、クラス間のサンプルを無差別に混合するため、ラベル付きサンプルを新たに生成しない。 本研究では、画像背景にセマンティックスタイルのコードを埋め込むジェネレータを学習するSciMixフレームワークを導入し、データ拡張のための新しい混合スキームを得る。 そして、scimixは、その非倫理的な両親から多くの特性を継承する新しい混合サンプルを生成することを実証する。 その後、これらのサンプルがMean TeacherやFixmatchのようなパフォーマンス半教師付きフレームワークの改善や、小さなラベル付きデータセットでの完全な教師付き学習に利用できることを検証する。

Deep architecture have proven capable of solving many tasks provided a sufficient amount of labeled data. In fact, the amount of available labeled data has become the principal bottleneck in low label settings such as Semi-Supervised Learning. Mixing Data Augmentations do not typically yield new labeled samples, as indiscriminately mixing contents creates between-class samples. In this work, we introduce the SciMix framework that can learn to generator to embed a semantic style code into image backgrounds, we obtain new mixing scheme for data augmentation. We then demonstrate that SciMix yields novel mixed samples that inherit many characteristics from their non-semantic parents. Afterwards, we verify those samples can be used to improve the performance semi-supervised frameworks like Mean Teacher or Fixmatch, and even fully supervised learning on a small labeled dataset.
翻訳日:2022-05-23 21:34:41 公開日:2022-05-20
# (参考訳) AutoFedNLP: 効率的なFedNLPフレームワーク

AutoFedNLP: An efficient FedNLP framework ( http://arxiv.org/abs/2205.10162v1 )

ライセンス: CC BY 4.0
Dongqi Cai, Yaozong Wu, Shangguang Wang, Felix Xiaozhu Lin, Mengwei Xu(参考訳) トランスフォーマーベースの事前学習モデルは、優れた性能と汎用性のためにNLPに革命をもたらした。 下流タスクのための微調整済みモデルはしばしばプライベートデータを必要とし、フェデレート学習はデファクト・アプローチ(FedNLP)である。 しかし,FedNLPはモデルサイズが大きく,ネットワーク/計算コストが高いため,極めて遅いことが判明した。 実用的なfednlpを目指して、様々なモデル層に挿入された小さなボトルネックモジュールである、主要なビルディングブロックアダプタを識別する。 重要な課題は、トレーニング速度と効率が非常に敏感なアダプタの深さと幅を適切に設定することである。 最適な選択は、下流のNLPタスク、望ましいモデルの精度、クライアントリソースによって異なる。 銀塊の構成は存在せず、最適でない構成はトレーニングを著しく遅くする可能性がある。 アダプタ構成を自動化するために,既存のFedNLPを2つの新しい設計で拡張するフレームワークであるAutoFedNLPを提案する。 まず、AutoFedNLPはトレーニングセッションを通じてアダプタ構成を段階的にアップグレードする。 次にAutoFedNLPは、参加者デバイスをトライアルグループに割り当てることで、将来のアダプタ構成を継続的にプロファイルする。 クライアント側の計算を最小限にするため、AutoFedNLPは、FedNLPクライアントがアダプタ構成の連続的な変更の間に同じサンプルを何度もトレーニングし、クライアント上で計算されたアクティベーションをキャッシュするという事実を利用する。 大規模な実験により、AutoFedNLPはFedNLPのモデル収束遅延を数時間以内に短縮でき、これはバニラのFedNLPよりも155.5$\times$、強いベースラインよりも48$\times$速くすることができる。

Transformer-based pre-trained models have revolutionized NLP for superior performance and generality. Fine-tuning pre-trained models for downstream tasks often require private data, for which federated learning is the de-facto approach (i.e., FedNLP). However, our measurements show that FedNLP is prohibitively slow due to the large model sizes and the resultant high network/computation cost. Towards practical FedNLP, we identify as the key building blocks adapters, small bottleneck modules inserted at a variety of model layers. A key challenge is to properly configure the depth and width of adapters, to which the training speed and efficiency is highly sensitive. No silver-bullet configuration exists: the optimal choice varies across downstream NLP tasks, desired model accuracy, and client resources. A silver-bullet configuration does not exist and a non-optimal configuration could significantly slow down the training. To automate adapter configuration, we propose AutoFedNLP, a framework that enhances the existing FedNLP with two novel designs. First, AutoFedNLP progressively upgrades the adapter configuration throughout a training session. Second, AutoFedNLP continuously profiles future adapter configurations by allocating participant devices to trial groups. To minimize client-side computations, AutoFedNLP exploits the fact that a FedNLP client trains on the same samples repeatedly between consecutive changes of adapter configurations, and caches computed activations on clients. Extensive experiments show that AutoFedNLP can reduce FedNLP's model convergence delay to no more than several hours, which is up to 155.5$\times$ faster compared to vanilla FedNLP and 48$\times$ faster compared to strong baselines.
翻訳日:2022-05-23 21:20:02 公開日:2022-05-20
# (参考訳) 後継機能を用いたマルチタスク転送のためのタスクリラベリング

Task Relabelling for Multi-task Transfer using Successor Features ( http://arxiv.org/abs/2205.10175v1 )

ライセンス: CC BY 4.0
Martin Balla and Diego Perez-Liebana(参考訳) 深層強化学習は最近、複雑なドメインに関する様々な研究で非常に成功しています。 ほとんどの仕事は、対象とするタスクを解決する単一のポリシーを学ぶことに関心があるが、環境が変化してもエージェントがそれに対応できないという意味で固定されている。 継承機能(SF)は、特定の報酬関数に縛られないポリシーを学習可能にするメカニズムを提案する。 本研究では,資源収集,トラップ,工芸を特徴とするカスタム環境において,SFを報奨なく事前トレーニングする方法を検討する。 事前トレーニング後、さまざまなターゲットタスクにsfエージェントを公開し、新しいタスクにどの程度移行できるかを確認します。 転送はSFエージェントのさらなるトレーニングなしに行われ、代わりにタスクベクタを提供することによって行われる。 SFのトレーニングにおいて,エージェントの性能を大幅に向上させるタスクリラベリング手法を提案する。

Deep Reinforcement Learning has been very successful recently with various works on complex domains. Most works are concerned with learning a single policy that solves the target task, but is fixed in the sense that if the environment changes the agent is unable to adapt to it. Successor Features (SFs) proposes a mechanism that allows learning policies that are not tied to any particular reward function. In this work we investigate how SFs may be pre-trained without observing any reward in a custom environment that features resource collection, traps and crafting. After pre-training we expose the SF agents to various target tasks and see how well they can transfer to new tasks. Transferring is done without any further training on the SF agents, instead just by providing a task vector. For training the SFs we propose a task relabelling method which greatly improves the agent's performance.
翻訳日:2022-05-23 20:52:06 公開日:2022-05-20
# (参考訳) 都市環境におけるE-Scooter Riderの検出と分類

E-Scooter Rider Detection and Classification in Dense Urban Environments ( http://arxiv.org/abs/2205.10184v1 )

ライセンス: CC BY 4.0
Shane Gilroy, Darragh Mullins, Edward Jones, Ashkan Parsi and Martin Glavin(参考訳) 脆弱な道路利用者の正確な検出と分類は、異種交通に自動運転車を配備するための安全上の重要な要件である。 物理的な外観は歩行者と似ているが、電動スクーターのライダーは運動の特徴が明らかに異なり、最高速度は45kmphに達する。 eスクーターライダー検出の課題は、乗客が車両、交通インフラ、その他の道路利用者の間を移動すると、部分閉塞の頻度が増加する都市環境において悪化する。 これは、電動スクーターの乗客を歩行者として非検出または誤分類し、事故の軽減と自動走行車両の経路計画のための不正確な情報を提供する可能性がある。 本研究は,検出モデルの客観的評価を容易にするために,部分閉塞型E-スクータライダー検出のための新しいベンチマークを提案する。 技術の現状に対して15.93%の精度で検出性能を向上する,E-Scooterライダー検出の新規なオクルージョン対応手法が提案されている。

Accurate detection and classification of vulnerable road users is a safety critical requirement for the deployment of autonomous vehicles in heterogeneous traffic. Although similar in physical appearance to pedestrians, e-scooter riders follow distinctly different characteristics of movement and can reach speeds of up to 45kmph. The challenge of detecting e-scooter riders is exacerbated in urban environments where the frequency of partial occlusion is increased as riders navigate between vehicles, traffic infrastructure and other road users. This can lead to the non-detection or mis-classification of e-scooter riders as pedestrians, providing inaccurate information for accident mitigation and path planning in autonomous vehicle applications. This research introduces a novel benchmark for partially occluded e-scooter rider detection to facilitate the objective characterization of detection models. A novel, occlusion-aware method of e-scooter rider detection is presented that achieves a 15.93% improvement in detection performance over the current state of the art.
翻訳日:2022-05-23 20:38:11 公開日:2022-05-20
# (参考訳) 非凸電位からのサンプリングのための近似アルゴリズム

A Proximal Algorithm for Sampling from Non-convex Potentials ( http://arxiv.org/abs/2205.10188v1 )

ライセンス: CC BY 4.0
Jiaming Liang, Yongxin Chen(参考訳) 滑らかさに欠ける非凸電位に関するサンプリング問題について検討した。 特に,対数-ソボレフの不等式を満足する対象分布について考察する。 滑らかではなく、ポテンシャルは半滑らかあるいは多重半滑らか関数の和であると仮定される。 我々は,この難解なサンプリングタスクの最適化において,近位アルゴリズムに類似したサンプリングアルゴリズムを開発した。 本アルゴリズムは,交代サンプリングフレームワーク (asf) として知られるギブスサンプリングの特別な場合に基づいている。 本研究の重要な貢献は,非凸および半スムース設定における拒絶サンプリングに基づくasfの実践的実現である。 この研究は、非スムース/半スムース対凸分布に対する最近のアルゴリズムを、非凸ポテンシャルを持つ集合へと拡張する。 この研究で考慮されたサンプリングのほとんど全てのケースにおいて、我々の近位サンプリングアルゴリズムは、既存の全ての方法よりもより良い複雑さを達成する。

We study sampling problems associated with non-convex potentials that meanwhile lack smoothness. In particular, we consider target distributions that satisfy either logarithmic-Sobolev inequality or Poincar\'e inequality. Rather than smooth, the potentials are assumed to be semi-smooth or the summation of multiple semi-smooth functions. We develop a sampling algorithm that resembles proximal algorithms in optimization for this challenging sampling task. Our algorithm is based on a special case of Gibbs sampling known as the alternating sampling framework (ASF). The key contribution of this work is a practical realization of the ASF based on rejection sampling in the non-convex and semi-smooth setting. This work extends the recent algorithm in \cite{LiaChe21,LiaChe22} for non-smooth/semi-smooth log-concave distribution to the setting with non-convex potentials. In almost all the cases of sampling considered in this work, our proximal sampling algorithm achieves better complexity than all existing methods.
翻訳日:2022-05-23 20:24:22 公開日:2022-05-20
# (参考訳) 信用スコアモデルの公平性

The Fairness of Credit Scoring Models ( http://arxiv.org/abs/2205.10200v1 )

ライセンス: CC BY 4.0
Christophe Hurlin, Christophe P\'erignon, and S\'ebastien Saurin(参考訳) 信用市場では、スクリーニングアルゴリズムは良いタイプと悪いタイプの借り手を区別することを目的としている。 しかし、そのような場合、保護された属性(性別、年齢、人種的起源など)を共有する個人と、その他の人口を区別することが多い。 本稿では,(1)保護群と非保護群の間に統計的に有意な差異が存在するかどうかを検証し,(2)公正性の欠如の原因となる変数を同定する方法について述べる。 そして、フェアネスパフォーマンスのトレードオフを最適化するためにこれらの変数を使用します。 本フレームワークは, 貸し手によるアルゴリズムフェアネスの監視, 規制当局による制御, 保護団体の利益向上に関するガイダンスを提供する。

In credit markets, screening algorithms aim to discriminate between good-type and bad-type borrowers. However, when doing so, they also often discriminate between individuals sharing a protected attribute (e.g. gender, age, racial origin) and the rest of the population. In this paper, we show how (1) to test whether there exists a statistically significant difference between protected and unprotected groups, which we call lack of fairness and (2) to identify the variables that cause the lack of fairness. We then use these variables to optimize the fairness-performance trade-off. Our framework provides guidance on how algorithmic fairness can be monitored by lenders, controlled by their regulators, and improved for the benefit of protected groups.
翻訳日:2022-05-23 20:06:35 公開日:2022-05-20
# (参考訳) ブロックチェーン対応非同期フェデレーション学習の分散化について

On the Decentralization of Blockchain-enabled Asynchronous Federated Learning ( http://arxiv.org/abs/2205.10201v1 )

ライセンス: CC BY 4.0
Francesc Wilhelmi, Elia Guerra, Paolo Dini(参考訳) フェデレーション学習(fl)は、エッジコンピューティングパラダイムの出現によって、実運用環境での真のリアルタイムアプリケーションの実現が期待されている。 しかしながら、オーケストレーションのための中央サーバへの元々の依存は、セキュリティ、プライバシ、スケーラビリティに関するいくつかの懸念を提起している。 これらの問題を解決するために、ブロックチェーン技術は分散化、堅牢性、flへの信頼の強化をもたらすことが期待されている。 しかし、ブロックチェーン(FLchainとも呼ばれる)によるFLのエンパワーメントは、ブロックチェーンの完全な分散運用から自然に受け継がれる、台帳の不整合と情報年齢(AoI)の観点から、いくつかの意味を持つ。 このような問題は、ブロックチェーンの一時的な台帳バージョンを考えると、flデバイスはトレーニングに異なるモデルを使用する可能性があり、fl操作の非同期性を考慮すると、ローカルアップデート(時代遅れのモデルで計算される)が生成される可能性があることに起因している。 本稿では,FLチェーン設定の影響について光を当て,AoIと台帳の不整合がFL性能に与える影響について検討する。 この目的のために,flchain 操作の分散および非同期性をキャプチャ可能な忠実なシミュレーションツールを提供する。

Federated learning (FL), thanks in part to the emergence of the edge computing paradigm, is expected to enable true real-time applications in production environments. However, its original dependence on a central server for orchestration raises several concerns in terms of security, privacy, and scalability. To solve some of these worries, blockchain technology is expected to bring decentralization, robustness, and enhanced trust to FL. The empowerment of FL through blockchain (also referred to as FLchain), however, has some implications in terms of ledger inconsistencies and age of information (AoI), which are naturally inherited from the blockchain's fully decentralized operation. Such issues stem from the fact that, given the temporary ledger versions in the blockchain, FL devices may use different models for training, and that, given the asynchronicity of the FL operation, stale local updates (computed using outdated models) may be generated. In this paper, we shed light on the implications of the FLchain setting and study the effect that both the AoI and ledger inconsistencies have on the FL performance. To that end, we provide a faithful simulation tool that allows capturing the decentralized and asynchronous nature of the FLchain operation.
翻訳日:2022-05-23 20:05:31 公開日:2022-05-20
# (参考訳) アルゴリズム解釈可能性の測定:人間学習に基づくフレームワークとそれに対応する認知複雑性スコア

Measuring algorithmic interpretability: A human-learning-based framework and the corresponding cognitive complexity score ( http://arxiv.org/abs/2205.10207v1 )

ライセンス: CC BY 4.0
John P. Lalor, Hong Guo(参考訳) 信頼の構築、公平性の確保、説明責任の追跡にはアルゴリズムによる解釈が不可欠である。 しかし、アルゴリズムによる解釈可能性の形式的測定方法は存在しない。 本研究では,プログラミング言語理論と認知負荷理論に基づいて,アルゴリズムの解釈可能性を測定する枠組みを構築する。 提案手法は,人間がアルゴリズムを学習する過程を反映している。 測定フレームワークと結果の認知的複雑性スコアは,普遍性,計算可能性,一意性,単調性といった望ましい特性を有することを示す。 計測フレームワークをトイ例で説明し,フレームワークとその概念基盤を説明し,特にアルゴリズム選択時のトレードオフを考慮したマネージャに対して,フレームワークのメリットを示す。

Algorithmic interpretability is necessary to build trust, ensure fairness, and track accountability. However, there is no existing formal measurement method for algorithmic interpretability. In this work, we build upon programming language theory and cognitive load theory to develop a framework for measuring algorithmic interpretability. The proposed measurement framework reflects the process of a human learning an algorithm. We show that the measurement framework and the resulting cognitive complexity score have the following desirable properties - universality, computability, uniqueness, and monotonicity. We illustrate the measurement framework through a toy example, describe the framework and its conceptual underpinnings, and demonstrate the benefits of the framework, in particular for managers considering tradeoffs when selecting algorithms.
翻訳日:2022-05-23 19:51:51 公開日:2022-05-20
# (参考訳) 過パラメータ最小深層ニューラルネットワークの記憶と最適化

Memorization and Optimization in Deep Neural Networks with Minimum Over-parameterization ( http://arxiv.org/abs/2205.10217v1 )

ライセンス: CC BY 4.0
Simone Bombari, Mohammad Hossein Amani, Marco Mondelli(参考訳) Neural Tangent Kernel(NTK)は、ディープニューラルネットワークにおける記憶、最適化、一般化を保証する強力なツールとして登場した。 一連の研究によって、2層およびディープネットワークのntkスペクトルが研究され、最低でも$\omega(n)$ニューロンの層があり、トレーニングサンプルの数は$n$である。 さらに,パラメータ数がサンプル数を超える限り,サブ線形層幅の深いネットワークが強力な記憶器やオプティマイザであることを示す証拠も増えている。 したがって、自然な開問題は、NTKがそのような挑戦的なサブ線形構成において十分に条件付けられているかどうかである。 本稿では,この疑問に肯定的に答える。 我々の重要な技術的貢献は、極小のNTK固有値に最小限のオーバーパラメータ化を持つことである:パラメータの数はおよそ$\Omega(N)$であり、従ってニューロンの数は$\Omega(\sqrt{N})$である。 NTKバウンダリの適用性を示すために,暗記能力と勾配降下訓練の最適化保証に関する2つの結果を提供する。

The Neural Tangent Kernel (NTK) has emerged as a powerful tool to provide memorization, optimization and generalization guarantees in deep neural networks. A line of work has studied the NTK spectrum for two-layer and deep networks with at least a layer with $\Omega(N)$ neurons, $N$ being the number of training samples. Furthermore, there is increasing evidence suggesting that deep networks with sub-linear layer widths are powerful memorizers and optimizers, as long as the number of parameters exceeds the number of samples. Thus, a natural open question is whether the NTK is well conditioned in such a challenging sub-linear setup. In this paper, we answer this question in the affirmative. Our key technical contribution is a lower bound on the smallest NTK eigenvalue for deep networks with the minimum possible over-parameterization: the number of parameters is roughly $\Omega(N)$ and, hence, the number of neurons is as little as $\Omega(\sqrt{N})$. To showcase the applicability of our NTK bounds, we provide two results concerning memorization capacity and optimization guarantees for gradient descent training.
翻訳日:2022-05-23 19:51:06 公開日:2022-05-20
# (参考訳) SADAM: 第一次勾配に基づく最適化のための確率演算子Stochastic Adam

SADAM: Stochastic Adam, A Stochastic Operator for First-Order Gradient-based Optimizer ( http://arxiv.org/abs/2205.10247v1 )

ライセンス: CC BY 4.0
Wei Zhang, Yu Bao(参考訳) 本研究では,静止点とサドル点の回避を支援するため,一階勾配降下アルゴリズムの演算子として行う確率的戦略を提案,解析,一般化し,目標精度の向上と時間消費の低減を図る。 既存のアルゴリズムと異なり,提案手法ではバッチ処理やサンプリング処理を一切必要とせず,初期1次オプティマイザの収束率の効率的な実装と維持が可能であるが,目標関数を最適化する際の目標精度の相容れない改善を提供する。 要するに、提案された戦略は一般化され、adamに適用され、深層マトリックスフィッティングと他の4つのピアオプティマイザを用いた生体信号の分解によって検証される。 検証結果は,提案したランダム戦略を1次オプティマイザに容易に一般化し,目標精度を効率的に向上できることを示す。

In this work, to efficiently help escape the stationary and saddle points, we propose, analyze, and generalize a stochastic strategy performed as an operator for a first-order gradient descent algorithm in order to increase the target accuracy and reduce time consumption. Unlike existing algorithms, the proposed stochastic the strategy does not require any batches and sampling techniques, enabling efficient implementation and maintaining the initial first-order optimizer's convergence rate, but provides an incomparable improvement of target accuracy when optimizing the target functions. In short, the proposed strategy is generalized, applied to Adam, and validated via the decomposition of biomedical signals using Deep Matrix Fitting and another four peer optimizers. The validation results show that the proposed random strategy can be easily generalized for first-order optimizers and efficiently improve the target accuracy.
翻訳日:2022-05-23 19:49:44 公開日:2022-05-20
# (参考訳) ctr予測のための長期ユーザー行動のモデル化に必要なサンプリング

Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction ( http://arxiv.org/abs/2205.10249v1 )

ライセンス: CC BY 4.0
Yue Cao, XiaoJiang Zhou, Jiaqi Feng, Peihao Huang, Yao Xiao, Dayao Chen, Sheng Chen(参考訳) リッチなユーザー行動データはクリックスルー率 (ctr) 予測アプリケーション、特に産業用レコメンデーション、検索、広告システムにとって非常に有用であることが証明されている。 しかし、オンラインサービス時間の厳格な要件のため、現実世界のシステムが長期ユーザ動作をフルに活用するのは簡単なことではありません。 これまでのほとんどの研究は検索ベースの戦略を採用しており、少数のユーザー行動が最初に検索され、次に注目される。 しかし,検索手法は準最適であり,多かれ少なかれ情報損失を生じさせ,検索アルゴリズムの有効性と効率のバランスをとることは困難である。 本稿では,長期間のユーザ動作をモデル化するための,単純かつ効果的なサンプリングベースエンドツーエンドアプローチである \textbf{SDIM} (\textbf{S}ampling-based \textbf{D}eep \textbf{I}nterest \textbf{M}odeling) を提案する。 複数のハッシュ関数からサンプルを採取し、ユーザ動作シーケンス内の候補アイテムと各アイテムのハッシュシグネチャを生成し、同一のハッシュシグネチャを持つ候補アイテムに関連付けられた振る舞いアイテムを直接収集することで、ユーザ関心を得る。 提案手法は, 長期ユーザ行動のモデル化において, 従来の注目モデルと同等に動作し, より高速に動作可能であることを示す。 また,SDIMのシステムへの展開についても紹介する。 具体的には、BSE(behavior Sequence Encoding)と呼ばれる別モジュールを設計することで、CTRモデルから最も時間を要する動作シーケンスハッシュを分離する。 BSEはCTRサーバにとってレイテンシフリーであり、非常に長いユーザの振る舞いをモデル化することができます。 SDIMの有効性を示すために,オフラインおよびオンライン両方の実験を行った。 SDIMは現在、Meituan APPの検索システムにオンラインでデプロイされている。

Rich user behavior data has been proven to be of great value for Click-Through Rate (CTR) prediction applications, especially in industrial recommender, search, or advertising systems. However, it's non-trivial for real-world systems to make full use of long-term user behaviors due to the strict requirements of online serving time. Most previous works adopt the retrieval-based strategy, where a small number of user behaviors are retrieved first for subsequent attention. However, the retrieval-based methods are sub-optimal and would cause more or less information losses, and it's difficult to balance the effectiveness and efficiency of the retrieval algorithm. In this paper, we propose \textbf{SDIM} (\textbf{S}ampling-based \textbf{D}eep \textbf{I}nterest \textbf{M}odeling), a simple yet effective sampling-based end-to-end approach for modeling long-term user behaviors. We sample from multiple hash functions to generate hash signatures of the candidate item and each item in the user behavior sequence, and obtain the user interest by directly gathering behavior items associated with the candidate item with the same hash signature. We show theoretically and experimentally that the proposed method performs on par with standard attention-based models on modeling long-term user behaviors, while being sizable times faster. We also introduce the deployment of SDIM in our system. Specifically, we decouple the behavior sequence hashing, which is the most time-consuming part, from the CTR model by designing a separate module named BSE (behavior Sequence Encoding). BSE is latency-free for the CTR server, enabling us to model extremely long user behaviors. Both offline and online experiments are conducted to demonstrate the effectiveness of SDIM. SDIM now has been deployed online in the search system of Meituan APP.
翻訳日:2022-05-23 19:25:07 公開日:2022-05-20
# (参考訳) シーケンシャルヒューマン教育のための説明機械学習

Explanatory machine learning for sequential human teaching ( http://arxiv.org/abs/2205.10250v1 )

ライセンス: CC BY 4.0
Lun Ai and Johannes Langer and Stephen H. Muggleton and Ute Schmid(参考訳) 近年,機械学習理論の理解性の話題が注目されている。 帰納論理プログラミング (ILP) は論理プログラミングを用いて、推論と帰納法に基づく小さなデータから論理理論を導出する。 学習された理論は、獲得した知識の宣言的な記述として規則の形で表現される。 初期の研究で著者らは、単純な分類タスクのための機械学習論理則に基づく人間の理解が測定可能な増加を示す最初の証拠を提供した。 その後の研究で、機械学習による人間への説明の提示は、ゲーム学習の文脈において有益かつ有害な効果をもたらすことが判明した。 概念提示の順序が人間の理解に与える影響を検証し,理解度に関する調査を継続する。 本研究では,カリキュラムの順序の説明効果と,逐次問題解決のための機械学習による説明の存在について検討する。 私たちはそれを示します 1) a と b は、a と b の学習に関して、b の前に a を学習する方が、a と b の前には、より人間の理解がより良くなるタスクが存在する。 2)A学習時の説明の存在がB学習時の人間の理解の向上に寄与するタスクA,Bが存在し,既存の理解度の定義に基づく逐次的な指導が理解に与える影響の枠組みを提案し,人為的な試行において収集されたデータからの支持を示す。 経験的結果から,複雑さが増す概念の逐次指導 a)人間の理解に有益な効果があり b) 分割解決戦略の人間的再発見につながること、及び c) 機械学習による説明の研究は、人間の問題解決戦略の適応性を向上させる。

The topic of comprehensibility of machine-learned theories has recently drawn increasing attention. Inductive Logic Programming (ILP) uses logic programming to derive logic theories from small data based on abduction and induction techniques. Learned theories are represented in the form of rules as declarative descriptions of obtained knowledge. In earlier work, the authors provided the first evidence of a measurable increase in human comprehension based on machine-learned logic rules for simple classification tasks. In a later study, it was found that the presentation of machine-learned explanations to humans can produce both beneficial and harmful effects in the context of game learning. We continue our investigation of comprehensibility by examining the effects of the ordering of concept presentations on human comprehension. In this work, we examine the explanatory effects of curriculum order and the presence of machine-learned explanations for sequential problem-solving. We show that 1) there exist tasks A and B such that learning A before B has a better human comprehension with respect to learning B before A and 2) there exist tasks A and B such that the presence of explanations when learning A contributes to improved human comprehension when subsequently learning B. We propose a framework for the effects of sequential teaching on comprehension based on an existing definition of comprehensibility and provide evidence for support from data collected in human trials. Empirical results show that sequential teaching of concepts with increasing complexity a) has a beneficial effect on human comprehension and b) leads to human re-discovery of divide-and-conquer problem-solving strategies, and c) studying machine-learned explanations allows adaptations of human problem-solving strategy with better performance.
翻訳日:2022-05-23 19:06:07 公開日:2022-05-20
# (参考訳) 要求:脳における機能的磁気共鳴画像のメタ, 正準, サブ空間パターンの同定のための非線形重ね合わせ法

DEMAND: Deep Matrix Approximately NonlinearDecomposition to Identify Meta, Canonical, and Sub-Spatial Pattern of functional Magnetic Resonance Imaging in the Human Brain ( http://arxiv.org/abs/2205.10264v1 )

ライセンス: CC BY 4.0
Wei Zhang, Yu Bao(参考訳) ディープニューラルネットワーク(DNN)はすでに人間の脳の空間パターンを明らかにするための重要な計算手法となっているが、機能的磁気共鳴信号における空間パターンを検出するためにDNNを利用するには3つの大きな欠点がある。 それは、最適化が難しく、オーバーフィッティングに弱いネットワーク構造の複雑さを増大させる、完全に接続されたアーキテクチャです。 大規模なトレーニングサンプルの要求は、特徴抽出における個人/マイナーパターンの消去をもたらす。 ハイパーパラメータは手動で調整する必要がある。 そこで本研究では,SDL(Sparse Dictionary Learning)やDNN(DNN)といった浅い線形モデルを活用するために,DEMAND(Deep Matrix A respectively Nonly Decomposition)という新しい非線形行列分解法を提案する。 まず,従来のdnnに比べて最適化が容易な非完全接続・多層スタックアーキテクチャを採用し,さらに,効率的なアーキテクチャにより,個々のデータなどの小さなデータセットに基づく個人/マイノリティの認識を回避し,さらに,すべてのハイパーパラメータを自動的にチューニングする新たなランク推定手法を導入する。 さらに,提案する要求は,ヒト脳内の機能的磁気共鳴画像データを用いて,他の4つのピア方法論によって検証される。 まとめると、DEMANDは人間の脳の再現可能なメタ、カノニカル、サブ空間的特徴を他のピア法よりも効率的に明らかにすることができる。

Deep Neural Networks (DNNs) have already become a crucial computational approach to revealing the spatial patterns in the human brain; however, there are three major shortcomings in utilizing DNNs to detect the spatial patterns in functional Magnetic Resonance Signals: 1). It is a fully connected architecture that increases the complexity of network structures that is difficult to optimize and vulnerable to overfitting; 2). The requirement of large training samples results in erasing the individual/minor patterns in feature extraction; 3). The hyperparameters are required to be tuned manually, which is time-consuming. Therefore, we propose a novel deep nonlinear matrix factorization named Deep Matrix Approximately Nonlinear Decomposition (DEMAND) in this work to take advantage of the shallow linear model, e.g., Sparse Dictionary Learning (SDL) and DNNs. At first, the proposed DEMAND employs a non-fully connected and multilayer-stacked architecture that is easier to be optimized compared with canonical DNNs; furthermore, due to the efficient architecture, training DEMAND can avoid overfitting and enables the recognition of individual/minor features based on a small dataset such as an individual data; finally, a novel rank estimator technique is introduced to tune all hyperparameters of DEMAND automatically. Moreover, the proposed DEMAND is validated by four other peer methodologies via real functional Magnetic Resonance Imaging data in the human brain. In short, the validation results demonstrate that DEMAND can reveal the reproducible meta, canonical, and sub-spatial features of the human brain more efficiently than other peer methodologies.
翻訳日:2022-05-23 19:04:53 公開日:2022-05-20
# (参考訳) ダイアディック会話におけるRGBビデオにおける共同娘のジェスチャー関係の分析

Analysis of Co-Laughter Gesture Relationship on RGB videos in Dyadic Conversation Contex ( http://arxiv.org/abs/2205.10266v1 )

ライセンス: CC BY 4.0
Hugo Bohy, Ahmad Hammoudeh, Antoine Maiorca, St\'ephane Dupont and Thierry Dutoit(参考訳) 仮想エージェントの開発により、人間とアバターの相互作用はますます豊かで多様なものになる。 また、感情の自然な表現を模倣した表現力のある仮想エージェントは、ユーザ(人間)とエージェント(知的機械)との社会的相互作用を高める。 仮想キャラクタの非言語行動の集合は、人間と機械の相互作用の文脈において重要な要素である。 笑いは単なる音声信号ではなく、マルチモーダルな非言語コミュニケーションの本質的な関係であり、音声に加えて、表情や身体の動きも含んでいる。 モーション分析は、しばしば関連するモーションキャプチャデータセットに依存するが、主な問題は、そのようなデータセットの取得が高価で時間を要することである。 本研究は、ディヤド会話における笑いと身体運動の関係について研究する。 体の動きは深層学習に基づくポーズ推定モデルを用いてビデオから抽出した。 調査したNDC-MEデータセットでは,関節運動の1つの統計的特徴(最大値,最大フーリエ変換)が笑い強度の30%と弱相関していることがわかった。 しかし,音声特徴と身体運動との直接的な相関は認められなかった。 本稿では,このようなデータセットを音声による共同笑い動作合成タスクに利用する際の課題について論じる。

The development of virtual agents has enabled human-avatar interactions to become increasingly rich and varied. Moreover, an expressive virtual agent i.e. that mimics the natural expression of emotions, enhances social interaction between a user (human) and an agent (intelligent machine). The set of non-verbal behaviors of a virtual character is, therefore, an important component in the context of human-machine interaction. Laughter is not just an audio signal, but an intrinsic relationship of multimodal non-verbal communication, in addition to audio, it includes facial expressions and body movements. Motion analysis often relies on a relevant motion capture dataset, but the main issue is that the acquisition of such a dataset is expensive and time-consuming. This work studies the relationship between laughter and body movements in dyadic conversations. The body movements were extracted from videos using deep learning based pose estimator model. We found that, in the explored NDC-ME dataset, a single statistical feature (i.e, the maximum value, or the maximum of Fourier transform) of a joint movement weakly correlates with laughter intensity by 30%. However, we did not find a direct correlation between audio features and body movements. We discuss about the challenges to use such dataset for the audio-driven co-laughter motion synthesis task.
翻訳日:2022-05-23 18:40:57 公開日:2022-05-20
# (参考訳) Noisier2Noiseを用いた自己教師型ディープラーニングMRI再構成

Self-supervised deep learning MRI reconstruction with Noisier2Noise ( http://arxiv.org/abs/2205.10278v1 )

ライセンス: CC BY 4.0
Charles Millard, Mark Chiew(参考訳) 近年,サブサンプルMRI(Magnetic Resonance Imaging)データの再構成にニューラルネットワークの統計的モデリング機能を活用することに注目が集まっている。 提案手法は, 代表的な完全サンプルデータセットの存在を前提として, 完全教師付きトレーニングを用いる。 しかし、多くのアプリケーションでは、完全なサンプルトレーニングデータは利用できず、取得には非常に実用的でない可能性がある。 したがって、訓練にサブサンプリングデータのみを使用する自己教師あり手法の開発が極めて望ましい。 この研究は、当初自己教師付き認知タスクのために構築されたNoisier2Noiseフレームワークを、可変密度サブサンプルMRIデータに拡張した。 さらに,noisier2noiseフレームワークを用いて,データアンダーサンプリング(data undersampling, ssdu)による自己教師あり学習の性能解析を行った。 我々はまた、Noisier2Noiseを使ってSSDUの修正を提案し、その再構築品質と堅牢性を大幅に改善し、高速MRI脳データセットの完全な教師付きトレーニングの1%以内に平均2乗誤差のテストセットを提供する。

In recent years, there has been attention on leveraging the statistical modeling capabilities of neural networks for reconstructing sub-sampled Magnetic Resonance Imaging (MRI) data. Most proposed methods assume the existence of a representative fully-sampled dataset and use fully-supervised training. However, for many applications, fully sampled training data is not available, and may be highly impractical to acquire. The development of self-supervised methods, which use only sub-sampled data for training, are therefore highly desirable. This work extends the Noisier2Noise framework, which was originally constructed for self-supervised denoising tasks, to variable density sub-sampled MRI data. Further, we use the Noisier2Noise framework to analytically explain the performance of Self-Supervised Learning via Data Undersampling (SSDU), a recently proposed method that performs well in practice but until now lacked theoretical justification. We also use Noisier2Noise to propose a modification of SSDU that we find substantially improves its reconstruction quality and robustness, offering a test set mean-squared-error within 1% of fully supervised training on the fastMRI brain dataset.
翻訳日:2022-05-23 18:32:36 公開日:2022-05-20
# (参考訳) 適応勾配アルゴリズムのSDEとスケーリング規則について

On the SDEs and Scaling Rules for Adaptive Gradient Algorithms ( http://arxiv.org/abs/2205.10287v1 )

ライセンス: CC BY 4.0
Sadhika Malladi, Kaifeng Lyu, Abhishek Panigrahi, Sanjeev Arora(参考訳) 確率微分方程式 (SDE) として確率勾配 Descent (SGD) を近似することで、研究者は連続的な最適化軌道の研究の恩恵を享受し、SGDの確率性を注意深く保存することができる。 RMSpropやAdamのような適応勾配法のアナロジー研究は、これらの手法に厳密に証明されたSDE近似がないため、困難である。 本稿では、RMSpropとAdamのSDE近似を導出し、それらの正確性の理論的保証と、一般的な大規模視覚と言語設定への適用性の実験的検証を与える。 重要な実用的な結果は、バッチサイズを変更するときにrmspropとadamの最適化ハイパーパラメータを調整するために$\textit{square root scaling rule}$の導出と、ディープラーニング環境での経験的検証である。

Approximating Stochastic Gradient Descent (SGD) as a Stochastic Differential Equation (SDE) has allowed researchers to enjoy the benefits of studying a continuous optimization trajectory while carefully preserving the stochasticity of SGD. Analogous study of adaptive gradient methods, such as RMSprop and Adam, has been challenging because there were no rigorously proven SDE approximations for these methods. This paper derives the SDE approximations for RMSprop and Adam, giving theoretical guarantees of their correctness as well as experimental validation of their applicability to common large-scaling vision and language settings. A key practical result is the derivation of a $\textit{square root scaling rule}$ to adjust the optimization hyperparameters of RMSprop and Adam when changing batch size, and its empirical validation in deep learning settings.
翻訳日:2022-05-23 18:04:53 公開日:2022-05-20
# (参考訳) Delator: ニューラルネットワークによるトランザクショングラフ上のマネーロンダリング証拠の自動検出

Delator: Automatic Detection of Money Laundering Evidence on Transaction Graphs via Neural Networks ( http://arxiv.org/abs/2205.10293v1 )

ライセンス: CC BY 4.0
Henrique S. Assump\c{c}\~ao, Fabr\'icio Souza, Leandro Lacerda Campos, Vin\'icius T. de Castro Pires, Paulo M. Laurentys de Almeida, Fabricio Murai(参考訳) マネーロンダリングは、政府や銀行などに巨額の金銭的損失をもたらす可能性があるため、今日最も関連する犯罪行為の1つである。 本研究では,銀行振替を大規模時間グラフとして符号化するニューラルネットワークモデルに基づく資金洗浄活動を検出するためのcaat(computer-assisted audit technology)であるdelatorを提案する。 ブラジルの銀行と共同で、数百万のクライアントからなる歴史的データ上でのDelaTORのパフォーマンスを定量化するための評価戦略を設計し、適用する。 DELATORは、AUCに関して、Amazon AWSの既製のソリューションを18.9%上回っている。 分析対象者100名のうち,新たに8名の不審な症例が発見され,現状の基準で当局に報告された。

Money laundering is one of the most relevant criminal activities today, due to its potential to cause massive financial losses to governments, banks, etc. We propose DELATOR, a new CAAT (computer-assisted audit technology) to detect money laundering activities based on neural network models that encode bank transfers as a large-scale temporal graph. In collaboration with a Brazilian bank, we design and apply an evaluation strategy to quantify DELATOR's performance on historic data comprising millions of clients. DELATOR outperforms an off-the-shelf solution from Amazon AWS by 18.9% with respect to AUC. We conducted real experiments that led to discovery of 8 new suspicious among 100 analyzed cases, which would have been reported to the authorities under the current criteria.
翻訳日:2022-05-23 18:03:37 公開日:2022-05-20
# (参考訳) AIにおけるエンティティ解決のための低コストな関連生成と評価指標

Low-cost Relevance Generation and Evaluation Metrics for Entity Resolution in AI ( http://arxiv.org/abs/2205.10298v1 )

ライセンス: CC BY 4.0
Venkat Varada, Mina Ghashami, Jitesh Mehta, Haotian Jiang, Kurtis Voris(参考訳) 音声アシスタントのエンティティレゾリューション(er)は、実世界のエンティティに要求するユーザのエンティティを解決する実行中の主要なコンポーネントである。 ERは2つの主要な機能を持つ 1.関連世代・関連世代 2. ランク付け。 本稿では,顧客暗黙的および明示的なフィードバック信号を用いた特徴生成による低コストな関連性生成フレームワークを提案する。 生成された関連データセットは、ERパフォーマンスを測定するテストセットとして機能する。 また,様々な次元におけるERシステムの性能を正確に測定する指標も導入する。 ER問題の根本原因は、問題が関係生成かランキングにあるかに関わらず、深く掘り下げて特定することができる。

Entity Resolution (ER) in voice assistants is a prime component during run time that resolves entities in users request to real world entities. ER involves two major functionalities 1. Relevance generation and 2. Ranking. In this paper we propose a low cost relevance generation framework by generating features using customer implicit and explicit feedback signals. The generated relevance datasets can serve as test sets to measure ER performance. We also introduce a set of metrics that accurately measures the performance of ER systems in various dimensions. They provide great interpretability to deep dive and identifying root cause of ER issues, whether the problem is in relevance generation or ranking.
翻訳日:2022-05-23 16:45:13 公開日:2022-05-20
# (参考訳) エントロピーを求めて--本質的動機づけから行動状態パス空間への複雑な行動

Seeking entropy: complex behavior from intrinsic motivation to occupy action-state path space ( http://arxiv.org/abs/2205.10316v1 )

ライセンス: CC BY 4.0
Jorge Ram\'irez-Ruiz, Dmytro Grytskyy, Rub\'en Moreno-Bote(参考訳) 内在的な動機付けは、必ずしも即時報酬につながるわけではないが、探索や学習に役立つ行動を生み出す。 ここでは、将来の行動や状態の占有を最大化するという唯一の目標、すなわち長期に渡り探索するエージェントが、外部の報酬に言及せずに複雑な行動を行うことができることを示す。 アクション状態経路エントロピーは、将来のアクション状態経路占有率の付加性と他の直感的特性と一致する唯一の尺度であることがわかった。 そこでは,ベルマン方程式の解の一意性を証明し,アルゴリズムを最適状態値関数に収束させることから,最適方針と最適状態値関数を関連付ける解析式を提案する。 離散状態タスクと連続状態タスクを用いることで,'dancing',hid-and-seek,および基本的な利他的行動形態は,エントロピーが外的報酬を伴わないことから自然に生じることを示す。 本質的に動機付けられたエージェントは、どの状態が報酬を構成するかを客観的に決定し、最終的に行動状態の経路エントロピーを最大化する。

Intrinsic motivation generates behaviors that do not necessarily lead to immediate reward, but help exploration and learning. Here we show that agents having the sole goal of maximizing occupancy of future actions and states, that is, moving and exploring on the long term, are capable of complex behavior without any reference to external rewards. We find that action-state path entropy is the only measure consistent with additivity and other intuitive properties of expected future action-state path occupancy. We provide analytical expressions that relate the optimal policy with the optimal state-value function, from where we prove uniqueness of the solution of the associated Bellman equation and convergence of our algorithm to the optimal state-value function. Using discrete and continuous state tasks, we show that `dancing', hide-and-seek and a basic form of altruistic behavior naturally result from entropy seeking without external rewards. Intrinsically motivated agents can objectively determine what states constitute rewards, exploiting them to ultimately maximize action-state path entropy.
翻訳日:2022-05-23 16:38:09 公開日:2022-05-20
# 拡張IPW推定のための新しい中心極限理論:可変インフレーション、クロスフィールド共分散および超越

A New Central Limit Theorem for the Augmented IPW Estimator: Variance Inflation, Cross-Fit Covariance and Beyond ( http://arxiv.org/abs/2205.10198v1 )

ライセンス: Link先を確認
Kuanhao Jiang, Rajarshi Mukherjee, Subhabrata Sen and Pragya Sur(参考訳) 平均治療効果(ATE)の推定は因果推論における中心的な問題である。 近年では、高次元共変量の存在下でのATEの推測が広く研究されている。 これまで提案されてきた多種多様なアプローチの中で,クロスフィッティングによる拡張逆確率重み付け (AIPW) が普及している。 本研究では, 特徴量とサンプル数がともに大きい高次元状態下で, 精度の高い結果回帰と確率スコアモデルの下で, このクロスフィットAIPW推定器について検討する。 共変量分布の仮定に基づき, 基礎となる高次元パラメータに対する空間的仮定を伴わない, 適度にスケールしたAIPWのための新しいCLTを確立する。 我々のCLTは2つの重要な現象を発見した。 i) AIPWは、信号対雑音比および他の問題パラメータの観点から正確に定量化できる、実質的な分散インフレーションを示す。 (ii)プレクロスフィット推定値間の漸近共分散は、ルートnスケールでも無視できない。 実際、これらの交叉共分散は我々の設定では負であることが判明した。 これらの発見は古典派とは大きく異なる。 技術面では,3つの異なるツール(近似メッセージパッシング理論,決定論的等価性の理論,残余ワンアウトアプローチ)の新たな相互作用を用いている。 我々の証明手法は、この高次元領域における他の2段階推定器の分析に有用であると信じている。 最後に、我々のCLTの有限標本有効性と、我々の仮定に対する堅牢性の両方を示すシミュレーションで理論結果を補完する。

Estimation of the average treatment effect (ATE) is a central problem in causal inference. In recent times, inference for the ATE in the presence of high-dimensional covariates has been extensively studied. Among the diverse approaches that have been proposed, augmented inverse probability weighting (AIPW) with cross-fitting has emerged as a popular choice in practice. In this work, we study this cross-fit AIPW estimator under well-specified outcome regression and propensity score models in a high-dimensional regime where the number of features and samples are both large and comparable. Under assumptions on the covariate distribution, we establish a new CLT for the suitably scaled cross-fit AIPW that applies without any sparsity assumptions on the underlying high-dimensional parameters. Our CLT uncovers two crucial phenomena among others: (i) the AIPW exhibits a substantial variance inflation that can be precisely quantified in terms of the signal-to-noise ratio and other problem parameters, (ii) the asymptotic covariance between the pre-cross-fit estimates is non-negligible even on the root-n scale. In fact, these cross-covariances turn out to be negative in our setting. These findings are strikingly different from their classical counterparts. On the technical front, our work utilizes a novel interplay between three distinct tools--approximate message passing theory, the theory of deterministic equivalents, and the leave-one-out approach. We believe our proof techniques should be useful for analyzing other two-stage estimators in this high-dimensional regime. Finally, we complement our theoretical results with simulations that demonstrate both the finite sample efficacy of our CLT and its robustness to our assumptions.
翻訳日:2022-05-23 16:03:43 公開日:2022-05-20
# 年齢推定に対する人口属性指導的アプローチ

A Demographic Attribute Guided Approach to Age Estimation ( http://arxiv.org/abs/2205.10254v1 )

ライセンス: Link先を確認
Zhicheng Cao, Kaituo Zhang, Liaojun Pang, Heng Zhao(参考訳) 顔に基づく年齢推定は、公衆のセキュリティ監視や人間とコンピュータのインタラクションなど、幅広い応用により、大きな注目を集めている。 ディープラーニングの活発な開発により、ディープニューラルネットワークに基づく年齢推定が主流となっている。 しかし, 年齢変化特性に対するより適切な問題パラダイム, 対応する損失関数を設計し, より効率的な特徴抽出モジュールを設計する必要がある。 さらに、顔年齢の変化は、民族や性別といった人口特性にも関連しており、異なる年齢層の動態も大きく異なる。 この問題は今のところ十分に注目されていない。 人口属性情報を用いて年齢推定の性能を向上させる方法については,今後検討する。 これらの問題を踏まえて,本研究は顔属性の補助情報を完全に活用し,属性誘導モジュールを用いた新しい年齢推定手法を提案する。 まず,vggやresnetといった標準機能モジュール以外のロバストな顔特徴を抽出するために,マルチスケールアテンション残差畳み込みユニット(marcu)を設計した。 そして、特にフルコネクション(fc)層を通して処理した後、顔層属性を1*1畳み込み層で重み付けし、最終的にはグローバルfc層で年齢特徴とマージする。 最後に,年齢回帰値の収束性を高めるために,新しい誤差圧縮ランキング(ecr)損失を提案する。 UTKFace, LAP2016, Morphの3つの公開データセットによる実験結果から, 提案手法は, 他の最先端手法と比較して優れた性能が得られることが示された。

Face-based age estimation has attracted enormous attention due to wide applications to public security surveillance, human-computer interaction, etc. With vigorous development of deep learning, age estimation based on deep neural network has become the mainstream practice. However, seeking a more suitable problem paradigm for age change characteristics, designing the corresponding loss function and designing a more effective feature extraction module still needs to be studied. What is more, change of face age is also related to demographic attributes such as ethnicity and gender, and the dynamics of different age groups is also quite different. This problem has so far not been paid enough attention to. How to use demographic attribute information to improve the performance of age estimation remains to be further explored. In light of these issues, this research makes full use of auxiliary information of face attributes and proposes a new age estimation approach with an attribute guidance module. We first design a multi-scale attention residual convolution unit (MARCU) to extract robust facial features other than simply using other standard feature modules such as VGG and ResNet. Then, after being especially treated through full connection (FC) layers, the facial demographic attributes are weight-summed by 1*1 convolutional layer and eventually merged with the age features by a global FC layer. Lastly, we propose a new error compression ranking (ECR) loss to better converge the age regression value. Experimental results on three public datasets of UTKFace, LAP2016 and Morph show that our proposed approach achieves superior performance compared to other state-of-the-art methods.
翻訳日:2022-05-23 16:03:11 公開日:2022-05-20
# 無知の代償:低ランク行列推定における雑音構造を忘れるのにいくらかかるか?

The price of ignorance: how much does it cost to forget noise structure in low-rank matrix estimation? ( http://arxiv.org/abs/2205.10009v1 )

ライセンス: Link先を確認
Jean Barbier, TianQi Hou, Marco Mondelli and Manuel S\'aenz(参考訳) 我々は、構造的回転不変雑音により劣化したランク1信号を推定する問題を考察し、次の問題に対処する: 推測アルゴリズムは、ノイズ統計が未知でガウス雑音が想定される場合に、どの程度の精度で機能するか? 非構造雑音を伴うベイズ最適設定はよく理解されているが、このミスマッチ問題の解析は、その前提でのみ行われる。 本稿では,ノイズの統計量であるミスマッチの強い源の影響を理解するための一歩を踏み出す。 我々の主な技術的貢献はベイズ推定器と近似メッセージパッシング(AMP)アルゴリズムの厳密な解析である。 最初の結果は球面積分と低ランク行列摂動の理論を利用しており、第2の考え方は人工的なAMPを設計・解析することであり、これはデノイザーの柔軟性を利用してミスマッチを「修正」することができる。 これらの鋭い漸近的な特徴付けによって、我々は豊かでしばしば予期しない現象論を披露する。 例えば、AMPはベイズ推定器を効率的に計算するように設計されているが、前者は平均二乗誤差の点で後者よりも優れている。 この性能差は信号規範の不正確な推定によるものであることを示す。 実際、SNR が十分に大きい場合、AMP とベイズ推定器の重なりが一致し、ノイズの構造を考慮した最適な推定器の重なりが一致する。

We consider the problem of estimating a rank-1 signal corrupted by structured rotationally invariant noise, and address the following question: how well do inference algorithms perform when the noise statistics is unknown and hence Gaussian noise is assumed? While the matched Bayes-optimal setting with unstructured noise is well understood, the analysis of this mismatched problem is only at its premises. In this paper, we make a step towards understanding the effect of the strong source of mismatch which is the noise statistics. Our main technical contribution is the rigorous analysis of a Bayes estimator and of an approximate message passing (AMP) algorithm, both of which incorrectly assume a Gaussian setup. The first result exploits the theory of spherical integrals and of low-rank matrix perturbations; the idea behind the second one is to design and analyze an artificial AMP which, by taking advantage of the flexibility in the denoisers, is able to "correct" the mismatch. Armed with these sharp asymptotic characterizations, we unveil a rich and often unexpected phenomenology. For example, despite AMP is in principle designed to efficiently compute the Bayes estimator, the former is outperformed by the latter in terms of mean-square error. We show that this performance gap is due to an incorrect estimation of the signal norm. In fact, when the SNR is large enough, the overlaps of the AMP and the Bayes estimator coincide, and they even match those of optimal estimators taking into account the structure of the noise.
翻訳日:2022-05-23 16:00:12 公開日:2022-05-20
# (参考訳) 進化の光を除いて、深層学習では意味をなさない

Nothing makes sense in deep learning, except in the light of evolution ( http://arxiv.org/abs/2205.10320v1 )

ライセンス: CC BY 4.0
Artem Kaznatcheev and Konrad Paul Kording(参考訳) Deep Learning (DL)は、機械学習の驚くほど成功した分野である。 dlの成功は通常、特定の最近のアルゴリズムとその特性の分析に焦点を当てて説明される。 代わりに、DLの成功を説明するには、この分野における全てのアルゴリズムの人口と、それらがどのように進化してきたかを検討する必要がある。 文化進化は,DLの成功を説明する上で有用な枠組みである。 生物学の例えとして、アルゴリズムの擬似コードやテキスト記述を完全に訓練されたモデルに変換する過程を「開発」と呼ぶ。 これには、プログラミングコードの記述、プログラムのコンパイルと実行、モデルのトレーニングが含まれる。 プロセスのすべての部分がうまく整合していない場合、結果のモデルは役に立たない(コードが実行されたら! これは制約です。 進化的発達生物学の中核となる要素は、デコンストラント(deconstraints)の概念である -- これらは、他のコンポーネントの変更を自動的に取り入れることによる完全な失敗を避ける発達過程の修正である。 ニューラルネットワーク自体からハイパーパラメータ最適化,AutoGradに至るまで,DLにおける多くの重要なイノベーションが,発達抑制と見なせることが示唆されている。 これらのデコントレイントは、実装上の課題に対処する特定のアルゴリズムと、新しいアイデアが生成されるのがいかに容易かというDLの全体の両方において、非常に役立つ。 我々は、我々の視点がdlを前進させ、進化生物学の新しい洞察に繋がる方法について強調する。

Deep Learning (DL) is a surprisingly successful branch of machine learning. The success of DL is usually explained by focusing analysis on a particular recent algorithm and its traits. Instead, we propose that an explanation of the success of DL must look at the population of all algorithms in the field and how they have evolved over time. We argue that cultural evolution is a useful framework to explain the success of DL. In analogy to biology, we use `development' to mean the process converting the pseudocode or text description of an algorithm into a fully trained model. This includes writing the programming code, compiling and running the program, and training the model. If all parts of the process don't align well then the resultant model will be useless (if the code runs at all!). This is a constraint. A core component of evolutionary developmental biology is the concept of deconstraints -- these are modification to the developmental process that avoid complete failure by automatically accommodating changes in other components. We suggest that many important innovations in DL, from neural networks themselves to hyperparameter optimization and AutoGrad, can be seen as developmental deconstraints. These deconstraints can be very helpful to both the particular algorithm in how it handles challenges in implementation and the overall field of DL in how easy it is for new ideas to be generated. We highlight how our perspective can both advance DL and lead to new insights for evolutionary biology.
翻訳日:2022-05-23 15:58:30 公開日:2022-05-20
# 非負行列因子分解に基づくハイパースペクトルアンミキシング : 総合的考察

Hyperspectral Unmixing Based on Nonnegative Matrix Factorization: A Comprehensive Review ( http://arxiv.org/abs/2205.09933v1 )

ライセンス: Link先を確認
Xin-Ru Feng, Heng-Chao Li, Rui Wang, Qian Du, Xiuping Jia, and Antonio Plaza(参考訳) ハイパースペクトルアンミキシングは、ハイパースペクトル画像(HSI)からエンドメンバーとその対応する存在量を推定する重要な手法である。 非負行列分解(NMF)はこの問題を解く上でますます重要な役割を果たす。 本稿では,超スペクトルアンミックス法として提案されるNMF法について概説する。 NMFモデルをベースラインとして、HSIの主特性(スペクトル、空間、構造情報など)を利用してNMFを改善する方法を示す。 我々は,制約付きNMF,構造化NMF,一般化NMFの3つの重要な開発方向を分類した。 さらに,関連するアルゴリズムの有効性を示すため,いくつかの実験を行った。 最後に、ハイパースペクトルアンミックスの開発を促進するためのガイドラインとインスピレーションを提供する目的で、将来的な方向性でこの記事を締めくくります。

Hyperspectral unmixing has been an important technique that estimates a set of endmembers and their corresponding abundances from a hyperspectral image (HSI). Nonnegative matrix factorization (NMF) plays an increasingly significant role in solving this problem. In this article, we present a comprehensive survey of the NMF-based methods proposed for hyperspectral unmixing. Taking the NMF model as a baseline, we show how to improve NMF by utilizing the main properties of HSIs (e.g., spectral, spatial, and structural information). We categorize three important development directions including constrained NMF, structured NMF, and generalized NMF. Furthermore, several experiments are conducted to illustrate the effectiveness of associated algorithms. Finally, we conclude the article with possible future directions with the purposes of providing guidelines and inspiration to promote the development of hyperspectral unmixing.
翻訳日:2022-05-23 15:42:36 公開日:2022-05-20
# コンテキスト特徴を用いたアクション解析

Action parsing using context features ( http://arxiv.org/abs/2205.10008v1 )

ライセンス: Link先を確認
Nagita Mehrseresht(参考訳) 本稿では,未知数のアクションを含むビデオシーケンスをそのアクションセグメントに解析するアクション解析アルゴリズムを提案する。 我々は、コンテキスト情報、特にビデオシーケンス内の他のアクションに関する時間的情報は、アクションセグメンテーションに価値があると論じる。 提案する解析アルゴリズムはビデオシーケンスを行動セグメントに時間分割する。 最適な時間分割は、全体的な分類信頼度スコアを最適化する動的計画探索アルゴリズムを用いて見出される。 各セグメントの分類スコアは、そのセグメントから算出された局所特徴と、シーケンスの他の候補アクションセグメントから算出されたコンテキスト特徴とを用いて決定される。 Breakfastアクティビティデータセットの実験結果から,既存の最先端解析技術と比較してセグメンテーション精度が向上した。

We propose an action parsing algorithm to parse a video sequence containing an unknown number of actions into its action segments. We argue that context information, particularly the temporal information about other actions in the video sequence, is valuable for action segmentation. The proposed parsing algorithm temporally segments the video sequence into action segments. The optimal temporal segmentation is found using a dynamic programming search algorithm that optimizes the overall classification confidence score. The classification score of each segment is determined using local features calculated from that segment as well as context features calculated from other candidate action segments of the sequence. Experimental results on the Breakfast activity data-set showed improved segmentation accuracy compared to existing state-of-the-art parsing techniques.
翻訳日:2022-05-23 15:42:24 公開日:2022-05-20
# データセットからモデルへの人口バイアス伝達の評価--表情認識を事例として

Assessing Demographic Bias Transfer from Dataset to Model: A Case Study in Facial Expression Recognition ( http://arxiv.org/abs/2205.10049v1 )

ライセンス: Link先を確認
Iris Dominguez-Catena, Daniel Paternain and Mikel Galar(参考訳) 人工知能(AI)の応用の増大により、研究者たちはこれらの技術の社会的影響を研究し、彼らの公正さを評価するようになった。 残念ながら、現在の公正度指標は、顔表情認識(FER)のようなマルチクラスマルチデマトグラフィー分類問題に適用することは困難である。 これらの問題に対処するための新しいメトリクスセットを提案する。 提案した3つの指標のうち、2つはデータセットの表現バイアスとステレオタイプバイアス、もう1つはトレーニングされたモデルの残差バイアスである。 これらの指標を組み合わせることで、様々なバイアス緩和法を研究し比較することができる。 一般的なAffectnetデータセットに基づくFER問題に適用することで,メトリクスの有用性を示す。 FERの他の多くのデータセットと同様に、Affectnetは291,651のラベル付き画像を持つ大規模なインターネットソースデータセットである。 インターネットから画像を取得することは、このデータに基づいて訓練されたシステムの公正さと、多様な集団に適切に一般化する能力に懸念を生じさせる。 まずデータセットといくつかの変種を分析し、かなりの人種バイアスと性ステレオタイプを見出した。 次に、異なる階層特性を持ついくつかのサブセットを抽出し、それぞれにモデルをトレーニングし、異なる設定における残留バイアスの量を観察します。 また、異なるデータセット FER+ に関する第2の分析結果も提供します。

The increasing amount of applications of Artificial Intelligence (AI) has led researchers to study the social impact of these technologies and evaluate their fairness. Unfortunately, current fairness metrics are hard to apply in multi-class multi-demographic classification problems, such as Facial Expression Recognition (FER). We propose a new set of metrics to approach these problems. Of the three metrics proposed, two focus on the representational and stereotypical bias of the dataset, and the third one on the residual bias of the trained model. These metrics combined can potentially be used to study and compare diverse bias mitigation methods. We demonstrate the usefulness of the metrics by applying them to a FER problem based on the popular Affectnet dataset. Like many other datasets for FER, Affectnet is a large Internet-sourced dataset with 291,651 labeled images. Obtaining images from the Internet raises some concerns over the fairness of any system trained on this data and its ability to generalize properly to diverse populations. We first analyze the dataset and some variants, finding substantial racial bias and gender stereotypes. We then extract several subsets with different demographic properties and train a model on each one, observing the amount of residual bias in the different setups. We also provide a second analysis on a different dataset, FER+.
翻訳日:2022-05-23 15:42:14 公開日:2022-05-20
# スペクトル圧縮イメージング用分解対応半シャッフル変圧器

Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging ( http://arxiv.org/abs/2205.10102v1 )

ライセンス: Link先を確認
Yuanhao Cai, Jing Lin, Haoqian Wang, Xin Yuan, Henghui Ding, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) 符号化開口スペクトル圧縮画像(CASSI)システムでは、圧縮測定から空間スペクトル信号を復元するためにハイパースペクトル画像(HSI)再構成法が用いられる。 これらのアルゴリズムのうち、深い展開手法は有望な性能を示すが、2つの問題に苦しむ。 まず,高度に関連したcassiから劣化パターンや不適格度を推定せず,反復学習の指導を行う。 第2に、それらは主にcnnベースで、長距離依存関係のキャプチャに制限がある。 本稿では,圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各繰り返しを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。 さらに,ローカルコンテンツと非ローカル依存性を同時にキャプチャする新しいハーフシャッフルトランスフォーマー(hst)をカスタマイズする。 HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立する。 実験により、DAUHSTは最先端の手法をはるかに上回り、安価な計算とメモリコストを必要とすることが示された。 コードとモデルは一般公開される予定だ。

In coded aperture snapshot spectral compressive imaging (CASSI) systems, hyperspectral image (HSI) reconstruction methods are employed to recover the spatial-spectral signal from a compressed measurement. Among these algorithms, deep unfolding methods demonstrate promising performance but suffer from two issues. Firstly, they do not estimate the degradation patterns and ill-posedness degree from the highly related CASSI to guide the iterative learning. Secondly, they are mainly CNN-based, showing limitations in capturing long-range dependencies. In this paper, we propose a principled Degradation-Aware Unfolding Framework (DAUF) that estimates parameters from the compressed image and physical mask, and then uses these parameters to control each iteration. Moreover, we customize a novel Half-Shuffle Transformer (HST) that simultaneously captures local contents and non-local dependencies. By plugging HST into DAUF, we establish the first Transformer-based deep unfolding method, Degradation-Aware Unfolding Half-Shuffle Transformer (DAUHST), for HSI reconstruction. Experiments show that DAUHST significantly surpasses state-of-the-art methods while requiring cheaper computational and memory costs. Code and models will be released to the public.
翻訳日:2022-05-23 15:41:53 公開日:2022-05-20
# 自己蒸留マスク画像変換器(smit)を用いた自己教師あり3次元解剖セグメンテーション

Self-supervised 3D anatomy segmentation using self-distilled masked image transformer (SMIT) ( http://arxiv.org/abs/2205.10342v1 )

ライセンス: Link先を確認
Jue Jiang, Neelam Tyagi, Kathryn Tringale, Christopher Crane, Harini Veeraraghavan(参考訳) 長距離コンテキストをより効率的にモデル化できるビジョントランスフォーマーは、いくつかのコンピュータビジョンや、セグメンテーションを含む医療画像解析タスクにおいて、顕著な精度向上を示している。 しかし、このような方法はトレーニングのために大きなラベル付きデータセットを必要とするため、医用画像解析には入手が困難である。 自己教師付き学習(ssl)は畳み込みネットワークを用いた医用画像分割に成功している。 本研究では,CTとMRIの3次元多臓器分割に応用した視覚用アンダーライン{s}elf-distillation Learning with \underline{m}asked \underline{i}mage modeling methodを用いて,視覚用アンダーライン{t}ransformers (SMIT) のSSLを実現する。 我々の貢献は、マスク付き画像予測と呼ばれるマスク付きパッチ内でのピクセル単位の回帰であり、プリテキストタスクとしてマスク付きパッチトークン蒸留と組み合わせた。 このアプローチはより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要がある。 従来の医用画像法とは異なり, 頭頸部癌, 肺癌, 腎癌から発生した3,643個のCTスキャン(602,708画像)と, MRI膵癌患者からの腹腔内分画とCTからの腹腔内分画に応用した3,643個のCTスキャン(602,708画像)を併用した。 提案手法では,mriで0.875,ctで0.878の精度が向上し,一般的なプリテキストタスクよりもデータセットの微調整の必要が軽減された。 複数の現在のSSLメソッドに対する大規模な比較が行われた。 コードは出版が承認されたら利用可能になる。

Vision transformers, with their ability to more efficiently model long-range context, have demonstrated impressive accuracy gains in several computer vision and medical image analysis tasks including segmentation. However, such methods need large labeled datasets for training, which is hard to obtain for medical image analysis. Self-supervised learning (SSL) has demonstrated success in medical image segmentation using convolutional networks. In this work, we developed a \underline{s}elf-distillation learning with \underline{m}asked \underline{i}mage modeling method to perform SSL for vision \underline{t}ransformers (SMIT) applied to 3D multi-organ segmentation from CT and MRI. Our contribution is a dense pixel-wise regression within masked patches called masked image prediction, which we combined with masked patch token distillation as pretext task to pre-train vision transformers. We show our approach is more accurate and requires fewer fine tuning datasets than other pretext tasks. Unlike prior medical image methods, which typically used image sets arising from disease sites and imaging modalities corresponding to the target tasks, we used 3,643 CT scans (602,708 images) arising from head and neck, lung, and kidney cancers as well as COVID-19 for pre-training and applied it to abdominal organs segmentation from MRI pancreatic cancer patients as well as publicly available 13 different abdominal organs segmentation from CT. Our method showed clear accuracy improvement (average DSC of 0.875 from MRI and 0.878 from CT) with reduced requirement for fine-tuning datasets over commonly used pretext tasks. Extensive comparisons against multiple current SSL methods were done. Code will be made available upon acceptance for publication.
翻訳日:2022-05-23 15:40:30 公開日:2022-05-20
# 予測付きワームスタートアルゴリズムの離散凸解析に基づくフレームワーク

Discrete-Convex-Analysis-Based Framework for Warm-Starting Algorithms with Predictions ( http://arxiv.org/abs/2205.09961v1 )

ライセンス: Link先を確認
Shinsaku Sakaue, Taihei Oki(参考訳) 学習された予測によるアルゴリズムの強化は、最悪のケース境界を超えるための有望なアプローチである。 Dinitz, Im, Lavastida, Moseley, Vassilvitskii~(2021) は、学習された双対解による温かいスタートが、双対マッチングのハンガリーの手法の時間的複雑さを改善できることを示した。 コンベックス分析の離散アナログであるtextit{discrete convex analysis} (DCA) を用いて, それらの枠組みを原則的に拡張・改善する。 重み付き完全二成分マッチング,重み付きマトロイド交叉,離散エネルギー最小化をコンピュータビジョンに適用し,dcaベースのフレームワークの有用性を示す。 我々のDCAベースのフレームワークは、予測解から最適解への$\ell_\infty$-distanceに依存する時間複雑性境界を求め、これは以前の$\ell_1$-distance-dependent boundsと比較して2つの利点がある。 また、DCAの観点から原始解と双対解を学習するかについても論じる。

Augmenting algorithms with learned predictions is a promising approach for going beyond worst-case bounds. Dinitz, Im, Lavastida, Moseley, and Vassilvitskii~(2021) have demonstrated that a warm start with learned dual solutions can improve the time complexity of the Hungarian method for weighted perfect bipartite matching. We extend and improve their framework in a principled manner via \textit{discrete convex analysis} (DCA), a discrete analog of convex analysis. We show the usefulness of our DCA-based framework by applying it to weighted perfect bipartite matching, weighted matroid intersection, and discrete energy minimization for computer vision. Our DCA-based framework yields time complexity bounds that depend on the $\ell_\infty$-distance from a predicted solution to an optimal solution, which has two advantages relative to the previous $\ell_1$-distance-dependent bounds: time complexity bounds are smaller, and learning of predictions is more sample efficient. We also discuss whether to learn primal or dual solutions from the DCA perspective.
翻訳日:2022-05-23 15:36:31 公開日:2022-05-20
# グリーディベストファーストとA*検索のための学習ヒューリスティック関数のサンプル複雑性

Sample Complexity of Learning Heuristic Functions for Greedy-Best-First and A* Search ( http://arxiv.org/abs/2205.09963v1 )

ライセンス: Link先を確認
Shinsaku Sakaue, Taihei Oki(参考訳) greedy best-first search (gbfs) と a* search (a*) は大きなグラフ上の経路探索のための一般的なアルゴリズムである。 どちらもいわゆるヒューリスティック関数を使い、頂点が目標にどれだけ近いかを推定する。 ヒューリスティック関数はドメイン知識を用いて手作りされているが、近年の研究では、データからのヒューリスティック関数の学習が多くのアプリケーションで有効であることが示されている。 そこで本研究では,GBFS と A* の学習ヒューリスティック関数のサンプル複雑性について検討した。 我々は最近のフレームワークである \textit{data-driven algorithm design} をベースに構築し,パラメータ化アルゴリズムの性能を測定するユーティリティ関数のクラスである \textit{pseudo-dimension} を評価する。 n$ の大きさの頂点集合が固定されていると仮定すると、gbfs と a* の擬次元に対して $\mathrm{o}(n\lg n)$ と $\mathrm{o}(n^2\lg n)$ 上界をそれぞれヒューリスティック関数の値でパラメータ化したものである。 A* の上界が $\mathrm{O}(n^2\lg d)$ に改善できるのは、すべての頂点が少なくとも $d$ の次数を持ち、さらに $\mathrm{O}(n \lg n)$ が $\mathrm{poly}(n)$ で有界な整数であればである。 また、GBFS と A* に対する$\Omega(n)$下界を与え、これは整数重み条件下での GBFS と A* の有界が $\lg n$ factor に固であることを意味する。 最後に,パラメータ依存の最悪のケースとサンプルの複雑性のバウンドとを組み合わせることで,A*の性能を最適以下で測定し,より良い保証が得られることを示す。

Greedy best-first search (GBFS) and A* search (A*) are popular algorithms for path-finding on large graphs. Both use so-called heuristic functions, which estimate how close a vertex is to the goal. While heuristic functions have been handcrafted using domain knowledge, recent studies demonstrate that learning heuristic functions from data is effective in many applications. Motivated by this emerging approach, we study the sample complexity of learning heuristic functions for GBFS and A*. We build on a recent framework called \textit{data-driven algorithm design} and evaluate the \textit{pseudo-dimension} of a class of utility functions that measure the performance of parameterized algorithms. Assuming that a vertex set of size $n$ is fixed, we present $\mathrm{O}(n\lg n)$ and $\mathrm{O}(n^2\lg n)$ upper bounds on the pseudo-dimensions for GBFS and A*, respectively, parameterized by heuristic function values. The upper bound for A* can be improved to $\mathrm{O}(n^2\lg d)$ if every vertex has a degree of at most $d$ and to $\mathrm{O}(n \lg n)$ if edge weights are integers bounded by $\mathrm{poly}(n)$. We also give $\Omega(n)$ lower bounds for GBFS and A*, which imply that our bounds for GBFS and A* under the integer-weight condition are tight up to a $\lg n$ factor. Finally, we discuss a case where the performance of A* is measured by the suboptimality and show that we can sometimes obtain a better guarantee by combining a parameter-dependent worst-case bound with a sample complexity bound.
翻訳日:2022-05-23 15:36:11 公開日:2022-05-20
# HeadText: スマートイヤーピースのモーションセンシングによるヘッドジェスチャを用いたハンズフリーテキスト入力

HeadText: Exploring Hands-free Text Entry using Head Gestures by Motion Sensing on a Smart Earpiece ( http://arxiv.org/abs/2205.09978v1 )

ライセンス: Link先を確認
Songlin Xu, Guanjie Wang, Ziyuan Fang, Guangwei Zhang, Guangzhu Shang, Rongde Lu, Liqun He(参考訳) HeadTextは、モーションセンシングによるテキスト入力のためのスマートイヤホンのハンズフリー技術である。 ユーザは、キー選択、単語選択、単語コミットメント、単語キャンセルタスクのために7つのヘッドジェスチャのみを使用してテキストを入力する。 頭部のジェスチャー認識は、スマートイヤホンのモーションセンシングによってサポートされ、頭の動き信号と機械学習アルゴリズム(k-nearest-neighbor (knn)、ダイナミックタイムワーピング(dtw)距離測定)を捉える。 10人の参加者による調査では、7つのヘッドジェスチャを94.29%の精度で認識できた。 その後、第2のユーザ調査では、HeadTextは最大精度10.65WPM、平均精度9.84WPMを達成することができた。 最後に,HeadTextのハンズフリーシナリオへの応用の可能性を示す。 (a) 運動障害のある人のテキスト入力 (b) プライベートテキストのエントリと (c)。 社会的に受け入れられるテキスト入力。

We present HeadText, a hands-free technique on a smart earpiece for text entry by motion sensing. Users input text utilizing only 7 head gestures for key selection, word selection, word commitment and word cancelling tasks. Head gesture recognition is supported by motion sensing on a smart earpiece to capture head moving signals and machine learning algorithms (K-Nearest-Neighbor (KNN) with a Dynamic Time Warping (DTW) distance measurement). A 10-participant user study proved that HeadText could recognize 7 head gestures at an accuracy of 94.29%. After that, the second user study presented that HeadText could achieve a maximum accuracy of 10.65 WPM and an average accuracy of 9.84 WPM for text entry. Finally, we demonstrate potential applications of HeadText in hands-free scenarios for (a). text entry of people with motor impairments, (b). private text entry, and (c). socially acceptable text entry.
翻訳日:2022-05-23 15:35:31 公開日:2022-05-20
# RiskLoc: 重み付きリスクによる多次元ルートの局所化

RiskLoc: Localization of Multi-dimensional Root Causes by Weighted Risk ( http://arxiv.org/abs/2205.10004v1 )

ライセンス: Link先を確認
Marcus Kalander(参考訳) 大規模ソフトウェアシステムの失敗と異常は避けられない出来事である。 問題が検出されると、オペレータはその位置を迅速かつ正確に識別し、迅速な修復を容易にする必要がある。 本研究では,多次元時系列におけるカテゴリー属性の異常を最もよく説明する根本原因集合を同定する問題を考える。 巨大な検索空間が主な課題であり、少数の属性と小さな値集合であっても、理論的な組み合わせの数が大きすぎるので、力は弱すぎる。 これまでのアプローチでは検索スペースの削減に重点を置いていたが、それらはすべて様々な問題に悩まされており、手動のパラメータチューニングが必要であり、遅すぎるため実用的ではない。 本稿では,多次元根本原因局所化問題の解法としてリスクロックを提案する。 RiskLocは2方向のパーティショニングスキームを適用し、パーティショニングポイントからの距離で線形に増加する要素重みを割り当てる。 リスクスコアは2つの要素を統合する各要素に割り当てられる。 1)異常分割における重み付け比率、及び 2) リップル効果特性に応じて偏差値の相対的変化が調整された。 複数のデータセットに対する大規模な実験により、RassLocの有効性と効率が検証され、包括的な評価のために、既存のデータセットを補完する3つの合成データセットを導入する。 risklocは最先端のベースライン、特により困難な根本原因シナリオを一貫して上回っており、f1-scoreは2位から57%まで向上し、実行時間は同等である。

Failures and anomalies in large-scale software systems are unavoidable incidents. When an issue is detected, operators need to quickly and correctly identify its location to facilitate a swift repair. In this work, we consider the problem of identifying the root cause set that best explains an anomaly in multi-dimensional time series with categorical attributes. The huge search space is the main challenge, even for a small number of attributes and small value sets, the number of theoretical combinations is too large to brute force. Previous approaches have thus focused on reducing the search space, but they all suffer from various issues, requiring extensive manual parameter tuning, being too slow and thus impractical, or being incapable of finding more complex root causes. We propose RiskLoc to solve the problem of multidimensional root cause localization. RiskLoc applies a 2-way partitioning scheme and assigns element weights that linearly increase with the distance from the partitioning point. A risk score is assigned to each element that integrates two factors, 1) its weighted proportion within the abnormal partition, and 2) the relative change in the deviation score adjusted for the ripple effect property. Extensive experiments on multiple datasets verify the effectiveness and efficiency of RiskLoc, and for a comprehensive evaluation, we introduce three synthetically generated datasets that complement existing datasets. We demonstrate that RiskLoc consistently outperforms state-of-the-art baselines, especially in more challenging root cause scenarios, with gains in F1-score up to 57% over the second-best approach with comparable running times.
翻訳日:2022-05-23 15:35:12 公開日:2022-05-20
# 生物学的に可能な夢と計画に向けて

Towards biologically plausible Dreaming and Planning ( http://arxiv.org/abs/2205.10044v1 )

ライセンス: Link先を確認
Cristiano Capone and Pier Stanislao Paolucci(参考訳) 人間と動物は数時間練習した後、新しいスキルを学べる一方、現在の強化学習アルゴリズムは優れたパフォーマンスを達成するために大量のデータを必要とする。 近年のモデルベースアプローチは、望ましい政策を学ぶために必要な環境との相互作用の数を減らすことで有望な結果を示す。 しかし、これらの方法は、古い経験の詳細な保存やオフライン学習など、生物学的に目立たない材料を必要とする。 単語モデルを学び、活用する最適な方法は、まだ未解決の問題だ。 生物学からインスピレーションを得て、私たちは夢は内的モデルを使うのに効果的な方法かもしれないと提案する。 モデルベースシミュレーション環境において新たな経験を積むこと)が学習を著しく促進する2つのモジュール(エージェントとモデル)ニューラルネットワークを提案する。 また、同等のパフォーマンスを示すdreamingのオンライン代替品である"planning"も検討しています。 重要なのは、私たちのモデルは経験の詳細なストレージを必要としないことです。 これは生物学的妥当性と実装性(例えば、ニューロモルフィックハードウェア)の鍵となる要素である。 我々のネットワークはスパイクニューロンで構成されており、エネルギー効率とモデルの妥当性をさらに高めている。 我々の知る限り、リカレントスパイクネットワークにおける生物学的に妥当なモデルに基づく強化学習を提案する以前の研究はない。 私たちの研究は、現実の環境で新しいスキルを学ぶことができる自律ロボットのための効率的なニューロモルフィックシステムを構築するためのステップです。 環境がもはやアクセスできない場合でも、ロボットは自身の“マインド”で“理屈”することで学習を最適化する。 これらのアプローチは、環境からの取得が遅く、コストがかかる(ロボティクス)か、安全でない(自律運転)場合、非常に関連性が高い。

Humans and animals can learn new skills after practicing for a few hours, while current reinforcement learning algorithms require a large amount of data to achieve good performances. Recent model-based approaches show promising results by reducing the number of necessary interactions with the environment to learn a desirable policy. However, these methods require biological implausible ingredients, such as the detailed storage of older experiences, and long periods of offline learning. The optimal way to learn and exploit word-models is still an open question. Taking inspiration from biology, we suggest that dreaming might be an efficient expedient to use an inner model. We propose a two-module (agent and model) neural network in which "dreaming" (living new experiences in a model-based simulated environment) significantly boosts learning. We also explore "planning", an online alternative to dreaming, that shows comparable performances. Importantly, our model does not require the detailed storage of experiences, and learns online the world-model. This is a key ingredient for biological plausibility and implementability (e.g., in neuromorphic hardware). Our network is composed of spiking neurons, further increasing the energetic efficiency and the plausibility of the model. To our knowledge, there are no previous works proposing biologically plausible model-based reinforcement learning in recurrent spiking networks. Our work is a step toward building efficient neuromorphic systems for autonomous robots, capable of learning new skills in real-world environments. Even when the environment is no longer accessible, the robot optimizes learning by "reasoning" in its own "mind". These approaches are of great relevance when the acquisition from the environment is slow, expensive (robotics) or unsafe (autonomous driving).
翻訳日:2022-05-23 15:34:47 公開日:2022-05-20
# (参考訳) UCC:半監督セマンティックセグメンテーションのためのクロスヘッドコトレーニング

UCC: Uncertainty guided Cross-head Co-training for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2205.10334v1 )

ライセンス: CC BY 4.0
Jiashuo Fan, Bin Gao, Huan Jin, Lihui Jiang(参考訳) ディープニューラルネットワーク(DNN)はセマンティックセグメンテーションにおいて大きな成功を収めており、トレーニングには大量のラベル付きデータが必要である。 半教師付きセマンティックセグメンテーションのための新しい学習フレームワークUncertainty Guided Cross-head Co-training(UCC)を提案する。 当社のフレームワークでは,共有エンコーダ内の弱体化と強体化を導入して,一貫性と自己学習のメリットを自然に組み合わせたコトレーニングを実現している。 全てのセグメンテーションヘッドは仲間と相互作用し、弱い増強結果は強者を監視するために使用される。 一貫性トレーニングサンプルの多様性は、動的クロスセットコピーペースト(DCSCP)によって向上し、分散ミスマッチやクラス不均衡の問題を軽減することができる。 さらに,提案するUncertainty Guided Re-weight Module (UGRM) は,低品質な擬似ラベルの影響をモデリングの不確実性を通じて抑制することにより,自己学習型擬似ラベルを向上する。 都市景観とPASCAL VOC 2012に関する大規模な実験により,UCCの有効性が示された。 我々のアプローチは他の最先端の半教師付きセマンティクスセグメンテーション法を大きく上回っている。 市景観とパスカルvoc 2012のデータセットはそれぞれ1/16のプロトコルで77.17$\%$, 76.49$\%$ miouとなり、教師付きベースラインよりも+10.1$\%$, +7.91$$$$$$$である。

Deep neural networks (DNNs) have witnessed great successes in semantic segmentation, which requires a large number of labeled data for training. We present a novel learning framework called Uncertainty guided Cross-head Co-training (UCC) for semi-supervised semantic segmentation. Our framework introduces weak and strong augmentations within a shared encoder to achieve co-training, which naturally combines the benefits of consistency and self-training. Every segmentation head interacts with its peers and, the weak augmentation result is used for supervising the strong. The consistency training samples' diversity can be boosted by Dynamic Cross-Set Copy-Paste (DCSCP), which also alleviates the distribution mismatch and class imbalance problems. Moreover, our proposed Uncertainty Guided Re-weight Module (UGRM) enhances the self-training pseudo labels by suppressing the effect of the low-quality pseudo labels from its peer via modeling uncertainty. Extensive experiments on Cityscapes and PASCAL VOC 2012 demonstrate the effectiveness of our UCC. Our approach significantly outperforms other state-of-the-art semi-supervised semantic segmentation methods. It achieves 77.17$\%$, 76.49$\%$ mIoU on Cityscapes and PASCAL VOC 2012 datasets respectively under 1/16 protocols, which are +10.1$\%$, +7.91$\%$ better than the supervised baseline.
翻訳日:2022-05-23 15:32:36 公開日:2022-05-20
# NMA: オンライン広告のための外部性を備えたニューラルマルチスロットオークション

NMA: Neural Multi-slot Auctions with Externalities for Online Advertising ( http://arxiv.org/abs/2205.10018v1 )

ライセンス: Link先を確認
Guogang Liao, Xuejian Li, Ze Wang, Fan Yang, Muzhi Guan, Bingqi Zhu, Yongkang Wang, Xingxing Wang, Dong Wang(参考訳) オークションによるオンライン広告は、ソーシャルネットワークサービスやeコマースプラットフォームに数十億ドルの収益をもたらす。 GSPオークションは、広告主にとってシンプルで分かりやすいもので、業界における広告オークションメカニズムのベンチマークとなっている。 しかし、GSPの割り当て安定性は分離可能なCTR仮定に依存するため、GSPはマルチスロットシナリオにおける位置依存外部性もアド依存外部性も考慮せず、最適以下の性能をもたらす。 一部のGSPベースのディープオークション(例えばDeepGSP、DNA)は、深層ニューラルネットワークでGSPをアップグレードしようとしたが、それは局所的な外部性のみをモデル化し、したがってまだ最適ではない。 一方、VCGベースのマルチスロットオークション(VCG、WVCGなど)は外部性を考慮しているものの、収益と社会福祉の双方の効率的なバランスが欠如している。 本稿では,上記の課題に対処するため,ニューラルマルチスロットオークション(NMA)という新しいオークションを提案する。 具体的には,グローバルな外部性をコンテキスト対応リストワイズ予測モジュールで効果的にモデル化し,性能の向上を図る。 エンドツーエンド学習におけるインセンティブ互換性を保証するために,リスト指向のディープランクモジュールを設計した。 さらに,収益を最大化しつつ,社会福祉の衰退を効果的に低減する社会福祉補助的損失を提案する。 オフライン大規模データセットとオンラインA/Bテストの両方の実験結果から,NMAは産業実践における他の既存のオークション機構(GSP, DNA, WVCG)よりも高い収益を得ることが示された。

Online advertising driven by auctions brings billions of dollars in revenue for social networking services and e-commerce platforms. GSP auction, which is simple and easy to understand for advertisers, has almost become the benchmark for ad auction mechanisms in the industry. However, the allocation stability of GSP depends on the separable CTR assumption, which means that GSP considers neither position-dependent externalities nor ad-dependent externalities in multi-slot scenario, leading to suboptimal performance. Some GSP-based deep auctions (e.g., DeepGSP, DNA) have attempted to upgrade GSP with deep neural networks, while only modeling local externalities and thus still suboptimal. On the other hand, although VCG-based multi-slot auctions (e.g., VCG, WVCG) take externalities into consideration, they lack an efficient balance of both revenue and social welfare. In this paper, we propose a novel auction named Neural Multi-slot Auction (NMA) to tackle the above-mentioned challenges. Specifically, we model the global externalities effectively with a context-aware list-wise prediction module to achieve better performance. We design a list-wise deep rank module to guarantee incentive compatibility in end-to-end learning. Furthermore, we propose an auxiliary loss for social welfare to effectively reduce the decline of social welfare while maximizing revenue. Experiment results on both offline large-scale datasets and online A/B tests demonstrate that NMA obtains higher revenue with balanced social welfare than other existing auction mechanisms (i.e., GSP, DNA, WVCG) in industrial practice, and we have successfully deployed NMA on Meituan food delivery platform.
翻訳日:2022-05-23 15:18:14 公開日:2022-05-20
# PGDP5K:平面幾何学問題のための図解析データセット

PGDP5K: A Diagram Parsing Dataset for Plane Geometry Problems ( http://arxiv.org/abs/2205.09947v1 )

ライセンス: Link先を確認
Yihan Hao (1 and 2), Mingliang Zhang (2 and 3), Fei Yin (2 and 3) and Linlin Huang (1) ((1) Beijing Jiaotong University, (2) Institute of Automation of Chinese Academy of Science, (3) University of Chinese Academy of Sciences)(参考訳) 図解析は幾何学的問題解決の重要な基盤であり、知的教育と文書画像理解の分野で注目を集めている。 複雑なレイアウトと原始的関係のため、平面幾何学図解析(PGDP)はいまだにさらなる研究と探査を継続する難しい課題である。 適切なデータセットは、PGDPの研究に不可欠である。 幾何的な問題を解決するために粗いアノテーションを持つデータセットが提案されているが、規模は小さいか公開されていない。 粗いアノテーションもあまり役に立たない。 そこで本研究では,PGDP5Kと呼ばれる大規模図形データセットと新しいアノテーション手法を提案する。 本データセットは,5つの位置関係,22の記号型,6つのテキスト型を含む16の形状からなる5000の図からなる。 以前のデータセットと異なり、私たちのPGDP5Kデータセットはプリミティブなクラス、場所、関係など、プリミティブなレベルでよりきめ細かいアノテーションでラベル付けされています。 さらに、上記のアノテーションや幾何学的事前知識と組み合わせることで、知的な幾何学的命題を自動的に一意に生成することができる。 我々はPGDP5KとIMP-Geometry3Kのデータセットを用いて実験を行い、最先端(SOTA)法は66.07%のF1値しか達成していないことを明らかにした。 これは、PGDP5Kが将来の研究に挑戦していることを示している。 データセットはhttp://www.nlpr.ia.ac.cn/databases/CASIA-PGDP5K/で利用可能です。

Diagram parsing is an important foundation for geometry problem solving, attracting increasing attention in the field of intelligent education and document image understanding. Due to the complex layout and between-primitive relationship, plane geometry diagram parsing (PGDP) is still a challenging task deserving further research and exploration. An appropriate dataset is critical for the research of PGDP. Although some datasets with rough annotations have been proposed to solve geometric problems, they are either small in scale or not publicly available. The rough annotations also make them not very useful. Thus, we propose a new large-scale geometry diagram dataset named PGDP5K and a novel annotation method. Our dataset consists of 5000 diagram samples composed of 16 shapes, covering 5 positional relations, 22 symbol types and 6 text types. Different from previous datasets, our PGDP5K dataset is labeled with more fine-grained annotations at primitive level, including primitive classes, locations and relationships. What is more, combined with above annotations and geometric prior knowledge, it can generate intelligible geometric propositions automatically and uniquely. We performed experiments on PGDP5K and IMP-Geometry3K datasets reveal that the state-of-the-art (SOTA) method achieves only 66.07% F1 value. This shows that PGDP5K presents a challenge for future research. Our dataset is available at http://www.nlpr.ia.ac.cn/databases/CASIA-PGDP5K/.
翻訳日:2022-05-23 15:17:30 公開日:2022-05-20
# 時間的行動定位のための構造的注意組成

Structured Attention Composition for Temporal Action Localization ( http://arxiv.org/abs/2205.09956v1 )

ライセンス: Link先を確認
Le Yang, Junwei Han, Tao Zhao, Nian Liu, Dingwen Zhang(参考訳) 時間的アクションローカライゼーションは、未トリミングビデオからのアクションインスタンスのローカライズを目的としている。 既存の作業は、外見と動きの特徴に基づいてアクションインスタンスを正確にローカライズするための様々な効果的なモジュールを設計している。 しかし、これら2つの特徴を等しく重要視することで、以前の作品ではそれぞれのモダリティ機能を十分に活用できないため、学習モデルはまだ最適ではない。 本研究は,様々な行動が出現や運動のモダリティに対して特定の嗜好を示すという観察に基づいて,多様特徴学習の観点から,時間的行動の局所化を早期に研究する試みである。 具体的には,新しいアテンション合成モジュールを構築する。 従来の注目とは異なり、提案されたモジュールはフレームの注意とモダリティの注意を独立して推測しない。 代わりに、注意割当プロセスとしてモダリティ注意とフレーム注意の関係をキャストすることで、構造化アテンション合成モジュールは、フレームモダリティ構造を符号化することを学び、最適な輸送理論に基づいて、推論されたフレーム注意とモダリティ注意を正則化する。 最終的なフレームモダリティの注意は、2つの個別の注意の構成によって得られる。 提案する構造化アテンション合成モジュールは、既存のアクションローカライゼーションフレームワークにプラグインアンドプレイモジュールとしてデプロイすることができる。 広範に使用されている2つのベンチマーク実験の結果,提案手法は4つの時間的動作ローカライゼーション法を一貫して改善し,THUMOS14上に新しい最先端性能を構築する。 コードはhttps://github.com/VividLe/Online-Action-Detectionで利用可能である。

Temporal action localization aims at localizing action instances from untrimmed videos. Existing works have designed various effective modules to precisely localize action instances based on appearance and motion features. However, by treating these two kinds of features with equal importance, previous works cannot take full advantage of each modality feature, making the learned model still sub-optimal. To tackle this issue, we make an early effort to study temporal action localization from the perspective of multi-modality feature learning, based on the observation that different actions exhibit specific preferences to appearance or motion modality. Specifically, we build a novel structured attention composition module. Unlike conventional attention, the proposed module would not infer frame attention and modality attention independently. Instead, by casting the relationship between the modality attention and the frame attention as an attention assignment process, the structured attention composition module learns to encode the frame-modality structure and uses it to regularize the inferred frame attention and modality attention, respectively, upon the optimal transport theory. The final frame-modality attention is obtained by the composition of the two individual attentions. The proposed structured attention composition module can be deployed as a plug-and-play module into existing action localization frameworks. Extensive experiments on two widely used benchmarks show that the proposed structured attention composition consistently improves four state-of-the-art temporal action localization methods and builds new state-of-the-art performance on THUMOS14. Code is availabel at https://github.com/VividLe/Online-Action-Detection.
翻訳日:2022-05-23 15:17:07 公開日:2022-05-20
# マルチレゾリューション機能と学習可能なポーリングを用いたポイントクラウドの高度な特徴学習

Advanced Feature Learning on Point Clouds using Multi-resolution Features and Learnable Pooling ( http://arxiv.org/abs/2205.09962v1 )

ライセンス: Link先を確認
Kevin Tirta Wijaya, Dong-Hee Paek, Seung-Hyun Kong(参考訳) 既存のポイントクラウドの特徴学習ネットワークには、サンプリング、近隣グループ化、近隣機能学習、およびポイントクラウドのグローバルなコンテキストを表す高セマンティックな特徴を学習するための特徴集約といったシーケンスが組み込まれていることが多い。 不運なことに、サンプリングと最大プーリングによる粒度や非最大点の特徴に関する情報の複合的喪失は、点雲の局所的な文脈を表現できないような既存のネットワークからの高意味点の特徴に悪影響を及ぼす可能性があるため、ネットワークが微細な形状を区別することを妨げかねない。 この問題に対処するために,マルチレゾリューション機能学習と学習可能なプール(LP)を用いた新しいポイントクラウド機能学習ネットワークであるPointStackを提案する。 複数層における様々な解像度の点特徴を集約することで多分解能特徴学習を実現し、最終点特徴が高セマンティック情報と高分解能情報の両方を含むようにした。 一方、lpは、学習可能なクエリによるアテンション機構を通じてマルチレゾリューションポイント特徴の重み付け和を計算する一般化されたプーリング関数として用いられ、利用可能なすべてのポイント特徴から可能なすべての情報を抽出する。 その結果、PointStackは、粒度や非最大点の特徴に関する情報の最小限の損失で、高セマンティックな特徴を抽出できる。 したがって、最終的な集約ポイント機能は、ポイントクラウドのグローバルコンテキストとローカルコンテキストの両方を効果的に表現することができる。 さらに、ポイントクラウドのグローバル構造と局所的な形状の詳細の両方をネットワークヘッドによって適切に解釈することができ、ポイントStackはポイントクラウドにおける機能学習の最先端を前進させることができる。 コードはhttps://github.com/kaist-avelab/pointstackで入手できる。

Existing point cloud feature learning networks often incorporate sequences of sampling, neighborhood grouping, neighborhood-wise feature learning, and feature aggregation to learn high-semantic point features that represent the global context of a point cloud. Unfortunately, the compounded loss of information concerning granularity and non-maximum point features due to sampling and max pooling could adversely affect the high-semantic point features from existing networks such that they are insufficient to represent the local context of a point cloud, which in turn may hinder the network in distinguishing fine shapes. To cope with this problem, we propose a novel point cloud feature learning network, PointStack, using multi-resolution feature learning and learnable pooling (LP). The multi-resolution feature learning is realized by aggregating point features of various resolutions in the multiple layers, so that the final point features contain both high-semantic and high-resolution information. On the other hand, the LP is used as a generalized pooling function that calculates the weighted sum of multi-resolution point features through the attention mechanism with learnable queries, in order to extract all possible information from all available point features. Consequently, PointStack is capable of extracting high-semantic point features with minimal loss of information concerning granularity and non-maximum point features. Therefore, the final aggregated point features can effectively represent both global and local contexts of a point cloud. In addition, both the global structure and the local shape details of a point cloud can be well comprehended by the network head, which enables PointStack to advance the state-of-the-art of feature learning on point clouds. The codes are available at https://github.com/kaist-avelab/PointStack.
翻訳日:2022-05-23 15:16:36 公開日:2022-05-20
# ファウショット学習のためのマスク誘導型視覚変換器(MG-ViT)

Mask-guided Vision Transformer (MG-ViT) for Few-Shot Learning ( http://arxiv.org/abs/2205.09995v1 )

ライセンス: Link先を確認
Yuzhong Chen, Zhenxiang Xiao, Lin Zhao, Lu Zhang, Haixing Dai, David Weizhong Liu, Zihao Wu, Changhe Li, Tuo Zhang, Changying Li, Dajiang Zhu, Tianming Liu, Xi Jiang(参考訳) 少ないデータで学ぶことは難しいが、ラベル付きデータに制限がありコストがかかるさまざまなアプリケーションシナリオでは避けられない。 近年,少数のサンプルのみを含む新しいタスクへの事前知識の一般化により,少数ショット学習(fsl)が注目を集めている。 しかし、視覚変換器(ViT)のようなデータ集約モデルでは、現在の微調整ベースのFSLアプローチは知識一般化において非効率であり、従って下流タスク性能を劣化させる。 本稿では,vitモデル上で効果的かつ効率的なfslを実現するためのマスク誘導型視覚トランスフォーマ(mg-vit)を提案する。 キーとなるアイデアは、イメージパッチにマスクを適用して、タスク関連でないものをスクリーニングし、ViTがFSL中のタスク関連および識別パッチに集中するように誘導することである。 特にMG-ViTはマスク操作と残留接続のみを導入し、トレーニング済みのViTからのパラメータの継承を他のコストなしで行えるようにした。 また, MG-ViT を用いた FSL の一般化性を向上させるために, 能動的学習に基づくサンプル選択手法を最適に選択する。 我々は,勾配重み付きクラスアクティベーションマッピング(Grad-CAM)をマスクとして,Agri-ImageNet分類タスクとACFRリンゴ検出タスクの両方でMG-ViTを提案する。 実験の結果,mg-vitモデルは,一般の微調整型vitモデルに比べ,性能が著しく向上し,新たな洞察とfslのためのデータ集約型および大規模ディープラーニングモデルの一般化に向けた具体的なアプローチが得られた。

Learning with little data is challenging but often inevitable in various application scenarios where the labeled data is limited and costly. Recently, few-shot learning (FSL) gained increasing attention because of its generalizability of prior knowledge to new tasks that contain only a few samples. However, for data-intensive models such as vision transformer (ViT), current fine-tuning based FSL approaches are inefficient in knowledge generalization and thus degenerate the downstream task performances. In this paper, we propose a novel mask-guided vision transformer (MG-ViT) to achieve an effective and efficient FSL on ViT model. The key idea is to apply a mask on image patches to screen out the task-irrelevant ones and to guide the ViT to focus on task-relevant and discriminative patches during FSL. Particularly, MG-ViT only introduces an additional mask operation and a residual connection, enabling the inheritance of parameters from pre-trained ViT without any other cost. To optimally select representative few-shot samples, we also include an active learning based sample selection method to further improve the generalizability of MG-ViT based FSL. We evaluate the proposed MG-ViT on both Agri-ImageNet classification task and ACFR apple detection task with gradient-weighted class activation mapping (Grad-CAM) as the mask. The experimental results show that the MG-ViT model significantly improves the performance when compared with general fine-tuning based ViT models, providing novel insights and a concrete approach towards generalizing data-intensive and large-scale deep learning models for FSL.
翻訳日:2022-05-23 15:16:07 公開日:2022-05-20
# 均一マスキング:局所性を有するピラミッド型視覚変換器のためのMAE事前学習の実現

Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality ( http://arxiv.org/abs/2205.10063v1 )

ライセンス: Link先を確認
Xiang Li, Wenhai Wang, Lingfeng Yang, Jian Yang(参考訳) Masked AutoEncoder (MAE) は、最近、事前学習効率と微調整精度の両方を著しく最適化するエレガントな非対称エンコーダデコーダ設計により、視覚自己監督領域のトレンドを導いた。 特に、非対称構造の成功は、Vanilla Vision Transformer (ViT) の「グローバルな」性質に依存している。 しかし、アドバンストピラミッドベースのViT(例えばPVT、Swin)が「ローカル」ウィンドウ内の演算子を導入し、部分的に視覚トークンのランダムなシーケンスを扱うのが困難になるため、MAE事前トレーニングでどのように採用されるのかは不明である。 本稿では,一様マスキング(UM: Uniform Masking)を提案し,局所性(略してUM-MAE)を持つピラミッドベースのViTのMAE事前学習を実現した。 具体的には、UMには、2ドル=2ドルグリッドから1ドル=ランダムパッチを厳格にサンプリングするUniform Smpling (US)と、既にサンプリング済みの領域の一部を(通常25ドル=$)ランダムにマスクするセカンダリ・マスキング (SM)が含まれている。 smは、セマンティック学習を妨げるピクセルリカバリ前のタスクの難しさを低減し、転送可能な視覚的表現を改善するように設計されているが、smは、一般的なピラミッドベースのvitをスムーズにサポートする。 UM-MAEは、MraamidベースのViTの事前トレーニング効率(例えば、GPUメモリを$\sim 2\times$)で大幅に向上するが、下流タスク間の競合的な微調整性能を維持する。 例えば、HTC++検出器を使用する場合、 ImageNet-1K でのみ UM-MAE の下で事前訓練された Swin-Large バックボーンは ImageNet-22K で教師されたバックボーンよりも優れる。 コードはhttps://github.com/implus/um-maeで入手できる。

Masked AutoEncoder (MAE) has recently led the trends of visual self-supervision area by an elegant asymmetric encoder-decoder design, which significantly optimizes both the pre-training efficiency and fine-tuning accuracy. Notably, the success of the asymmetric structure relies on the "global" property of Vanilla Vision Transformer (ViT), whose self-attention mechanism reasons over arbitrary subset of discrete image patches. However, it is still unclear how the advanced Pyramid-based ViTs (e.g., PVT, Swin) can be adopted in MAE pre-training as they commonly introduce operators within "local" windows, making it difficult to handle the random sequence of partial vision tokens. In this paper, we propose Uniform Masking (UM), successfully enabling MAE pre-training for Pyramid-based ViTs with locality (termed "UM-MAE" for short). Specifically, UM includes a Uniform Sampling (US) that strictly samples $1$ random patch from each $2 \times 2$ grid, and a Secondary Masking (SM) which randomly masks a portion of (usually $25\%$) the already sampled regions as learnable tokens. US preserves equivalent elements across multiple non-overlapped local windows, resulting in the smooth support for popular Pyramid-based ViTs; whilst SM is designed for better transferable visual representations since US reduces the difficulty of pixel recovery pre-task that hinders the semantic learning. We demonstrate that UM-MAE significantly improves the pre-training efficiency (e.g., it speeds up and reduces the GPU memory by $\sim 2\times$) of Pyramid-based ViTs, but maintains the competitive fine-tuning performance across downstream tasks. For example using HTC++ detector, the pre-trained Swin-Large backbone self-supervised under UM-MAE only in ImageNet-1K can even outperform the one supervised in ImageNet-22K. The codes are available at https://github.com/implus/UM-MAE.
翻訳日:2022-05-23 15:15:39 公開日:2022-05-20
# ニューラルネットワークにおける視覚空間表現による二重スリット干渉の発生

Emergence of Double-slit Interference by Representing Visual Space in Artificial Neural Networks ( http://arxiv.org/abs/2205.10081v1 )

ライセンス: Link先を確認
Xiuxiu Bai, Zhe Liu, Yao Gao, Bin Liu, Yongqiang Hao(参考訳) ニューラルネットワークは画像認識で驚くほど成功したが、視覚空間表現の基本的なメカニズムはいまだに謎のままだ。 エントルヒナル皮質におけるグリッドセル(2014年ノーベル賞)は、符号化空間の計量として周期表現をサポートする。 そこで我々は,視覚空間の位置を求める自己教師型畳み込みニューラルネットワークを開発し,波動の単一回折と二重散乱干渉パターンの出現に繋がる。 視覚空間を符号化するCNNの性質をある程度明らかにした。 cnnはもはや、視覚空間エンコーディングの観点からはブラックボックスではなく、解釈可能である。 以上の結果から,波動の周期性は空間計量となり,ニューラルネットワークにおける空間座標系の役割が示唆された。

Artificial neural networks have realized incredible successes at image recognition, but the underlying mechanism of visual space representation remains a huge mystery. Grid cells (2014 Nobel Prize) in the entorhinal cortex support a periodic representation as a metric for coding space. Here, we develop a self-supervised convolutional neural network to perform visual space location, leading to the emergence of single-slit diffraction and double-slit interference patterns of waves. Our discoveries reveal the nature of CNN encoding visual space to a certain extent. CNN is no longer a black box in terms of visual spatial encoding, it is interpretable. Our findings indicate that the periodicity property of waves provides a space metric, suggesting a general role of spatial coordinate frame in artificial neural networks.
翻訳日:2022-05-23 15:13:58 公開日:2022-05-20
# 分散コンテキストにおける人物追跡と再識別: PoseTReIDの拡張

People Tracking and Re-Identifying in Distributed Contexts: Extension of PoseTReID ( http://arxiv.org/abs/2205.10086v1 )

ライセンス: Link先を確認
Ratha Siv, Matei Mancas, Bernard Gosselin, Dona Valy, Sokchenda Sreng(参考訳) 前報では,リアルタイム2次元多人数追跡のための汎用フレームワークであるpositreidについて,行動分析などの他の研究において長期的人物識別が重要である分散インタラクション空間において紹介した。 本稿では,このフレームワークのより完全な理解を実現するため,postereidフレームワークのさらなる研究を紹介する。 前回の論文で使用したOpenPoseと比較するために、よく知られたバウンディングボックス検出器YOLO(v4)を使用し、SORTとDeepSORTを使用して、従来使用されていたセンタロイドと比較し、最も重要な再識別には、MLFN、OSNet、OSNet-AINといった多くのディープリーンメソッドを、前回の論文で使用したFaceNetと比較するために使用しました。 PoseTReIDデータセットを評価することで、これらのディープラーニング再識別方法は、複数のカメラやビデオにまたがる短期的な再識別のために設計されているものの、トラッキング方法に関わらず、PoseTReIDフレームワーク全体のトラッキング性能を高める印象的な結果が得られることが示される。 同時に、調査に親しみやすいオープンソースのPythonツールボックスpyppboxも導入しています。Pythonで書かれたもので、PoseTReIDデータセットのリアルタイムオンラインおよびオフライン評価とともに、この研究で使用されるすべてのサブモジュールが含まれています。 このpyppboxはgithub https://github.com/rathaumons/pyppboxで入手できる。

In our previous paper, we introduced PoseTReID which is a generic framework for real-time 2D multi-person tracking in distributed interaction spaces where long-term people's identities are important for other studies such as behavior analysis, etc. In this paper, we introduce a further study of PoseTReID framework in order to give a more complete comprehension of the framework. We use a well-known bounding box detector YOLO (v4) for the detection to compare to OpenPose which was used in our last paper, and we use SORT and DeepSORT to compare to centroid which was also used previously, and most importantly for the re-identification, we use a bunch of deep leaning methods such as MLFN, OSNet, and OSNet-AIN with our custom classification layer to compare to FaceNet which was also used earlier in our last paper. By evaluating on our PoseTReID datasets, even though those deep learning re-identification methods are designed for only short-term re-identification across multiple cameras or videos, it is worth showing that they give impressive results which boost the overall tracking performance of PoseTReID framework regardless the type of tracking method. At the same time, we also introduce our research-friendly and open source Python toolbox pyppbox, which is pure written in Python and contains all sub-modules which are used this study along with real-time online and offline evaluations for our PoseTReID datasets. This pyppbox is available on GitHub https://github.com/rathaumons/pyppbox .
翻訳日:2022-05-23 15:13:42 公開日:2022-05-20
# MSTRIQ:マルチステージ融合によるスウィントランスによる画像品質評価

MSTRIQ: No Reference Image Quality Assessment Based on Swin Transformer with Multi-Stage Fusion ( http://arxiv.org/abs/2205.10101v1 )

ライセンス: Link先を確認
Jing Wang, Haotian Fa, Xiaoxia Hou, Yitian Xu, Tao Li, Xuechao Lu and Lean Fu(参考訳) 画像の知覚品質を自動測定することは、画像の取得、送信、拡張に至るまで、多くのプロセスに画質の劣化が存在するため、コンピュータビジョン領域において必須の課題である。 多くの画像品質評価(IQA)アルゴリズムがこの問題に対処するために設計されている。 しかし、様々な種類の画像歪みと大規模な人格データセットの欠如により、未だに解決されていない。 本稿では,複数の段階から融合した特徴を持つSwin Transformer [31]に基づく新しいアルゴリズムを提案する。 小規模なデータセットの問題に対処するため、画像の相対的ランク付けと回帰損失を考慮し、モデルを同時に最適化した。 さらに、パフォーマンスを向上させるために効果的なデータ拡張戦略も使用されている。 従来の研究と比較すると、2つの標準IQAデータセットとチャレンジデータセットで実験が行われる。 結果は我々の仕事の有効性を示しています。 提案手法は,NTIRE 2022 Perceptual Image Quality Assessment Challenge[53]の非参照トラックにおいて,標準データセットの他の手法よりも優れ,第2位である。 この手法は, 多様な iqa 問題を解決する上で有望であり, リアルワードアプリケーションに適用可能であることを検証している。

Measuring the perceptual quality of images automatically is an essential task in the area of computer vision, as degradations on image quality can exist in many processes from image acquisition, transmission to enhancing. Many Image Quality Assessment(IQA) algorithms have been designed to tackle this problem. However, it still remains un settled due to the various types of image distortions and the lack of large-scale human-rated datasets. In this paper, we propose a novel algorithm based on the Swin Transformer [31] with fused features from multiple stages, which aggregates information from both local and global features to better predict the quality. To address the issues of small-scale datasets, relative rankings of images have been taken into account together with regression loss to simultaneously optimize the model. Furthermore, effective data augmentation strategies are also used to improve the performance. In comparisons with previous works, experiments are carried out on two standard IQA datasets and a challenge dataset. The results demonstrate the effectiveness of our work. The proposed method outperforms other methods on standard datasets and ranks 2nd in the no-reference track of NTIRE 2022 Perceptual Image Quality Assessment Challenge [53]. It verifies that our method is promising in solving diverse IQA problems and thus can be used to real-word applications.
翻訳日:2022-05-23 15:13:12 公開日:2022-05-20
# ビデオ復元のための教師なしフローアラインシーケンス・ツー・シーケンス学習

Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video Restoration ( http://arxiv.org/abs/2205.10195v1 )

ライセンス: Link先を確認
Jing Lin, Xiaowan Hu, Yuanhao Cai, Haoqian Wang, Youliang Yan, Xueyi Zou, Yulun Zhang, Luc Van Gool(参考訳) ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(vr)にとって重要だが未解決の課題である。 本研究では,この問題に対処するために,教師なしのフローアラインシーケンス・ツー・シーケンスモデル(s2svr)を提案する。 一方,自然言語処理の分野でのシーケンスモデリング能力が証明されたシーケンシャル・ツー・シーケンスモデルがvrで初めて研究されている。 最適化シリアライゼーションモデリングは、フレーム間の長距離依存関係をキャプチャする可能性を示している。 一方,逐次-系列モデルには教師なしの光流量推定器が組み込まれ,そのポテンシャルを最大化している。 フロー推定器は, 提案する非教師付き蒸留損失により, 従来のフローベース法における不正確な光学的流れ問題とデータの不一致を緩和する。 信頼性の高い光フローにより、複数のフレーム間の正確な対応を確立し、1次元言語と2次元不整合フレームのドメイン差を狭め、シーケンシャル・ツー・シーケンスモデルのポテンシャルを向上させることができる。 s2svrは、ビデオデブラリング、ビデオスーパーレゾリューション、圧縮されたビデオ品質向上など、複数のvrタスクにおいて優れたパフォーマンスを示している。 コードとモデルはhttps://github.com/linjing7/VR-Baselineで公開されている。

How to properly model the inter-frame relation within the video sequence is an important but unsolved challenge for video restoration (VR). In this work, we propose an unsupervised flow-aligned sequence-to-sequence model (S2SVR) to address this problem. On the one hand, the sequence-to-sequence model, which has proven capable of sequence modeling in the field of natural language processing, is explored for the first time in VR. Optimized serialization modeling shows potential in capturing long-range dependencies among frames. On the other hand, we equip the sequence-to-sequence model with an unsupervised optical flow estimator to maximize its potential. The flow estimator is trained with our proposed unsupervised distillation loss, which can alleviate the data discrepancy and inaccurate degraded optical flow issues of previous flow-based methods. With reliable optical flow, we can establish accurate correspondence among multiple frames, narrowing the domain difference between 1D language and 2D misaligned frames and improving the potential of the sequence-to-sequence model. S2SVR shows superior performance in multiple VR tasks, including video deblurring, video super-resolution, and compressed video quality enhancement. Code and models are publicly available at https://github.com/linjing7/VR-Baseline
翻訳日:2022-05-23 15:12:53 公開日:2022-05-20
# あらゆるものを数えることを学ぶ:弱スーパービジョンによる参照なしのクラス非依存カウント

Learning to Count Anything: Reference-less Class-agnostic Counting with Weak Supervision ( http://arxiv.org/abs/2205.10203v1 )

ライセンス: Link先を確認
Michael Hobley, Victor Prisacariu(参考訳) オブジェクトのカウントは、様々な実世界のアプリケーションを持つ一見単純なタスクである。 ほとんどのカウントメソッドは、特定の既知のクラスのインスタンスをカウントすることに焦点を当てている。 見えないクラスに一般化できるクラスに依存しないカウントメソッドはあるが、これらのメソッドはカウント対象の型を定義するために参照イメージと、トレーニング中のインスタンスアノテーションを必要とする。 カウントは、その中核となる繰り返し認識タスクであり、グローバルなコンテキストを持つ一般的な特徴空間は、オブジェクトタイプに先行しない画像中のインスタンスを列挙するのに十分であることを示す。 具体的には,自己教師付き視覚トランスフォーマー機能と軽量なカウントレグレッションヘッドを組み合わせることで,ポイントレベルの監督や参照画像を必要としない他のクラス非依存のカウントタスクと比較して,競合的な結果が得られることを示す。 そこで本手法は,常に変化する集合構成のカウントを容易にする。 私たちの知る限りでは、最初の参照なしクラス非依存カウントメソッドと、最初の弱い教師付きクラス非依存カウントメソッドの両方です。

Object counting is a seemingly simple task with diverse real-world applications. Most counting methods focus on counting instances of specific, known classes. While there are class-agnostic counting methods that can generalise to unseen classes, these methods require reference images to define the type of object to be counted, as well as instance annotations during training. We identify that counting is, at its core, a repetition-recognition task and show that a general feature space, with global context, is sufficient to enumerate instances in an image without a prior on the object type present. Specifically, we demonstrate that self-supervised vision transformer features combined with a lightweight count regression head achieve competitive results when compared to other class-agnostic counting tasks without the need for point-level supervision or reference images. Our method thus facilitates counting on a constantly changing set composition. To the best of our knowledge, we are both the first reference-less class-agnostic counting method as well as the first weakly-supervised class-agnostic counting method.
翻訳日:2022-05-23 15:12:31 公開日:2022-05-20
# 圧縮アンサンブルは美的複雑さと視覚芸術の進化を定量化する

Compression ensembles quantify aesthetic complexity and the evolution of visual art ( http://arxiv.org/abs/2205.10271v1 )

ライセンス: Link先を確認
Andres Karjus, Mar Canet Sol\`a, Tillmann Ohm, Sebastian E. Ahnert, Maximilian Schich(参考訳) 視覚美学と複雑性の定量化には長い歴史があり、後者は以前圧縮アルゴリズムを用いて運用されていた。 ここでは,歴史・現代視覚メディアにおけるアルゴリズム的距離を定量化するために,簡単な複雑性尺度を超えて圧縮アプローチを一般化し拡張する。 提案する"ensemble"アプローチは、与えられた入力画像の多くの変換バージョンを圧縮することにより、関連する圧縮比のベクトルを生成する。 このアプローチは他の圧縮に基づくアルゴリズム距離よりも効率的であり、人間の創造的プロセスが最も広義のアルゴリズムとして理解できるため、視覚的アーティファクトの定量的分析に特に適している。 機械学習を用いた画像埋め込み法と異なり、我々のアプローチは変換によって完全に説明可能である。 本手法は,人間の複雑性判断に対して評価し,著作者や作風の自動検出タスクを行うことにより,認知的に有理であり,目的に適合することを示す。 我々は、このアプローチが、何世紀もの規模の美術史データと、急速に発展する現代のnftアート市場の両方のトレンドを解明し、定量化するためにどのように役立つかを示す。 我々は、ゼイトジストに深く埋め込まれている人々から、文書化されたメインストリーム以外のアーティストを曖昧にする時間的類似性をさらに定量化する。 最後に,圧縮アンサンブルは,異なる次元の集合がピンダウンしにくい共有視覚特性に対応するため,視覚的家族類似性の概念を定量的に表わすものであることに留意する。 本手法は,視覚芸術,アルゴリズム画像解析,定量的美学をより一般的に研究するための新しい視点を提供する。

The quantification of visual aesthetics and complexity have a long history, the latter previously operationalized via the application of compression algorithms. Here we generalize and extend the compression approach beyond simple complexity measures to quantify algorithmic distance in historical and contemporary visual media. The proposed "ensemble" approach works by compressing a large number of transformed versions of a given input image, resulting in a vector of associated compression ratios. This approach is more efficient than other compression-based algorithmic distances, and is particularly suited for the quantitative analysis of visual artifacts, because human creative processes can be understood as algorithms in the broadest sense. Unlike comparable image embedding methods using machine learning, our approach is fully explainable through the transformations. We demonstrate that the method is cognitively plausible and fit for purpose by evaluating it against human complexity judgments, and on automated detection tasks of authorship and style. We show how the approach can be used to reveal and quantify trends in art historical data, both on the scale of centuries and in rapidly evolving contemporary NFT art markets. We further quantify temporal resemblance to disambiguate artists outside the documented mainstream from those who are deeply embedded in Zeitgeist. Finally, we note that compression ensembles constitute a quantitative representation of the concept of visual family resemblance, as distinct sets of dimensions correspond to shared visual characteristics otherwise hard to pin down. Our approach provides a new perspective for the study of visual art, algorithmic image analysis, and quantitative aesthetics more generally.
翻訳日:2022-05-23 15:12:14 公開日:2022-05-20
# Dilated Scale-Wise Feature Fusion Network による局所皮膚病変分割

Salient Skin Lesion Segmentation via Dilated Scale-Wise Feature Fusion Network ( http://arxiv.org/abs/2205.10272v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger, Huiyu Zhou(参考訳) 皮膚内視鏡像における皮膚病変の検出は,コンピュータ化装置による皮膚癌の正確な早期診断に不可欠である。 現在の皮膚病変のセグメンテーションアプローチは、不連続な病変境界、病変と周辺領域の低コントラスト、皮膚病変のオーバー/アンダーセグメンテーションを引き起こす異種背景などの困難な状況において、パフォーマンスが低い。 隣接領域からの病変を正確に把握するために,畳み込み因子化に基づく拡張型スケールワイズ特徴融合ネットワークを提案する。 我々のネットワークは、より優れた検出のために体系的に融合された異なるスケールで同時に特徴を抽出するように設計されている。 提案モデルは精度と効率が良好である。 病変の分節に関する様々な実験と最先端モデルとの比較を行った。 提案モデルは最先端の成果を一貫して提示する。

Skin lesion detection in dermoscopic images is essential in the accurate and early diagnosis of skin cancer by a computerized apparatus. Current skin lesion segmentation approaches show poor performance in challenging circumstances such as indistinct lesion boundaries, low contrast between the lesion and the surrounding area, or heterogeneous background that causes over/under segmentation of the skin lesion. To accurately recognize the lesion from the neighboring regions, we propose a dilated scale-wise feature fusion network based on convolution factorization. Our network is designed to simultaneously extract features at different scales which are systematically fused for better detection. The proposed model has satisfactory accuracy and efficiency. Various experiments for lesion segmentation are performed along with comparisons with the state-of-the-art models. Our proposed model consistently showcases state-of-the-art results.
翻訳日:2022-05-23 15:11:48 公開日:2022-05-20
# UViM: 学習指導コードを用いたビジョンのための統一モデリングアプローチ

UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes ( http://arxiv.org/abs/2205.10337v1 )

ライセンス: Link先を確認
Alexander Kolesnikov, Andr\'e Susano Pinto, Lucas Beyer, Xiaohua Zhai, Jeremiah Harmsen, Neil Houlsby(参考訳) 我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。 以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能形式を持つ。 このアプローチには2つのコンポーネントがある: (i) 生の視覚出力を直接予測するために訓練されたベースモデル(フィードフォワード) 学習された離散コードによって導かれる、(ii) ガイドコードを生成するように訓練された言語モデル(自己回帰) 。 言語モデルは構造化された相互依存データのモデリングに適しており、ベースモデルは高次元の出力を扱うのに効率的である。 UViMの3つの多種多様かつ挑戦的な視覚課題における有効性を示す: 汎視的セグメンテーション, 深度予測, 画像色化。 実験結果から,UViMはコンピュータビジョンにおける統一モデリング手法の候補となる可能性が示唆された。

We introduce UViM, a unified approach capable of modeling a wide range of computer vision tasks. In contrast to previous models, UViM has the same functional form for all tasks; it requires no task-specific modifications which require extensive human expertise. The approach involves two components: (I) a base model (feed-forward) which is trained to directly predict raw vision outputs, guided by a learned discrete code and (II) a language model (autoregressive) that is trained to generate the guiding code. These components complement each other: the language model is well-suited to modeling structured interdependent data, while the base model is efficient at dealing with high-dimensional outputs. We demonstrate the effectiveness of UViM on three diverse and challenging vision tasks: panoptic segmentation, depth prediction and image colorization, where we achieve competitive and near state-of-the-art results. Our experimental results suggest that UViM is a promising candidate for a unified modeling approach in computer vision.
翻訳日:2022-05-23 15:10:30 公開日:2022-05-20
# 生物学的に妥当なスパイク遅延符号と入賞抑制を用いた効率的な視覚オブジェクト表現

Efficient visual object representation using a biologically plausible spike-latency code and winner-take-all inhibition ( http://arxiv.org/abs/2205.10338v1 )

ライセンス: Link先を確認
Melani Sanchez-Garcia and Michael Beyeler(参考訳) ディープニューラルネットワークは、オブジェクト認識などの重要な視覚的課題において人間のパフォーマンスを上回っているが、大量のエネルギー、計算、メモリを必要とする。 対照的に、スパイキングニューラルネットワーク(SNN)は、オブジェクト認識システムの効率性と生物学的妥当性の両方を改善する可能性がある。 本稿では,Fashion MNISTデータセットからの視覚刺激を効率的に表現するために,スパイクレイテンシ符号化とWTA-オール阻害(WTA-I)を用いたSNNモデルを提案する。 刺激は中心周囲の受容野で前処理され、その後スパイク刺激依存性可塑性(STDP)を用いてシナプス重みが更新されたスパイキングニューロンの層に供給された。 異なるwta-iスキームの下で表現されたオブジェクトの品質がどのように変化するかを調べ、スパイクニューロン150のネットワークが40スパイク未満のオブジェクトを効率的に表現できることを実証する。 SNNの生物学的に妥当な学習規則を用いて、コアオブジェクト認識がどのように実装されるかを研究することは、脳の理解を深めるだけでなく、新しい効率的な人工視覚システムにも繋がる可能性がある。

Deep neural networks have surpassed human performance in key visual challenges such as object recognition, but require a large amount of energy, computation, and memory. In contrast, spiking neural networks (SNNs) have the potential to improve both the efficiency and biological plausibility of object recognition systems. Here we present a SNN model that uses spike-latency coding and winner-take-all inhibition (WTA-I) to efficiently represent visual stimuli from the Fashion MNIST dataset. Stimuli were preprocessed with center-surround receptive fields and then fed to a layer of spiking neurons whose synaptic weights were updated using spike-timing-dependent-plasticity (STDP). We investigate how the quality of the represented objects changes under different WTA-I schemes and demonstrate that a network of 150 spiking neurons can efficiently represent objects with as little as 40 spikes. Studying how core object recognition may be implemented using biologically plausible learning rules in SNNs may not only further our understanding of the brain, but also lead to novel and efficient artificial vision systems.
翻訳日:2022-05-23 15:10:10 公開日:2022-05-20
# 照明物理によるスタイルGANの濃縮

Enriching StyleGAN with Illumination Physics ( http://arxiv.org/abs/2205.10351v1 )

ライセンス: Link先を確認
Anand Bhattad and D.A. Forsyth(参考訳) StyleGANは、遅延コードからシーンの新たなイメージを生成します。 しかしStyleGANはそのトレーニングセットを“類似”したイメージを生成する。 本稿では,StyleGANの生成能力を高めるために,画像の簡単な物理特性を利用する方法を示す。 画像の分解に本質的画像法を用い,事前学習されたスタイルガンの潜在空間を探索し,ある成分(アルベドなど)を固定し,別の成分(シェーディングなど)を変更する新しい方向を求める。 したがって、シーンレイアウトやオブジェクトの色、形状を変えることなく、複雑なシーンの照明を変えることができる。 あるいは、シェーディング強度やシーンレイアウトを変えることなく、オブジェクトの色を変えることもできます。 我々の実験は、提案手法であるStyLitGANがシーンに照明器具を追加・除去し、リアルな照明効果(影のキャスト、柔らかい影、反射間反射、光沢のある効果)で画像を生成することができることを示唆している。 定性的評価は、生成したイメージがリアルであり、コンポーネントを自由に変更または修正できることを確認する。 事前学習したStyleGANは,StyLitGANが生成するイメージを生成できないことを示す定量的評価を行い,現実的なアウト・オブ・ディストリビューション画像を自動的に生成できるので,StyleGANが生成できる画像の範囲を大幅に拡大することができる。

StyleGAN generates novel images of a scene from latent codes which are impressively disentangled. But StyleGAN generates images that are "like" its training set. This paper shows how to use simple physical properties of images to enrich StyleGAN's generation capacity. We use an intrinsic image method to decompose an image, then search the latent space of a pretrained StyleGAN to find novel directions that fix one component (say, albedo) and vary another (say, shading). Therefore, we can change the lighting of a complex scene without changing the scene layout, object colors, and shapes. Or we can change the colors of objects without changing shading intensity or their scene layout. Our experiments suggest the proposed method, StyLitGAN, can add and remove luminaires in the scene and generate images with realistic lighting effects -- cast shadows, soft shadows, inter-reflections, glossy effects -- requiring no labeled paired relighting data or any other geometric supervision. Qualitative evaluation confirms that our generated images are realistic and that we can change or fix components at will. Quantitative evaluation shows that pre-trained StyleGAN could not produce the images StyLitGAN produces; we can automatically generate realistic out-of-distribution images, and so can significantly enrich the range of images StyleGAN can produce.
翻訳日:2022-05-23 15:09:49 公開日:2022-05-20
# 2段オートエンコーダを用いた大規模流体ハンドリングプラントにおける多変量時系列の異常検出

Anomaly Detection for Multivariate Time Series on Large-scale Fluid Handling Plant Using Two-stage Autoencoder ( http://arxiv.org/abs/2205.09924v1 )

ライセンス: Link先を確認
Susumu Naito, Yasunori Taguchi, Kouta Nakata, Yuichi Kato(参考訳) 本稿では, 発電, 水処理, 化学プラントなどの動的成分を有する大規模流体処理プラントにおいて, 様々な物理現象の信号を同時に観測する多変量時系列データの異常検出について検討する。 これらのプラントでは, 熟練技術者の減少と人力不足を踏まえ, 運転・保守コストの低減を図るため, 異常検出技術の必要性が高まっている。 しかし、高次元信号の複雑な挙動と解釈可能性の要求を考えると、この手法は大きな課題となっている。 このような植物に適した異常検出法として2段階自動エンコーダ(TSAE)を導入する。 これは、プラント信号がほぼ相関のない2つの動作に分離できるという前提に基づいて、信号が段階的に長期成分と短期成分に分離され、正常信号の推論能力を改善するために2つのコンポーネントが独立して訓練される単純なオートエンコーダアーキテクチャである。 水処理システムの2つの公開データセットを用いた実験により, 高い検出性能, 前提の妥当性, モデル行動が意図したものであること, 即ちtsaeの技術的有効性を確認した。

This paper focuses on anomaly detection for multivariate time series data in large-scale fluid handling plants with dynamic components, such as power generation, water treatment, and chemical plants, where signals from various physical phenomena are observed simultaneously. In these plants, the need for anomaly detection techniques is increasing in order to reduce the cost of operation and maintenance, in view of a decline in the number of skilled engineers and a shortage of manpower. However, considering the complex behavior of high-dimensional signals and the demand for interpretability, the techniques constitute a major challenge. We introduce a Two-Stage AutoEncoder (TSAE) as an anomaly detection method suitable for such plants. This is a simple autoencoder architecture that makes anomaly detection more interpretable and more accurate, in which based on the premise that plant signals can be separated into two behaviors that have almost no correlation with each other, the signals are separated into long-term and short-term components in a stepwise manner, and the two components are trained independently to improve the inference capability for normal signals. Through experiments on two publicly available datasets of water treatment systems, we have confirmed the high detection performance, the validity of the premise, and that the model behavior was as intended, i.e., the technical effectiveness of TSAE.
翻訳日:2022-05-23 15:08:25 公開日:2022-05-20
# 自己教師付き時系列表現学習のためのクロスコンストラクショントランス

Cross Reconstruction Transformer for Self-Supervised Time Series Representation Learning ( http://arxiv.org/abs/2205.09928v1 )

ライセンス: Link先を確認
Wenrui Zhang, Ling Yang, Shijia Geng, Shenda Hong(参考訳) ラベル付きサンプルは通常現実のシナリオでは不足するため、時系列における教師なし/自己教師付き表現学習が重要である。 既存のアプローチは主に対照的な学習フレームワークを活用しており、類似したデータ対を理解するために自動的に学習する。 それでも、それらは、ペアの構築、面倒なサンプリングポリシー、サンプリングバイアスに遭遇する不安定なパフォーマンスに関する以前の知識に制限されている。 また、表現能力を拡張するために時間-スペクトル関係を効果的にモデル化することに焦点を当てた作品はほとんどない。 本稿では,新たな視点から時系列表現の学習を目指して,上記の問題を統一的に解くために,クロス再構成変換器(CRT)を提案する。 CRTはクロスドメインドロップ・リコンストラクションタスクを通じて時系列表現学習を実現する。 具体的には、時系列を周波数領域に変換し、時間領域と周波数領域の両方の特定の部分をランダムにドロップする。 ドロップは、切り抜きやマスキングと比較して、グローバルコンテキストを最大限に保存することができる。 次に、変換器アーキテクチャを用いて、両領域のデータを再構成することで、時間的・スペクトル的情報間のクロスドメイン相関を適切に捕捉する。 グローバルな潜在空間における表現を識別するために、異なる時系列間の相互情報を減らすとともに、決定境界を鋭くするインスタンス識別制約を提案する。 さらに,CRTを最適化する特定のカリキュラム学習戦略を提案する。

Unsupervised/self-supervised representation learning in time series is critical since labeled samples are usually scarce in real-world scenarios. Existing approaches mainly leverage the contrastive learning framework, which automatically learns to understand the similar and dissimilar data pairs. Nevertheless, they are restricted to the prior knowledge of constructing pairs, cumbersome sampling policy, and unstable performances when encountering sampling bias. Also, few works have focused on effectively modeling across temporal-spectral relations to extend the capacity of representations. In this paper, we aim at learning representations for time series from a new perspective and propose Cross Reconstruction Transformer (CRT) to solve the aforementioned problems in a unified way. CRT achieves time series representation learning through a cross-domain dropping-reconstruction task. Specifically, we transform time series into the frequency domain and randomly drop certain parts in both time and frequency domains. Dropping can maximally preserve the global context compared to cropping and masking. Then a transformer architecture is utilized to adequately capture the cross-domain correlations between temporal and spectral information through reconstructing data in both domains, which is called Dropped Temporal-Spectral Modeling. To discriminate the representations in global latent space, we propose Instance Discrimination Constraint to reduce the mutual information between different time series and sharpen the decision boundaries. Additionally, we propose a specified curriculum learning strategy to optimize the CRT, which progressively increases the dropping ratio in the training process.
翻訳日:2022-05-23 15:08:03 公開日:2022-05-20
# FairNorm: 公正かつ高速なグラフニューラルネットワークトレーニング

FairNorm: Fair and Fast Graph Neural Network Training ( http://arxiv.org/abs/2205.09977v1 )

ライセンス: Link先を確認
O. Deniz Kose, Yanning Shen(参考訳) グラフニューラルネットワーク(gnns)は、多くのグラフベースの学習タスクの最先端を達成することが実証されており、さまざまな領域での雇用の増加につながる。 しかし、GNNはトレーニングデータのバイアスを継承し、さらに増幅し、特定のセンシティブなグループに対して不公平な結果をもたらす可能性があることが示されている。 一方、GNNのトレーニングでは、収束の遅さや不安定性の可能性など、さらなる課題が導入されている。 このような制限に直面した本研究では,gnnベースの学習のバイアスを軽減すると同時に,より高速な収束を実現する統一正規化フレームワークfairnormを提案する。 具体的には、fairnormはgnnのバイアスを減らすために、学習可能なパラメータを持つ異なる敏感なグループに対してフェアネス認識正規化演算子を用いる。 FairNormの設計は、グラフベースの学習におけるバイアス源を照らす分析に基づいている。 実世界のネットワーク上でのノード分類実験は、統計的パリティと平等機会の観点でフェアネスを改善するための提案手法の効率を、フェアネス対応ベースラインと比較して示している。 さらに,提案手法は正規化を行わないナイーブベースラインと比較して,より高速に収束することが実証的に示されている。

Graph neural networks (GNNs) have been demonstrated to achieve state-of-the-art for a number of graph-based learning tasks, which leads to a rise in their employment in various domains. However, it has been shown that GNNs may inherit and even amplify bias within training data, which leads to unfair results towards certain sensitive groups. Meanwhile, training of GNNs introduces additional challenges, such as slow convergence and possible instability. Faced with these limitations, this work proposes FairNorm, a unified normalization framework that reduces the bias in GNN-based learning while also providing provably faster convergence. Specifically, FairNorm employs fairness-aware normalization operators over different sensitive groups with learnable parameters to reduce the bias in GNNs. The design of FairNorm is built upon analyses that illuminate the sources of bias in graph-based learning. Experiments on node classification over real-world networks demonstrate the efficiency of the proposed scheme in improving fairness in terms of statistical parity and equal opportunity compared to fairness-aware baselines. In addition, it is empirically shown that the proposed framework leads to faster convergence compared to the naive baseline where no normalization is employed.
翻訳日:2022-05-23 15:07:18 公開日:2022-05-20
# 逆分類における一貫性に向けて

Towards Consistency in Adversarial Classification ( http://arxiv.org/abs/2205.10022v1 )

ライセンス: Link先を確認
Laurent Meunier, Rapha\"el Ettedgui, Rafael Pinot, Yann Chevaleyre, Jamal Atif(参考訳) 本稿では,実例の文脈における一貫性の問題について考察する。 テスト時に入力を変更する敵の存在下での損失0/1$を最小化するためのプロキシとして、依然として損失を代理することができるか? 標準分類タスクと異なり、この問題はポイントワイズ最小化問題に還元できず、一貫性を確保するためにキャリブレーションが不十分である。 本稿では, 対向問題に特有の病的挙動を明らかにし, この文脈では凸状代理損失が一貫せず, 校正できないことを示す。 したがって、逆整合性問題を解くために使用できる別の種類のサロゲート関数を設計する必要がある。 このようなクラスを設計するための第一歩として、サーロゲート損失を敵と標準設定の両方で校正するための十分な条件と必要条件を特定する。 最後に、敵のフレームワークで一貫性のある損失のクラスを構築するためのいくつかの方向を示す。

In this paper, we study the problem of consistency in the context of adversarial examples. Specifically, we tackle the following question: can surrogate losses still be used as a proxy for minimizing the $0/1$ loss in the presence of an adversary that alters the inputs at test-time? Different from the standard classification task, this question cannot be reduced to a point-wise minimization problem, and calibration needs not to be sufficient to ensure consistency. In this paper, we expose some pathological behaviors specific to the adversarial problem, and show that no convex surrogate loss can be consistent or calibrated in this context. It is therefore necessary to design another class of surrogate functions that can be used to solve the adversarial consistency issue. As a first step towards designing such a class, we identify sufficient and necessary conditions for a surrogate loss to be calibrated in both the adversarial and standard settings. Finally, we give some directions for building a class of losses that could be consistent in the adversarial framework.
翻訳日:2022-05-23 15:06:58 公開日:2022-05-20
# グラフニューラルネットワークの予測不安定性について

On the Prediction Instability of Graph Neural Networks ( http://arxiv.org/abs/2205.10070v1 )

ライセンス: Link先を確認
Max Klabunde, Florian Lemmerich(参考訳) 訓練されたモデルの不安定性、すなわちランダムな要因に対する個々のノード予測の依存は、機械学習システムの再現性、信頼性、信頼に影響を及ぼす。 本稿では,最新のグラフニューラルネットワーク(GNN)によるノード分類の不安定性の予測を系統的に評価する。 実験により,同じモデルハイパーパラメータで同じデータに基づいてトレーニングされた一般的なgnnモデルの複数のインスタンス化が,ほぼ同一の集約性能をもたらすが,個々のノードの予測にかなりの不一致を示すことが判明した。 不正に分類されたノードの最大3分の1は、アルゴリズムの実行によって異なることがわかった。 予測の安定性を指標として,ハイパーパラメータ,ノード特性,トレーニングセットの大きさの相関関係を同定する。 一般に、モデル性能の最大化はモデルの不安定さを暗黙的に減少させる。

Instability of trained models, i.e., the dependence of individual node predictions on random factors, can affect reproducibility, reliability, and trust in machine learning systems. In this paper, we systematically assess the prediction instability of node classification with state-of-the-art Graph Neural Networks (GNNs). With our experiments, we establish that multiple instantiations of popular GNN models trained on the same data with the same model hyperparameters result in almost identical aggregated performance but display substantial disagreement in the predictions for individual nodes. We find that up to one third of the incorrectly classified nodes differ across algorithm runs. We identify correlations between hyperparameters, node properties, and the size of the training set with the stability of predictions. In general, maximizing model performance implicitly also reduces model instability.
翻訳日:2022-05-23 15:06:44 公開日:2022-05-20
# FedNoiL: ノイズラベルによるフェデレーション学習のための簡易2レベルサンプリング手法

FedNoiL: A Simple Two-Level Sampling Method for Federated Learning with Noisy Labels ( http://arxiv.org/abs/2205.10110v1 )

ライセンス: Link先を確認
Zhuowei Wang, Tianyi Zhou, Guodong Long, Bo Han, Jing Jiang(参考訳) federated learning(fl)は、トレーニングデータが収集され、ローカルデバイスに配置されている間、サーバ側でグローバルモデルをトレーニングすることを目的としている。 したがって、実際にはラベルは通常、様々な専門知識や基準を持つ顧客によって注釈付けされるため、異なる量のノイズを含む。 ノイズラベルのローカルトレーニングは、ノイズラベルに過度に適合する可能性があるため、アグリゲーションによってグローバルモデルに打撃を与えている。 最近の堅牢なflメソッドは悪意のあるクライアントを考慮に入れているが、各デバイス上のローカルノイズラベルとグローバルモデルへの影響については対処していない。 本稿では,(1)サーバ上でより堅牢なグローバルアグリゲーションのためにクライアントを選択し,(2)クライアント端でクリーンラベルと正しい擬似ラベルを選択し,より堅牢なローカルトレーニングを行う,簡易な2レベルサンプリング手法"fednoil"を開発した。 サンプリング確率は,グローバルモデルによるクリーンラベル検出に基づいて構築される。 さらに,flの過程での局所的エポック変化の異なるスケジュールについて検討し,ノイズラベル設定における通信効率と計算効率の向上について検討した。 均質/ヘテロゲニーデータ分布と雑音比を用いた実験では,sota fl法とsotaノイズラベル学習法との直接組み合わせは容易に失敗できるが,一貫して優れた頑健な性能が得られることがわかった。

Federated learning (FL) aims at training a global model on the server side while the training data are collected and located at the local devices. Hence, the labels in practice are usually annotated by clients of varying expertise or criteria and thus contain different amounts of noises. Local training on noisy labels can easily result in overfitting to noisy labels, which is devastating to the global model through aggregation. Although recent robust FL methods take malicious clients into account, they have not addressed local noisy labels on each device and the impact to the global model. In this paper, we develop a simple two-level sampling method "FedNoiL" that (1) selects clients for more robust global aggregation on the server; and (2) selects clean labels and correct pseudo-labels at the client end for more robust local training. The sampling probabilities are built upon clean label detection by the global model. Moreover, we investigate different schedules changing the local epochs between aggregations over the course of FL, which notably improves the communication and computation efficiency in noisy label setting. In experiments with homogeneous/heterogeneous data distributions and noise ratios, we observed that direct combinations of SOTA FL methods with SOTA noisy-label learning methods can easily fail but our method consistently achieves better and robust performance.
翻訳日:2022-05-23 15:06:32 公開日:2022-05-20
# 部分特定問題の組合せ最適化のための機械学習:統一レンズとしてのレグレット最小化

Machine Learning for Combinatorial Optimisation of Partially-Specified Problems: Regret Minimisation as a Unifying Lens ( http://arxiv.org/abs/2205.10157v1 )

ライセンス: Link先を確認
Stefano Teso, Laurens Bliek, Andrea Borghesi, Michele Lombardi, Neil Yorke-Smith, Tias Guns, Andrea Passerini(参考訳) 部分的に特定された組合せ最適化問題を解くことはますます一般的である。 目的関数や変数間の関係が分かっていない場合や部分的に特定されている場合について検討する。 課題は、ソリューションが満たさなければならない一連の厳しい制約を考慮しつつ、利用可能なデータからそれらを学ぶことである。 本稿では,ハードコンビネート最適化問題の目的関数を学習できる,一見無関係な4つのアプローチについて概説する。 1)代理に基づく最適化 2)経験的モデル学習 3)意思決定中心の学習(「予測+最適化」)、 4) 構造出力予測。 文献でよく見られる方法で、まずは各学習パラダイムを形式化し、その後、後悔を用いて形式化を互換性のある方法でまとめます。 我々はこれらのフレームワークの違いと相互作用について議論し、交配の機会を強調し、オープンな方向を調査する。

It is increasingly common to solve combinatorial optimisation problems that are partially-specified. We survey the case where the objective function or the relations between variables are not known or are only partially specified. The challenge is to learn them from available data, while taking into account a set of hard constraints that a solution must satisfy, and that solving the optimisation problem (esp. during learning) is computationally very demanding. This paper overviews four seemingly unrelated approaches, that can each be viewed as learning the objective function of a hard combinatorial optimisation problem: 1) surrogate-based optimisation, 2) empirical model learning, 3) decision-focused learning (`predict + optimise'), and 4) structured-output prediction. We formalise each learning paradigm, at first in the ways commonly found in the literature, and then bring the formalisations together in a compatible way using regret. We discuss the differences and interactions between these frameworks, highlight the opportunities for cross-fertilization and survey open directions.
翻訳日:2022-05-23 15:06:07 公開日:2022-05-20
# 完全ベイズガウス過程を用いたベイズ能動的学習

Bayesian Active Learning with Fully Bayesian Gaussian Processes ( http://arxiv.org/abs/2205.10186v1 )

ライセンス: Link先を確認
Christoffer Riis, Francisco N. Antunes, Frederik Boe H\"uttel, Carlos Lima Azevedo, Francisco Camara Pereira(参考訳) バイアス分散トレードオフ(bias-variance trade-off)は、マシンラーニングでよく知られた問題である。 アクティブラーニングでは、ラベル付きデータを得るのが難しく、このトレードオフを無視すると非効率で最適でないクエリが発生し、不要なデータラベリングが発生する。 本稿では,ガウス過程(GP)を用いた能動的学習に焦点を当てる。 GPの場合、バイアス分散トレードオフは2つのハイパーパラメータ(長さスケールと雑音長)の最適化によって行われる。 ハイパーパラメーターの関節後部の最適モードが最適バイアス分散トレードオフと等価であることを考えると、この関節後部を近似して2つの新しい獲得関数を設計する。 1つは Query-by-Committee (B-QBC) のベイズ変種であり、もう1つは Query by Mixture of Gaussian Processes (QB-MGP) の定式化による予測分散を明示的に最小化する拡張である。 6つの一般的なシミュレータにおいて,B-QBCは平均的に最良辺縁率,QB-MGPは最良予測性能を示す。 取得関数にバイアス分散トレードオフを組み込むことで、不要で高価なデータラベリングが軽減されることを示す。

The bias-variance trade-off is a well-known problem in machine learning that only gets more pronounced the less available data there is. In active learning, where labeled data is scarce or difficult to obtain, neglecting this trade-off can cause inefficient and non-optimal querying, leading to unnecessary data labeling. In this paper, we focus on active learning with Gaussian Processes (GPs). For the GP, the bias-variance trade-off is made by optimization of the two hyperparameters: the length scale and noise-term. Considering that the optimal mode of the joint posterior of the hyperparameters is equivalent to the optimal bias-variance trade-off, we approximate this joint posterior and utilize it to design two new acquisition functions. The first one is a Bayesian variant of Query-by-Committee (B-QBC), and the second is an extension that explicitly minimizes the predictive variance through a Query by Mixture of Gaussian Processes (QB-MGP) formulation. Across six common simulators, we empirically show that B-QBC, on average, achieves the best marginal likelihood, whereas QB-MGP achieves the best predictive performance. We show that incorporating the bias-variance trade-off in the acquisition functions mitigates unnecessary and expensive data labeling.
翻訳日:2022-05-23 15:04:02 公開日:2022-05-20
# se-moe - スケーラブルで効率的な分散トレーニングと推論システム

SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training and Inference System ( http://arxiv.org/abs/2205.10034v1 )

ライセンス: Link先を確認
Liang Shen, Zhihua Wu, WeiBao Gong, Hongxiang Hao, Yangfan Bai, HuaChao Wu, Xinxuan Wu, Haoyi Xiong, Dianhai Yu, Yanjun Ma(参考訳) 近年,ML インフラストラクチャの多様性が増しているため,多種多様なコンピューティングシステムによる分散トレーニングが望まれている。 Mixture-of-Experts(MoE)モデルは、ゲーティングと並列化によってモデル/データの全体サイズに応じたトレーニングコストを低減するために提案されている。 DeepSpeedは、異種インフラストラクチャ上で大規模なMoEトレーニングを実施する努力を続けているが、トレーニングと推論の効率は、ロードバランシング、通信/計算効率、メモリフットプリント制限など、いくつかのシステム側面からさらに改善される可能性がある。 本研究では,階層型ストレージ上での2次元プリフェッチとフュージョン通信による弾力的MoEトレーニングを提案するSE-MoEを提案する。 単一ノードでのスケーラブルな推論、特にモデルサイズがgpuメモリより大きい場合、se-moeはcpu-gpuメモリを複数のセクションに結合してロードし、効率的な推論のためにメモリセクションをまたいで計算タスクを実行する。 se-moeの評価実験を行い、48 a100 gpuカード上で8日で12bのパラメータのばらばらなミックスド・オブ・エキスパートズモデルを用いた統一機能最適化(ufo)モデルのトレーニングに成功した。 最先端と比較すると、SE-MoEはDeepSpeedより33%高いスループット(秒間トークン)、一般の推論では13%高いスループットでパフォーマンスが向上した。 特に、不均衡なMoEタスク、例えばUFOでは、SE-MoEは64%高いスループットを実現し、18%低いメモリフットプリントを実現した。 フレームワークのコードは、https://github.com/PaddlePaddle/Paddle.comでリリースされる。

With the increasing diversity of ML infrastructures nowadays, distributed training over heterogeneous computing systems is desired to facilitate the production of big models. Mixture-of-Experts (MoE) models have been proposed to lower the cost of training subject to the overall size of models/data through gating and parallelism in a divide-and-conquer fashion. While DeepSpeed has made efforts in carrying out large-scale MoE training over heterogeneous infrastructures, the efficiency of training and inference could be further improved from several system aspects, including load balancing, communication/computation efficiency, and memory footprint limits. In this work, we present SE-MoE that proposes Elastic MoE training with 2D prefetch and Fusion communication over Hierarchical storage, so as to enjoy efficient parallelisms in various types. For scalable inference in a single node, especially when the model size is larger than GPU memory, SE-MoE forms the CPU-GPU memory jointly into a ring of sections to load the model, and executes the computation tasks across the memory sections in a round-robin manner for efficient inference. We carried out extensive experiments to evaluate SE-MoE, where SE-MoE successfully trains a Unified Feature Optimization (UFO) model with a Sparsely-Gated Mixture-of-Experts model of 12B parameters in 8 days on 48 A100 GPU cards. The comparison against the state-of-the-art shows that SE-MoE outperformed DeepSpeed with 33% higher throughput (tokens per second) in training and 13% higher throughput in inference in general. Particularly, under unbalanced MoE Tasks, e.g., UFO, SE-MoE achieved 64% higher throughput with 18% lower memory footprints. The code of the framework will be released on: https://github.com/PaddlePaddle/Paddle.
翻訳日:2022-05-23 15:03:40 公開日:2022-05-20
# 脚部ロボットの逆行性関節攻撃

Adversarial joint attacks on legged robots ( http://arxiv.org/abs/2205.10098v1 )

ライセンス: Link先を確認
Takuto Otomo, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) 深層強化学習により訓練された脚部ロボットの関節におけるアクチュエータに対する敵意攻撃について述べる。 関節攻撃の脆弱性は、脚のあるロボットの安全性と堅牢性に大きな影響を及ぼす可能性がある。 本研究では,アクチュエータのトルク制御信号に対する逆摂動が,ロボットの報酬を著しく減少させ,歩行不安定を引き起こすことを実証する。 逆方向のトルク摂動を見つけるために,深い強化学習によって訓練されたニューラルネットワークにアクセスできないブラックボックスの逆方向攻撃を発生させる。 ブラックボックス攻撃は、深層強化学習のアーキテクチャやアルゴリズムにかかわらず、脚のあるロボットに適用することができる。 我々は,ブラックボックス攻撃に対して,ランダム探索,微分進化,数値勾配降下という3つの探索手法を用いる。 四足歩行ロボットAnt-v2と二足歩行ロボットHumanoid-v2を用いた実験では,3つの方法の中で最も強いトルク摂動を効率よく発見できることがわかった。 また,二足歩行ロボットのヒューマノイドv2は摂動に対して頑健であるのに対し,四足歩行ロボットのant-v2は逆摂動に対して脆弱であることが分かった。 これにより、関節発作はロボット歩行不安定症の予防診断に使用できる。

We address adversarial attacks on the actuators at the joints of legged robots trained by deep reinforcement learning. The vulnerability to the joint attacks can significantly impact the safety and robustness of legged robots. In this study, we demonstrate that the adversarial perturbations to the torque control signals of the actuators can significantly reduce the rewards and cause walking instability in robots. To find the adversarial torque perturbations, we develop black-box adversarial attacks, where, the adversary cannot access the neural networks trained by deep reinforcement learning. The black box attack can be applied to legged robots regardless of the architecture and algorithms of deep reinforcement learning. We employ three search methods for the black-box adversarial attacks: random search, differential evolution, and numerical gradient descent methods. In experiments with the quadruped robot Ant-v2 and the bipedal robot Humanoid-v2, in OpenAI Gym environments, we find that differential evolution can efficiently find the strongest torque perturbations among the three methods. In addition, we realize that the quadruped robot Ant-v2 is vulnerable to the adversarial perturbations, whereas the bipedal robot Humanoid-v2 is robust to the perturbations. Consequently, the joint attacks can be used for proactive diagnosis of robot walking instability.
翻訳日:2022-05-23 15:03:11 公開日:2022-05-20
# 脚型ロボットの逆物体形状探索

Adversarial Body Shape Search for Legged Robots ( http://arxiv.org/abs/2205.10187v1 )

ライセンス: Link先を確認
Takaaki Azakami, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) 深部強化学習による脚付きロボットの部品の長さと厚さに対する対角攻撃の進化的計算法を提案する。 この攻撃はロボットの体形を変えて歩行を妨害し、攻撃された体を敵の体形と呼ぶ。 進化的計算法は,歩行シミュレーションによって得られる期待累積報酬を最小化し,逆体形状を探索する。 提案手法の有効性を評価するため,OpenAI Gymで3脚ロボット,Walker2d,Ant-v2,Humanoid-v2を用いて実験を行った。 実験の結果,walker2dとant-v2は体部の厚みよりも体長に対する攻撃に弱いが,humanoid-v2は体長と厚みの両方に対する攻撃に弱いことが明らかとなった。 さらに,物体形状が左右対称を破ったり,脚型ロボットの重心を移動させたりすることも確認した。 対向体の形状を見つけることで、足歩行の脆弱性を積極的に診断することができる。

We propose an evolutionary computation method for an adversarial attack on the length and thickness of parts of legged robots by deep reinforcement learning. This attack changes the robot body shape and interferes with walking-we call the attacked body as adversarial body shape. The evolutionary computation method searches adversarial body shape by minimizing the expected cumulative reward earned through walking simulation. To evaluate the effectiveness of the proposed method, we perform experiments with three-legged robots, Walker2d, Ant-v2, and Humanoid-v2 in OpenAI Gym. The experimental results reveal that Walker2d and Ant-v2 are more vulnerable to the attack on the length than the thickness of the body parts, whereas Humanoid-v2 is vulnerable to the attack on both of the length and thickness. We further identify that the adversarial body shapes break left-right symmetry or shift the center of gravity of the legged robots. Finding adversarial body shape can be used to proactively diagnose the vulnerability of legged robot walking.
翻訳日:2022-05-23 15:02:50 公開日:2022-05-20
# (参考訳) グロッキングの理解に向けて--表現学習の効果的な理論

Towards Understanding Grokking: An Effective Theory of Representation Learning ( http://arxiv.org/abs/2205.10343v1 )

ライセンス: CC BY 4.0
Ziming Liu, Ouail Kitouni, Niklas Nolte, Eric J. Michaud, Max Tegmark, Mike Williams(参考訳) トレーニングセットに過度に適合した後、モデルが長期にわたって一般化する現象である。 実効理論に固定された微視的解析とハイパーパラメータ間の学習性能を記述する位相図の巨視的解析の両方を示す。 一般化は、トレーニングのダイナミクスとトレーニングセットサイズへの依存が、おもちゃの設定における有効理論によって予測できる構造化表現に由来する。 我々は4つの学習段階(理解、グロッキング、記憶、混乱)の存在を実証的に観察する。 表現学習は記憶と混乱の間の「ゴルディロックゾーン」(理解とグロッキングを含む)でのみ起こることが判明した。 理解相と比較すると、グラッキング相は記憶相に近づき、一般化が遅れる。 ゴールディロックス相はダーウィン進化における「飢餓からの知性」を想起させるものであり、資源制限がより効率的な解の発見を促進する。 この研究は、グルーキングの起源の直感的な説明を提供するだけでなく、物理にインスパイアされたツール、例えば効果的な理論や位相図が深層学習の理解に有用であることを強調する。

We aim to understand grokking, a phenomenon where models generalize long after overfitting their training set. We present both a microscopic analysis anchored by an effective theory and a macroscopic analysis of phase diagrams describing learning performance across hyperparameters. We find that generalization originates from structured representations whose training dynamics and dependence on training set size can be predicted by our effective theory in a toy setting. We observe empirically the presence of four learning phases: comprehension, grokking, memorization, and confusion. We find representation learning to occur only in a "Goldilocks zone" (including comprehension and grokking) between memorization and confusion. Compared to the comprehension phase, the grokking phase stays closer to the memorization phase, leading to delayed generalization. The Goldilocks phase is reminiscent of "intelligence from starvation" in Darwinian evolution, where resource limitations drive discovery of more efficient solutions. This study not only provides intuitive explanations of the origin of grokking, but also highlights the usefulness of physics-inspired tools, e.g., effective theories and phase diagrams, for understanding deep learning.
翻訳日:2022-05-23 15:00:49 公開日:2022-05-20
# 安全強化学習の展望 : 方法・理論・応用

A Review of Safe Reinforcement Learning: Methods, Theory and Applications ( http://arxiv.org/abs/2205.10330v1 )

ライセンス: Link先を確認
Shangding Gu, Long Yang, Yali Du, Guang Chen, Florian Walter, Jun Wang, Yaodong Yang, Alois Knoll(参考訳) 強化学習は多くの複雑な意思決定タスクで大きな成功を収めました。 現実の世界におけるRLの展開に関しては、安全上の懸念が高まっており、自動運転やロボティクスのシナリオなど、安全な強化学習アルゴリズムの需要が高まっている。 安全性制御には長い歴史があるが、安全なrlアルゴリズムの研究はまだ初期段階にある。 本稿では,本スレッドの今後の研究基盤を確立するために,手法,理論,応用の観点から,安全なRLのレビューを行う。 まず,安全RLの5次元からの進歩を概観し,安全RLを「2H3W」と命名した現実世界のアプリケーションに展開する上で重要な5つの問題を提起する。 次に,「2h3w」問題への回答の観点から,理論とアルゴリズムの進歩を分析する。 次に、安全なRL手法のサンプル複雑性を概説し、続いて安全なRLアルゴリズムのアプリケーションとベンチマークを導入する。 最後に、安全なRLにおける課題に関する議論を開き、このスレッドに関するさらなる研究を刺激したいと考えている。 安全なRLアルゴリズムの研究を進めるために、主要な安全なRLアルゴリズムの実装を含むオープンソースリポジトリであるベンチマークスイートをリリースした。

Reinforcement learning has achieved tremendous success in many complex decision making tasks. When it comes to deploying RL in the real world, safety concerns are usually raised, leading to a growing demand for safe reinforcement learning algorithms, such as in autonomous driving and robotics scenarios. While safety control has a long history, the study of safe RL algorithms is still in the early stages. To establish a good foundation for future research in this thread, in this paper, we provide a review for safe RL from the perspectives of methods, theory and applications. Firstly, we review the progress of safe RL from five dimensions and come up with five problems that are crucial for safe RL being deployed in real-world applications, coined as "2H3W". Secondly, we analyze the theory and algorithm progress from the perspectives of answering the "2H3W" problems. Then, the sample complexity of safe RL methods is reviewed and discussed, followed by an introduction of the applications and benchmarks of safe RL algorithms. Finally, we open the discussion of the challenging problems in safe RL, hoping to inspire more future research on this thread. To advance the study of safe RL algorithms, we release a benchmark suite, an open-sourced repository containing the implementations of major safe RL algorithms, along with tutorials at the link: https://github.com/chauncygu/Safe-Reinforcement-Learning-Baselines.git.
翻訳日:2022-05-23 14:38:36 公開日:2022-05-20
# ベイズニューラルネットワークのサンプル効率改善のための後部リファインメント

Posterior Refinement Improves Sample Efficiency in Bayesian Neural Networks ( http://arxiv.org/abs/2205.10041v1 )

ライセンス: Link先を確認
Agustinus Kristiadi and Runa Eschenhagen and Philipp Hennig(参考訳) モンテカルロ積分 (monte carlo (mc) integration) は、ベイズニューラルネットワーク (bnns) の予測分布を近似するデファクト法である。 しかし、多くのMCサンプルであっても、ガウス系BNNは後部近似の誤差のために予測性能が悪い。 一方、MC統合の代替案はより高価か偏見が強い傾向にある。 そこで本研究では,良好なmc近似予測分布の鍵は近似後輪自体の品質であることを示す。 しかし、正確な後方近似を得る以前の方法は高価であり、実装は簡単ではない。 そこで我々は正規化フローでガウス近似後部を洗練することを提案する。 最終層BNNに適用すると、既存のパラメトリック近似を改善するための単純な \emph{post hoc} 法が得られる。 得られた後続近似は、ゴールド標準のフルバッチハミルトニアンモンテカルロでさえ競合することを示した。

Monte Carlo (MC) integration is the de facto method for approximating the predictive distribution of Bayesian neural networks (BNNs). But, even with many MC samples, Gaussian-based BNNs could still yield bad predictive performance due to the posterior approximation's error. Meanwhile, alternatives to MC integration tend to be more expensive or biased. In this work, we experimentally show that the key to good MC-approximated predictive distributions is the quality of the approximate posterior itself. However, previous methods for obtaining accurate posterior approximations are expensive and non-trivial to implement. We, therefore, propose to refine Gaussian approximate posteriors with normalizing flows. When applied to last-layer BNNs, it yields a simple \emph{post hoc} method for improving pre-existing parametric approximations. We show that the resulting posterior approximation is competitive with even the gold-standard full-batch Hamiltonian Monte Carlo.
翻訳日:2022-05-23 14:37:56 公開日:2022-05-20
# アンサンブルに基づくクレダル予測器の校正について

On Calibration of Ensemble-Based Credal Predictors ( http://arxiv.org/abs/2205.10082v1 )

ライセンス: Link先を確認
Thomas Mortier and Viktor Bengs and Eyke H\"ullermeier and Stijn Luca and Willem Waegeman(参考訳) 近年, 2次分布や確率分布の集合の形で予測を生成することによって, 疫学的不確実性を定量化するいくつかの分類法が提案されている。 本研究では, クレーダル予測器(redal predictor)とも呼ばれる後者に着目し, どのように評価するかという問題に対処する。 この質問に答えるために、確率予測器のキャリブレーションの概念を言及し、それを地震予測器に拡張する。 大まかに言えば、真条件確率分布をカバーする集合を返却した場合は、潮位予測器を校正する。 本研究では,この特性を,アンサンブルに基づく地震予知器の重要事例に対して検証するため,確率予測器の既存試験をダム予知器に一般化する非パラメトリックキャリブレーション法を提案する。 このテストを用いて,深層ニューラルネットワークに基づくcredal予測器の校正が良くないことを実証的に示す。

In recent years, several classification methods that intend to quantify epistemic uncertainty have been proposed, either by producing predictions in the form of second-order distributions or sets of probability distributions. In this work, we focus on the latter, also called credal predictors, and address the question of how to evaluate them: What does it mean that a credal predictor represents epistemic uncertainty in a faithful manner? To answer this question, we refer to the notion of calibration of probabilistic predictors and extend it to credal predictors. Broadly speaking, we call a credal predictor calibrated if it returns sets that cover the true conditional probability distribution. To verify this property for the important case of ensemble-based credal predictors, we propose a novel nonparametric calibration test that generalizes an existing test for probabilistic predictors to the case of credal predictors. Making use of this test, we empirically show that credal predictors based on deep neural networks are often not well calibrated.
翻訳日:2022-05-23 14:37:45 公開日:2022-05-20
# カーネル正規化畳み込みネットワーク

Kernel Normalized Convolutional Networks ( http://arxiv.org/abs/2205.10089v1 )

ライセンス: Link先を確認
Reza Nasirigerdeh, Reihaneh Torkzadehmahani, Daniel Rueckert, Georgios Kaissis(参考訳) 既存のディープ畳み込みニューラルネットワーク(CNN)アーキテクチャは、モデルを効果的にトレーニングするためにバッチ正規化(BatchNorm)に依存することが多い。 BatchNormはモデルパフォーマンスを著しく改善するが、バッチサイズが小さくてもパフォーマンスは良くない。 この制限に対処するために、カーネル正規化とカーネル正規化畳み込み層を提案し、それらをカーネル正規化畳み込みネットワーク(knconvnets)にメインビルディングブロックとして組み込む。 我々は,BatchNormレイヤを転送しながら,ResNetやDenseNetといった最先端CNNに対応するKNConvNetを実装した。 広範な実験により, knconvnets は, 計算効率を維持しつつ, バッチ, グループ, レイヤの正規化を, 精度と収束率の両面で, 一貫して改善することを示した。

Existing deep convolutional neural network (CNN) architectures frequently rely upon batch normalization (BatchNorm) to effectively train the model. BatchNorm significantly improves model performance, but performs poorly with smaller batch sizes. To address this limitation, we propose kernel normalization and kernel normalized convolutional layers, and incorporate them into kernel normalized convolutional networks (KNConvNets) as the main building blocks. We implement KNConvNets corresponding to the state-of-the-art CNNs such as ResNet and DenseNet while forgoing BatchNorm layers. Through extensive experiments, we illustrate that KNConvNets consistently outperform their batch, group, and layer normalized counterparts in terms of both accuracy and convergence rate while maintaining competitive computational efficiency.
翻訳日:2022-05-23 14:35:58 公開日:2022-05-20
# 視覚概念のトークン化

Visual Concepts Tokenization ( http://arxiv.org/abs/2205.10093v1 )

ライセンス: Link先を確認
Tao Yang, Yuwang Wang, Yan Lu, Nanning Zheng(参考訳) 具体的なピクセルから視覚概念を抽象化する人間的な知覚能力の獲得は、非絡み合い表現学習やシーン分解といった機械学習研究分野において、常に基本的で重要な目標であった。 この目的を達成するために,VCTと呼ばれる教師なしトランスフォーマーベースの視覚概念トークン化フレームワークを提案する。 特に,これらの概念トークンを得るためには,概念トークン間の自己注意なしに画像トークン層から視覚情報を抽出し,概念トークン間の情報漏洩を防止する。 さらに,異なる概念トークンが独立した視覚概念を表現することを容易にするために,概念分離損失を提案する。 クロスアテンションとディエンタングリング損失は、それぞれ概念トークンの誘導と相互排除の役割を担っている。 いくつかの一般的なデータセットに対する大規模な実験は、不整合表現学習とシーン分解のタスクにおけるVCTの有効性を検証する。 VCTは、アート結果の状態を大きなマージンで達成する。

Obtaining the human-like perception ability of abstracting visual concepts from concrete pixels has always been a fundamental and important target in machine learning research fields such as disentangled representation learning and scene decomposition. Towards this goal, we propose an unsupervised transformer-based Visual Concepts Tokenization framework, dubbed VCT, to perceive an image into a set of disentangled visual concept tokens, with each concept token responding to one type of independent visual concept. Particularly, to obtain these concept tokens, we only use cross-attention to extract visual information from the image tokens layer by layer without self-attention between concept tokens, preventing information leakage across concept tokens. We further propose a Concept Disentangling Loss to facilitate that different concept tokens represent independent visual concepts. The cross-attention and disentangling loss play the role of induction and mutual exclusion for the concept tokens, respectively. Extensive experiments on several popular datasets verify the effectiveness of VCT on the tasks of disentangled representation learning and scene decomposition. VCT achieves the state of the art results by a large margin.
翻訳日:2022-05-23 14:35:45 公開日:2022-05-20
# パームベインパターンの合成画像作成に向けて : 概観

Towards the Generation of Synthetic Images of Palm Vein Patterns: A Review ( http://arxiv.org/abs/2205.10179v1 )

ライセンス: Link先を確認
Edwin H. Salazar-Jurado, Ruber Hern\'andez-Garc\'ia, Karina Vilches-Ponce, Ricardo J. Barrientos, Marco Mora, Gaurav Jaswal(参考訳) 近年のコンピュータビジョンと深層学習の成功により,静脈バイオメトリックスを用いた個人認識の自動化が目覚ましい進歩を遂げている。 しかし, ヤシ静脈認識のための大規模実世界トレーニングデータ収集は, 取得時のノイズや不規則な変動が主な原因で困難であることが判明した。 一方、既存のパーム静脈認識データセットは通常、近赤外光の下で収集され、属性に関する詳細なアノテーション(例えばポーズ)が欠如しているため、異なる属性が静脈認識に与える影響は調査されていない。 そこで本稿では,大規模データセットの緊急欠如を補うために生成した合成静脈画像の適合性について検討する。 まず, 基礎的背景知識から静脈解剖学的構造, データ取得, 公開データベース, 品質評価手順まで, 手のひら静脈認識に関する最近の研究動向について概観する。 次に,生体計測のための血管構造の生成を可能にする最先端の手法と,それらの応用ドメインを用いた生体ネットワークのモデリングに注目する。 さらに,本研究では,スタイル伝達と生物特性に基づく合成ヤシ静脈画像アルゴリズムの既存の研究について概説する。 その後、実際のヤシ静脈画像と生成した合成サンプルを比較して合成データベースを作成するための一般的なフローチャートを定式化し、現実的な静脈画像システムの開発について理解を深める。 最後に、さらなる研究のために合成手のひら静脈画像の生成における課題、洞察、今後の展望について論じる。

With the recent success of computer vision and deep learning, remarkable progress has been achieved on automatic personal recognition using vein biometrics. However, collecting large-scale real-world training data for palm vein recognition has turned out to be challenging, mainly due to the noise and irregular variations included at the time of acquisition. Meanwhile, existing palm vein recognition datasets are usually collected under near-infrared light, lacking detailed annotations on attributes (e.g., pose), so the influences of different attributes on vein recognition have been poorly investigated. Therefore, this paper examines the suitability of synthetic vein images generated to compensate for the urgent lack of publicly available large-scale datasets. Firstly, we present an overview of recent research progress on palm vein recognition, from the basic background knowledge to vein anatomical structure, data acquisition, public database, and quality assessment procedures. Then, we focus on the state-of-the-art methods that have allowed the generation of vascular structures for biometric purposes and the modeling of biological networks with their respective application domains. In addition, we review the existing research on the generation of style transfer and biological nature-based synthetic palm vein image algorithms. Afterward, we formalize a general flowchart for the creation of a synthetic database comparing real palm vein images and generated synthetic samples to obtain some understanding into the development of the realistic vein imaging system. Ultimately, we conclude by discussing the challenges, insights, and future perspectives in generating synthetic palm vein images for further works.
翻訳日:2022-05-23 14:35:27 公開日:2022-05-20
# テストタイムバッチ正規化

Test-time Batch Normalization ( http://arxiv.org/abs/2205.10210v1 )

ライセンス: Link先を確認
Tao Yang, Shenglong Zhou, Yuwang Wang, Yan Lu, Nanning Zheng(参考訳) ディープニューラルネットワークは、トレーニングとテストの間のデータ分散シフトに苦しむことが多く、バッチ統計はそのシフトを反映して観測される。 本稿では,テスト時間の分散シフトを軽減することを目的としたトレーニングプロセスにおけるバッチ正規化(BN)を再検討し,テスト時間最適化に有効な2つの重要な洞察を明らかにする。 (i)$トレーニングと同じ勾配バックプロパゲーションフォームを保存し、$ (ii)ロバストな最適化と推論のためにデータセットレベルの統計を使用する。 この2つの知見に基づいて,エントロピー損失を最小限に抑えて,テスト中に最適化された新しいBN層設計GpreBNを提案する。 分散シフトを伴う2つの典型的な設定,すなわちドメイン一般化とロバストネスタスクにおいて,本手法の有効性を検証する。 我々のGpreBNはテスト時間性能を著しく改善し、技術結果の状態を達成します。

Deep neural networks often suffer the data distribution shift between training and testing, and the batch statistics are observed to reflect the shift. In this paper, targeting of alleviating distribution shift in test time, we revisit the batch normalization (BN) in the training process and reveals two key insights benefiting test-time optimization: $(i)$ preserving the same gradient backpropagation form as training, and $(ii)$ using dataset-level statistics for robust optimization and inference. Based on the two insights, we propose a novel test-time BN layer design, GpreBN, which is optimized during testing by minimizing Entropy loss. We verify the effectiveness of our method on two typical settings with distribution shift, i.e., domain generalization and robustness tasks. Our GpreBN significantly improves the test-time performance and achieves the state of the art results.
翻訳日:2022-05-23 14:35:03 公開日:2022-05-20
# 損失の事前トレーニング - 情報優先によるベイズ転校学習の容易化

Pre-Train Your Loss: Easy Bayesian Transfer Learning with Informative Priors ( http://arxiv.org/abs/2205.10279v1 )

ライセンス: Link先を確認
Ravid Shwartz-Ziv, Micah Goldblum, Hossein Souri, Sanyam Kapoor, Chen Zhu, Yann LeCun, Andrew Gordon Wilson(参考訳) ディープラーニングは、ソースタスクで学習した初期化から始まり、ダウンストリームタスクで大規模な基礎モデルが微調整される、転送学習パラダイムへとますます移行しています。 しかし、初期化にはソースタスクに関する情報が比較的少ない。 その代わりに、ソースタスクから、教師付きまたは自己監督型のアプローチを通じて、高度に情報的な後部を学習できることを示し、下流タスクの損失面全体を修正した先行の基盤として機能する。 このシンプルなモジュラーアプローチは、ダウンストリームの分類とセグメンテーションタスクで、大幅なパフォーマンス向上とデータ効率のよい学習を可能にし、標準的な事前トレーニング戦略の代替として役立ちます。 これらの非常に有意義な先行は、事前訓練された重みと同様、将来の使用のために保存することもでき、ベイズ深層学習で一般的に使用されるゼロ平均等方的非形式的先行と対照的である。

Deep learning is increasingly moving towards a transfer learning paradigm whereby large foundation models are fine-tuned on downstream tasks, starting from an initialization learned on the source task. But an initialization contains relatively little information about the source task. Instead, we show that we can learn highly informative posteriors from the source task, through supervised or self-supervised approaches, which then serve as the basis for priors that modify the whole loss surface on the downstream task. This simple modular approach enables significant performance gains and more data-efficient learning on a variety of downstream classification and segmentation tasks, serving as a drop-in replacement for standard pre-training strategies. These highly informative priors also can be saved for future use, similar to pre-trained weights, and stand in contrast to the zero-mean isotropic uninformative priors that are typically used in Bayesian deep learning.
翻訳日:2022-05-23 14:34:50 公開日:2022-05-20
# 部分負荷とSFCマッピングの協調最適化について:協調型デュアルエージェント深部強化学習アプローチ

On Jointly Optimizing Partial Offloading and SFC Mapping: A Cooperative Dual-agent Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2205.09925v1 )

ライセンス: Link先を確認
Xinhan Wang, Huanlai Xing, Fuhong Song, Shouxi Luo, Penglin Dai, and Bowen Zhao(参考訳) マルチアクセスエッジコンピューティング(MEC)とネットワーク関数仮想化(NFV)は、新しいIoTアプリケーション、特に計算集約性をサポートするための有望な技術である。 NFV対応のMEC環境では、サービス機能チェーン(SFC)、すなわち一連の順序付き仮想ネットワーク関数(VNF)をMECサーバにマッピングすることができる。 モバイルデバイス(MD)は計算集約的なアプリケーションをオフロードし、SFCで表される。 本稿では,NFV対応MECシステムにおける部分オフロードとSFCマッピング共同最適化(POSMJO)の問題について検討する。 目的は、実行遅延、MDのエネルギー消費、エッジコンピューティングの利用料金を組み合わせた長期的な平均コストを最小化することである。 この問題は、タスク分割とvnf配置という、2つの密接に関連する意思決定ステップから構成されています。 そこで,我々は2つのエージェント間のインタラクションを可能にするフレームワークを設計し,協調型2エージェント深層強化学習 (cdadrl) アルゴリズムを提案する。 シミュレーションの結果,提案アルゴリズムは累積および平均エピソディック報酬の3つの組み合わせを上回っており,実行遅延,エネルギー消費,使用料金に関して多くのベースラインアルゴリズムを上回っていることがわかった。

Multi-access edge computing (MEC) and network function virtualization (NFV) are promising technologies to support emerging IoT applications, especially those computation-intensive. In NFV-enabled MEC environment, service function chain (SFC), i.e., a set of ordered virtual network functions (VNFs), can be mapped on MEC servers. Mobile devices (MDs) can offload computation-intensive applications, which can be represented by SFCs, fully or partially to MEC servers for remote execution. This paper studies the partial offloading and SFC mapping joint optimization (POSMJO) problem in an NFV-enabled MEC system, where an incoming task can be partitioned into two parts, one for local execution and the other for remote execution. The objective is to minimize the average cost in the long term which is a combination of execution delay, MD's energy consumption, and usage charge for edge computing. This problem consists of two closely related decision-making steps, namely task partition and VNF placement, which is highly complex and quite challenging. To address this, we propose a cooperative dual-agent deep reinforcement learning (CDADRL) algorithm, where we design a framework enabling interaction between two agents. Simulation results show that the proposed algorithm outperforms three combinations of deep reinforcement learning algorithms in terms of cumulative and average episodic rewards and it overweighs a number of baseline algorithms with respect to execution delay, energy consumption, and usage charge.
翻訳日:2022-05-23 14:32:57 公開日:2022-05-20
# LogNNetの新たな特徴選択法とその血液値を用いたCOVID-19感染症の診断と予後への応用

A New Feature Selection Method for LogNNet and its Application for Diagnosis and Prognosis of COVID-19 Disease Using Routine Blood Values ( http://arxiv.org/abs/2205.09974v1 )

ライセンス: Link先を確認
Mehmet Tahir Huyut and Andrei Velichko(参考訳) 2020年2月から、世界は新型コロナウイルス(covid-19)のパンデミック(パンデミック)に陥り、医療システムは悲惨な圧力にさらされている。 本研究の目的は,LogNNet貯水池ニューラルネットワークの新たな特徴選択法を用いて,新型コロナウイルスの診断・予後において最も有効なルーチン血液値(RBV)を決定することである。 この研究の最初のデータセットは、5296人の患者で、同じ数の陰性および正のコビッドテストがある。 第2のデータセットは、重症感染症(203)と軽度感染症(3696)の病院で治療を受けた、covid-19の診断を受けた3899人の患者からなる。 第1のデータセットから疾患の診断に影響を与える最も重要なRBVは、平均体性ヘモグロビン濃度(MCHC)、平均体性ヘモグロビン濃度(MCH)、活性化部分性プロトロンビン時間(aPTT)であった。 この疾患の予後で最も有効な特徴は、赤血球沈着率(ESR)、好中球数(NEU)、C反応性タンパク質(CRP)であった。 lognnet-model は a46 = 99.5% の精度で,a3 = 99.17%,mchc,mch,aptのみであった。 モデルでは、a48 = 94.4%の精度で、48の疾患と、esr、neu、crpのみのa3 = 82.7%の疾患の予後を判定した。 LogNNetモデルは、患者の症状や病歴を知らずに、COVID-19パフォーマンスの非常に高い診断・予後を示した。 このモデルは、Arduinoマイクロコントローラで使用されるRAMが3~14kBの低リソースのデバイスに適している。 本手法は, 医療セクターに対する負のプレッシャーを減らし, 新型コロナウイルスの病態の解明に有効であり, 治療プロセスに積極的に貢献する。

Since February-2020, the world has embarked on an intense struggle with the COVID-19 disease, and health systems have come under a tragic pressure as the disease turned into a pandemic. The aim of this study is to determine the most effective routine-blood-values (RBV) in the diagnosis/prognosis of COVID-19 using new feature selection method for LogNNet reservoir neural network. First dataset in this study consists of a total of 5296-patients with a same number of negative and positive covid test. Second dataset consists of a total of 3899-patients with a diagnosis of COVID-19, who were treated in hospital with severe-infected (203) and mildly-infected (3696). The most important RBVs that affect the diagnosis of the disease from the first dataset were mean-corpuscular-hemoglobin-concentration (MCHC), mean-corpuscular-hemoglobin (MCH) and activated-partial-prothrombin-time (aPTT). The most effective features in the prognosis of the disease were erythrocyte-sedimentation-rate (ESR), neutrophil-count (NEU), C-reactive-protein (CRP). LogNNet-model achieved an accuracy rate of A46 = 99.5% in the diagnosis of the disease with 46 features and A3 = 99.17% with only MCHC, MCH, and aPTT features. Model reached an accuracy rate of A48 = 94.4% in determining the prognosis of the disease with 48 features and A3 = 82.7% with only ESR, NEU, and CRP features. LogNNet model demonstrated a very high disease diagnosis/prognosis of COVID-19 performance without knowing about the symptoms or history of the patients. The model is suitable for devices with low resources (3-14 kB of RAM used on the Arduino microcontroller), and is promising to create mobile health monitoring systems in the Internet of Things. Our method will reduce the negative pressures on the health sector and help doctors understand pathogenesis of COVID-19 through key futures and contribute positively to the treatment processes.
翻訳日:2022-05-23 14:32:28 公開日:2022-05-20
# 自己ペースマルチエージェント強化学習

Self-Paced Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.10016v1 )

ライセンス: Link先を確認
Wenshuai Zhao, Joni Pajarinen(参考訳) CRL(Curriculum reinforcement learning)は、初期状態や環境力学などの要因の制御を通じて、タスクの難易度を徐々に変化させることにより、タスクの学習を高速化することを目的とする。 crlの自動化は単一エージェント設定でよく研究されているが、マルチエージェント強化学習(marl)では、原則的に他の要因によるエージェントの数の制御が有効であるかどうかという疑問がある。 さらに、エージェントの数の変化に伴ってタスクがどのように進化するかについては、まだ検討されていない。 本稿では, エージェントの数を他の環境要因に最適化できるセルフペース型MARL(SPMARL)を導入し, エージェントの数を減らしてタスクを楽にするといった通常の仮定が一般的に有効でないことを示す。 SPMARLによって引き起こされたカリキュラムは、エージェントの数や実験によってタスクの進化を明らかにしており、エージェントの数がタスクの難易度に十分な影響を及ぼす場合、SPMARLはパフォーマンスを改善する。

Curriculum reinforcement learning (CRL) aims to speed up learning of a task by changing gradually the difficulty of the task from easy to hard through control of factors such as initial state or environment dynamics. While automating CRL is well studied in the single-agent setting, in multi-agent reinforcement learning (MARL) an open question is whether control of the number of agents with other factors in a principled manner is beneficial, prior approaches typically relying on hand-crafted heuristics. In addition, how the tasks evolve as the number of agents changes remains understudied, which is critical for scaling to more challenging tasks. We introduce self-paced MARL (SPMARL) that enables optimizing the number of agents with other environment factors in a principled way, and, show that usual assumptions such as that fewer agents make the task always easier are not generally valid. The curriculum induced by SPMARL reveals the evolution of tasks w.r.t. number of agents and experiments show that SPMARL improves the performance when the number of agents sufficiently influences task difficulty.
翻訳日:2022-05-23 14:31:48 公開日:2022-05-20
# EXODUS:スパイキングニューラルネットワークの安定かつ効率的なトレーニング

EXODUS: Stable and Efficient Training of Spiking Neural Networks ( http://arxiv.org/abs/2205.10242v1 )

ライセンス: Link先を確認
Felix Christian Bauer (1), Gregor Lenz (1), Saeid Haghighatshoar (1), Sadique Sheik (1) ((1) SynSense)(参考訳) エネルギー効率が最も重要である機械学習タスクでは、スパイキングニューラルネットワーク(SNN)が大きな注目を集めている。 しかし、BPTT(State-of-the-the-art back-proagation through time)を用いたネットワークのトレーニングは非常に時間がかかる。 ShresthaとOrchardによる2018年以前の研究では、SLAYERと呼ばれる効率的なGPU加速バックプロパゲーションアルゴリズムが採用されており、トレーニングをかなり高速化している。 しかし、スレイヤーは勾配を計算しながらニューロンのリセット機構を考慮せず、それが数値的不安定性の原因であると主張する。 これに対抗するためにSLAYERでは,手動チューニングを必要とするレイヤ間の勾配スケールハイパーパラメータを導入している。 この論文では i) SLAYERを修正してEXODUSと呼ばれるアルゴリズムを設計し、ニューロンリセット機構を考慮し、インプリシット関数定理(IFT)を適用して正しい勾配(BPTTと同等)を計算する。 (ii)勾配のアドホックなスケーリングの必要性をなくし、トレーニングの複雑さを大幅に削減します。 3) 計算機シミュレーションにより,EXODUS は数値的に安定であり,特に時間的特徴に依存した SNN のタスクにおいてSLAYER に匹敵する,あるいは優れた性能を発揮することを示した。 私たちのコードはhttps://github.com/synsense/sinabs-exodusで利用可能です。

Spiking Neural Networks (SNNs) are gaining significant traction in machine learning tasks where energy-efficiency is of utmost importance. Training such networks using the state-of-the-art back-propagation through time (BPTT) is, however, very time-consuming. Previous work by Shrestha and Orchard [2018] employs an efficient GPU-accelerated back-propagation algorithm called SLAYER, which speeds up training considerably. SLAYER, however, does not take into account the neuron reset mechanism while computing the gradients, which we argue to be the source of numerical instability. To counteract this, SLAYER introduces a gradient scale hyperparameter across layers, which needs manual tuning. In this paper, (i) we modify SLAYER and design an algorithm called EXODUS, that accounts for the neuron reset mechanism and applies the Implicit Function Theorem (IFT) to calculate the correct gradients (equivalent to those computed by BPTT), (ii) we eliminate the need for ad-hoc scaling of gradients, thus, reducing the training complexity tremendously, (iii) we demonstrate, via computer simulations, that EXODUS is numerically stable and achieves a comparable or better performance than SLAYER especially in various tasks with SNNs that rely on temporal features. Our code is available at https://github.com/synsense/sinabs-exodus.
翻訳日:2022-05-23 14:29:12 公開日:2022-05-20
# ハームって何? 治療に負の影響を受ける分画の鋭い境界

What's the Harm? Sharp Bounds on the Fraction Negatively Affected by Treatment ( http://arxiv.org/abs/2205.10327v1 )

ライセンス: Link先を確認
Nathan Kallus(参考訳) 因果推論の根本的な問題 -- 反事実を決して観察しない -- は、提案された介入によって負の影響を受ける可能性のある人数を特定することを妨げる。 a/bテストでは、ユーザーの半数が、標準のエクスペリエンスaまたは新しいbに晒されたか、あるいは更新されたかのいずれかをクリックする(あるいは購入する、見る、更新するなど)場合、この変更は、ユーザーの半分がクリックしないからクリックしないか、他の半分に負の影響を与えているか、あるいはその中間にある何かに正の影響を与えるため、誰も影響しない、という仮定がある。 この影響は認識できないが、公平性、長期性、体系性、運用上の考慮から、変更を実施するかどうかの決定において、明らかに重要なものである。 したがって、実験的・観察的いずれであれ、事実的観察のみを含むデータに対して負の影響を受ける分数(および他の関連する推定値)の最も厳密な(すなわち鋭い)境界を導出する。 当然のことながら、観察可能な共変量によって個人を階層化できるほど、鋭い境界が厳しくなる。 これらの境界にはデータから学ばなければならない未知の関数が含まれているため、これらの関数がいかに速く学習されるかによらず、より効率的なロバストな推論アルゴリズムを開発する。 この手法は、この無知な影響を急激に特定することを避け、代わりに最良の境界に焦点を合わせ、それらに対する非常に堅牢な推論を可能にする。 シミュレーション研究および失業者のキャリアカウンセリングのケーススタディにおいて,本手法を実証する。

The fundamental problem of causal inference -- that we never observe counterfactuals -- prevents us from identifying how many might be negatively affected by a proposed intervention. If, in an A/B test, half of users click (or buy, or watch, or renew, etc.), whether exposed to the standard experience A or a new one B, hypothetically it could be because the change affects no one, because the change positively affects half the user population to go from no-click to click while negatively affecting the other half, or something in between. While unknowable, this impact is clearly of material importance to the decision to implement a change or not, whether due to fairness, long-term, systemic, or operational considerations. We therefore derive the tightest-possible (i.e., sharp) bounds on the fraction negatively affected (and other related estimands) given data with only factual observations, whether experimental or observational. Naturally, the more we can stratify individuals by observable covariates, the tighter the sharp bounds. Since these bounds involve unknown functions that must be learned from data, we develop a robust inference algorithm that is efficient almost regardless of how and how fast these functions are learned, remains consistent when some are mislearned, and still gives valid conservative bounds when most are mislearned. Our methodology altogether therefore strongly supports credible conclusions: it avoids spuriously point-identifying this unknowable impact, focusing on the best bounds instead, and it permits exceedingly robust inference on these. We demonstrate our method in simulation studies and in a case study of career counseling for the unemployed.
翻訳日:2022-05-23 14:28:50 公開日:2022-05-20
# 適応的奥行きサンプリングの誘導法

How to Guide Adaptive Depth Sampling? ( http://arxiv.org/abs/2205.10202v1 )

ライセンス: Link先を確認
Ilya Tcenov, Guy Gilboa(参考訳) 近年の深度センシング技術は、固定された機械回転とは対照的に、レーザービームの高速電子操作を可能にする。 これにより、将来のセンサーは、原則として、サンプリングパターンをリアルタイムで変更することができる。 ここでは,あるフレームに対するサンプリングパターンの適応が再構成誤差を低減するか,スペーサーパターンを許容するかという抽象的な問題を考察する。 適応的な深度サンプリングアルゴリズムを導くための構成的汎用手法を提案する。 サンプリング予算Bと深度予測器Pと所望の品質指標Mが与えられた場合、重要なサンプリング場所をハイライトする重要度マップを提案する。 このマップは、与えられたフレームに対して、予測器pが生成するmのピクセル当たりの期待値として定義され、bランダムサンプルのパターンが与えられる。 このマップはトレーニングフェーズでよく見積もることができる。 ニューラルネットワークは、RGB画像から非常に忠実なImportance Mapを生成することができることを示す。 次に,再構築が困難な地域でより密集したシーンのサンプリングパターンを生成するアルゴリズムを提案する。 モジュラーフレームワークのサンプリング戦略は、ハードウェアの制限、深さ予測器の種類、および最小化すべきカスタムリコンストラクションエラー対策に応じて調整することができる。 提案手法がグリッドやランダムサンプリングパターンや最新の最先端適応アルゴリズムよりも優れていることをシミュレーションによって検証する。

Recent advances in depth sensing technologies allow fast electronic maneuvering of the laser beam, as opposed to fixed mechanical rotations. This will enable future sensors, in principle, to vary in real-time the sampling pattern. We examine here the abstract problem of whether adapting the sampling pattern for a given frame can reduce the reconstruction error or allow a sparser pattern. We propose a constructive generic method to guide adaptive depth sampling algorithms. Given a sampling budget B, a depth predictor P and a desired quality measure M, we propose an Importance Map that highlights important sampling locations. This map is defined for a given frame as the per-pixel expected value of M produced by the predictor P, given a pattern of B random samples. This map can be well estimated in a training phase. We show that a neural network can learn to produce a highly faithful Importance Map, given an RGB image. We then suggest an algorithm to produce a sampling pattern for the scene, which is denser in regions that are harder to reconstruct. The sampling strategy of our modular framework can be adjusted according to hardware limitations, type of depth predictor, and any custom reconstruction error measure that should be minimized. We validate through simulations that our approach outperforms grid and random sampling patterns as well as recent state-of-the-art adaptive algorithms.
翻訳日:2022-05-23 14:28:17 公開日:2022-05-20
# 事前訓練された深部階層的vaesによる多彩な超解像

Diverse super-resolution with pretrained deep hiererarchical VAEs ( http://arxiv.org/abs/2205.10347v1 )

ライセンス: Link先を確認
Jean Prost, Antoine Houdard, Nicolas Papadakis and Andr\'es Almansa(参考訳) 画像の超解像は1対多の問題であるが、ほとんどのディープラーニングベースの手法はこの問題に対して1つのソリューションしか提供しない。 本研究では,VD-VAE (State-of-the Art variational autoencoder, VAE) を再利用することで, 多様な超解像問題に取り組む。 VD-VAEによって学習された階層的潜時表現は、階層の最上部の潜時グループに符号化された画像低周波情報を、階層の最下部の潜時グループによって決定された画像高周波の詳細から自然に分離する。 この観測から、VD-VAE潜在空間の特定の構造を利用した超解像モデルの設計を行う。 具体的には、低周波情報を符号化するVD-VAE潜在空間のサブセットに低分解能画像をエンコードするようにエンコーダを訓練し、このエンコーダとVD-VAE生成モデルを組み合わせて、低分解能入力の様々な超解像をサンプリングする。 提案手法は,x4,x8,x16のアップサンプリング係数を用いて,超解像度問題に対する多様な解を生成する能力を示す。

Image super-resolution is a one-to-many problem, but most deep-learning based methods only provide one single solution to this problem. In this work, we tackle the problem of diverse super-resolution by reusing VD-VAE, a state-of-the art variational autoencoder (VAE). We find that the hierarchical latent representation learned by VD-VAE naturally separates the image low-frequency information, encoded in the latent groups at the top of the hierarchy, from the image high-frequency details, determined by the latent groups at the bottom of the latent hierarchy. Starting from this observation, we design a super-resolution model exploiting the specific structure of VD-VAE latent space. Specifically, we train an encoder to encode low-resolution images in the subset of VD-VAE latent space encoding the low-frequency information, and we combine this encoder with VD-VAE generative model to sample diverse super-resolved version of a low-resolution input. We demonstrate the ability of our method to generate diverse solutions to the super-resolution problem on face super-resolution with upsampling factors x4, x8, and x16.
翻訳日:2022-05-23 14:27:58 公開日:2022-05-20
# Descartes:ウィキペディア記事の短い記述を生成する

Descartes: Generating Short Descriptions of Wikipedia Articles ( http://arxiv.org/abs/2205.10012v1 )

ライセンス: Link先を確認
Marija Sakota, Maxime Peyrard, Robert West(参考訳) 我々は、ウィキペディアの記事の短い記述を自動的に生成する問題(例えば、ベルギーは西ヨーロッパに短い記述国を持っている)を紹介し、対処する。 descartesは、人間のエディタと同等に実行される記述を生成できるモデルである。 人間の評価結果から,Descartes は編集者による記述よりも約50%の時間で好ましいことが示唆された。 さらに手動で分析したところ、デカルトは91.3%の論文で「無効」と見なされる記述を生成する。 これらのパフォーマンスは、ウィキペディアに自然に存在する他の信号を統合することで実現される。 (i)異なる言語における同一の実体に関する記事 (二)他言語における既存の短い記述、及び (iii)ウィキデータからの構造情報。 我々の研究は、ウィキペディアの編集者が、まだ不足している900万以上の記事に対して短い説明を提供するのを助けるために、直接の実用的応用をもたらしています。 最後に、提案したアーキテクチャはウィキペディアの他の情報ギャップに対処するために簡単に再利用できる。

We introduce and tackle the problem of automatically generating short descriptions of Wikipedia articles (e.g., Belgium has a short description Country in Western Europe). We introduce Descartes, a model that can generate descriptions performing on par with human editors. Our human evaluation results indicate that Descartes is preferred over editor-written descriptions about 50% of time. Further manual analysis show that Descartes generates descriptions considered as "valid" for 91.3% of articles, this is the as same editor-written descriptions. Such performances are made possible by integrating other signals naturally existing in Wikipedia: (i) articles about the same entity in different languages, (ii) existing short descriptions in other languages, and (iii) structural information from Wikidata. Our work has direct practical applications in helping Wikipedia editors to provide short descriptions for the more than 9 million articles still missing one. Finally, our proposed architecture can easily be re-purposed to address other information gaps in Wikipedia.
翻訳日:2022-05-23 14:25:07 公開日:2022-05-20
# ポインタネットワークを用いた遷移型セマンティックロールラベリング

Transition-based Semantic Role Labeling with Pointer Networks ( http://arxiv.org/abs/2205.10023v1 )

ライセンス: Link先を確認
Daniel Fern\'andez-Gonz\'alez(参考訳) 意味的役割ラベリング(SRL)は文の述語構造を認識し、機械翻訳や質問応答など多くの自然言語処理タスクにおいて重要な役割を果たす。 実際に利用可能なすべてのメソッドは、事前に特定された述語に依存するため、完全なSRLを実行することができず、その多くはパイプライン戦略に従い、1つまたは複数のSRLサブタスクを実行するために特定のモデルを使用する。 さらに, 従来の手法は, 合成木が等しく生成し難いにもかかわらず, 最先端の性能を達成するための構文情報に強く依存している。 これらの単純化と要件により、SRLシステムの大部分は現実世界のアプリケーションでは実用的ではない。 本稿では、構文情報を利用することなく、追加モジュールに頼ることなく、単一の左から右へのパスで入力文を完全に処理できる、最初のトランジッションベースのsrlアプローチを提案する。 ポインタネットワークに基づく実装のおかげで、完全なsrlは$o(n^2)$で正確かつ効率的に実行でき、conll-2009の共有タスクから現在までの言語で最高のパフォーマンスを得ることができます。

Semantic role labeling (SRL) focuses on recognizing the predicate-argument structure of a sentence and plays a critical role in many natural language processing tasks such as machine translation and question answering. Practically all available methods do not perform full SRL, since they rely on pre-identified predicates, and most of them follow a pipeline strategy, using specific models for undertaking one or several SRL subtasks. In addition, previous approaches have a strong dependence on syntactic information to achieve state-of-the-art performance, despite being syntactic trees equally hard to produce. These simplifications and requirements make the majority of SRL systems impractical for real-world applications. In this article, we propose the first transition-based SRL approach that is capable of completely processing an input sentence in a single left-to-right pass, with neither leveraging syntactic information nor resorting to additional modules. Thanks to our implementation based on Pointer Networks, full SRL can be accurately and efficiently done in $O(n^2)$, achieving the best performance to date on the majority of languages from the CoNLL-2009 shared task.
翻訳日:2022-05-23 14:24:48 公開日:2022-05-20
# 粒度を超えて:対話状態追跡のためのマルチパースペクティブ対話協調選択

Beyond the Granularity: Multi-Perspective Dialogue Collaborative Selection for Dialogue State Tracking ( http://arxiv.org/abs/2205.10059v1 )

ライセンス: Link先を確認
Jinyu Guo, Kai Shuang, Jijie Li, Zihan Wang and Yixuan Liu(参考訳) 対話状態追跡において、対話履歴は重要な資料であり、その利用は異なるモデルによって異なる。 しかしながら、対話履歴がどのように使われるかは問わないが、既存のモデルではどのスロットが更新されたかに関わらず、状態追跡プロセス全体の間に、それぞれの一貫した対話履歴を使用する。 異なるスロットを異なる方向に更新するには、異なる対話履歴が必要であるようだ。 したがって、一貫した対話内容を使用することで、異なるスロットに対して不十分または冗長な情報が得られ、全体的なパフォーマンスに影響する可能性がある。 そこで我々は,DiCoS-DSTを用いて,各スロットに対応する対話内容を動的に選択し,状態を更新する。 具体的には、まず対話履歴のターンレベル発話を検索し、(1)スロット名への明示的な接続、(2)現在のターン対話との関連性、(3)暗黙の言及指向推論という3つの視点からスロットとの関連性を評価する。 そして、これらの視点を組み合わせて意思決定を行い、選択された対話内容のみをステートジェネレータに供給し、下流状態予測に渡される邪魔情報を明示的に最小化する。 実験結果から,MultiWOZ 2.1およびMultiWOZ 2.2上での最先端性能が向上し,Sim-M,Sim-R,DSTC2を含む複数のベンチマークデータセットにおいて優れた性能が得られた。

In dialogue state tracking, dialogue history is a crucial material, and its utilization varies between different models. However, no matter how the dialogue history is used, each existing model uses its own consistent dialogue history during the entire state tracking process, regardless of which slot is updated. Apparently, it requires different dialogue history to update different slots in different turns. Therefore, using consistent dialogue contents may lead to insufficient or redundant information for different slots, which affects the overall performance. To address this problem, we devise DiCoS-DST to dynamically select the relevant dialogue contents corresponding to each slot for state updating. Specifically, it first retrieves turn-level utterances of dialogue history and evaluates their relevance to the slot from a combination of three perspectives: (1) its explicit connection to the slot name; (2) its relevance to the current turn dialogue; (3) Implicit Mention Oriented Reasoning. Then these perspectives are combined to yield a decision, and only the selected dialogue contents are fed into State Generator, which explicitly minimizes the distracting information passed to the downstream state prediction. Experimental results show that our approach achieves new state-of-the-art performance on MultiWOZ 2.1 and MultiWOZ 2.2, and achieves superior performance on multiple mainstream benchmark datasets (including Sim-M, Sim-R, and DSTC2).
翻訳日:2022-05-23 14:24:29 公開日:2022-05-20
# 視覚提示型言語モデリング

Visually-Augmented Language Modeling ( http://arxiv.org/abs/2205.10178v1 )

ライセンス: Link先を確認
Weizhi Wang, Li Dong, Hao Cheng, Haoyu Song, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, Furu Wei(参考訳) 人間の言語は、色、サイズ、形といった視覚的な知識を含むマルチモーダルな知識に基づいている。 しかし、現在の大規模事前訓練型言語モデルは、大量のテキストデータによるテキストのみの自己教師型トレーニングに依存しており、必要に応じて関連する視覚情報を活用することを妨げている。 そこで本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。 具体的には、VaLMは、画像検索モジュールを介して新しいテキストビジョンアライメント法に基づいて、テキストコンテキストが与えられた対応する画像を取得する。 視覚的に拡張されたコンテキストでは、VaLMは視覚的知識融合層を使用して、画像内のテキストコンテキストと視覚的知識の両方に参加することでマルチモーダル言語モデリングを可能にする。 本稿では,視覚情報をエクセルに要求するマルチモーダルコモンセンス推論タスクにおいて提案モデルを評価する。 VaLMはテキストのみのベースラインよりも、オブジェクトの色とサイズ推論の精度が+8.66%、+37.81%向上している。

Human language is grounded on multimodal knowledge including visual knowledge like colors, sizes, and shapes. However, current large-scale pre-trained language models rely on the text-only self-supervised training with massive text data, which precludes them from utilizing relevant visual information when necessary. To address this, we propose a novel pre-training framework, named VaLM, to Visually-augment text tokens with retrieved relevant images for Language Modeling. Specifically, VaLM builds on a novel text-vision alignment method via an image retrieval module to fetch corresponding images given a textual context. With the visually-augmented context, VaLM uses a visual knowledge fusion layer to enable multimodal grounded language modeling by attending on both text context and visual knowledge in images. We evaluate the proposed model on various multimodal commonsense reasoning tasks, which require visual information to excel. VaLM outperforms the text-only baseline with substantial gains of +8.66% and +37.81% accuracy on object color and size reasoning, respectively.
翻訳日:2022-05-23 14:24:00 公開日:2022-05-20
# 言語モデルのFew-shot学習のためのプロトタイプ校正

Prototypical Calibration for Few-shot Learning of Language Models ( http://arxiv.org/abs/2205.10183v1 )

ライセンス: Link先を確認
Zhixiong Han, Yaru Hao, Li Dong, Furu Wei(参考訳) GPTライクなモデルのコンテキスト内学習は、さまざまな手作りテンプレートやデモ順列にまたがる脆弱さとして認識されている。 そこで本研究では,ゼロと少数ショットの分類において,より堅牢な決定境界を適応的に学習するプロトタイプキャリブレーションを提案する。 具体的には,まずガウス混合分布を用いて全カテゴリの原型クラスタを推定する。 次に,重み付き2部マッチング問題を解くことにより,各クラスタを対応するラベルに割り当てる。 例として、その予測は原型クラスターの可能性によって調整される。 実験の結果,多種多様なタスクに対して15%の絶対的改善が得られた。 また,提案手法は予測通りに決定境界を校正し,テンプレート,置換,クラス不均衡に対するGPTの堅牢性を大幅に向上することを示す。

In-context learning of GPT-like models has been recognized as fragile across different hand-crafted templates, and demonstration permutations. In this work, we propose prototypical calibration to adaptively learn a more robust decision boundary for zero- and few-shot classification, instead of greedy decoding. Concretely, our method first adopts Gaussian mixture distribution to estimate the prototypical clusters for all categories. Then we assign each cluster to the corresponding label by solving a weighted bipartite matching problem. Given an example, its prediction is calibrated by the likelihood of prototypical clusters. Experimental results show that prototypical calibration yields a 15% absolute improvement on a diverse set of tasks. Extensive analysis across different scales also indicates that our method calibrates the decision boundary as expected, greatly improving the robustness of GPT to templates, permutations, and class imbalance.
翻訳日:2022-05-23 14:23:43 公開日:2022-05-20
# 要約における冗長性と局所コヒーレンスとのトレードオフについて

On the Trade-off between Redundancy and Local Coherence in Summarization ( http://arxiv.org/abs/2205.10192v1 )

ライセンス: Link先を確認
Ronald Cardenas and Matthias Galle and Shay B. Cohen(参考訳) 抽出要約システムは、一貫性が悪く、たとえ説明がつかないとしても、非常に冗長なテキストを生成することが知られている。 本研究では,長い文書の教師なし抽出要約における要約冗長性の問題に取り組む。 そこで我々は,局所的コヒーレンスと冗長性を直接モデル化する,人間の読解に関する心理言語学理論を活用する。 この理論を実践するために,本システムは命題レベルで動作し,ヒトのメモリ表現の特性を利用して,一貫性のある非冗長なコンテンツ単位をランク付けし,冗長でない最終要約の抽出を促進する。 要約長が自動測度に与える影響から,検索した情報予算のソフト制約を伴う最適化問題として,コンテンツ選択を定式化することにより,その制御を行う。 科学的記事の要約をケーススタディとして利用することにより,提案手法は文書の冗長性が増大するレベルにおいて,より冗長な要約を一貫して抽出する一方で,比較性能(関連性と局所的コヒーレンスの観点から)を,自動評価による教師なしベースラインに対して維持できることが実証された。

Extractive summarization systems are known to produce poorly coherent and, if not accounted for, highly redundant text. In this work, we tackle the problem of summary redundancy in unsupervised extractive summarization of long, highly-redundant documents. For this, we leverage a psycholinguistic theory of human reading comprehension which directly models local coherence and redundancy. Implementing this theory, our system operates at the proposition level and exploits properties of human memory representations to rank similarly content units that are coherent and non-redundant, hence encouraging the extraction of less redundant final summaries. Because of the impact of the summary length on automatic measures, we control for it by formulating content selection as an optimization problem with soft constraints in the budget of information retrieved. Using summarization of scientific articles as a case study, extensive experiments demonstrate that the proposed systems extract consistently less redundant summaries across increasing levels of document redundancy, whilst maintaining comparable performance (in terms of relevancy and local coherence) against strong unsupervised baselines according to automated evaluations.
翻訳日:2022-05-23 14:23:30 公開日:2022-05-20
# (参考訳) 攻撃的復号化によるseq2seq生成のロスレス高速化

Lossless Acceleration for Seq2seq Generation with Aggressive Decoding ( http://arxiv.org/abs/2205.10350v1 )

ライセンス: CC BY 4.0
Tao Ge, Heming Xia, Xin Sun, Si-Qing Chen, Furu Wei(参考訳) 我々は,新しい復号アルゴリズム -- 攻撃的復号法を用いて,seq2seq生成のためのロスレス高速化について検討する。 従来の取り組み(例えば、非自己回帰復号化)が品質損失のコストでSeq2seq生成を高速化するのと異なり、我々のアプローチは、自己回帰復号化と比較して同一(またはより良い)生成を達成することを目的としているが、並列計算による攻撃的復号化と検証の革新的協力によって実現された顕著な高速化である。 2種類のseq2seqタスクに対する攻撃的デコーディングパラダイムを提案する。 1) 入力と出力が極めて類似したセク2seqタスク(文法的誤り訂正など)に対して,入力文から積極的に復号化トークンとしてコピーして並列に検証する入力誘導攻撃復号(IAD)を提案する。 2)他の一般的なseq2seqタスク(例えば機械翻訳)では、最初に攻撃的デコーディングのために非自己回帰デコーディングモデルを追加し、それから自己回帰的な方法で並列に検証する汎用的アグレッシブデコーディング(gad)を提案する。 複数のSeq2seqタスクにおいて、GPU上で最も人気のある6層トランスフォーマーモデル上で、攻撃的デコーディングをテストする。 1) IADでは,文法的誤り訂正およびテキスト簡略化作業において,変換器の7x-9xの高速化を実現することができることを示す。 2) GADでは,機械翻訳と抽象要約という2つの重要なSeq2seqタスクにおいて,同一あるいはより優れた品質で3x-5xの高速化を観察する。 さらに、Aggressive Decodingは、並列コンピューティングに優れた強力なコンピューティングデバイスからさらに恩恵を受けることができる。 損失のない品質と有望なスピードアップを考えると、Aggressive Decodingは近い将来、効率的で損失のないSeq2seq生成のためのデファクトスタンダードへと進化する可能性があると信じています。

We study lossless acceleration for seq2seq generation with a novel decoding algorithm -- Aggressive Decoding. Unlike the previous efforts (e.g., non-autoregressive decoding) speeding up seq2seq generation at the cost of quality loss, our approach aims to yield the identical (or better) generation compared with autoregressive decoding but in a significant speedup, achieved by innovative cooperation of aggressive decoding and verification that are both efficient due to parallel computing. We propose two Aggressive Decoding paradigms for 2 kinds of seq2seq tasks: 1) For the seq2seq tasks whose inputs and outputs are highly similar (e.g., Grammatical Error Correction), we propose Input-guided Aggressive Decoding (IAD) that aggressively copies from the input sentence as drafted decoded tokens to verify in parallel; 2) For other general seq2seq tasks (e.g., Machine Translation), we propose Generalized Aggressive Decoding (GAD) that first employs an additional non-autoregressive decoding model for aggressive decoding and then verifies in parallel in the autoregressive manner. We test Aggressive Decoding on the most popular 6-layer Transformer model on GPU in multiple seq2seq tasks: 1) For IAD, we show that it can introduce a 7x-9x speedup for the Transformer in Grammatical Error Correction and Text Simplification tasks with the identical results as greedy decoding; 2) For GAD, we observe a 3x-5x speedup with the identical or even better quality in two important seq2seq tasks: Machine Translation and Abstractive Summarization. Moreover, Aggressive Decoding can benefit even more from stronger computing devices that are better at parallel computing. Given the lossless quality as well as significant and promising speedup, we believe Aggressive Decoding may potentially evolve into a de facto standard for efficient and lossless seq2seq generation in the near future.
翻訳日:2022-05-23 14:21:36 公開日:2022-05-20
# マルチモーダルヒューマンアクティビティ認識のためのクロスモーダル知識マイニングによるコントラスト学習

Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal Human Activity Recognition ( http://arxiv.org/abs/2205.10071v1 )

ライセンス: Link先を確認
Razvan Brinzea, Bulat Khaertdinov and Stylianos Asteriadis(参考訳) 人間の活動認識は、入力データが様々な形を取る研究分野である。 可能な入力モダリティはそれぞれ、人間の行動を異なる方法で表現し、それぞれ独自の強みと弱みを持っている。 我々は、複数のモダリティを活用することがより良い認識につながるという仮説を探求する。 入力データの手動アノテーションは高価で時間を要するため、真理ラベルを使わずに有用な特徴表現を学習できる自己教師型手法に重点を置いている。 慣性データと骨格データを利用して,人間の活動認識タスクに対する近年のコントラスト的自己教師付きアプローチを数多く拡張した。 さらに,CMC-CMKM (Contrastive Multiview Coding with Cross-Modal Knowledge Mining) という,マルチモーダルな自己教師型学習を実現するためのフレキシブルで汎用的なフレームワークを提案する。 このフレームワークは、典型的な自己管理フレームワークの制限を軽減するために、モダリティ固有の知識を利用する。 広範に使用されている2つのデータセットに関する広範な実験により、提案されたフレームワークは、完全な微調整、アクティビティ検索、半教師付き学習など、異なるシナリオにおいて、対照的な単調とマルチモーダルのベースラインを著しく上回ることを示した。 さらに、教師付き手法と比較しても性能の競争力を示す。

Human Activity Recognition is a field of research where input data can take many forms. Each of the possible input modalities describes human behaviour in a different way, and each has its own strengths and weaknesses. We explore the hypothesis that leveraging multiple modalities can lead to better recognition. Since manual annotation of input data is expensive and time-consuming, the emphasis is made on self-supervised methods which can learn useful feature representations without any ground truth labels. We extend a number of recent contrastive self-supervised approaches for the task of Human Activity Recognition, leveraging inertial and skeleton data. Furthermore, we propose a flexible, general-purpose framework for performing multimodal self-supervised learning, named Contrastive Multiview Coding with Cross-Modal Knowledge Mining (CMC-CMKM). This framework exploits modality-specific knowledge in order to mitigate the limitations of typical self-supervised frameworks. The extensive experiments on two widely-used datasets demonstrate that the suggested framework significantly outperforms contrastive unimodal and multimodal baselines on different scenarios, including fully-supervised fine-tuning, activity retrieval and semi-supervised learning. Furthermore, it shows performance competitive even compared to supervised methods.
翻訳日:2022-05-23 13:42:40 公開日:2022-05-20
# 新しい水中画像強調と改良された水中生物検出パイプライン

A Novel Underwater Image Enhancement and Improved Underwater Biological Detection Pipeline ( http://arxiv.org/abs/2205.10199v1 )

ライセンス: Link先を確認
Zheng Liu, Yaoming Zhuang, Pengrun Jia, Chengdong Wu, Hongli Xu ang Zhanlin Liu(参考訳) 養殖資源の評価と環境モニタリングには,海洋生物の自動検出と同定が重要である。 しかし, 水中画像の画質が低く, 生物特性が低いため, 従来の手作業による特徴抽出手法やCNNに基づく物体検出アルゴリズム, 特に複雑な水中環境において, 豊富な特徴が欠落する可能性がある。 そこで本論文の目的は,水中環境下で物体検出を行うことである。 本稿では,convolutional block attention module (cbam) をyolov5バックボーンに付加した特徴情報をキャプチャする新しい手法を提案する。 物体特性に対する水中生物特性の干渉が減少し、対象情報に対するバックボーンネットワークの出力が向上する。 また,水中環境情報によるコントラスト低下や色損失などの劣化問題を解消し,画質の回復を図るために,自己適応型グローバルヒストグラムストレッチングアルゴリズム(saghs)を考案した。 URPC2021ベンチマークデータセットの大規模な実験と総合評価により,本手法の有効性と適応性を示した。 さらに,本論文では,パフォーマンスにおけるトレーニングデータの役割を徹底的に分析する。

For aquaculture resource evaluation and ecological environment monitoring, automatic detection and identification of marine organisms is critical. However, due to the low quality of underwater images and the characteristics of underwater biological, a lack of abundant features may impede traditional hand-designed feature extraction approaches or CNN-based object detection algorithms, particularly in complex underwater environment. Therefore, the goal of this paper is to perform object detection in the underwater environment. This paper proposed a novel method for capturing feature information, which adds the convolutional block attention module (CBAM) to the YOLOv5 backbone. The interference of underwater creature characteristics on object characteristics is decreased, and the output of the backbone network to object information is enhanced. In addition, the self-adaptive global histogram stretching algorithm (SAGHS) is designed to eliminate the degradation problems such as low contrast and color loss caused by underwater environmental information to better restore image quality. Extensive experiments and comprehensive evaluation on the URPC2021 benchmark dataset demonstrate the effectiveness and adaptivity of our methods. Beyond that, this paper conducts an exhaustive analysis of the role of training data on performance.
翻訳日:2022-05-23 13:42:16 公開日:2022-05-20
# KERPLE:長尺外挿用カーネル化相対的位置埋め込み

KERPLE: Kernelized Relative Positional Embedding for Length Extrapolation ( http://arxiv.org/abs/2205.09921v1 )

ライセンス: Link先を確認
Ta-Chung Chi, Ting-Han Fan, Peter J. Ramadge, Alexander I. Rudnicky(参考訳) RPEはトークン間の相対距離を効果的にモデル化し、長さ外挿を可能にするため、相対的な位置埋め込み (RPE) が注目されている。 位置差のカーネル化によって外挿のための相対的な位置埋め込みを一般化するフレームワークであるKERPLEを提案する。 我々は、距離メトリクスを一般化することで知られる関数のクラスである条件付き正定値(cpd)カーネルを用いて、この目標を達成する。 自己注意の内積解釈を維持するため,一定オフセットを追加することにより,PDカーネルをPDカーネルに変換することができることを示す。 このオフセットは自己アテンション中のソフトマックス正規化に暗黙的に吸収される。 CPDカーネルの多様性により、原則的に長さ外挿を可能にする様々な RPE を導出できる。 実験により、対数変種は3つの大きな言語モデリングデータセット上で優れた外挿性能を発揮することが示された。

Relative positional embeddings (RPE) have received considerable attention since RPEs effectively model the relative distance among tokens and enable length extrapolation. We propose KERPLE, a framework that generalizes relative position embedding for extrapolation by kernelizing positional differences. We achieve this goal using conditionally positive definite (CPD) kernels, a class of functions known for generalizing distance metrics. To maintain the inner product interpretation of self-attention, we show that a CPD kernel can be transformed into a PD kernel by adding a constant offset. This offset is implicitly absorbed in the Softmax normalization during self-attention. The diversity of CPD kernels allows us to derive various RPEs that enable length extrapolation in a principled way. Experiments demonstrate that the logarithmic variant achieves excellent extrapolation performance on three large language modeling datasets.
翻訳日:2022-05-23 13:41:26 公開日:2022-05-20
# Heterformer: 異種テキストリッチネットワーク上でのノード表現学習のためのトランスフォーマーアーキテクチャ

Heterformer: A Transformer Architecture for Node Representation Learning on Heterogeneous Text-Rich Networks ( http://arxiv.org/abs/2205.10282v1 )

ライセンス: Link先を確認
Bowen Jin, Yu Zhang, Qi Zhu, Jiawei Han(参考訳) ノードとエッジが多型化され,ある種のノードがテキスト情報と関連付けられている異種テキストリッチネットワーク上でのノード表現学習について検討する。 最近のグラフニューラルネットワーク(gnns)とプリトレーニング言語モデル(plms)の研究は、それぞれネットワークとテキスト信号をエンコードする能力を示しているが、これらの2種類のモデルを不均一なテキストリッチネットワーク上に繊細に結合することには、あまり焦点が当てられていない。 具体的には、既存のGNNが各ノードのテキストを文脈的にモデル化することは滅多にない。 本稿では,GNN と PLM を融合したヘテロジニアス GNN ネスト変換器 Heterformer を提案する。 PLM上にGNN層を直接付加する従来の"カスケードアーキテクチャ"とは異なり、我々のHeterformerは2つのモジュール – グラフアテンションベースの隣の集約モジュールと変換器ベースのテキストと隣のジョイントエンコーディングモジュール – を交互に積み重ねて、ネットワークとテキスト信号間の相互補完を容易にする。 一方、heterformerは、テキスト情報なしでネットワークの不均一性とノードを特徴付けることができる。 異なるドメインからの3つの大規模データセットに関する包括的な実験は、リンク予測、トランスダクティブ/インダクティブノード分類、ノードクラスタリング、セマンティクスに基づく検索において、Heterformerが最先端のベースラインよりも優れていることを示す。

We study node representation learning on heterogeneous text-rich networks, where nodes and edges are multi-typed and some types of nodes are associated with text information. Although recent studies on graph neural networks (GNNs) and pretrained language models (PLMs) have demonstrated their power in encoding network and text signals, respectively, less focus has been given to delicately coupling these two types of models on heterogeneous text-rich networks. Specifically, existing GNNs rarely model text in each node in a contextualized way; existing PLMs can hardly be applied to characterize graph structures due to their sequence architecture. In this paper, we propose Heterformer, a Heterogeneous GNN-nested transformer that blends GNNs and PLMs into a unified model. Different from previous "cascaded architectures" that directly add GNN layers upon a PLM, our Heterformer alternately stacks two modules - a graph-attention-based neighbor aggregation module and a transformer-based text and neighbor joint encoding module - to facilitate thorough mutual enhancement between network and text signals. Meanwhile, Heterformer is capable of characterizing network heterogeneity and nodes without text information. Comprehensive experiments on three large-scale datasets from different domains demonstrate the superiority of Heterformer over state-of-the-art baselines in link prediction, transductive/inductive node classification, node clustering, and semantics-based retrieval.
翻訳日:2022-05-23 13:41:11 公開日:2022-05-20
# b-cosネットワーク:アライメントは解釈性に必要なすべて

B-cos Networks: Alignment is All We Need for Interpretability ( http://arxiv.org/abs/2205.10268v1 )

ライセンス: Link先を確認
Moritz B\"ohle, Mario Fritz, Bernt Schiele(参考訳) 本稿では,トレーニング中の重み入力アライメントを促進することにより,深層ニューラルネットワーク(dnn)の解釈性を高めるための新しい方向を提案する。 そこで我々は,DNNの線形変換をB-cos変換で置き換えることを提案する。 このように、そのような変換のシーケンス(ネットワーク)は、完全なモデル計算を忠実に要約する単一の線形変換を誘導する。 さらに、B-cos変換は最適化時に重みにアライメント圧力を導入する。 その結果、これらの誘導線形変換は高度に解釈可能となり、タスク関連特徴と整合する。 重要なことは、B-cos変換は既存のアーキテクチャと互換性があるように設計されており、ImageNet上で同様の性能を維持しながら、VGGs、ResNets、InceptionNets、DenseNetsといった一般的なモデルに容易に統合できることである。 結果として得られた説明は、視覚的な品質が高く、解釈可能性の定量的指標の下でうまく機能する。 コードはhttps://www.github.com/moboehle/b-cosで入手できる。

We present a new direction for increasing the interpretability of deep neural networks (DNNs) by promoting weight-input alignment during training. For this, we propose to replace the linear transforms in DNNs by our B-cos transform. As we show, a sequence (network) of such transforms induces a single linear transform that faithfully summarises the full model computations. Moreover, the B-cos transform introduces alignment pressure on the weights during optimisation. As a result, those induced linear transforms become highly interpretable and align with task-relevant features. Importantly, the B-cos transform is designed to be compatible with existing architectures and we show that it can easily be integrated into common models such as VGGs, ResNets, InceptionNets, and DenseNets, whilst maintaining similar performance on ImageNet. The resulting explanations are of high visual quality and perform well under quantitative metrics for interpretability. Code available at https://www.github.com/moboehle/B-cos.
翻訳日:2022-05-23 13:38:43 公開日:2022-05-20
# BayesPCN: 継続的に学習可能な予測型コーディング連想メモリ

BayesPCN: A Continually Learnable Predictive Coding Associative Memory ( http://arxiv.org/abs/2205.09930v1 )

ライセンス: Link先を確認
Jason Yoo and Frank Wood(参考訳) 連想記憶は人間の知性において重要な役割を担っており、そのメカニズムは機械学習の注目を集めている。 機械学習コミュニティの連想記憶への関心は近年再燃しているが、ほとんどの作業はメモリ学習よりもメモリリコール($read$)に重点を置いている($write$)。 本稿では,メタ学習なしで連続的なワンショットメモリ書き込みが可能な階層型連想メモリBayesPCNを提案する。 さらにBayesPCNは、過去の観測($forget$)を忘れて、メモリを自由にすることができる。 実験の結果、ベイズPCNは何百もの「タイムステップ」を観測した高次元データを、現在最先端のオフライン学習型連想記憶モデルと比較して、大幅なリコール能力の低下なしにリコールできることがわかった。

Associative memory plays an important role in human intelligence and its mechanisms have been linked to attention in machine learning. While the machine learning community's interest in associative memories has recently been rekindled, most work has focused on memory recall ($read$) over memory learning ($write$). In this paper, we present BayesPCN, a hierarchical associative memory capable of performing continual one-shot memory writes without meta-learning. Moreover, BayesPCN is able to gradually forget past observations ($forget$) to free its memory. Experiments show that BayesPCN can recall corrupted i.i.d. high-dimensional data observed hundreds of "timesteps" ago without a significant drop in recall ability compared to the state-of-the-art offline-learned associative memory models.
翻訳日:2022-05-23 13:37:39 公開日:2022-05-20
# 教師なしグラフレベル表現学習の説明に向けて

Towards Explanation for Unsupervised Graph-Level Representation Learning ( http://arxiv.org/abs/2205.09934v1 )

ライセンス: Link先を確認
Qinghua Zheng, Jihong Wang, Minnan Luo, Yaoliang Yu, Jundong Li, Lina Yao, Xiaojun Chang(参考訳) 様々な領域におけるグラフニューラルネットワーク(gnns)の優れた性能のため、gnnの説明問題「入力グラフのどの部分がモデルの決定に最も重要であるか? 既存の説明方法は教師付き設定、例えば、ノード分類、グラフ分類に焦点を当てているが、教師なしグラフレベルの表現学習の説明はまだ未検討である。 グラフ表現の不透明さは、高い意思決定シナリオにデプロイする際の予期せぬリスクを引き起こす可能性がある。 本稿では,非教師付きグラフ表現における説明問題に対処するために,インフォメーション・ボトルネックの原理(IB)を推し進め,新しい原理である「textit{Unsupervised Subgraph Information Bottleneck} (USIB)」を導いた。 また,ラベル空間におけるグラフ表現と説明サブグラフの関係を理論的に解析し,表現の表現性と頑健性が説明サブグラフの忠実さに寄与することを明らかにした。 合成と実世界の両方のデータセットに対する実験結果から,開発した説明装置の優位性と理論解析の有効性が示された。

Due to the superior performance of Graph Neural Networks (GNNs) in various domains, there is an increasing interest in the GNN explanation problem "\emph{which fraction of the input graph is the most crucial to decide the model's decision?}" Existing explanation methods focus on the supervised settings, \eg, node classification and graph classification, while the explanation for unsupervised graph-level representation learning is still unexplored. The opaqueness of the graph representations may lead to unexpected risks when deployed for high-stake decision-making scenarios. In this paper, we advance the Information Bottleneck principle (IB) to tackle the proposed explanation problem for unsupervised graph representations, which leads to a novel principle, \textit{Unsupervised Subgraph Information Bottleneck} (USIB). We also theoretically analyze the connection between graph representations and explanatory subgraphs on the label space, which reveals that the expressiveness and robustness of representations benefit the fidelity of explanatory subgraphs. Experimental results on both synthetic and real-world datasets demonstrate the superiority of our developed explainer and the validity of our theoretical analysis.
翻訳日:2022-05-23 13:37:26 公開日:2022-05-20
# 説明可能なドメイン適応

Explainable Supervised Domain Adaptation ( http://arxiv.org/abs/2205.09943v1 )

ライセンス: Link先を確認
Vidhya Kamakshi and Narayanan C Krishnan(参考訳) ドメイン適応技術はディープラーニングの成功に貢献した。 ラベル付きデータスカースターゲットドメインで学習するための補助ソースドメインからの知識を活用することは、ドメイン適応の基礎となる。 これらの技術は精度を高めるが、適応プロセス、特にソースドメインから得られる知識はいまだに不明である。 本稿では,設計管理型ドメイン適応フレームワーク xsda-net を提案する。 我々は、XSDA-Netにケースベースの推論機構を統合し、ソースとターゲットの列車画像の類似した領域でテストインスタンスの予測を説明する。 我々は,パートベースの説明可能性を示すために広く知られているデータセットのドメイン適応設定をキュレートすることにより,提案フレームワークの有用性を実証的に実証する。

Domain adaptation techniques have contributed to the success of deep learning. Leveraging knowledge from an auxiliary source domain for learning in labeled data-scarce target domain is fundamental to domain adaptation. While these techniques result in increasing accuracy, the adaptation process, particularly the knowledge leveraged from the source domain, remains unclear. This paper proposes an explainable by design supervised domain adaptation framework - XSDA-Net. We integrate a case-based reasoning mechanism into the XSDA-Net to explain the prediction of a test instance in terms of similar-looking regions in the source and target train images. We empirically demonstrate the utility of the proposed framework by curating the domain adaptation settings on datasets popularly known to exhibit part-based explainability.
翻訳日:2022-05-23 13:37:07 公開日:2022-05-20
# フレキシブルな行動合成のための拡散による計画

Planning with Diffusion for Flexible Behavior Synthesis ( http://arxiv.org/abs/2205.09991v1 )

ライセンス: Link先を確認
Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine(参考訳) モデルベース強化学習法は、近似ダイナミクスモデルの推定のためにのみ学習を使用し、残りの意思決定作業を古典的な軌道最適化器にオフロードする。 概念的には単純であるが、この組み合わせには多くの経験的欠点があり、学習されたモデルは標準軌道最適化に適していない可能性がある。 本稿では,モデルからのサンプリングと計画がほぼ同一になるようなモデリング問題に対して,可能な限り軌道最適化パイプラインを折り畳むことがどのようなものになるかを検討する。 我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。 分類器誘導型サンプリングと画像インパインティングをコヒーレントな計画戦略として再解釈し,拡散型計画手法の異常かつ有用性を検証し,長期的意思決定とテスト時間の柔軟性を重視した制御設定におけるフレームワークの有効性を示す。

Model-based reinforcement learning methods often use learning only for the purpose of estimating an approximate dynamics model, offloading the rest of the decision-making work to classical trajectory optimizers. While conceptually simple, this combination has a number of empirical shortcomings, suggesting that learned models may not be well-suited to standard trajectory optimization. In this paper, we consider what it would look like to fold as much of the trajectory optimization pipeline as possible into the modeling problem, such that sampling from the model and planning with it become nearly identical. The core of our technical approach lies in a diffusion probabilistic model that plans by iteratively denoising trajectories. We show how classifier-guided sampling and image inpainting can be reinterpreted as coherent planning strategies, explore the unusual and useful properties of diffusion-based planning methods, and demonstrate the effectiveness of our framework in control settings that emphasize long-horizon decision-making and test-time flexibility.
翻訳日:2022-05-23 13:35:24 公開日:2022-05-20
# 信頼できるグラフ学習に関する調査:信頼性、説明可能性、プライバシー保護

A Survey of Trustworthy Graph Learning: Reliability, Explainability, and Privacy Protection ( http://arxiv.org/abs/2205.10014v1 )

ライセンス: Link先を確認
Bingzhe Wu, Jintang Li, Junchi Yu, Yatao Bian, Hengtong Zhang, CHaochao Chen, Chengbin Hou, Guoji Fu, Liang Chen, Tingyang Xu, Yu Rong, Xiaolin Zheng, Junzhou Huang, Ran He, Baoyuan Wu, GUangyu Sun, Peng Cui, Zibin Zheng, Zhe Liu, Peilin Zhao(参考訳) ディープグラフ学習は、金融や電子商取引から薬物や高度な物質発見まで、ビジネス分野と科学分野の両方で著しい進歩を遂げてきた。 これらの進歩にもかかわらず、様々なディープグラフ学習アルゴリズムを社会的に責任ある方法で動作させ、規制コンプライアンス要件を満たすことが、特にリスクに敏感な領域において、新たな問題となる。 信頼できるグラフ学習(TwGL)は、技術的観点から上記の問題を解決することを目的としている。 モデルパフォーマンスを主に重視する従来のグラフ学習研究とは対照的に,twglでは,堅牢性や説明可能性,プライバシなどを含む,グラフ学習フレームワークのさまざまな信頼性と安全性について検討している。 本稿では,twgl分野における最近の先行的アプローチについて,信頼性,説明可能性,プライバシー保護という3次元から総合的に検討する。 既存の作業の一般的な分類と,各カテゴリの典型的な作業のレビューを行う。 TwGL研究にさらなる洞察を与えるため、以前の研究を検査し、それらの関係を構築する統一的な視点を提供する。 また,TwGLの今後の発展において解決すべき重要な未解決問題についても指摘した。

Deep graph learning has achieved remarkable progresses in both business and scientific areas ranging from finance and e-commerce, to drug and advanced material discovery. Despite these progresses, how to ensure various deep graph learning algorithms behave in a socially responsible manner and meet regulatory compliance requirements becomes an emerging problem, especially in risk-sensitive domains. Trustworthy graph learning (TwGL) aims to solve the above problems from a technical viewpoint. In contrast to conventional graph learning research which mainly cares about model performance, TwGL considers various reliability and safety aspects of the graph learning framework including but not limited to robustness, explainability, and privacy. In this survey, we provide a comprehensive review of recent leading approaches in the TwGL field from three dimensions, namely, reliability, explainability, and privacy protection. We give a general categorization for existing work and review typical work for each category. To give further insights for TwGL research, we provide a unified view to inspect previous works and build the connection between them. We also point out some important open problems remaining to be solved in the future developments of TwGL.
翻訳日:2022-05-23 13:35:06 公開日:2022-05-20
# ExMo: 逆周波数決定規則を用いた説明可能なAIモデル

ExMo: Explainable AI Model using Inverse Frequency Decision Rules ( http://arxiv.org/abs/2205.10045v1 )

ライセンス: Link先を確認
Pradip Mainali, Ismini Psychoula, and Fabien A. P. Petitcolas(参考訳) 本稿では,ExMoと呼ばれるより正確な解釈可能な機械学習モデルを構築するための決定ルールの計算方法を提案する。 ExMoの解釈可能な機械学習モデルは、条件に決定ルールのあるIF...THEN...文のリストで構成されている。 このようにして、ExMoは自然に引き起こされた決定ルールを使った予測の説明を提供する。 ExMoは、TF-IDF(Term frequency-inverse document frequency)機能を使用して、トレーニングデータから決定ルールを抽出する新しいアプローチを使用している。 TF-IDFでは、各クラスに関連性の高い特徴値を持つ決定ルールが抽出される。 したがって、ExMoによって得られる決定規則は、頻繁なパターンマイニング手法を用いて得られる既存のベイズルールリスト(BRL)アルゴリズムで用いられる決定規則よりも、正と負のクラスを区別することができる。 論文は、ExMoがBRLよりも質的に優れたモデルを学ぶことも示している。 さらにexmoは、テキストによる説明が人間にやさしい方法で提供され、専門家でないユーザでも簡単に理解できることを実証している。 異なるサイズを持つ複数のデータセット上でExMoを評価し,その有効性を評価する。 実世界の不正検出アプリケーションの実験的検証では、ExMoはBRLよりも20%精度が高く、ディープラーニングモデルと同様の精度が得られる。

In this paper, we present a novel method to compute decision rules to build a more accurate interpretable machine learning model, denoted as ExMo. The ExMo interpretable machine learning model consists of a list of IF...THEN... statements with a decision rule in the condition. This way, ExMo naturally provides an explanation for a prediction using the decision rule that was triggered. ExMo uses a new approach to extract decision rules from the training data using term frequency-inverse document frequency (TF-IDF) features. With TF-IDF, decision rules with feature values that are more relevant to each class are extracted. Hence, the decision rules obtained by ExMo can distinguish the positive and negative classes better than the decision rules used in the existing Bayesian Rule List (BRL) algorithm, obtained using the frequent pattern mining approach. The paper also shows that ExMo learns a qualitatively better model than BRL. Furthermore, ExMo demonstrates that the textual explanation can be provided in a human-friendly way so that the explanation can be easily understood by non-expert users. We validate ExMo on several datasets with different sizes to evaluate its efficacy. Experimental validation on a real-world fraud detection application shows that ExMo is 20% more accurate than BRL and that it achieves accuracy similar to those of deep learning models.
翻訳日:2022-05-23 13:34:46 公開日:2022-05-20
# MaskGAE: Masked Graph Modelingがグラフオートエンコーダをサポート

MaskGAE: Masked Graph Modeling Meets Graph Autoencoders ( http://arxiv.org/abs/2205.10053v1 )

ライセンス: Link先を確認
Jintang Li, Ruofan Wu, Wangbin Sun, Liang Chen, Sheng Tian, Liang Zhu, Changhua Meng, Zibin Zheng, Weiqiang Wang(参考訳) 本稿では,グラフ構造化データの自己教師型学習フレームワークMaskGAEを提案する。 従来のグラフオートエンコーダ(GAE)とは異なり、MaskGAEはマスク付きグラフモデリング(MGM)を、エッジの一部をマスキングし、部分的に可視で、マスキングされていないグラフ構造で欠落部分を再構築しようとする、原則付きプリテキストタスクとして採用している。 MGMがGAEのより良い表現を学べるかどうかを理解するために、この前提課題の利点を正当化するための理論的および実証的な証拠を提供する。 理論的には、GAEとコントラスト学習の関連性を確立し、MGMがGAEの自己教師型学習方式を大幅に改善することを示す。 実験的に,多数のベンチマークデータセットに対して広範な実験を行い,リンク予測とノード分類のタスクに関するいくつかの最先端技術に対して,MaskGAEの優位性を実証した。 我々のコードは \url{https://github.com/EdisonLeeeee/MaskGAE} で公開されている。

We present masked graph autoencoder (MaskGAE), a self-supervised learning framework for graph-structured data. Different from previous graph autoencoders (GAEs), MaskGAE adopts masked graph modeling (MGM) as a principled pretext task: masking a portion of edges and attempting to reconstruct the missing part with partially visible, unmasked graph structure. To understand whether MGM can help GAEs learn better representations, we provide both theoretical and empirical evidence to justify the benefits of this pretext task. Theoretically, we establish the connections between GAEs and contrastive learning, showing that MGM significantly improves the self-supervised learning scheme of GAEs. Empirically, we conduct extensive experiments on a number of benchmark datasets, demonstrating the superiority of MaskGAE over several state-of-the-arts on both link prediction and node classification tasks. Our code is publicly available at \url{https://github.com/EdisonLeeeee/MaskGAE}.
翻訳日:2022-05-23 13:34:26 公開日:2022-05-20
# 循環・非循環因果モデルのための統一実験設計手法

A Unified Experiment Design Approach for Cyclic and Acyclic Causal Models ( http://arxiv.org/abs/2205.10083v1 )

ライセンス: Link先を確認
Ehsan Mokhtarian, Saber Salehkaleybar, AmirEmad Ghassami, Negar Kiyavash(参考訳) 本研究では,グラフがサイクルを含む可能性のあるシステムの因果グラフを一意に同定する実験設計について検討する。 構造にサイクルが存在することは、実験設計に大きな課題をもたらす。 非巡回グラフの場合とは異なり、観測分布から因果グラフの骨格を学ぶことは不可能かもしれない。 さらに、変数へのインターベンジは、必ずしもそれへのすべてのエッジの向き付けにつながりません。 本稿では,循環グラフと非循環グラフの両方を学習可能な実験設計手法を提案する。 最悪の場合において因果グラフの独特な識別を保証するのに必要な実験数の上限を低くし,加法対数項までの実験数に関して提案手法が最適であることを示す。 さらに、各実験のサイズが定数で区切られるような設定まで結果を広げる。 このケースでは、最悪の場合において、因果グラフのユニークな識別に必要な最大の実験のサイズの観点から、我々のアプローチが最適であることを示す。

We study experiment design for the unique identification of the causal graph of a system where the graph may contain cycles. The presence of cycles in the structure introduces major challenges for experiment design. Unlike the case of acyclic graphs, learning the skeleton of the causal graph from observational distribution may not be possible. Furthermore, intervening on a variable does not necessarily lead to orienting all the edges incident to it. In this paper, we propose an experiment design approach that can learn both cyclic and acyclic graphs and hence, unifies the task of experiment design for both types of graphs. We provide a lower bound on the number of experiments required to guarantee the unique identification of the causal graph in the worst case, showing that the proposed approach is order-optimal in terms of the number of experiments up to an additive logarithmic term. Moreover, we extend our result to the setting where the size of each experiment is bounded by a constant. For this case, we show that our approach is optimal in terms of the size of the largest experiment required for the unique identification of the causal graph in the worst case.
翻訳日:2022-05-23 13:34:08 公開日:2022-05-20
# LeNSE: 大規模コンビネーション最適化のためのグラフ埋め込みを学習

LeNSE: Learning To Navigate Subgraph Embeddings for Large-Scale Combinatorial Optimisation ( http://arxiv.org/abs/2205.10106v1 )

ライセンス: Link先を確認
David Ireland and Giovanni Montana(参考訳) 組合せ最適化問題はいくつかの応用領域で発生し、しばしばグラフで定式化される。 これらの問題の多くはNPハードであるが、正確な解は必ずしも必要ではない。 最適に近い解を提供するためにいくつかのヒューリスティックが開発されているが、グラフのサイズほどよくスケールしない。 本稿では,経験則を妥当な時間で実行し,大域的近似解を見つける確率の高い元グラフの(おそらくはるかに小さい)部分グラフを特定するための低複雑さアプローチを提案する。 提案手法のコアコンポーネントであるLeNSEは、ユークリッド部分グラフの埋め込みをマップとして使用して、可能な部分グラフの空間をナビゲートする方法を学ぶ強化学習アルゴリズムである。 CO問題を解決するため、LeNSEは元のグラフのごく一部だけを用いて既存のヒューリスティックスを用いて訓練された識別的埋め込みを備える。 最大100万ドルのエッジを持つ実グラフを用いて3つの問題(頂点被覆、最大カット、影響最大化)でテストした場合、LeNSEはグラフ全体においてヒューリスティックスを実行することで得られる解に匹敵する小さな部分グラフを、全体の実行時間のごく一部で特定する。

Combinatorial Optimisation problems arise in several application domains and are often formulated in terms of graphs. Many of these problems are NP-hard, but exact solutions are not always needed. Several heuristics have been developed to provide near-optimal solutions; however, they do not typically scale well with the size of the graph. We propose a low-complexity approach for identifying a (possibly much smaller) subgraph of the original graph where the heuristics can be run in reasonable time and with a high likelihood of finding a global near-optimal solution. The core component of our approach is LeNSE, a reinforcement learning algorithm that learns how to navigate the space of possible subgraphs using an Euclidean subgraph embedding as its map. To solve CO problems, LeNSE is provided with a discriminative embedding trained using any existing heuristics using only on a small portion of the original graph. When tested on three problems (vertex cover, max-cut and influence maximisation) using real graphs with up to $10$ million edges, LeNSE identifies small subgraphs yielding solutions comparable to those found by running the heuristics on the entire graph, but at a fraction of the total run time.
翻訳日:2022-05-23 13:33:52 公開日:2022-05-20
# 多目的最適化による反事実的説明における可能性・変化強度・敵意のトレードオフの検討

Exploring the Trade-off between Plausibility, Change Intensity and Adversarial Power in Counterfactual Explanations using Multi-objective Optimization ( http://arxiv.org/abs/2205.10232v1 )

ライセンス: Link先を確認
Javier Del Ser, Alejandro Barredo-Arrieta, Natalia D\'iaz-Rodr\'iguez, Francisco Herrera, Andreas Holzinger(参考訳) 複雑なデータを含むタスクにおけるディープラーニングモデルの重要性については、幅広いコンセンサスがある。 これらのモデルの適切な理解は、人間のクリティカルなアプリケーションにおける決定の透明性を重視する際に必要となる。 他の説明可能性のテクニックの他に、人間が未知のプロセスに慣れる方法のような反事実を用いることで、アウトプットが変化する仮説的状況を理解することで、信頼性を達成することができる。 本研究では, 自動対物生成は, 対物生成能力だけでなく, 生成した対物生成のいくつかの側面を考慮すべきである,と論じる。 そこで本稿では,3つの目的のバランスをとる多目的最適化問題として,その目標を定式化した反実例生成のための新しい枠組みを提案する。 1) 可能性,すなわち,入力データの分布に応じて可能となる反事実の類似性 2) 元の入力に対する変更の強度,及び 3) 敵対的な力、すなわち、反事実によって引き起こされるモデルの出力の変動性。 このフレームワークは、対象モデルから外れて監査され、ジェネレーティブ・アドバイサル・ネットワークを使用して入力データの分布をモデル化し、また、これらの目的の間に反現実的バランスの発見のための多目的解決器である。 フレームワークの有用性は、画像と3次元データを含む6つの分類タスクで示される。 実験は、このフレームワークが直感に従う反事実を明らかにし、ユーザの信頼性を高め、バイアスの検出やデータの誤表現といったさらなる洞察をもたらすことを検証した。

There is a broad consensus on the importance of deep learning models in tasks involving complex data. Often, an adequate understanding of these models is required when focusing on the transparency of decisions in human-critical applications. Besides other explainability techniques, trustworthiness can be achieved by using counterfactuals, like the way a human becomes familiar with an unknown process: by understanding the hypothetical circumstances under which the output changes. In this work we argue that automated counterfactual generation should regard several aspects of the produced adversarial instances, not only their adversarial capability. To this end, we present a novel framework for the generation of counterfactual examples which formulates its goal as a multi-objective optimization problem balancing three different objectives: 1) plausibility, i.e., the likeliness of the counterfactual of being possible as per the distribution of the input data; 2) intensity of the changes to the original input; and 3) adversarial power, namely, the variability of the model's output induced by the counterfactual. The framework departs from a target model to be audited and uses a Generative Adversarial Network to model the distribution of input data, together with a multi-objective solver for the discovery of counterfactuals balancing among these objectives. The utility of the framework is showcased over six classification tasks comprising image and three-dimensional data. The experiments verify that the framework unveils counterfactuals that comply with intuition, increasing the trustworthiness of the user, and leading to further insights, such as the detection of bias and data misrepresentation.
翻訳日:2022-05-23 13:33:29 公開日:2022-05-20
# (参考訳) 半教師付きテキスト分類のためのプログレッシブクラスセマンティクスマッチング

Progressive Class Semantic Matching for Semi-supervised Text Classification ( http://arxiv.org/abs/2205.10189v1 )

ライセンス: CC BY-SA 4.0
Hai-Ming Xu and Lingqiao Liu and Ehsan Abbasnejad(参考訳) 半教師付き学習は、テキスト分類のアノテーションコストを削減する有望な方法である。 プレトレーニング言語モデル(PLM)、例えばBERTと組み合わせることで、最近の半教師付き学習手法は印象的な性能を達成した。 本研究では,半教師付き学習と事前学習型言語モデルとの結婚についてさらに検討する。 モデルパラメータの初期化にのみplmを使用する既存のアプローチとは異なり、plm内で固有のトピックマッチング機能を探求し、より強力な半教師付き学習アプローチを構築する。 具体的には、標準の$K$-way分類器と、入力テキストとクラス意味表現(CSR)のマッチングネットワークを段階的に構築する半教師付き学習プロセスを提案する。 CSRは与えられたラベル付き文から初期化され、トレーニングプロセスを通じて徐々に更新される。 大規模な実験により,本手法はベースラインに顕著な改善をもたらすだけでなく,全体的な安定性も向上し,半教師付きテキスト分類における最先端性能を実現する。

Semi-supervised learning is a promising way to reduce the annotation cost for text-classification. Combining with pre-trained language models (PLMs), e.g., BERT, recent semi-supervised learning methods achieved impressive performance. In this work, we further investigate the marriage between semi-supervised learning and a pre-trained language model. Unlike existing approaches that utilize PLMs only for model parameter initialization, we explore the inherent topic matching capability inside PLMs for building a more powerful semi-supervised learning approach. Specifically, we propose a joint semi-supervised learning process that can progressively build a standard $K$-way classifier and a matching network for the input text and the Class Semantic Representation (CSR). The CSR will be initialized from the given labeled sentences and progressively updated through the training process. By means of extensive experiments, we show that our method can not only bring remarkable improvement to baselines, but also overall be more stable, and achieves state-of-the-art performance in semi-supervised text classification.
翻訳日:2022-05-23 13:32:00 公開日:2022-05-20
# 等尺自己サンプル学習を用いた自己監督深度推定

Self-Supervised Depth Estimation with Isometric-Self-Sample-Based Learning ( http://arxiv.org/abs/2205.10006v1 )

ライセンス: Link先を確認
Geonho Cha, Ho-Deok Jang, Dongyoon Wee(参考訳) 測光損失定式化における動的領域の管理は, 自己教師付き深さ推定問題を扱う上で重要な課題となっている。 以前のほとんどの方法は、他のモジュールから推定されるマスクに基づいて、測光損失定式化の動的領域を取り除き、トレーニングイメージを十分に活用することの困難さを緩和した。 本稿では,この問題に対処するために,簡易かつ効果的な方法でトレーニング画像を完全に活用するための等尺自己サンプルベース学習(issl)手法を提案する。 提案手法は,純粋な静的シーン仮定に従う自己生成画像を用いて,トレーニング中に追加の監視を行う。 具体的には、推定深度にランダムな剛性変換を施し、トレーニング画像毎に自己サンプルを合成する。 したがって、生成された自己サンプルと対応するトレーニング画像とは常に静的シーン仮定に従う。 ISSLモジュールをいくつかの既存モデルにプラグインすることで、パフォーマンスが大幅に向上することを示す。 さらに、屋外シーン(KITTIとMake3D)や屋内シーン(NYUv2)など、様々なタイプのシーンに対する深度精度を高め、高い有効性を示す。

Managing the dynamic regions in the photometric loss formulation has been a main issue for handling the self-supervised depth estimation problem. Most previous methods have alleviated this issue by removing the dynamic regions in the photometric loss formulation based on the masks estimated from another module, making it difficult to fully utilize the training images. In this paper, to handle this problem, we propose an isometric self-sample-based learning (ISSL) method to fully utilize the training images in a simple yet effective way. The proposed method provides additional supervision during training using self-generated images that comply with pure static scene assumption. Specifically, the isometric self-sample generator synthesizes self-samples for each training image by applying random rigid transformations on the estimated depth. Thus both the generated self-samples and the corresponding training image always follow the static scene assumption. We show that plugging our ISSL module into several existing models consistently improves the performance by a large margin. In addition, it also boosts the depth accuracy over different types of scene, i.e., outdoor scenes (KITTI and Make3D) and indoor scene (NYUv2), validating its high effectiveness.
翻訳日:2022-05-23 13:15:25 公開日:2022-05-20
# 報酬系列分布の特性関数による一般化のためのタスク関連表現の学習

Learning Task-relevant Representations for Generalization via Characteristic Functions of Reward Sequence Distributions ( http://arxiv.org/abs/2205.10218v1 )

ライセンス: Link先を確認
Rui Yang, Jie Wang, Zijie Geng, Mingxuan Ye, Shuiwang Ji, Bin Li, Feng Wu(参考訳) 同じタスクで異なる環境にまたがる一般化は、実シナリオにおける視覚強化学習(RL)の成功に不可欠である。 しかし、高次元観察から現実の場面でよく見られる視覚的注意散らしは、視覚的RLにおける学習された表現に害を与え、一般化の性能を低下させる。 そこで本研究では, 報酬信号がrlでタスク関連であり, 視覚障害に不変であるため, 報酬系列分布(rsd)を学習することによりタスク関連情報を抽出する, 特徴報酬系列予測(cresp)という新しい手法を提案する。 特に、rsdsを介してタスク関連情報を効果的に捉えるために、crespはタスク関連表現を学習するために補助タスク(つまり、rsdsの特性関数の予測)を導入し、対応する特性関数を利用して高次元分布をよく近似する。 実験により、CRESPは目に見えない環境での一般化性能を著しく改善し、DeepMindコントロールタスクにおけるいくつかの最先端タスクと異なる視覚的注意をそろえる。

Generalization across different environments with the same tasks is critical for successful applications of visual reinforcement learning (RL) in real scenarios. However, visual distractions -- which are common in real scenes -- from high-dimensional observations can be hurtful to the learned representations in visual RL, thus degrading the performance of generalization. To tackle this problem, we propose a novel approach, namely Characteristic Reward Sequence Prediction (CRESP), to extract the task-relevant information by learning reward sequence distributions (RSDs), as the reward signals are task-relevant in RL and invariant to visual distractions. Specifically, to effectively capture the task-relevant information via RSDs, CRESP introduces an auxiliary task -- that is, predicting the characteristic functions of RSDs -- to learn task-relevant representations, because we can well approximate the high-dimensional distributions by leveraging the corresponding characteristic functions. Experiments demonstrate that CRESP significantly improves the performance of generalization on unseen environments, outperforming several state-of-the-arts on DeepMind Control tasks with different visual distractions.
翻訳日:2022-05-23 13:15:06 公開日:2022-05-20
# (参考訳) clusterea: 確率的トレーニングと正規化されたミニバッチ類似性を備えたスケーラブルなエンティティアライメント

ClusterEA: Scalable Entity Alignment with Stochastic Training and Normalized Mini-batch Similarities ( http://arxiv.org/abs/2205.10312v1 )

ライセンス: CC BY 4.0
Yunjun Gao, Xiaoze Liu, Junyang Wu, Tianyi Li, Pengfei Wang, Lu Chen(参考訳) エンティティアライメント(EA)は、異なる知識グラフ(KG)に等価なエンティティを見つけることを目的としている。 近年、埋め込みベースのアプローチがEAのタスクを支配している。 これらの方法は、ハブネスやアイソレーションを含む埋め込みベクトルの幾何学的性質から生じる問題に直面している。 これらの幾何学的問題を解決するために、EAには多くの正規化アプローチが採用されている。 しかし、KGsの規模が大きくなると、EAモデルでは正規化プロセスの採用が難しくなり、現実世界のアプリケーションでの使用が制限される。 この課題に取り組むため、我々は、高いエンティティ等価率でミニバッチの正規化手法を活用し、eaモデルのスケールアップと結果の強化が可能な一般的なフレームワークであるclustereaを提案する。 ClusterEAには、確率的トレーニング、ClusterSampler、SparseFusionなど、大規模なKG間のエンティティを調整するための3つのコンポーネントが含まれている。 まず、EA向けの大規模なシームズGNNを確率論的に訓練し、実体を埋め込む。 埋め込みに基づいて、非常に重なり合ったミニバッチをサンプリングするための新しいClusterSampler戦略を提案する。 最後に、ClusterEAはSparseFusionを導入し、局所的および大域的類似性を正規化し、すべての類似度行列を融合して最終的な類似度行列を得る。 EAベンチマークの実際のデータセットによる大規模な実験は、提案されたフレームワークに関する洞察を与え、Hits@1の観点で、最先端のスケーラブルなEAフレームワークを最大8倍に向上させることができることを示唆している。

Entity alignment (EA) aims at finding equivalent entities in different knowledge graphs (KGs). Embedding-based approaches have dominated the EA task in recent years. Those methods face problems that come from the geometric properties of embedding vectors, including hubness and isolation. To solve these geometric problems, many normalization approaches have been adopted to EA. However, the increasing scale of KGs renders it is hard for EA models to adopt the normalization processes, thus limiting their usage in real-world applications. To tackle this challenge, we present ClusterEA, a general framework that is capable of scaling up EA models and enhancing their results by leveraging normalization methods on mini-batches with a high entity equivalent rate. ClusterEA contains three components to align entities between large-scale KGs, including stochastic training, ClusterSampler, and SparseFusion. It first trains a large-scale Siamese GNN for EA in a stochastic fashion to produce entity embeddings. Based on the embeddings, a novel ClusterSampler strategy is proposed for sampling highly overlapped mini-batches. Finally, ClusterEA incorporates SparseFusion, which normalizes local and global similarity and then fuses all similarity matrices to obtain the final similarity matrix. Extensive experiments with real-life datasets on EA benchmarks offer insight into the proposed framework, and suggest that it is capable of outperforming the state-of-the-art scalable EA framework by up to 8 times in terms of Hits@1.
翻訳日:2022-05-23 13:11:53 公開日:2022-05-20
# ゼロショット翻訳における不確かさの理解と緩和

Understanding and Mitigating the Uncertainty in Zero-Shot Translation ( http://arxiv.org/abs/2205.10068v1 )

ライセンス: Link先を確認
Wenxuan Wang, Wenxiang Jiao, Shuo Wang, Zhaopeng Tu, Michael R. Lyu(参考訳) ゼロショット翻訳は、包括的多言語ニューラルマシン翻訳(mnmt)システムを構築するための有望な方向である。 しかし、目標外の問題のため、品質は未だ満足できない。 本稿では,ゼロショット翻訳の不確実性の観点から,対象外問題を理解し,緩和することを目的とする。 翻訳結果とモデルの信頼度を慎重に検討することにより,目標外の問題,すなわち外的データ不確実性と内在的モデル不確実性に責任を持つ2つの不確実性を特定する。 そこで本研究では,モデル学習のためのトレーニングデータを軽度かつ補完的に2つの手法を提案し,対象外言語の語彙を推論で隠蔽する。 バランスの取れたデータセットとアンバランスなデータセットの両方に対する大規模な実験により、我々のアプローチは強力なMNMTベースラインよりもゼロショット翻訳の性能を著しく向上させた。 定性的分析は、我々のアプローチがターゲット外の翻訳を減らす方法に関する洞察を提供する

Zero-shot translation is a promising direction for building a comprehensive multilingual neural machine translation (MNMT) system. However, its quality is still not satisfactory due to off-target issues. In this paper, we aim to understand and alleviate the off-target issues from the perspective of uncertainty in zero-shot translation. By carefully examining the translation output and model confidence, we identify two uncertainties that are responsible for the off-target issues, namely, extrinsic data uncertainty and intrinsic model uncertainty. Based on the observations, we propose two light-weight and complementary approaches to denoise the training data for model training, and mask out the vocabulary of the off-target languages in inference. Extensive experiments on both balanced and unbalanced datasets show that our approaches significantly improve the performance of zero-shot translation over strong MNMT baselines. Qualitative analyses provide insights into where our approaches reduce off-target translations
翻訳日:2022-05-23 12:45:49 公開日:2022-05-20
# (参考訳) 電子イオン衝突装置におけるECCE追跡システムのAI支援最適化

AI-assisted Optimization of the ECCE Tracking System at the Electron Ion Collider ( http://arxiv.org/abs/2205.09185v2 )

ライセンス: CC BY 4.0
C. Fanelli, Z. Papandreou, K. Suresh, J. K. Adkins, Y. Akiba, A. Albataineh, M. Amaryan, I. C. Arsene, C. Ayerbe Gayoso, J. Bae, X. Bai, M.D. Baker, M. Bashkanov, R. Bellwied, F. Benmokhtar, V. Berdnikov, J. C. Bernauer, F. Bock, W. Boeglin, M. Borysova, E. Brash, P. Brindza, W. J. Briscoe, M. Brooks, S. Bueltmann, M. H. S. Bukhari, A. Bylinkin, R. Capobianco, W.-C. Chang, Y. Cheon, K. Chen, K.-F. Chen, K.-Y. Cheng, M. Chiu, T. Chujo, Z. Citron, E. Cline, E. Cohen, T. Cormier, Y. Corrales Morales, C. Cotton, J. Crafts, C. Crawford, S. Creekmore, C.Cuevas, J. Cunningham, G. David, C. T. Dean, M. Demarteau, S. Diehl, N. Doshita, R. Dupre, J. M. Durham, R. Dzhygadlo, R. Ehlers, L. El Fassi, A. Emmert, R. Ent, R. Fatemi, S. Fegan, M. Finger, M. Finger Jr., J. Frantz, M. Friedman, I. Friscic, D. Gangadharan, S. Gardner, K. Gates, F. Geurts, R. Gilman, D. Glazier, E. Glimos, Y. Goto, N. Grau, S. V. Greene, A. Q. Guo, L. Guo, S. K. Ha, J. Haggerty, T. Hayward, X. He, O. Hen, D. W. Higinbotham, M. Hoballah, T. Horn, A. Hoghmrtsyan, P.-h. J. Hsu, J. Huang, G. Huber, A. Hutson, K. Y. Hwang, C. Hyde, M. Inaba, T. Iwata, H.S. Jo, K. Joo, N. Kalantarians, G. Kalicy, K. Kawade, S. J. D. Kay, A. Kim, B. Kim, C. Kim, M. Kim, Y. Kim, Y. Kim, E. Kistenev, V. Klimenko, S. H. Ko, I. Korover, W. Korsch, G. Krintiras, S. Kuhn, C.-M. Kuo, T. Kutz, J. Lajoie, D. Lawrence, S. Lebedev, H. Lee, J. S. H. Lee, S. W. Lee, Y.-J. Lee, W. Li, W.B. Li, X. Li, X. Li, X. Li, X. Li, Y. T. Liang, S. Lim, C.-h. Lin, D. X. Lin, K. Liu, M. X. Liu, K. Livingston, N. Liyanage, W.J. Llope, C. Loizides, E. Long, R.-S. Lu, Z. Lu, W. Lynch, D. Marchand, M. Marcisovsky, P. Markowitz, H. Marukyan, P. McGaughey, M. Mihovilovic, R. G. Milner, A. Milov, Y. Miyachi, A. Mkrtchyan, P. Monaghan, R. Montgomery, D. Morrison, A. Movsisyan, H. Mkrtchyan, A. Mkrtchyan, C. Munoz Camacho, M. Murray, K. Nagai, J. Nagle, I. Nakagawa, C. Nattrass, D. Nguyen, S. Niccolai, R. Nouicer, G. Nukazuka, M. Nycz, V. A. Okorokov, S. Oresic, J.D. Osborn, C. O'Shaughnessy, S. Paganis, S. F. Pate, M. Patel, C. Paus, G. Penman, M. G. Perdekamp, D. V. Perepelitsa, H. Periera da Costa, K. Peters, W. Phelps, E. Piasetzky, C. Pinkenburg, I. Prochazka, T. Protzman, M. L. Purschke, J. Putschke, J. R. Pybus, R. Rajput-Ghoshal, J. Rasson, B. Raue, K.F. Read, K. Roed, R. Reed, J. Reinhold, E. L. Renner, J. Richards, C. Riedl, T. Rinn, J. Roche, G. M. Roland, G. Ron, M. Rosati, C. Royon, J. Ryu, S. Salur, N. Santiesteban, R. Santos, M. Sarsour, J. Schambach, A. Schmidt, N. Schmidt, C. Schwarz, J. Schwiening, R. Seidl, A. Sickles, P. Simmerling, S. Sirca, D. Sharma, Z. Shi, T.-A. Shibata, C.-W. Shih, S. Shimizu, U. Shrestha, K. Slifer, K. Smith, D. Sokhan, R. Soltz, W. Sondheim, J. Song, J. Song, I. I. Strakovsky, P. Steinberg, P. Stepanov, J. Stevens, J. Strube, P. Sun, X. Sun, V. Tadevosyan, W.-C. Tang, S. Tapia Araya, S. Tarafdar, L. Teodorescu, A. Timmins, L. Tomasek, N. Trotta, R. Trotta, T. S. Tveter, E. Umaka, A. Usman, H. W. van Hecke, C. Van Hulse, J. Velkovska, E. Voutier, P.K. Wang, Q. Wang, Y. Wang, Y. Wang, D. P. Watts, N. Wickramaarachchi, L. Weinstein, M. Williams, C.-P. Wong, L. Wood, M. H. Wood, C. Woody, B. Wyslouch, Z. Xiao, Y. Yamazaki, Y. Yang, Z. Ye, H. D. Yoo, M. Yurov, N. Zachariou, W.A. Zajc, W. Zha, J. Zhang, Y. Zhang, Y. X. Zhao, X. Zheng, P. Zhuang(参考訳) 電子イオン衝突型加速器(Electron-Ion Collider、EIC)は、宇宙の可視物質の構成要素を結合する「グル」の性質を研究する最先端の加速器である。 提案された実験は、約10年後にブルックヘイブン国立研究所で実現され、検出器の設計とR&Dは現在進行中である。 EICは、すでに設計と研究開発の段階から始まっている人工知能(AI)を活用する最初の大規模施設の1つである。 EIC Comprehensive Chromodynamics Experiment (ECCE) は1.5Tソレノイドに基づく検出器の設計を提案したコンソーシアムである。 EIC検出器の提案はECCEの設計がEIC検出器の基準設計として機能すると結論付けた。 本稿では,AIを用いたECCEトラッカーの総合最適化について述べる。 この作業はシミュレートされた検出器システムの複雑なパラメトリゼーションを必要とした。 提案手法は,検出器の性能をエンコードする複数の目的によって駆動される多次元設計空間における最適化問題に対処し,複数の機械的制約を満たした。 本稿では,ECCEトラッキングシステムにおいて得られた戦略と結果について述べる。 AI支援設計はシミュレーションフレームワークに非依存であり、他のサブ検出器やサブ検出器システムに拡張して、EIC検出器の性能をさらに最適化することができる。

The Electron-Ion Collider (EIC) is a cutting-edge accelerator facility that will study the nature of the "glue" that binds the building blocks of the visible matter in the universe. The proposed experiment will be realized at Brookhaven National Laboratory in approximately 10 years from now, with detector design and R&D currently ongoing. Notably, EIC is one of the first large-scale facilities to leverage Artificial Intelligence (AI) already starting from the design and R&D phases. The EIC Comprehensive Chromodynamics Experiment (ECCE) is a consortium that proposed a detector design based on a 1.5T solenoid. The EIC detector proposal review concluded that the ECCE design will serve as the reference design for an EIC detector. Herein we describe a comprehensive optimization of the ECCE tracker using AI. The work required a complex parametrization of the simulated detector system. Our approach dealt with an optimization problem in a multidimensional design space driven by multiple objectives that encode the detector performance, while satisfying several mechanical constraints. We describe our strategy and show results obtained for the ECCE tracking system. The AI-assisted design is agnostic to the simulation framework and can be extended to other sub-detectors or to a system of sub-detectors to further optimize the performance of the EIC detector.
翻訳日:2022-05-23 12:19:56 公開日:2022-05-20
# (参考訳) 解析のためのデータ拡張法としての言語間インフレクション

Cross-lingual Inflection as a Data Augmentation Method for Parsing ( http://arxiv.org/abs/2205.09350v2 )

ライセンス: CC BY 4.0
Alberto Mu\~noz-Ortiz and Carlos G\'omez-Rodr\'iguez and David Vilares(参考訳) 本稿では,低リソース(LR)依存性解析のための形態素に基づく手法を提案する。 対象のLR言語に類似した言語間(x-inflected)ツリーバンクを作成するために,対象のLR言語に対する形態的インフレクタをトレーニングし,関連するリッチリソースツリーバンクに適用する。 このようなツリーバンクを使用して、ゼロ(x-inflected treebanksでトレーニング)と少数ショット(x-inflectedおよびターゲット言語ツリーバンクでトレーニング)のパーサをトレーニングします。 その結果、この手法は時々ベースラインを改善するが、一貫性は持たないことが示された。

We propose a morphology-based method for low-resource (LR) dependency parsing. We train a morphological inflector for target LR languages, and apply it to related rich-resource (RR) treebanks to create cross-lingual (x-inflected) treebanks that resemble the target LR language. We use such inflected treebanks to train parsers in zero- (training on x-inflected treebanks) and few-shot (training on x-inflected and target language treebanks) setups. The results show that the method sometimes improves the baselines, but not consistently.
翻訳日:2022-05-23 11:41:30 公開日:2022-05-20
# 並列および分散グラフニューラルネットワーク: 詳細な並列処理解析

Parallel and Distributed Graph Neural Networks: An In-Depth Concurrency Analysis ( http://arxiv.org/abs/2205.09702v2 )

ライセンス: Link先を確認
Maciej Besta, Torsten Hoefler(参考訳) グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も強力なツールのひとつだ。 ノード分類、グラフ分類、リンク予測といった非構造化ネットワーク上の複雑な問題を、精度良く日常的に解決する。 しかし、GNNの推論と訓練は複雑であり、不規則なグラフ処理の特徴と密度計算と正規計算を一意に組み合わせている。 この複雑さにより、現代の大規模並列アーキテクチャ上でのGNNの効率的な実行が非常に困難になる。 これを緩和するために、まず、データとモデル並列性、および異なる形式のパイプライニングを考慮して、GNNにおける並列性の分類を設計する。 そして、この分類法を用いて、多数のGNNモデル、GNN駆動機械学習タスク、ソフトウェアフレームワーク、ハードウェアアクセラレーターにおける並列性の量を調べる。 作業深度モデルを用いて通信量と同期性を評価する。 特に,ベクトル化などの手法を効果的に適用する方法を理解するために,関連するテンソルのスパーシティ/密度に着目した。 我々はまた、GNNパイプラインのパイプライン化を公式に分析し、GNNモデルの確立されたメッセージパッシングクラスを任意のパイプライン深さをカバーするために一般化し、将来の最適化を容易にする。 最後に,非同期並列GNNパイプラインの経路をナビゲートする,様々な非同期性について検討する。 分析の結果は、GNNの性能を最大化するための一連の洞察と、効率的なGNN計算のさらなる研究のための課題と機会の包括的リストで合成される。 我々の仕事は将来のGNNの設計を前進させるのに役立ちます。

Graph neural networks (GNNs) are among the most powerful tools in deep learning. They routinely solve complex problems on unstructured networks, such as node classification, graph classification, or link prediction, with high accuracy. However, both inference and training of GNNs are complex, and they uniquely combine the features of irregular graph processing with dense and regular computations. This complexity makes it very challenging to execute GNNs efficiently on modern massively parallel architectures. To alleviate this, we first design a taxonomy of parallelism in GNNs, considering data and model parallelism, and different forms of pipelining. Then, we use this taxonomy to investigate the amount of parallelism in numerous GNN models, GNN-driven machine learning tasks, software frameworks, or hardware accelerators. We use the work-depth model, and we also assess communication volume and synchronization. We specifically focus on the sparsity/density of the associated tensors, in order to understand how to effectively apply techniques such as vectorization. We also formally analyze GNN pipelining, and we generalize the established Message-Passing class of GNN models to cover arbitrary pipeline depths, facilitating future optimizations. Finally, we investigate different forms of asynchronicity, navigating the path for future asynchronous parallel GNN pipelines. The outcomes of our analysis are synthesized in a set of insights that help to maximize GNN performance, and a comprehensive list of challenges and opportunities for further research into efficient GNN computations. Our work will help to advance the design of future GNNs.
翻訳日:2022-05-23 11:25:29 公開日:2022-05-20
# (参考訳) Promptベースのモデルは不要か?

Are Prompt-based Models Clueless? ( http://arxiv.org/abs/2205.09295v2 )

ライセンス: CC BY 4.0
Pride Kavumba, Ryo Takahashi and Yusuke Oda(参考訳) タスク固有のヘッドで訓練済みの大規模言語モデルを微調整することで、多くの自然言語理解ベンチマークにおける最先端の手法が進歩した。 しかし、タスク固有のヘッドを持つモデルには、多くのトレーニングデータが必要であるため、他のデータセットに一般化しないデータセット固有の表面的ヒントを学習し、活用しやすくなる。 Promptingは、言語モデルヘッドを再利用し、トレーニング済みの目的に合わせてタスク入力をフォーマットすることで、データ要求を減らした。 したがって,プロンプトベースモデルでは表面的手がかりを活用できないことが期待される。 本稿では, 単発プロンプトモデルが表面的手がかりを活用できるかどうかを実験的に検討する。 MNLI、SNLI、HANS、COPAで数発のプロンプトベースのモデルを分析することで、プロンプトベースのモデルも表面的な手がかりを利用することが明らかになった。 モデルは表面的な手掛かりのあるインスタンスでうまく機能するが、表面的な手掛かりのないインスタンスでは、ランダムな精度を過小評価したり、わずかに上回ったりすることがしばしばある。

Finetuning large pre-trained language models with a task-specific head has advanced the state-of-the-art on many natural language understanding benchmarks. However, models with a task-specific head require a lot of training data, making them susceptible to learning and exploiting dataset-specific superficial cues that do not generalize to other datasets. Prompting has reduced the data requirement by reusing the language model head and formatting the task input to match the pre-training objective. Therefore, it is expected that few-shot prompt-based models do not exploit superficial cues. This paper presents an empirical examination of whether few-shot prompt-based models also exploit superficial cues. Analyzing few-shot prompt-based models on MNLI, SNLI, HANS, and COPA has revealed that prompt-based models also exploit superficial cues. While the models perform well on instances with superficial cues, they often underperform or only marginally outperform random accuracy on instances without superficial cues.
翻訳日:2022-05-23 11:24:36 公開日:2022-05-20
# CLCNet: 分類信頼ネットワークを用いたアンサンブルモデリングの再考

CLCNet: Rethinking of Ensemble Modeling with Classification Confidence Network ( http://arxiv.org/abs/2205.09612v2 )

ライセンス: Link先を確認
Yao-Ching Yu, Shi-Jinn Horng(参考訳) 本稿では,分類モデルが入力サンプルを正しく分類するかどうかを判断できる分類信頼度ネットワーク(clcnet)を提案する。 任意の次元のベクトルの形で分類結果を取得し、信頼スコアを出力として返すことができ、これは正しく分類されたインスタンスの確率を表す。 我々はclcnetをいくつかのsota(state-of-the-art)分類モデルからなる単純なカスケード構造システムで利用することができ,実験により以下の利点が得られた。 1. このシステムは、推論中に画像毎の平均計算要求(FLOP)をカスタマイズできる。 2 同一の計算要件の下では、システムの性能は、システム内のモデルと同一の構造を持つが、サイズが異なる任意のモデルを超えることができる。 実際、これは新しいタイプのアンサンブルモデリングである。 一般的なアンサンブルモデリングと同様に、単一分類モデルよりも高い性能を達成することができるが、我々のシステムは一般的なアンサンブルモデリングよりもはるかに少ない計算を必要とする。 コードをgithubリポジトリにアップロードしました。 https://github.com/yaoching0/CLCNet-Rethinking-of-Ensemble-Modeling。

In this paper, we propose a Classification Confidence Network (CLCNet) that can determine whether the classification model classifies input samples correctly. It can take a classification result in the form of vector in any dimension, and return a confidence score as output, which represents the probability of an instance being classified correctly. We can utilize CLCNet in a simple cascade structure system consisting of several SOTA (state-of-the-art) classification models, and our experiments show that the system can achieve the following advantages: 1. The system can customize the average computation requirement (FLOPs) per image while inference. 2. Under the same computation requirement, the performance of the system can exceed any model that has identical structure with the model in the system, but different in size. In fact, this is a new type of ensemble modeling. Like general ensemble modeling, it can achieve higher performance than single classification model, yet our system requires much less computation than general ensemble modeling. We have uploaded our code to a github repository: https://github.com/yaoching0/CLCNet-Rethinking-of-Ensemble-Modeling.
翻訳日:2022-05-23 11:05:50 公開日:2022-05-20
# 効率的な半教師付き学習のためのルール自動生成

Automatic Rule Induction for Efficient Semi-Supervised Learning ( http://arxiv.org/abs/2205.09067v3 )

ライセンス: Link先を確認
Reid Pryzant, Ziyi Yang, Yichong Xu, Chenguang Zhu, Michael Zeng(参考訳) 半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。 一方、事前訓練されたトランスフォーマーモデルはブラックボックス相関エンジンとして機能するが、説明が難しく、時には確実に振る舞う。 本稿では,シンボル規則の自動発見と事前学習型トランスフォーマーモデルへの統合のための簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて,これらの課題に対処することを提案する。 まず,少量のラベル付きデータに基づいて学習した低容量機械学習モデルから,弱い記号規則を抽出する。 次に,これらのルールを高容量事前学習トランスモデルに統合するために注意機構を用いる。 最後に、ルール強化システムは、ラベルなしデータの監視信号を強化するための自己学習フレームワークの一部となる。 これらのステップは、性能と解釈可能性を改善するために、様々な弱い監督と半教師付きNLPアルゴリズムの下に階層化することができる。 9つのシーケンス分類と関係抽出タスクによる実験により、ARIは手作業や計算オーバーヘッドを最小限にすることなく最先端の手法を改良できることが示唆された。

Semi-supervised learning has shown promise in allowing NLP models to generalize from small amounts of labeled data. Meanwhile, pretrained transformer models act as black-box correlation engines that are difficult to explain and sometimes behave unreliably. In this paper, we propose tackling both of these challenges via Automatic Rule Induction (ARI), a simple and general-purpose framework for the automatic discovery and integration of symbolic rules into pretrained transformer models. First, we extract weak symbolic rules from low-capacity machine learning models trained on small amounts of labeled data. Next, we use an attention mechanism to integrate these rules into high-capacity pretrained transformer models. Last, the rule-augmented system becomes part of a self-training framework to boost supervision signal on unlabeled data. These steps can be layered beneath a variety of existing weak supervision and semi-supervised NLP algorithms in order to improve performance and interpretability. Experiments across nine sequence classification and relation extraction tasks suggest that ARI can improve state-of-the-art methods with no manual effort and minimal computational overhead.
翻訳日:2022-05-23 11:05:31 公開日:2022-05-20
# コントラスト学習による任意の画像スタイル転送のドメイン化

Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning ( http://arxiv.org/abs/2205.09542v2 )

ライセンス: Link先を確認
Yuxin Zhang, Fan Tang, Weiming Dong, Haibin Huang, Chongyang Ma, Tong-Yee Lee, Changsheng Xu(参考訳) 本研究では,新しいスタイル特徴表現学習手法を用いて,任意の画像スタイル転送の課題に対処する。 画像スタイリングタスクのキーコンポーネントとしてに適したスタイル表現は、満足な結果を得るために不可欠である。 既存のディープニューラルネットワークベースのアプローチは、コンテンツ特徴のGram行列のような2階統計からのガイダンスで合理的な結果が得られる。 しかし、それらには十分なスタイル情報がないため、局所的な歪みやスタイルの不整合といったアーティファクトが生じる。 これらの課題に対処するために,複数のスタイル間の類似点と相違点を分析し,スタイル分布を考慮した画像特徴から直接スタイル表現を学習することを提案する。 具体的には,コントラスト学習による新しいスタイル表現学習とスタイル転送手法であるコントラスト型任意スタイル転送(cast)を提案する。 本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。 本手法は, 最先端手法による手法に比べて, 極めて優れた結果が得られることを示すため, 定性的かつ定量的な評価を包括的に実施する。 コードとモデルはhttps://github.com/zyxelsa/cast_pytorchで入手できる。

In this work, we tackle the challenging problem of arbitrary image style transfer using a novel style feature representation learning method. A suitable style representation, as a key component in image stylization tasks, is essential to achieve satisfactory results. Existing deep neural network based approaches achieve reasonable results with the guidance from second-order statistics such as Gram matrix of content features. However, they do not leverage sufficient style information, which results in artifacts such as local distortions and style inconsistency. To address these issues, we propose to learn style representation directly from image features instead of their second-order statistics, by analyzing the similarities and differences between multiple styles and considering the style distribution. Specifically, we present Contrastive Arbitrary Style Transfer (CAST), which is a new style representation learning and style transfer method via contrastive learning. Our framework consists of three key components, i.e., a multi-layer style projector for style code encoding, a domain enhancement module for effective learning of style distribution, and a generative network for image style transfer. We conduct qualitative and quantitative evaluations comprehensively to demonstrate that our approach achieves significantly better results compared to those obtained via state-of-the-art methods. Code and models are available at https://github.com/zyxElsa/CAST_pytorch
翻訳日:2022-05-23 11:05:14 公開日:2022-05-20
# graphcore ipusにおける秘密機械学習

Confidential Machine Learning within Graphcore IPUs ( http://arxiv.org/abs/2205.09005v2 )

ライセンス: Link先を確認
Kapil Vaswani, Stavros Volos, C\'edric Fournet, Antonio Nino Diaz, Ken Gordon, Balaji Vembu, Sam Webster, David Chisnall, Saurabh Kulkarni, Graham Cunningham, Richard Osborne, Dan Wilkinson(参考訳) We present IPU Trusted Extensions (ITX)は、GraphcoreのAIアクセラレータにおける信頼性の高い実行環境を可能にする実験的なハードウェア拡張セットである。 ITXは、パフォーマンスのオーバーヘッドが低い場合に、強力な機密性と整合性を保証するAIワークロードの実行を可能にする。 ITXは、信頼できないホストからワークロードを分離し、IPU内以外は、そのデータとモデルを常に暗号化し続ける。 ITXには、認証機能を提供し、信頼できる実行をオーケストレーションするハードウェアのroot-of-trustと、PCIe帯域におけるコードとデータの認証暗号化のためのオンチッププログラマブル暗号エンジンが含まれている。 また、CPUベースのTEEを必要とせずに、マルチパーティトレーニングをサポートするコンパイラやランタイム拡張という形でITX用のソフトウェアを提示する。 ITXの実験的サポートは、TSMCの7nm技術ノードでタップアウトされたGraphcoreのGC200 IPUに含まれている。 標準的なDNNトレーニングワークロードを使用した開発ボード上での評価では、ITXは5%未満のパフォーマンスオーバーヘッドを追加し、AMD SEV-SNPに依存するCPUベースの機密コンピューティングシステムと比較して最大17倍のパフォーマンスを提供する。

We present IPU Trusted Extensions (ITX), a set of experimental hardware extensions that enable trusted execution environments in Graphcore's AI accelerators. ITX enables the execution of AI workloads with strong confidentiality and integrity guarantees at low performance overheads. ITX isolates workloads from untrusted hosts, and ensures their data and models remain encrypted at all times except within the IPU. ITX includes a hardware root-of-trust that provides attestation capabilities and orchestrates trusted execution, and on-chip programmable cryptographic engines for authenticated encryption of code and data at PCIe bandwidth. We also present software for ITX in the form of compiler and runtime extensions that support multi-party training without requiring a CPU-based TEE. Experimental support for ITX is included in Graphcore's GC200 IPU taped out at TSMC's 7nm technology node. Its evaluation on a development board using standard DNN training workloads suggests that ITX adds less than 5% performance overhead, and delivers up to 17x better performance compared to CPU-based confidential computing systems relying on AMD SEV-SNP.
翻訳日:2022-05-23 11:04:52 公開日:2022-05-20
# Semi-WTC: ウェイトタスク一貫性による攻撃分類のための実践的半教師付きフレームワーク

Semi-WTC: A Practical Semi-supervised Framework for Attack Categorization through Weight-Task Consistency ( http://arxiv.org/abs/2205.09669v2 )

ライセンス: Link先を確認
Zihan Li, Wentao Chen, Zhiqing Wei, Xingqi Luo, Bing Su(参考訳) 監視学習は、大量の高品質のデータとラベルを必要とする攻撃検出に広く利用されている。 しかし、データはしばしば不均衡であり、十分なアノテーションを得るのは難しい。 さらに、これらの監視されたモデルは、目に見えない人工攻撃に対する防御など、現実世界の展開の問題に直面している。 本稿では,ラベル付きおよびラベルなしデータからの情報を統合するためのエンコーダと2分岐構造からなる半教師付ききめ細粒度攻撃分類フレームワークを提案する。 このフレームワークは異なる教師付きモデルに一般化することができる。 残差接続とバッチ正規化を伴う多層パーセプトロンは、特徴抽出と複雑さの低減のためにエンコーダとして用いられる。 recurrent prototype module (rpm) は半教師方式でエンコーダを効果的に訓練するために提案されている。 データ不均衡の問題を緩和するために、損失関数のサンプルが少ないクラスにより大きな重みを割り当てることで、RPMの反復過程にWTC(Weight-Task Consistency)を導入する。 さらに,実世界の展開における新たな攻撃に対処するため,未確認サンプルデータの分布をよりよく発見し,エンコーダのパラメータを適応させることができるアクティブ適応サンプリング(AAR)手法を提案する。 実験結果から,本モデルは分類精度が5%向上し,トレーニング時間が90%削減され,最先端の半教師付き攻撃検出法を上回った。

Supervised learning has been widely used for attack detection, which requires large amounts of high-quality data and labels. However, the data is often imbalanced and sufficient annotations are difficult to obtain. Moreover, these supervised models are subject to real-world deployment issues, such as defending against unseen artificial attacks. We propose a semi-supervised fine-grained attack categorization framework consisting of an encoder and a two-branch structure to integrate information from labeled and unlabeled data to tackle these practical challenges. This framework can be generalized to different supervised models. The multilayer perceptron with residual connection and batch normalization is used as the encoder to extract features and reduce the complexity. The Recurrent Prototype Module (RPM) is proposed to train the encoder effectively in a semi-supervised manner. To alleviate the problem of data imbalance, we introduce the Weight-Task Consistency (WTC) into the iterative process of RPM by assigning larger weights to classes with fewer samples in the loss function. In addition, to cope with new attacks in real-world deployment, we further propose an Active Adaption Resampling (AAR) method, which can better discover the distribution of the unseen sample data and adapt the parameters of the encoder. Experimental results show that our model outperforms the state-of-the-art semi-supervised attack detection methods with a general 5% improvement in classification accuracy and a 90% reduction in training time.
翻訳日:2022-05-23 11:04:32 公開日:2022-05-20
# odbo: 検索空間によるタンパク質進化の事前スクリーニングによるベイズ最適化

ODBO: Bayesian Optimization with Search Space Prescreening for Directed Protein Evolution ( http://arxiv.org/abs/2205.09548v2 )

ライセンス: Link先を確認
Lixue Cheng, Ziyi Yang, Benben Liao, Changyu Hsieh, Shengyu Zhang(参考訳) ダイレクト進化(Directed Evolution)は、タンパク質工学において、触媒活性や特定の標的への親和性などの特定の性質を最適化する配列を探索するために、変異原性とスクリーニングを反復的に交互に交互に交互に行うことによって、自然選択の過程を模倣する多用途技術である。 しかし、可能なタンパク質の空間は実験室で徹底的に探索するには大きすぎるため、機能的なタンパク質は広大な配列空間では不足している。 機械学習(ml)アプローチは、基礎となる物理、化学、生物学的経路の詳細なモデルを構築することなく、タンパク質の配列を機能にマッピングすることで、方向付けられた進化を加速することができる。 これらのml手法が持つ大きな可能性にもかかわらず、ターゲット関数に最適なシーケンスを特定する上での厳しい課題に直面する。 これらの失敗は、タンパク質配列の高次元的特徴表現と非効率的な探索法を採用するという一般的な実践によるものと考えられる。 これらの課題に対処するために,新規な低次元タンパク質エンコーディング戦略と,検索空間事前スクリーニングによるベイズ最適化を併用した,タンパク質指向進化のための効率的な設計指向クローズループ最適化フレームワークODBOを提案する。 さらに,MLモデルをトレーニングするための実験サンプル数を最小化するために,初期サンプル選択戦略を設計する。 本研究は, タンパク質指向進化実験を4回実施し, 興味のある変異を見出すためのフレームワークの能力を実証した。 ODBOフレームワークは、指向する進化の実験的コストと時間的コストを大幅に削減し、より広い文脈で適応的な実験設計のための強力なツールとしてさらに一般化できることを期待している。

Directed evolution is a versatile technique in protein engineering that mimics the process of natural selection by iteratively alternating between mutagenesis and screening in order to search for sequences that optimize a given property of interest, such as catalytic activity and binding affinity to a specified target. However, the space of possible proteins is too large to search exhaustively in the laboratory, and functional proteins are scarce in the vast sequence space. Machine learning (ML) approaches can accelerate directed evolution by learning to map protein sequences to functions without building a detailed model of the underlying physics, chemistry and biological pathways. Despite the great potentials held by these ML methods, they encounter severe challenges in identifying the most suitable sequences for a targeted function. These failures can be attributed to the common practice of adopting a high-dimensional feature representation for protein sequences and inefficient search methods. To address these issues, we propose an efficient, experimental design-oriented closed-loop optimization framework for protein directed evolution, termed ODBO, which employs a combination of novel low-dimensional protein encoding strategy and Bayesian optimization enhanced with search space prescreening via outlier detection. We further design an initial sample selection strategy to minimize the number of experimental samples for training ML models. We conduct and report four protein directed evolution experiments that substantiate the capability of the proposed framework for finding of the variants with properties of interest. We expect the ODBO framework to greatly reduce the experimental cost and time cost of directed evolution, and can be further generalized as a powerful tool for adaptive experimental design in a broader context.
翻訳日:2022-05-23 11:04:07 公開日:2022-05-20