このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220607となっている論文です。

PDF登録状況(公開日: 20220607)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習の公平性概念: 現実世界のアプリケーションでギャップを埋める

Machine learning fairness notions: Bridging the gap with real-world applications ( http://arxiv.org/abs/2006.16745v5 )

ライセンス: Link先を確認
Karima Makhlouf, Sami Zhioua, Catuscia Palamidessi(参考訳) フェアネスは、機械学習(ML)予測システムが特定の個人やサブ人口全体、特にマイノリティに対して差別しないことを保証する重要な要件として現れた。 公正の概念を見るという本質的な主観性を考えると、フェアネスの概念は文献にいくつか導入されている。 本稿は,多くの例とシナリオを通して,公平性概念間の微妙な違いを説明する調査である。 さらに、文学における他の調査とは違って、フェアネスの概念は、与えられた現実世界のシナリオに最も適しているのか、なぜなのか? この質問に答える試みは,(1)実世界のシナリオのフェアネス関連特性のセットを特定すること,(2)各フェアネス概念の挙動を分析すること,(3)これら2つの要素を適合させて,特定の設定ごとに最も適切なフェアネス概念を推奨すること,である。 結果は、実践者や政策立案者が比較的大規模なMLカタログをナビゲートするために使用できる決定図にまとめられている。

Fairness emerged as an important requirement to guarantee that Machine Learning (ML) predictive systems do not discriminate against specific individuals or entire sub-populations, in particular, minorities. Given the inherent subjectivity of viewing the concept of fairness, several notions of fairness have been introduced in the literature. This paper is a survey that illustrates the subtleties between fairness notions through a large number of examples and scenarios. In addition, unlike other surveys in the literature, it addresses the question of: which notion of fairness is most suited to a given real-world scenario and why? Our attempt to answer this question consists in (1) identifying the set of fairness-related characteristics of the real-world scenario at hand, (2) analyzing the behavior of each fairness notion, and then (3) fitting these two elements to recommend the most suitable fairness notion in every specific setup. The results are summarized in a decision diagram that can be used by practitioners and policymakers to navigate the relatively large catalog of ML.
翻訳日:2022-11-15 04:28:05 公開日:2022-06-07
# twitterの#blacklivesmatter運動のコーパスと反対運動:2013年から2021年まで

Twitter Corpus of the #BlackLivesMatter Movement And Counter Protests: 2013 to 2021 ( http://arxiv.org/abs/2009.00596v3 )

ライセンス: Link先を確認
Salvatore Giorgi, Sharath Chandra Guntuku, McKenzie Himelein-Wachowiak, Amy Kwarteng, Sy Hwang, Muhammad Rahman, and Brenda Curtis(参考訳) ブラック・ライブズ・マター(Black Lives Matter、BLM)は、黒人の個人やコミュニティに対する暴力に抗議する分散社会運動である。 この運動は、Ahmaud Arbery、Bronna Taylor、George Floydが2020年に殺害された後、大きな注目を集めた。 ソーシャルメディアの#BlackLivesMatterハッシュタグは草の根運動を表すようになり、同様のハッシュタグが#AllLivesMatterや#BlueLivesMatterといったBLM運動に抗議している。 我々は100か国以上から13.0万のユーザーから6390万ツイートのデータセットを導入し、以下のキーワードの1つであるBlackLivesMatter、AllLivesMatter、BlueLivesMatterを紹介した。 このデータセットには、2013年から2021年にかけてのBLM運動の開始時から現在利用可能なすべてのツイートが含まれている。 我々はデータセットを要約し、BlackLivesMatterキーワードとカウンタームーブメントに関連するキーワードの両方を用いて時間的傾向を示す。 さらに、各キーワードに対して、LDA(Latent Dirichlet Allocation)トピックセット(意味的に共起する単語の自動クラスタ化グループ)を作成し、リリースし、3つのキーワードをまたいだ言語パターンの同定を支援する。

Black Lives Matter (BLM) is a decentralized social movement protesting violence against Black individuals and communities, with a focus on police brutality. The movement gained significant attention following the killings of Ahmaud Arbery, Breonna Taylor, and George Floyd in 2020. The #BlackLivesMatter social media hashtag has come to represent the grassroots movement, with similar hashtags counter protesting the BLM movement, such as #AllLivesMatter, and #BlueLivesMatter. We introduce a data set of 63.9 million tweets from 13.0 million users from over 100 countries which contain one of the following keywords: BlackLivesMatter, AllLivesMatter, and BlueLivesMatter. This data set contains all currently available tweets from the beginning of the BLM movement in 2013 to 2021. We summarize the data set and show temporal trends in use of both the BlackLivesMatter keyword and keywords associated with counter movements. Additionally, for each keyword, we create and release a set of Latent Dirichlet Allocation (LDA) topics (i.e., automatically clustered groups of semantically co-occuring words) to aid researchers in identifying linguistic patterns across the three keywords.
翻訳日:2022-10-23 01:36:40 公開日:2022-06-07
# ワッサーシュタイン距離基準を用いた共変量シフト下の再加重試料

Reweighting samples under covariate shift using a Wasserstein distance criterion ( http://arxiv.org/abs/2010.09267v2 )

ライセンス: Link先を確認
Julien Reygner (CERMICS, GdR MASCOT-NUM), Adrien Touboul (CERMICS, IRT SystemX)(参考訳) 有限サイズの iid サンプルを通してのみアクセス可能な異なる 2 つの確率変数を考えると、その経験的分布が 2 つのサンプルのサイズが無限になるにつれて 2 番目のサンプルの真の法則に収束するように、最初のサンプルを再重み付けする方法を考える。 本研究では,2つの試料の実験的測定値間のwasserstein距離を最小化する最適重み付け法について検討し,最寄りの近傍における重みの表現を導出する。 期待されるワッサーシュタイン距離の点における一貫性と漸近収束速度は導出され、一方の確率変数の絶対連続性の仮定を他方に対して必要としない。 これらの結果は,共変量シフト下での非結合推定と最近傍回帰の一般化誤差の境界に対する不確実性定量化に応用できる。

Considering two random variables with different laws to which we only have access through finite size iid samples, we address how to reweight the first sample so that its empirical distribution converges towards the true law of the second sample as the size of both samples goes to infinity. We study an optimal reweighting that minimizes the Wasserstein distance between the empirical measures of the two samples, and leads to an expression of the weights in terms of Nearest Neighbors. The consistency and some asymptotic convergence rates in terms of expected Wasserstein distance are derived, and do not need the assumption of absolute continuity of one random variable with respect to the other. These results have some application in Uncertainty Quantification for decoupled estimation and in the bound of the generalization error for the Nearest Neighbor Regression under covariate shift.
翻訳日:2022-10-05 23:10:43 公開日:2022-06-07
# 因果的機械学習フェアネス表記法に関する調査

Survey on Causal-based Machine Learning Fairness Notions ( http://arxiv.org/abs/2010.09553v7 )

ライセンス: Link先を確認
Karima Makhlouf, Sami Zhioua and Catuscia Palamidessi(参考訳) 公平性の問題に対処するには、雇用、児童虐待、疾患診断、貸与など、人々の生活に重大な影響を与える決定を支援するために、機械学習アルゴリズムを安全に使用することが不可欠である。 公正性のいくつかの概念は、統計パリティや等化奇数など、過去10年間に定義され、検討されてきた。 しかし、最近の公正の概念は因果関係に基づくものであり、因果関係を用いることは公平性の問題に適切に対処するために必要であるという考えを反映している。 本稿では,因果関係に基づく公平性概念の徹底的なリストと,その実世界シナリオへの適用性について検討する。 因果関係に基づく公平性の概念の大部分は、観察不能な量(例えば、介入や反事実)で定義されているため、実際の展開では、観測データを使用してそれらの量を計算し、見積もる必要がある。 本稿では、同定可能性(PearlのSCMフレームワーク)や推定(潜在的結果フレームワーク)を含む観測データから因果量を予測するための様々なアプローチを包括的に報告する。 本研究の主な貢献は,(1)特定の現実のシナリオに与えられた適切なフェアネス概念の選択を支援するためのガイドライン,(2)パールの因果関係に基づくフェアネス概念のランキングから,それぞれの概念を実際に展開することがいかに困難であるかを示す。

Addressing the problem of fairness is crucial to safely use machine learning algorithms to support decisions with a critical impact on people's lives such as job hiring, child maltreatment, disease diagnosis, loan granting, etc. Several notions of fairness have been defined and examined in the past decade, such as statistical parity and equalized odds. The most recent fairness notions, however, are causal-based and reflect the now widely accepted idea that using causality is necessary to appropriately address the problem of fairness. This paper examines an exhaustive list of causal-based fairness notions and study their applicability in real-world scenarios. As the majority of causal-based fairness notions are defined in terms of non-observable quantities (e.g., interventions and counterfactuals), their deployment in practice requires to compute or estimate those quantities using observational data. This paper offers a comprehensive report of the different approaches to infer causal quantities from observational data including identifiability (Pearl's SCM framework) and estimation (potential outcome framework). The main contributions of this survey paper are (1) a guideline to help selecting a suitable fairness notion given a specific real-world scenario, and (2) a ranking of the fairness notions according to Pearl's causation ladder indicating how difficult it is to deploy each notion in practice.
翻訳日:2022-10-05 22:33:18 公開日:2022-06-07
# (参考訳) 新たな海馬位置場モデルに基づくゴール指向ナビゲーションのための空間表現の迅速学習

Rapid Learning of Spatial Representations for Goal-Directed Navigation Based on a Novel Model of Hippocampal Place Fields ( http://arxiv.org/abs/2206.02249v2 )

ライセンス: CC BY 4.0
Adedapo Alabi, Dieter Vanderelst and Ali Minai(参考訳) げっ歯類の海馬複合体における場所細胞やその他の空間修飾ニューロンの発見は、空間認知の神経基盤を解明するのに不可欠である。 近年では、前回経験した軌跡をエンコードした神経配列の再生が、暗黙的行動中に観察され、迅速な記憶統合と行動計画に影響を及ぼす可能性がある。 ロボットナビゲーションと強化学習のためのいくつかの有望なモデルが提案されている。 しかし、これらのモデルのほとんどは慎重に設計されたニューラルネットワークを使用しており、単純な環境でテストされている。 本稿では,場所セルと再生を組み込んだ自己組織化モデルを開発し,障害物のある非自明な環境でのワンショット学習の高速化を実証する。

The discovery of place cells and other spatially modulated neurons in the hippocampal complex of rodents has been crucial to elucidating the neural basis of spatial cognition. More recently, the replay of neural sequences encoding previously experienced trajectories has been observed during consummatory behavior potentially with implications for quick memory consolidation and behavioral planning. Several promising models for robotic navigation and reinforcement learning have been proposed based on these and previous findings. Most of these models, however, use carefully engineered neural networks and are tested in simple environments. In this paper, we develop a self-organized model incorporating place cells and replay, and demonstrate its utility for rapid one-shot learning in non-trivial environments with obstacles.
翻訳日:2022-06-27 02:16:53 公開日:2022-06-07
# (参考訳) bos at lscdiscovery: 解釈可能な意味変化検出のための語彙置換

BOS at LSCDiscovery: Lexical Substitution for Interpretable Lexical Semantic Change Detection ( http://arxiv.org/abs/2206.11865v1 )

ライセンス: CC BY 4.0
Artem Kudisov and Nikolay Arefyev(参考訳) スペイン語におけるLexical Semantic Change DetectionにおけるLSCDiscovery共有タスクに対する解を提案する。 我々のアプローチは、与えられた単語の古い感覚と新しい感覚を記述する語彙代用を生成することに基づいている。 このアプローチは、感覚損失と感覚ゲイン検出サブタスクにおいて、第2の最良の結果を達成する。 一度だけ特定の代用品を観察することで、どの感覚が得られたか、失ったかがわかる。 これにより、ユーザに対してセマンティックチェンジに関するより詳細な情報を提供し、メソッドを解釈可能にする。

We propose a solution for the LSCDiscovery shared task on Lexical Semantic Change Detection in Spanish. Our approach is based on generating lexical substitutes that describe old and new senses of a given word. This approach achieves the second best result in sense loss and sense gain detection subtasks. By observing those substitutes that are specific for only one time period, one can understand which senses were obtained or lost. This allows providing more detailed information about semantic change to the user and makes our method interpretable.
翻訳日:2022-06-27 01:59:37 公開日:2022-06-07
# (参考訳) 常に目標を心に留める:セマンティックスの研究と神経語彙置換の性能向上

Always Keep your Target in Mind: Studying Semantics and Improving Performance of Neural Lexical Substitution ( http://arxiv.org/abs/2206.11815v1 )

ライセンス: CC BY 4.0
Nikolay Arefyev, Boris Sheludko, Alexander Podolskiy, Alexander Panchenko(参考訳) 語彙置換(英:lexical replacement)とは、特定の目的語を特定の文脈で置き換えることのできる、非常に強力な技術であり、単語認識の誘導や曖昧さの解消、語彙関係抽出、データ拡張など、様々なnlpアプリケーションのバックボーンとして使用できる。 本稿では,コンテキスト2vec,elmo,bert,roberta,xlnetなど,比較的古い言語と最新の言語とマスキング言語モデル(lmsおよびmlms)の両方を用いた語彙置換法を大規模に比較検討した。 目的語に関する情報を適切に注入すれば,soma lms/mlmsによる競争結果がさらに大幅に向上することを示す。 語彙置換データセットの内在的評価と単語感覚誘導(WSI)データセットの内在的評価の両方を用いて,各LM/MLMに対して,既存および新規な単語注入法を比較した。 2つのwsiデータセットで新しいsota結果を得る。 また,対象語とその代替語間の意味関係のタイプを,異なるモデルによって生成され,アノテーションによって付与される。

Lexical substitution, i.e. generation of plausible words that can replace a particular target word in a given context, is an extremely powerful technology that can be used as a backbone of various NLP applications, including word sense induction and disambiguation, lexical relation extraction, data augmentation, etc. In this paper, we present a large-scale comparative study of lexical substitution methods employing both rather old and most recent language and masked language models (LMs and MLMs), such as context2vec, ELMo, BERT, RoBERTa, XLNet. We show that already competitive results achieved by SOTA LMs/MLMs can be further substantially improved if information about the target word is injected properly. Several existing and new target word injection methods are compared for each LM/MLM using both intrinsic evaluation on lexical substitution datasets and extrinsic evaluation on word sense induction (WSI) datasets. On two WSI datasets we obtain new SOTA results. Besides, we analyze the types of semantic relations between target words and their substitutes generated by different models or given by annotators.
翻訳日:2022-06-27 01:51:10 公開日:2022-06-07
# 石油貯留層配置と制御最適化のためのデータ駆動進化アルゴリズム

Data-driven evolutionary algorithm for oil reservoir well-placement and control optimization ( http://arxiv.org/abs/2206.03127v1 )

ライセンス: Link先を確認
Guodong Chen, Xin Luo, Jimmy Jiu Jiao, Xiaoming Xue(参考訳) 最適な井戸配置と井戸生産は、プロジェクト期間中の財政利益を最大化するために貯水池開発に不可欠である。 メタヒューリスティックアルゴリズムは、複雑で非線形で非連続的な最適化問題を解くのに優れた性能を示した。 しかし,最適化過程において,多数の数値シミュレーションが関与している。 本研究では, 一般化データ駆動微分進化アルゴリズム (GDDE) と呼ばれる新しい, 効率的なデータ駆動進化アルゴリズムを提案する。 確率的ニューラルネットワーク(PNN)を情報的および有望な候補を選択する分類器として採用し、ユークリッド距離に基づく最も確実な候補を、数値シミュレータを用いて事前スクリーニングし評価する。 その後、放射基底関数(RBF)により局所代理モデルを構築し、オプティマイザによって発見された代理モデルの最適性を数値シミュレータで評価し、収束を加速する。 RBFモデルとPNNの形状因子は、超パラメータ部分探索最適化問題を解くことによって最適化される。 本研究で提案する最適化アルゴリズムは,二次元貯水池の配置最適化問題や卵モデルの合同最適化に非常に有望である。

Optimal well placement and well injection-production are crucial for the reservoir development to maximize the financial profits during the project lifetime. Meta-heuristic algorithms have showed good performance in solving complex, nonlinear and non-continuous optimization problems. However, a large number of numerical simulation runs are involved during the optimization process. In this work, a novel and efficient data-driven evolutionary algorithm, called generalized data-driven differential evolutionary algorithm (GDDE), is proposed to reduce the number of simulation runs on well-placement and control optimization problems. Probabilistic neural network (PNN) is adopted as the classifier to select informative and promising candidates, and the most uncertain candidate based on Euclidean distance is prescreened and evaluated with a numerical simulator. Subsequently, local surrogate model is built by radial basis function (RBF) and the optimum of the surrogate, found by optimizer, is evaluated by the numerical simulator to accelerate the convergence. It is worth noting that the shape factors of RBF model and PNN are optimized via solving hyper-parameter sub-expensive optimization problem. The results show the optimization algorithm proposed in this study is very promising for a well-placement optimization problem of two-dimensional reservoir and joint optimization of Egg model.
翻訳日:2022-06-26 14:46:46 公開日:2022-06-07
# 遺伝的プログラミングとパーティクルスワーム最適化を組み合わせたランドスケープ探索の簡易化

Combining Genetic Programming and Particle Swarm Optimization to Simplify Rugged Landscapes Exploration ( http://arxiv.org/abs/2206.03241v1 )

ライセンス: Link先を確認
Gloria Pietropolli, Giuliamaria Menara, Mauro Castelli(参考訳) ほとんどの実世界の最適化問題は、従来の統計技術やメタヒューリスティックスでは解決が難しい。 主な難しさは、かなりの数の局所最適化の存在と関係しており、最適化過程の早期収束をもたらす可能性がある。 そこで本研究では,元の関数のスムーズな代理モデルを構築するための新しいヒューリスティック手法を提案する。 代理関数は最適化が容易であるが、元の頑丈なフィットネスランドスケープの基本的な特性、すなわちグローバルな最適位置を維持している。 このようなサロゲートモデルを作成するために,自己調整型適応関数によって拡張された線形遺伝的プログラミング手法を考える。 GP-FST-PSOサロゲートモデル(GP-FST-PSO Surrogate Model)と呼ばれる提案アルゴリズムは,グローバルな最適探索と,元のベンチマーク関数の視覚的近似(二次元の場合)の生成の両方において,良好な結果が得られる。

Most real-world optimization problems are difficult to solve with traditional statistical techniques or with metaheuristics. The main difficulty is related to the existence of a considerable number of local optima, which may result in the premature convergence of the optimization process. To address this problem, we propose a novel heuristic method for constructing a smooth surrogate model of the original function. The surrogate function is easier to optimize but maintains a fundamental property of the original rugged fitness landscape: the location of the global optimum. To create such a surrogate model, we consider a linear genetic programming approach enhanced by a self-tuning fitness function. The proposed algorithm, called the GP-FST-PSO Surrogate Model, achieves satisfactory results in both the search for the global optimum and the production of a visual approximation of the original benchmark function (in the 2-dimensional case).
翻訳日:2022-06-26 14:46:25 公開日:2022-06-07
# (参考訳) 知識グラフにおける関係予測のための複数パターンからの注意に基づく表現の学習

Learning Attention-based Representations from Multiple Patterns for Relation Prediction in Knowledge Graphs ( http://arxiv.org/abs/2206.04801v1 )

ライセンス: CC BY 4.0
V\'itor Louren\c{c}o and Aline Paes(参考訳) 知識基底とその表現は知識グラフ(KG)の形で自然に不完全である。 科学や産業の応用が広く採用されているため、その情報を完成させるソリューションの需要が高い。 近年のいくつかの研究は、エンティティとリレーションシップの埋め込みを学習し、エンティティ間の新しい関係を予測するためにそれらを活用することで、この課題に対処している。 疎遠さにもかかわらず、これらの手法のほとんどは、埋め込みを学ぶために、関係のローカルな隣人だけに焦点を当てている。 その結果、長期依存やエンティティのセマンティクスの伝播を無視して、KGのコンテキスト情報を捕捉できない可能性がある。 本稿では,文脈化表現を学習する新しいモデルである {\AE}MP (Attention-based Embeddings from Multiple Patterns)を提案する。 (i)注意を喚起したメッセージ・パッシング・スキームを通じて、近隣の異なる側面に焦点を合わせながら、エンティティのローカルなセマンティクスを捉えて、エンティティのコンテキスト情報を取得すること。 (II) エンティティ間の経路とそれらの関係を利用して意味的コンテキストをキャプチャする。 我々の経験的知見は、注目メカニズムがエンティティのコンテキスト表現をどのように改善するか、エンティティとセマンティックパスのコンテキストの組み合わせがエンティティの一般的な表現と関係予測をどのように改善するかに関する洞察を導き出す。 幾つもの大小の知識グラフベンチマークの実験結果から、 {\AE}MPは最先端の相関予測手法に勝るか、競合するかのどちらかを示している。

Knowledge bases, and their representations in the form of knowledge graphs (KGs), are naturally incomplete. Since scientific and industrial applications have extensively adopted them, there is a high demand for solutions that complete their information. Several recent works tackle this challenge by learning embeddings for entities and relations, then employing them to predict new relations among the entities. Despite their aggrandizement, most of those methods focus only on the local neighbors of a relation to learn the embeddings. As a result, they may fail to capture the KGs' context information by neglecting long-term dependencies and the propagation of entities' semantics. In this manuscript, we propose {\AE}MP (Attention-based Embeddings from Multiple Patterns), a novel model for learning contextualized representations by: (i) acquiring entities' context information through an attention-enhanced message-passing scheme, which captures the entities' local semantics while focusing on different aspects of their neighborhood; and (ii) capturing the semantic context, by leveraging the paths and their relationships between entities. Our empirical findings draw insights into how attention mechanisms can improve entities' context representation and how combining entities and semantic path contexts improves the general representation of entities and the relation predictions. Experimental results on several large and small knowledge graph benchmarks show that {\AE}MP either outperforms or competes with state-of-the-art relation prediction methods.
翻訳日:2022-06-20 00:16:59 公開日:2022-06-07
# (参考訳) HRIの成功への道 - AI, Trust, ethicS-TRAITS

The Road to a Successful HRI: AI, Trust and ethicS-TRAITS ( http://arxiv.org/abs/2206.08270v1 )

ライセンス: CC BY 4.0
Alessandra Rossi, Antonio Andriella, Silvia Rossi, Anouk van Maris(参考訳) このワークショップの目的は、人間とロボットの効果的かつ長期にわたるコラボレーションに向けた過去と継続的な研究についての洞察の交換を促進することである。 このワークショップは、その成功に影響を及ぼすHRIのさまざまな側面を分析するために、アカデミックや業界コミュニティの代表者のためのフォーラムを提供する。 特に、自律的かつ積極的なインタラクションを実現するために必要なai技術、ロボットに対する人間の受容と信頼を高める、弱体化、または回復する要因、およびそのようなロボットを人間中心の環境に展開することに関する倫理的および法的懸念に焦点を当てている。 ウェブサイト:https://sites.google.com/view/traits-hri-2022

The aim of this workshop is to foster the exchange of insights on past and ongoing research towards effective and long-lasting collaborations between humans and robots. This workshop will provide a forum for representatives from academia and industry communities to analyse the different aspects of HRI that impact on its success. We particularly focus on AI techniques required to implement autonomous and proactive interactions, on the factors that enhance, undermine, or recover humans' acceptance and trust in robots, and on the potential ethical and legal concerns related to the deployment of such robots in human-centred environments. Website: https://sites.google.com/view/traits-hri-2022
翻訳日:2022-06-20 00:15:59 公開日:2022-06-07
# (参考訳) DeepTPI: 深層強化学習によるテストポイント導入

DeepTPI: Test Point Insertion with Deep Reinforcement Learning ( http://arxiv.org/abs/2206.06975v1 )

ライセンス: CC BY 4.0
Zhengyuan Shi, Min Li, Sadaf Khan, Liuzheng Wang, Naixing Wang, Yu Huang, Qiang Xu(参考訳) テストポイント挿入(TPI)は、テスト容易性向上のための広く使われている手法であり、特に比較的低いフォールトカバレッジのため、ロジック内蔵セルフテスト(LBIST)で使用される。 本稿では,深部強化学習(DRL)に基づく新しいTPIアプローチであるDeepTPIを提案する。 教師付き学習問題としてTPIタスクを定式化した従来の学習ベースソリューションとは違って,グラフニューラルネットワーク(GNN)とディープQラーニングネットワーク(DQN)を組み合わせた新しいDRLエージェントを訓練し,テストカバレッジの向上を最大化する。 具体的には、回路を有向グラフとしてモデル化し、グラフベースの値ネットワークを設計し、異なるテストポイントを挿入するアクション値を推定する。 DRLエージェントのポリシーは、最大値のアクションを選択するものとして定義される。 さらに,事前学習したモデルから一般的なノード埋め込みを適用し,ノードの特徴を高め,バリューネットワークのためのテスト容易性に着目した注意機構を提案する。 様々なスケールの回路の実験結果から,DeepTPIは商用のDFTツールと比較してテストカバレッジを著しく改善することがわかった。 この作業のコードはhttps://github.com/cure-lab/deeptpiで入手できる。

Test point insertion (TPI) is a widely used technique for testability enhancement, especially for logic built-in self-test (LBIST) due to its relatively low fault coverage. In this paper, we propose a novel TPI approach based on deep reinforcement learning (DRL), named DeepTPI. Unlike previous learning-based solutions that formulate the TPI task as a supervised-learning problem, we train a novel DRL agent, instantiated as the combination of a graph neural network (GNN) and a Deep Q-Learning network (DQN), to maximize the test coverage improvement. Specifically, we model circuits as directed graphs and design a graph-based value network to estimate the action values for inserting different test points. The policy of the DRL agent is defined as selecting the action with the maximum value. Moreover, we apply the general node embeddings from a pre-trained model to enhance node features, and propose a dedicated testability-aware attention mechanism for the value network. Experimental results on circuits with various scales show that DeepTPI significantly improves test coverage compared to the commercial DFT tool. The code of this work is available at https://github.com/cure-lab/DeepTPI.
翻訳日:2022-06-20 00:15:08 公開日:2022-06-07
# (参考訳) 決定木とCNNを有するマイクロコントローラにおける2段階の人間活動認識

Two-stage Human Activity Recognition on Microcontrollers with Decision Trees and CNNs ( http://arxiv.org/abs/2206.07652v1 )

ライセンス: CC BY 4.0
Francesco Daghero, Daniele Jahier Pagliari, Massimo Poncino(参考訳) HAR(Human Activity Recognition)は、スマートウォッチなどの組み込みデバイスにおいて、ますます人気が高まっているタスクである。 超低消費電力デバイスのためのほとんどのHARシステムは、古典的な機械学習(ML)モデルに基づいているが、Deep Learning(DL)は最先端の精度に達するが、高エネルギー消費のためあまり人気がない。 本研究では,決定木 (DT) と1次元畳み込みニューラルネットワーク (1D CNN) からなる階層的アーキテクチャにより,デバイス上のHARとDLのギャップを埋める。 DTは最も簡単なアクティビティのみを分類し、CNNはより複雑なタスクを扱います。 最先端のデータセットの実験と、シングルコアRISC-V MCUをターゲットにしたこの手法により、アイソ精度で67.7%のエネルギーを節約できることが示されている。 さらに、2段階のシステムは(最大200bまでの)無視可能なメモリオーバヘッドを導入するか、逆にメモリ全体の占有を減らす。

Human Activity Recognition (HAR) has become an increasingly popular task for embedded devices such as smartwatches. Most HAR systems for ultra-low power devices are based on classic Machine Learning (ML) models, whereas Deep Learning (DL), although reaching state-of-the-art accuracy, is less popular due to its high energy consumption, which poses a significant challenge for battery-operated and resource-constrained devices. In this work, we bridge the gap between on-device HAR and DL thanks to a hierarchical architecture composed of a decision tree (DT) and a one dimensional Convolutional Neural Network (1D CNN). The two classifiers operate in a cascaded fashion on two different sub-tasks: the DT classifies only the easiest activities, while the CNN deals with more complex ones. With experiments on a state-of-the-art dataset and targeting a single-core RISC-V MCU, we show that this approach allows to save up to 67.7% energy w.r.t. a "stand-alone" DL architecture at iso-accuracy. Additionally, the two-stage system either introduces a negligible memory overhead (up to 200 B) or on the contrary, reduces the total memory occupation.
翻訳日:2022-06-19 23:56:50 公開日:2022-06-07
# 異常暗号通貨のトランザクション検出:機械学習に基づく鑑識のaml/cft応用

Detecting Anomalous Cryptocurrency Transactions: an AML/CFT Application of Machine Learning-based Forensics ( http://arxiv.org/abs/2206.04803v1 )

ライセンス: Link先を確認
Nadia Pocher, Mirko Zichichi, Fabio Merizzi, Muhammad Zohaib Shafiq and Stefano Ferretti(参考訳) 金融セクターにおけるブロックチェーンと分散台帳技術(DLT)の台頭は、法的懸念と規制イニシアチブを引き起こした社会経済的な変化を引き起こしている。 DLTの匿名性は、プライバシやデータ保護、その他の市民の自由の権利を保護する可能性があるが、識別の欠如は、説明責任、調査、執行を妨げる。 結果として生じる課題は、資金洗浄とテロリズムと拡散(AML/CFT)の資金提供と戦うための規則にまで及んでいる。 法執行機関や分析会社がブロックチェーンエコシステム間の通貨追跡に法医学をうまく応用し始めている中で、この記事では、これらのテクニックの関連性の向上に焦点を当てる。 特に、機械学習、ネットワーク、トランザクショングラフ分析のインターネット・オブ・マネー(IoM)へのアプリケーションに関する洞察を提供する。 iomにおける匿名性の概念と、aml/cftとblockchain forensicsの相互作用を背景として、実験につながる異常検出アプローチに注目した。 すなわち、さまざまな機械学習技術を用いて、有向グラフネットワークとして表現されたBitcoinトランザクションの実際のデータセットを分析した。 我々の主張では、AML/CFTドメインは機械学習における新しいグラフ解析手法の恩恵を受けることができる。 実際、グラフ畳み込みネットワーク(gcn)とグラフアテンションネットワーク(gat)のニューラルネットワークタイプは、aml/cft準拠の有望なソリューションであることが示された。

The rise of blockchain and distributed ledger technologies (DLTs) in the financial sector has generated a socio-economic shift that triggered legal concerns and regulatory initiatives. While the anonymity of DLTs may safeguard the right to privacy, data protection and other civil liberties, lack of identification hinders accountability, investigation and enforcement. The resulting challenges extend to the rules to combat money laundering and the financing of terrorism and proliferation (AML/CFT). As law enforcement agencies and analytics companies have begun to successfully apply forensics to track currency across blockchain ecosystems, in this paper we focus on the increasing relevance of these techniques. In particular, we offer insights into the application to the Internet of Money (IoM) of machine learning, network and transaction graph analysis. After providing some background on the notion of anonymity in the IoM and on the interplay between AML/CFT and blockchain forensics, we focus on anomaly detection approaches leading to our experiments. Namely, we analyzed a real-world dataset of Bitcoin transactions represented as a directed graph network through various machine learning techniques. Our claim is that the AML/CFT domain could benefit from novel graph analysis methods in machine learning. Indeed, our findings show that the Graph Convolutional Networks (GCN) and Graph Attention Networks (GAT) neural network types represent a promising solution for AML/CFT compliance.
翻訳日:2022-06-19 23:05:37 公開日:2022-06-07
# 相似整合規則化による拡張モーメントコントラスト

Extending Momentum Contrast with Cross Similarity Consistency Regularization ( http://arxiv.org/abs/2206.04676v1 )

ライセンス: Link先を確認
Mehdi Seyfi, Amin Banitalebi-Dehkordi, and Yong Zhang(参考訳) 対照的な自己教師付き表現学習法は正のペア間の類似性を最大化し、同時に負のペア間の類似性を最小化する傾向がある。 しかし、一般に、負対間の相互作用は、その特異な相違や類似性に応じて、負対を別々に扱う特別な機構に置かれていないため無視される。 本稿では,mocoファミリー構成で提案されている運動量エンコーダユニットの遺産に基づく自己教師あり表現学習手法であるextended momentum contrast (xmoco)を提案する。 この目的のために、クロス一貫性の正規化損失を導入し、異種画像(負のペア)への変換一貫性を拡張する。 相互整合規則の下では、任意の一対のイメージ(正あるいは負の)に関連する意味表現は、プリテキスト変換の下でそれらの相似性を維持するべきであると論じる。 さらに、バッチ間の負のペアに対して類似性の均一な分布を強制することにより、トレーニング損失をさらに調整する。 提案する正規化は,既存の自己教師付き学習アルゴリズムにプラグ・アンド・プレイ方式で容易に追加することができる。 実験的に,imagenet-1k線形頭部分類ベンチマークの競合性能を報告した。 また,学習表現を一般的な下流タスクに移すことで,xmocoを広く活用した拡張により,そのタスクの性能が向上することを示す。 本研究は,自己教師型学習におけるネガティブな事例間の重要な相互作用を研究者が考慮する動機となることを願っている。

Contrastive self-supervised representation learning methods maximize the similarity between the positive pairs, and at the same time tend to minimize the similarity between the negative pairs. However, in general the interplay between the negative pairs is ignored as they do not put in place special mechanisms to treat negative pairs differently according to their specific differences and similarities. In this paper, we present Extended Momentum Contrast (XMoCo), a self-supervised representation learning method founded upon the legacy of the momentum-encoder unit proposed in the MoCo family configurations. To this end, we introduce a cross consistency regularization loss, with which we extend the transformation consistency to dissimilar images (negative pairs). Under the cross consistency regularization rule, we argue that semantic representations associated with any pair of images (positive or negative) should preserve their cross-similarity under pretext transformations. Moreover, we further regularize the training loss by enforcing a uniform distribution of similarity over the negative pairs across a batch. The proposed regularization can easily be added to existing self-supervised learning algorithms in a plug-and-play fashion. Empirically, we report a competitive performance on the standard Imagenet-1K linear head classification benchmark. In addition, by transferring the learned representations to common downstream tasks, we show that using XMoCo with the prevalently utilized augmentations can lead to improvements in the performance of such tasks. We hope the findings of this paper serve as a motivation for researchers to take into consideration the important interplay among the negative examples in self-supervised learning.
翻訳日:2022-06-19 22:48:20 公開日:2022-06-07
# 自己教師付き視覚表現学習を改良した空間クロスタッチ

Spatial Cross-Attention Improves Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2206.05028v1 )

ライセンス: Link先を確認
Mehdi Seyfi, Amin Banitalebi-Dehkordi, and Yong Zhang(参考訳) SwAVのような教師なし表現学習法は、ターゲットデータセットの視覚的意味学学習に有効であることが証明された。 これらの方法の背後にある主な考え方は、同じイメージの異なるビューが同じセマンティクスを表すことである。 本稿では,サンプル間の空間的相互相関に対する知識計算の注入を容易にするアドオンモジュールについても紹介する。 これにより、特徴レベルの位置や同クラスのインスタンス間の相互類似性を含むクラス内情報を蒸留する。 提案されたアドオンは、SwaVのような既存のメソッドに追加することができる。 その後、学習した重みを変更せずに推論のためのアドオンモジュールを削除することができる。 本手法は,広範囲にわたる経験的評価を通して,クラスアクティベーションマップの検出性能,top-1分類精度,オブジェクト検出などのダウンストリームタスクを異なる構成設定で改善できることを確認した。

Unsupervised representation learning methods like SwAV are proved to be effective in learning visual semantics of a target dataset. The main idea behind these methods is that different views of a same image represent the same semantics. In this paper, we further introduce an add-on module to facilitate the injection of the knowledge accounting for spatial cross correlations among the samples. This in turn results in distilling intra-class information including feature level locations and cross similarities between same-class instances. The proposed add-on can be added to existing methods such as the SwAV. We can later remove the add-on module for inference without any modification of the learned weights. Through an extensive set of empirical evaluations, we verify that our method yields an improved performance in detecting the class activation maps, top-1 classification accuracy, and down-stream tasks such as object detection, with different configuration settings.
翻訳日:2022-06-19 22:47:41 公開日:2022-06-07
# 知識グラフの推論を効率的に広めるための学習

Learning to Efficiently Propagate for Reasoning on Knowledge Graphs ( http://arxiv.org/abs/2206.04798v1 )

ライセンス: Link先を確認
Zhaocheng Zhu, Xinyu Yuan, Louis-Pascal Xhonneux, Ming Zhang, Maxime Gazeau, Jian Tang(参考訳) パスベースの手法は、グラフの解釈可能性や一般化能力のため、知識グラフ推論のための埋め込み方法よりも魅力的である。 しかしながら、パスベースのメソッドは通常、時間複雑性が指数関数的に増加するため、スケーラビリティの問題に苦しむ。 最近の手法では、多項式時間でベルマン・フォードアルゴリズムによる推論経路を計算するが、時間とメモリコストは非常に高く、グラフのすべてのノードとエッジを伝播する必要がある。 本稿では,知識グラフに基づく経路ベース推論の効率的なモデルであるA*Netを提案する。 従来のA*アルゴリズムにヒントを得て、A*Netは各伝搬ステップにおいて重要なノードとエッジを優先し、時間とメモリフットプリントを削減する。 ヒューリスティック関数を用いた古典的A*アルゴリズムとは異なり、各ノードの優先度関数を学習して知識グラフの複雑な意味を捉えることを提案する。 優先順位関数と伝搬ステップはバックプロパゲーションにより共同で最適化される。 帰納的および帰納的知識グラフ推論ベンチマークの実験は、A*Netが既存のパスベースの手法と競合する性能を達成し、一方でメッセージの数、時間、メモリコストをそれぞれ7.2$\times$, 3.4$\times$, 4.9$\times$に削減していることを示している。

Path-based methods are more appealing solutions than embedding methods for knowledge graph reasoning, due to their interpretability and generalization ability to unseen graphs. However, path-based methods usually suffer from the problem of scalability, as the time complexity grows exponentially w.r.t. the length of paths. While recent methods compute reasoning paths with the Bellman-Ford algorithm in polynomial time, the time and memory cost remains very high, as they need to propagate through all the nodes and edges in the graph. In this paper, we propose A*Net, an efficient model for path-based reasoning on knowledge graphs. Inspired by the classical A* algorithm for shortest path problems, our A*Net prioritizes important nodes and edges at each propagation step, to reduce the time and memory footprint. Unlike the classical A* algorithm that uses a heuristic function, we propose to learn the priority function for each node to capture the complex semantics in knowledge graphs. The priority function and the propagation steps are jointly optimized through backpropagation. Experiments on both transductive and inductive knowledge graph reasoning benchmarks show that A*Net achieves competitive performance with existing state-of-the-art path-based methods, and meanwhile reduces the number of messages, the time and the memory cost up to 7.2$\times$, 3.4$\times$ and 4.9$\times$ respectively.
翻訳日:2022-06-19 22:47:27 公開日:2022-06-07
# モノのインターネットのための説明可能な人工知能(XAI):サーベイ

Explainable Artificial Intelligence (XAI) for Internet of Things: A Survey ( http://arxiv.org/abs/2206.04800v1 )

ライセンス: Link先を確認
Ibrahim Kok, Feyza Yildirim Okay, Ozgecan Muyanli and Suat Ozdemir(参考訳) 人工知能(AI)モデルのブラックボックスの性質は、ユーザーがそのようなモデルによって生成された出力を理解し、時には信頼することを許さない。 結果だけでなく、結果への決定パスも重要なAIアプリケーションでは、このようなブラックボックスAIモデルは不十分である。 説明可能な人工知能(XAI)は、この問題に対処し、ユーザによって解釈される一連のAIモデルを定義する。 近年,医療分野,軍事分野,エネルギー分野,金融分野,産業分野など,さまざまな応用分野において,ブラックボックスモデルの解釈可能性や説明可能性の欠如が取り組まれている。 XAIの概念は近年大きな注目を集めているが、IoTドメインへの統合はまだ完全には定義されていない。 本稿では,IoT領域の範囲内でのXAIモデルを用いた最近の研究の詳細な,体系的なレビューを行う。 我々は研究の方法論と応用分野を分類する。 さらに,課題の解決と課題の開放に重点を置き,今後の調査に向けて,開発者や研究者の指導を行うための今後の方向性を示す。

Black-box nature of Artificial Intelligence (AI) models do not allow users to comprehend and sometimes trust the output created by such model. In AI applications, where not only the results but also the decision paths to the results are critical, such black-box AI models are not sufficient. Explainable Artificial Intelligence (XAI) addresses this problem and defines a set of AI models that are interpretable by the users. Recently, several number of XAI models have been to address the issues surrounding by lack of interpretability and explainability of black-box models in various application areas such as healthcare, military, energy, financial and industrial domains. Although the concept of XAI has gained great deal of attention recently, its integration into the IoT domain has not yet been fully defined. In this paper, we provide an in-depth and systematic review of recent studies using XAI models in the scope of IoT domain. We categorize the studies according to their methodology and applications areas. In addition, we aim to focus on the challenging problems and open issues and give future directions to guide the developers and researchers for prospective future investigations.
翻訳日:2022-06-19 22:47:00 公開日:2022-06-07
# (参考訳) CAINNFlow: 異常検出とローカライゼーションタスクのための畳み込みブロック注意モジュールと可逆ニューラルネットワークフロー

CAINNFlow: Convolutional block Attention modules and Invertible Neural Networks Flow for anomaly detection and localization tasks ( http://arxiv.org/abs/2206.01992v2 )

ライセンス: CC BY 4.0
Ruiqing Yan, Fan Zhang, Mengyuan Huang and Wu Liu and Dongyu Hu and Jinfeng Li, Qiang Liu and Jingrong Jiang and Qianjin Guo and Linghan Zheng(参考訳) 物体の異常検出は, 産業プロセスにおいて重要であるが, 多数の欠陥サンプルの取得が困難であり, 実生活における予測不可能な種類の異常が特に重要である。 既存の教師なし異常検出およびローカライズ手法の中で、NFベースのスキームはより良い結果を得た。 しかし、nf 内の 2 つの部分ネット(複素関数) $s_{i}(u_{i})$ と $t_{i}(u_{i})$ は通常多層パーセプトロンであり、入力された視覚特徴を 2d 平面から 1d に絞り込み、特徴マップ内の空間的位置関係を破壊し、空間構造情報を失う必要がある。 本研究は,空間構造情報の保持と抽出を効果的に行うため,正規化フローモデルにおける空間構造情報の保持と抽出が可能な,3\times3$フル畳み込みに組み込んだCBAMを交互に組み込んだ複素関数モデルの設計を行う。 CAINNFlowは、MVTec ADの異常検出のために、CNNとTransformerのバックボーンネットワークを特徴抽出器として、CAINNFlowが高度な精度と推論効率を達成し、CAINNFlowは9,8.64 %のピクセルレベルのAUCを達成している。

Detection of object anomalies is crucial in industrial processes, but unsupervised anomaly detection and localization is particularly important due to the difficulty of obtaining a large number of defective samples and the unpredictable types of anomalies in real life. Among the existing unsupervised anomaly detection and localization methods, the NF-based scheme has achieved better results. However, the two subnets (complex functions) $s_{i}(u_{i})$ and $t_{i}(u_{i})$ in NF are usually multilayer perceptrons, which need to squeeze the input visual features from 2D flattening to 1D, destroying the spatial location relationship in the feature map and losing the spatial structure information. In order to retain and effectively extract spatial structure information, we design in this study a complex function model with alternating CBAM embedded in a stacked $3\times3$ full convolution, which is able to retain and effectively extract spatial structure information in the normalized flow model. Extensive experimental results on the MVTec AD dataset show that CAINNFlow achieves advanced levels of accuracy and inference efficiency based on CNN and Transformer backbone networks as feature extractors, and CAINNFlow achieves a pixel-level AUC of $98.64\%$ for anomaly detection in MVTec AD.
翻訳日:2022-06-12 08:12:26 公開日:2022-06-07
# (参考訳) 価値を超える - CHECKLISTによる計画ベースRLの推論テスト

Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL ( http://arxiv.org/abs/2206.02039v2 )

ライセンス: CC BY-SA 4.0
Kin-Ho Lam, Delyar Tabatabai, Jed Irvine, Donald Bertucci, Anita Ruangrotsakun, Minsuk Kahng, Alan Fern(参考訳) 強化学習(RL)エージェントは、テストシナリオの分布よりも期待値を通じて一般的に評価される。 残念ながら、この評価手法は、試験分布を超えて展開後の一般化の限られた証拠を提供する。 本稿では,最近のCheckListテスト手法を自然言語処理から計画ベースRLまで拡張することで,この制限に対処する。 具体的には、学習した遷移モデルと値関数を用いてオンライン木探索による決定を行うRLエージェントのテストを検討する。 キーとなる考え方は、ツリー検索中のエージェントの推論を探索し評価するためのCheckListアプローチを通じて、将来のパフォーマンスの評価を改善することである。 このアプローチは、潜在的な推論欠陥を特定し、期待される推論不変性を検証するためのインターフェースと一般的なクエリルールメカニズムを提供する。 本稿では,複雑なリアルタイム戦略ゲームを行うように訓練されたエージェントを評価するアプローチを用いて,知識のあるAI研究者によるユーザスタディを提案する。 提案手法は, エージェントの推論における既知の欠陥を識別する上で有効であることを示す。 さらに、我々の分析は、AIの専門家がこの種のテストアプローチをどのように使うかについての洞察を提供する。

Reinforcement learning (RL) agents are commonly evaluated via their expected value over a distribution of test scenarios. Unfortunately, this evaluation approach provides limited evidence for post-deployment generalization beyond the test distribution. In this paper, we address this limitation by extending the recent CheckList testing methodology from natural language processing to planning-based RL. Specifically, we consider testing RL agents that make decisions via online tree search using a learned transition model and value function. The key idea is to improve the assessment of future performance via a CheckList approach for exploring and assessing the agent's inferences during tree search. The approach provides the user with an interface and general query-rule mechanism for identifying potential inference flaws and validating expected inference invariances. We present a user study involving knowledgeable AI researchers using the approach to evaluate an agent trained to play a complex real-time strategy game. The results show the approach is effective in allowing users to identify previously-unknown flaws in the agent's reasoning. In addition, our analysis provides insight into how AI experts use this type of testing approach, which may help improve future instantiations.
翻訳日:2022-06-11 14:45:06 公開日:2022-06-07
# (参考訳) 差分プライバシによるプライバシ保護サブグラフレベルフェデレーショングラフニューラルネットワーク

A Privacy-Preserving Subgraph-Level Federated Graph Neural Network via Differential Privacy ( http://arxiv.org/abs/2206.03492v1 )

ライセンス: CC BY-SA 4.0
Yeqing Qiu, Chenyu Huang, Jianzong Wang, Zhangcheng Huang, Jing Xiao(参考訳) 現在、フェデレーショングラフニューラルネットワーク(gnn)は、プライバシ規制に違反することなく、現実に広く応用されているため、多くの注目を集めている。 プライバシー保護技術の中で、差分プライバシー(DP)はその有効性と計算オーバーヘッドの軽さから最も有望な技術である。 しかし,DPをベースとしたフェデレーションGNNは,特にレコメンデーションシステムのシナリオなど,サブグラフレベルでは十分に研究されていない。 最大の課題は、プライバシーを保証し、フェデレートgnnの非独立かつ同一の分散(非iid)データを同時に解決する方法だ。 本稿では,このギャップを埋めるためのDP-FedRecを提案する。 private set intersection (psi) は各クライアントのローカルグラフを拡張して非iid問題を解決するために利用される。 最も重要なことは、DPはウェイトだけでなく、PSIの交差点グラフのエッジにも適用され、クライアントのプライバシーを完全に保護する。 DP-FedRecはグラフ拡張によってパフォーマンスが向上し、DPは計算オーバーヘッドが少ないことを実証している。

Currently, the federated graph neural network (GNN) has attracted a lot of attention due to its wide applications in reality without violating the privacy regulations. Among all the privacy-preserving technologies, the differential privacy (DP) is the most promising one due to its effectiveness and light computational overhead. However, the DP-based federated GNN has not been well investigated, especially in the sub-graph-level setting, such as the scenario of recommendation system. The biggest challenge is how to guarantee the privacy and solve the non independent and identically distributed (non-IID) data in federated GNN simultaneously. In this paper, we propose DP-FedRec, a DP-based federated GNN to fill the gap. Private Set Intersection (PSI) is leveraged to extend the local graph for each client, and thus solve the non-IID problem. Most importantly, DP is applied not only on the weights but also on the edges of the intersection graph from PSI to fully protect the privacy of clients. The evaluation demonstrates DP-FedRec achieves better performance with the graph extension and DP only introduces little computations overhead.
翻訳日:2022-06-10 10:11:31 公開日:2022-06-07
# (参考訳) オンライン広告における選択バイアス問題の分析

An Analysis of Selection Bias Issue for Online Advertising ( http://arxiv.org/abs/2206.03853v1 )

ライセンス: CC BY 4.0
Shinya Suzumura and Hitoshi Abe(参考訳) オンライン広告において、潜在的な広告のセットは、通常トップ1の広告を選択して広告スペースに表示するオークションシステムによってランク付けすることができる。 本稿では,オークションシステムにおける選択バイアス問題について述べる。 選択バイアスが競売の真偽を損なうことは,競売の買い手(広告主)が利益を最大化できないことを意味する。 選抜バイアスは統計学の分野ではよく知られており,多くの研究があるが,本研究の主な貢献は,選抜バイアスの理論分析とオークション機構を組み合わせることである。 オンラインA/Bテストを用いた実験では,広告の予測CTR(クリックスルーレート)の機能をランキングスコアが有するオークションシステムにおける選択バイアスを評価した。 実験の結果,全広告のデータを学習するマルチタスク学習を用いることで,選択バイアスを大幅に低減した。

In online advertising, a set of potential advertisements can be ranked by a certain auction system where usually the top-1 advertisement would be selected and displayed at an advertising space. In this paper, we show a selection bias issue that is present in an auction system. We analyze that the selection bias destroy truthfulness of the auction, which implies that the buyers (advertisers) on the auction can not maximize their profits. Although selection bias is well known in the field of statistics and there are lot of studies for it, our main contribution is to combine the theoretical analysis of the bias with the auction mechanism. In our experiment using online A/B testing, we evaluate the selection bias on an auction system whose ranking score is the function of predicted CTR (click through rate) of advertisement. The experiment showed that the selection bias is drastically reduced by using a multi-task learning which learns the data for all advertisements.
翻訳日:2022-06-10 09:59:12 公開日:2022-06-07
# (参考訳) ランダムな時間変化グラフによるオンライン正規化学習

Decentralized Online Regularized Learning Over Random Time-Varying Graphs ( http://arxiv.org/abs/2206.03861v1 )

ライセンス: CC BY 4.0
Xiwei Zhang, Tao Li and Xiaozheng Fu(参考訳) ランダム時変グラフ上の分散オンライン正規化線形回帰アルゴリズムについて検討した。 各時間ステップで、各ノードは、新しい測定値を処理するイノベーションタームと、付加的かつ乗法的な通信ノイズを伴う自分自身とその隣人の見積もりの重み付け和を取るコンセンサスタームと、過剰フィッティングを防止する正規化項からなるオンライン推定アルゴリズムを実行する。 回帰行列とグラフは相互独立性、時空間独立性、定常性といった特別な統計的仮定を満たす必要はない。 推定誤差の非負スーパーマーチンゲール不等式を開発し、アルゴリズムが励起条件のサンプルパス時空間的持続性を共に満たすと、全てのノードの推定が未知の真のパラメータベクトルにほぼ確実に収束することを証明した。 特に、この条件は、グラフが一様条件付き連結かつ条件付き均衡である場合、適切なアルゴリズムゲインを選択することで保たれ、すべてのノードの回帰モデルは一様条件付き時空間的結合観測可能であり、その下にアルゴリズムが平均正方形およびほぼ確実に収束する。 さらに、後悔の上限である$\mathcal O(T^{1-\tau}\ln T)$, ここでは$\tau\in (0.5,1)$はアルゴリズムのゲインに依存する定数であることを示す。

We study the decentralized online regularized linear regression algorithm over random time-varying graphs. At each time step, every node runs an online estimation algorithm consisting of an innovation term processing its own new measurement, a consensus term taking a weighted sum of estimations of its own and its neighbors with additive and multiplicative communication noises and a regularization term preventing over-fitting. It is not required that the regression matrices and graphs satisfy special statistical assumptions such as mutual independence, spatio-temporal independence or stationarity. We develop the nonnegative supermartingale inequality of the estimation error, and prove that the estimations of all nodes converge to the unknown true parameter vector almost surely if the algorithm gains, graphs and regression matrices jointly satisfy the sample path spatio-temporal persistence of excitation condition. Especially, this condition holds by choosing appropriate algorithm gains if the graphs are uniformly conditionally jointly connected and conditionally balanced, and the regression models of all nodes are uniformly conditionally spatio-temporally jointly observable, under which the algorithm converges in mean square and almost surely. In addition, we prove that the regret upper bound $\mathcal O(T^{1-\tau}\ln T)$, where $\tau\in (0.5,1)$ is a constant depending on the algorithm gains.
翻訳日:2022-06-10 09:45:39 公開日:2022-06-07
# (参考訳) 自然照明学習のための回転同変条件球面ニューラルフィールド

Rotation-Equivariant Conditional Spherical Neural Fields for Learning a Natural Illumination Prior ( http://arxiv.org/abs/2206.03858v1 )

ライセンス: CC BY 4.0
James A. D. Gardner, Bernhard Egger, William A. P. Smith(参考訳) 逆レンダリングは不適切な問題です。 以前の研究では、オブジェクトやシーンの形状や外観の優先順位に注目して、この問題を解決しようと試みている。 本研究では, 自然光の先行点に焦点をあてる。 現在の手法は球面調和照明や他の一般的な表現に依存しており、少なくともパラメータに先立って単純である。 本稿では,SIRENネットワークを用いた変分自動デコーダに基づく条件付きニューラルネットワーク表現を提案する。 これを用いて,自然環境マップの複雑かつ高周波な特徴を表現できる,回転同変高ダイナミックレンジ(hdr)ニューラル照明モデルを開発した。 自然シーンの1.6k hdr環境マップのキュレートデータセット上でモデルをトレーニングし、従来の表現と比較し、逆レンダリングタスクに適用性を示し、部分的な観察から環境マップの完成度を示す。 PyTorchの実装、データセット、トレーニングされたモデルはjadgardner.github.io/RENIで見ることができる。

Inverse rendering is an ill-posed problem. Previous work has sought to resolve this by focussing on priors for object or scene shape or appearance. In this work, we instead focus on a prior for natural illuminations. Current methods rely on spherical harmonic lighting or other generic representations and, at best, a simplistic prior on the parameters. We propose a conditional neural field representation based on a variational auto-decoder with a SIREN network and, extending Vector Neurons, build equivariance directly into the network. Using this we develop a rotation-equivariant, high dynamic range (HDR) neural illumination model that is compact and able to express complex, high-frequency features of natural environment maps. Training our model on a curated dataset of 1.6K HDR environment maps of natural scenes, we compare it against traditional representations, demonstrate its applicability for an inverse rendering task and show environment map completion from partial observations. A PyTorch implementation, our dataset and trained models can be found at jadgardner.github.io/RENI.
翻訳日:2022-06-10 06:52:47 公開日:2022-06-07
# (参考訳) Muppetの発見方法:トランスフォーマーの埋め込み空間の構造

How to Dissect a Muppet: The Structure of Transformer Embedding Spaces ( http://arxiv.org/abs/2206.03529v1 )

ライセンス: CC BY 4.0
Timothee Mickus, Denis Paperno, Mathieu Constant(参考訳) Transformerアーキテクチャに基づく事前の組み込みは、NLPコミュニティを嵐に巻き込んだ。 ベクトル要素の和として数学的に再構成できることを示し、このリフレーミングを用いて各コンポーネントの影響を研究する方法を示す。 我々は,マルチヘッド・アテンションやフィードフォワードが下流のすべてのアプリケーションにおいて等しく有用ではないことを示すとともに,埋め込み空間全体に微調整が与える影響の定量的な概要を示す。 このアプローチにより、ベクトル空間の異方性から注意力の重み付けまで、幅広い過去の研究と接続することができる。

Pretrained embeddings based on the Transformer architecture have taken the NLP community by storm. We show that they can mathematically be reframed as a sum of vector factors and showcase how to use this reframing to study the impact of each component. We provide evidence that multi-head attentions and feed-forwards are not equally useful in all downstream applications, as well as a quantitative overview of the effects of finetuning on the overall embedding space. This approach allows us to draw connections to a wide range of previous studies, from vector space anisotropy to attention weights.
翻訳日:2022-06-10 06:39:05 公開日:2022-06-07
# (参考訳) Code-DKT: プログラミングタスクのためのコードベースの知識追跡モデル

Code-DKT: A Code-based Knowledge Tracing Model for Programming Tasks ( http://arxiv.org/abs/2206.03545v1 )

ライセンス: CC BY 4.0
Yang Shi, Min Chi, Tiffany Barnes, Thomas Price(参考訳) 知識追跡モデル (KT) は, 学生の過去の試みを用いて, 実践問題における将来のパフォーマンスを予測するための一般的なアプローチである。 多くの革新がKTで行われてきたが、最先端のDeep KT(DKT)を含むほとんどのモデルは、その内容を無視して、学生の反応を正しくも正しくも活用している。 本研究では,dktを拡張したドメイン固有のコード特徴の自動抽出と選択を行うモデルである,コードベース深層知識トレース(code-dkt)を提案する。 我々は,5つの入門プログラミング課題を解こうとする50人のクラスから得られたデータセットに対して,Code-DKTの有効性をベイジアン・ディープ知識追跡(BKT,DKT)と比較した。 以上の結果から,Code-DKTはDKTよりもDKTを3.07-4.00%向上させることがわかった。 最後に,1つの代入のケーススタディを通じて問題固有のパフォーマンスを分析し,コード機能によるcode-dktの予測の改善を実証する。

Knowledge tracing (KT) models are a popular approach for predicting students' future performance at practice problems using their prior attempts. Though many innovations have been made in KT, most models including the state-of-the-art Deep KT (DKT) mainly leverage each student's response either as correct or incorrect, ignoring its content. In this work, we propose Code-based Deep Knowledge Tracing (Code-DKT), a model that uses an attention mechanism to automatically extract and select domain-specific code features to extend DKT. We compared the effectiveness of Code-DKT against Bayesian and Deep Knowledge Tracing (BKT and DKT) on a dataset from a class of 50 students attempting to solve 5 introductory programming assignments. Our results show that Code-DKT consistently outperforms DKT by 3.07-4.00% AUC across the 5 assignments, a comparable improvement to other state-of-the-art domain-general KT models over DKT. Finally, we analyze problem-specific performance through a set of case studies for one assignment to demonstrate when and how code features improve Code-DKT's predictions.
翻訳日:2022-06-10 06:16:32 公開日:2022-06-07
# (参考訳) GMMを用いたがん薬物産生と感受性予測のための遺伝子レコメンデーションシステム

A generative recommender system with GMM prior for cancer drug generation and sensitivity prediction ( http://arxiv.org/abs/2206.03555v1 )

ライセンス: CC BY 4.0
Krzysztof Koras, Marcin Mo\.zejko, Paulina Szymczak, Eike Staub, and Ewa Szczurek(参考訳) 近年の高スループット薬物スクリーニングアッセイの出現は、がん細胞株の抗がん剤感受性の予測モデルや、潜在的な薬物候補の生成方法など、機械学習手法の集中的な開発に拍車を掛けた。 しかし、特定の性質を持つ化合物の生成と癌細胞株に対する効果の同時モデリングという概念は、包括的に検討されていない。 このニーズに対処するために,変分オートエンコーダを用いた薬物効率評価推薦システムであるVADEERSを提案する。 化合物の生成は、半教師付きガウス混合モデル(GMM)による新しい変分オートエンコーダによって実行される。 前者は、クラスタが特定の薬物特性に関連付けられる潜在空間におけるクラスタリングを定義する。 さらに、VADEERSはセルラインオートエンコーダと感度予測ネットワークを備える。 このモデルは、抗がん剤のSMILES文字列表現のデータ、プロテインキナーゼのパネルに対するそれらの阻害プロファイル、細胞株の生物学的特徴、および薬剤に対する細胞株の感受性の測定を組み合わせる。 評価されたVADEERSの変種は、真と予測される薬剤感受性の推定値の間の高いr=0.87ピアソン相関が得られる。 我々は、潜伏空間のクラスターがその阻害プロファイルによって予め計算された薬物のクラスター化に対応するように、GMMを事前訓練する。 学習された潜在表現と新たなデータポイントが,与えられたクラスタリングを正確に反映していることを示す。 まとめると、VADEERSは薬物と細胞株の性質とそれらの関係の包括的モデルを提供し、新規化合物を誘導する。

Recent emergence of high-throughput drug screening assays sparkled an intensive development of machine learning methods, including models for prediction of sensitivity of cancer cell lines to anti-cancer drugs, as well as methods for generation of potential drug candidates. However, a concept of generation of compounds with specific properties and simultaneous modeling of their efficacy against cancer cell lines has not been comprehensively explored. To address this need, we present VADEERS, a Variational Autoencoder-based Drug Efficacy Estimation Recommender System. The generation of compounds is performed by a novel variational autoencoder with a semi-supervised Gaussian Mixture Model (GMM) prior. The prior defines a clustering in the latent space, where the clusters are associated with specific drug properties. In addition, VADEERS is equipped with a cell line autoencoder and a sensitivity prediction network. The model combines data for SMILES string representations of anti-cancer drugs, their inhibition profiles against a panel of protein kinases, cell lines biological features and measurements of the sensitivity of the cell lines to the drugs. The evaluated variants of VADEERS achieve a high r=0.87 Pearson correlation between true and predicted drug sensitivity estimates. We train the GMM prior in such a way that the clusters in the latent space correspond to a pre-computed clustering of the drugs by their inhibitory profiles. We show that the learned latent representations and new generated data points accurately reflect the given clustering. In summary, VADEERS offers a comprehensive model of drugs and cell lines properties and relationships between them, as well as a guided generation of novel compounds.
翻訳日:2022-06-10 05:55:01 公開日:2022-06-07
# (参考訳) 潜伏低ランク構造を用いたサンプル効率強化学習のための長水平バリアの克服

Overcoming the Long Horizon Barrier for Sample-Efficient Reinforcement Learning with Latent Low-Rank Structure ( http://arxiv.org/abs/2206.03569v1 )

ライセンス: CC BY 4.0
Tyler Sam, Yudong Chen, and Christina Lee Yu(参考訳) 強化学習アルゴリズムの実用性は、問題サイズに関するスケーリングの貧弱さによって制限されている。$\epsilon$-optimal policyの学習のサンプル複雑性は$\tilde{\omega}\left(|s||a|h^3 / \eps^2\right)$ 状態空間$s$、アクションスペース$a$、ホライズン$h$である。 我々は,低位構造を示すmdpのクラスを考える。 値反復と低ランク行列推定の自然な組み合わせは、地平線において2倍に指数関数的に増大する推定誤差をもたらすと論じる。 次に, 生成モデルへのアクセスを与えられた低位構造を効率的に活用し, ランク$d$設定に対して$\tilde{o}\left(d^5(|s|+|a|)\mathrm{poly}(h)/\eps^2\right)$のサンプル複雑性を達成する, 統計的保証とともに新しいアルゴリズムを提供する。 線形および低ランクのMDPに関する文献とは対照的に、既知の特徴マッピングは必要とせず、アルゴリズムは計算的に単純であり、その結果は長期間の地平線を保っている。 この結果から, MDP 上で必要となる最小限の低ランク構造仮定を, 遷移カーネルと最適作用値関数に対して考察した。

The practicality of reinforcement learning algorithms has been limited due to poor scaling with respect to the problem size, as the sample complexity of learning an $\epsilon$-optimal policy is $\Tilde{\Omega}\left(|S||A|H^3 / \eps^2\right)$ over worst case instances of an MDP with state space $S$, action space $A$, and horizon $H$. We consider a class of MDPs that exhibit low rank structure, where the latent features are unknown. We argue that a natural combination of value iteration and low-rank matrix estimation results in an estimation error that grows doubly exponentially in the horizon $H$. We then provide a new algorithm along with statistical guarantees that efficiently exploits low rank structure given access to a generative model, achieving a sample complexity of $\Tilde{O}\left(d^5(|S|+|A|)\mathrm{poly}(H)/\eps^2\right)$ for a rank $d$ setting, which is minimax optimal with respect to the scaling of $|S|, |A|$, and $\eps$. In contrast to literature on linear and low-rank MDPs, we do not require a known feature mapping, our algorithm is computationally simple, and our results hold for long time horizons. Our results provide insights on the minimal low-rank structural assumptions required on the MDP with respect to the transition kernel versus the optimal action-value function.
翻訳日:2022-06-10 05:32:03 公開日:2022-06-07
# (参考訳) 線形回帰におけるデータバイアスロバスト性認証

Certifying Data-Bias Robustness in Linear Regression ( http://arxiv.org/abs/2206.03575v1 )

ライセンス: CC BY 4.0
Anna P. Meyer, Aws Albarghouthi and Loris D'Antoni(参考訳) データセットは通常、ヒューマンエラーと社会バイアスによる不正確性を含み、これらの不正確性は、そのようなデータセットでトレーニングされたモデルの結果に影響を与える可能性がある。 本稿では, 線形回帰モデルがトレーニングデータセットのラベルバイアスに対する点偏差であるか否か, すなわち, トレーニングデータセットのラベルに対する有界摂動が, テストポイントの予測を変化させるモデルとなるかを検証する手法を提案する。 この問題を個々のテストポイントに対して正確に解く方法を示し,テストポイントの事前知識を必要としない近似的かつよりスケーラブルな方法を提案する。 我々は両方の手法を広範囲に評価し、回帰モデルと分類モデルの両方の線形モデルが高いレベルのバイアス・ロバスト性を示すことを発見した。 しかし、いくつかのデータセット上の特定のバイアス仮定に対する高い非破壊性のレベルなど、バイアス-腐食性のギャップも掘り下げる。 全体として、私たちのアプローチはモデルのアウトプットをいつ信頼するか、あるいは疑問に思うかのガイドとして役立ちます。

Datasets typically contain inaccuracies due to human error and societal biases, and these inaccuracies can affect the outcomes of models trained on such datasets. We present a technique for certifying whether linear regression models are pointwise-robust to label bias in the training dataset, i.e., whether bounded perturbations to the labels of a training dataset result in models that change the prediction of test points. We show how to solve this problem exactly for individual test points, and provide an approximate but more scalable method that does not require advance knowledge of the test point. We extensively evaluate both techniques and find that linear models -- both regression- and classification-based -- often display high levels of bias-robustness. However, we also unearth gaps in bias-robustness, such as high levels of non-robustness for certain bias assumptions on some datasets. Overall, our approach can serve as a guide for when to trust, or question, a model's output.
翻訳日:2022-06-10 05:30:37 公開日:2022-06-07
# (参考訳) Ensemble Learning Pipelinesによるクリック予測強化

Click Prediction Boosting via Ensemble Learning Pipelines ( http://arxiv.org/abs/2206.03592v1 )

ライセンス: CC BY 4.0
\c{C}a\u{g}atay Demirel, A. Aylin Toku\c{c}, Ahmet Tezcan Tekin(参考訳) オンライン旅行代理店(OTA)はメタ検索入札エンジンでウェブサイトを宣伝している。 特定の入札金額に対してホテルが受け取るクリック数を予測する問題は、クリック回数が生成するコストを定義するため、メタ検索エンジン上でotaの広告キャンペーンを管理する上で重要なステップである。 クリック予測性能を向上させるために,様々なレグレッシャが組み込まれている。 事前処理手順の後、機能セットはサンプルのロギング日数に応じて列車とテストグループに分割される。 データ収集はXGBoostベースの次元削減の対象となり、特徴の次元を大幅に削減する。 最適なハイパーパラメータは、XGBoost、LightGBM、SGDモデルにベイジアンハイパーパラメータ最適化を適用することで得られる。 個別に10の異なる機械学習モデルがテストされ、それらを組み合わせてアンサンブルモデルを作成する。 3つの代替アンサンブル解が提案されている。 同じテストセットは個々のモデルとアンサンブルモデルの両方をテストするために使用され、46のモデルの組み合わせの結果、スタックアンサンブルモデルがすべてのR2スコアを得ることを示す。 結論として、アンサンブルモデルは予測性能を約10%向上させる。

Online travel agencies (OTA's) advertise their website offers on meta-search bidding engines. The problem of predicting the number of clicks a hotel would receive for a given bid amount is an important step in the management of an OTA's advertisement campaign on a meta-search engine because bid times number of clicks defines the cost to be generated. Various regressors are ensembled in this work to improve click prediction performance. Following the preprocessing procedures, the feature set is divided into train and test groups depending on the samples' logging dates. The data collection is then subjected to XGBoost-based dimension reduction, which significantly reduces the dimension of features. The optimum hyper-parameters are then found by applying Bayesian Hyper-parameter optimization to the XGBoost, LightGBM, and SGD models. Individually, ten distinct machine learning models are tested, as well as combining them to create ensemble models. Three alternative ensemble solutions have been suggested. The same test set is used to test both individual and ensemble models, and the results of 46 model combinations demonstrate that stack ensemble models yield the desired R2 score of all. In conclusion, the ensemble model improves the prediction performance by about 10%.
翻訳日:2022-06-10 05:08:00 公開日:2022-06-07
# (参考訳) 実効的フィルタ解析と階層的プルーニングによるニューラルネットワーク圧縮

Neural Network Compression via Effective Filter Analysis and Hierarchical Pruning ( http://arxiv.org/abs/2206.03596v1 )

ライセンス: CC BY 4.0
Ziqi Zhou, Li Lian, Yilong Yin, Ze Wang(参考訳) ネットワーク圧縮は、ディープネットワークをより効率的で、高速で、ローエンドのハードウェアに一般化させるのに不可欠である。 第一に、最大圧縮率を推定するための理論的枠組みが欠けていること、第二に、いくつかの層がオーバープルーンされ、ネットワーク性能が大幅に低下する可能性があることである。 この2つの問題を解決するために,ネットワークの最大冗長性を推定する勾配行列特異点解析法を提案する。 ネットワーク性能を犠牲にすることなく、ニューロンネットワーク構造を最大に凝縮する新規で効率的な階層的ネットワークプラニングアルゴリズムを開発した。 cnn(advanced convolutional neural network)アーキテクチャをprunする新しい手法の有効性を実証するために、実質的な実験を行った。 既存プルーニング法と比較して,提案プルーニングアルゴリズムは最先端の性能を達成した。 同じまたは類似の圧縮比で、新しい方法は、他の方法と比較して、最も高いネットワーク予測精度を提供した。

Network compression is crucial to making the deep networks to be more efficient, faster, and generalizable to low-end hardware. Current network compression methods have two open problems: first, there lacks a theoretical framework to estimate the maximum compression rate; second, some layers may get over-prunned, resulting in significant network performance drop. To solve these two problems, this study propose a gradient-matrix singularity analysis-based method to estimate the maximum network redundancy. Guided by that maximum rate, a novel and efficient hierarchical network pruning algorithm is developed to maximally condense the neuronal network structure without sacrificing network performance. Substantial experiments are performed to demonstrate the efficacy of the new method for pruning several advanced convolutional neural network (CNN) architectures. Compared to existing pruning methods, the proposed pruning algorithm achieved state-of-the-art performance. At the same or similar compression ratio, the new method provided the highest network prediction accuracy as compared to other methods.
翻訳日:2022-06-10 04:55:47 公開日:2022-06-07
# (参考訳) すべてをもたらす指輪: ドメインシフト下でのオープンセット認識に向けて

One Ring to Bring Them All: Towards Open-Set Recognition under Domain Shift ( http://arxiv.org/abs/2206.03600v1 )

ライセンス: CC BY 4.0
Shiqi Yang, Yaxing Wang, Kai Wang, Shangling Jui, Joost van de Weijer(参考訳) 本稿では、ドメインシフトを伴う$\textit{open-set recognition}$を調査し、最終目標は、ソースドメインとターゲットドメインの両方にドメインシフトが存在する状況に対処する$\textit{Source-free Universal Domain Adaptation}$(SF-UNDA)を達成することである。 sf-unda設定では、このモデルは、データプライバシの懸念に対処するために、ターゲット適応中にソースデータにアクセスできない。 我々は、既知のソースカテゴリのみのサンプルがトレーニングに利用できる、n$ソースクラスと未知クラスを予測するために、(n$+1)-way分類子を学ぶための新しいトレーニングスキームを提案する。 さらに、ターゲット適応には、重み付きエントロピー最小化を採用するだけで、ソースデータのない未ラベル対象領域にソース事前学習モデルを適用することができる。 実験では、$\textbf{1)}$ ソーストレーニングの後、生成されたソースモデルは、$\textit{open-set single domain generalization}$ および $\textit{open-set recognition}$ task; $\textbf{2)}$ ターゲット適応後、複数のベンチマークに適応する際にソースデータを要求する現在のUNDAアプローチよりも優れたパフォーマンスが得られる。 複数の異なるタスクの汎用性は、この手法の有効性と一般化能力を強く証明する。 ソースフリーメソッドは、ターゲット適応中にクローズドセットドメイン適応アプローチで拡張された場合、Office-31、Office-Home、VisDAで、現在の最先端UNDAメソッドよりも2.5%、7.2%、そして13%向上します。 コードはhttps://github.com/albert0147/oneringで入手できる。

In this paper, we investigate $\textit{open-set recognition}$ with domain shift, where the final goal is to achieve $\textit{Source-free Universal Domain Adaptation}$ (SF-UNDA), which addresses the situation where there exist both domain and category shifts between source and target domains. Under the SF-UNDA setting, the model cannot access source data anymore during target adaptation, which aims to address data privacy concerns. We propose a novel training scheme to learn a ($n$+1)-way classifier to predict the $n$ source classes and the unknown class, where samples of only known source categories are available for training. Furthermore, for target adaptation, we simply adopt a weighted entropy minimization to adapt the source pretrained model to the unlabeled target domain without source data. In experiments, we show: $\textbf{1)}$ After source training, the resulting source model can get excellent performance for $\textit{open-set single domain generalization}$ and also $\textit{open-set recognition}$ tasks; $\textbf{2)}$ After target adaptation, our method surpasses current UNDA approaches which demand source data during adaptation on several benchmarks. The versatility to several different tasks strongly proves the efficacy and generalization ability of our method. $\textbf{3)}$ When augmented with a closed-set domain adaptation approach during target adaptation, our source-free method further outperforms the current state-of-the-art UNDA method by 2.5%, 7.2% and 13% on Office-31, Office-Home and VisDA respectively. Code will be available in https://github.com/Albert0147/OneRing.
翻訳日:2022-06-10 04:28:04 公開日:2022-06-07
# (参考訳) 心筋灌流spect画像における心室セグメンテーションのための形状先行型深層学習を組み込んだ新しい方法

A new method incorporating deep learning with shape priors for left ventricular segmentation in myocardial perfusion SPECT images ( http://arxiv.org/abs/2206.03603v1 )

ライセンス: CC BY 4.0
Fubao Zhu, Jinyu Zhao, Chen Zhao, Shaojie Tang, Jiaofen Nan, Yanting Li, Zhongqiang Zhao, Jianzhou Shi, Zenghong Chen, Zhixin Jiang, Weihua Zhou(参考訳) 背景: 心筋灌流SPECT(MPS)による左室機能評価は, 正確な心筋セグメンテーションに依存している。 本研究の目的は,LV機能パラメータの自動計測のためのLV心筋を高精度に抽出するために,形状に深層学習を取り入れた新しい手法を開発し,検証することである。 方法: 3次元(3次元)v-netと形状変形モジュールを統合するセグメンテーションアーキテクチャを開発した。 動的プログラミング(DP)アルゴリズムによって生成される形状先行値を用いて、モデルの出力を制約し、モデルトレーニング中に誘導し、迅速な収束と性能の向上を実現した。 モデルのトレーニングと検証には,階層化された5倍のクロスバリデーションが使用された。 結果:提案手法の結果は,真理から得られた結果とよく一致している。 提案モデルは,心内膜,心筋,心内膜をそれぞれ0.9573(0.0244),0.9821(0.0137),0.9903(0.0041),ハウスドルフ距離(hd)6.7529(2.7334)mm,7.2507(3.1952)mm,7.6121(3.0134)mmのサイス類似度係数(dsc)をそれぞれ達成した。 結論: 提案手法は, lv心筋輪郭抽出とlv機能評価において高い精度を達成した。

Background: The assessment of left ventricular (LV) function by myocardial perfusion SPECT (MPS) relies on accurate myocardial segmentation. The purpose of this paper is to develop and validate a new method incorporating deep learning with shape priors to accurately extract the LV myocardium for automatic measurement of LV functional parameters. Methods: A segmentation architecture that integrates a three-dimensional (3D) V-Net with a shape deformation module was developed. Using the shape priors generated by a dynamic programming (DP) algorithm, the model output was then constrained and guided during the model training for quick convergence and improved performance. A stratified 5-fold cross-validation was used to train and validate our models. Results: Results of our proposed method agree well with those from the ground truth. Our proposed model achieved a Dice similarity coefficient (DSC) of 0.9573(0.0244), 0.9821(0.0137), and 0.9903(0.0041), a Hausdorff distances (HD) of 6.7529(2.7334) mm, 7.2507(3.1952) mm, and 7.6121(3.0134) mm in extracting the endocardium, myocardium, and epicardium, respectively. Conclusion: Our proposed method achieved a high accuracy in extracting LV myocardial contours and assessing LV function.
翻訳日:2022-06-10 04:11:34 公開日:2022-06-07
# (参考訳) Taylor シリーズ近似を用いたスケーラブルハイパーボリックニューラルネットワークの実現に向けて

Towards Scalable Hyperbolic Neural Networks using Taylor Series Approximations ( http://arxiv.org/abs/2206.03610v1 )

ライセンス: CC BY 4.0
Nurendra Choudhary, Chandan K. Reddy(参考訳) ハイパーボリックネットワークは、コンピュータビジョン、グラフ解析、自然言語処理など、さまざまな領域における階層的データセットを含むいくつかの領域において、ユークリッド対応よりも顕著に改善されている。 しかし、実際には採用が制限されている。 (i)ディープラーニングハードウェアの高速化に関する非scalability (ii)双曲空間の閉包による勾配の消失、及び (iii)局所接空間と完全双曲空間との頻繁なマッピングによる情報損失。 これらの問題に対処するため、Taylor級数展開を用いた双曲作用素の近似を提案し、計算に高価な接と余弦双曲関数をより効率的な多項式同変に再構成することができる。 これにより、現在の高速化されたディープラーニングインフラストラクチャのスケーラビリティを維持しながら、双曲空間の階層的解剖を保存するというメリットを維持できます。 この多項式の定式化により,勾配クリッピングやreluアクティベーションなどのユークリッドネットワークの進歩を活かし,勾配の消失を回避し,接空間と双曲空間の頻繁な切り替えによる誤差を除去できる。 グラフ分析とコンピュータビジョンの領域における標準ベンチマークに関する経験的評価から, 多項式式はユークリッド型アーキテクチャと同様に, メモリと時間複雑性の両面でスケーラブルであり, 双曲型モデルと同等の効果も得られていることがわかった。 さらに, この定式化は, 勾配の消失と情報損失に対する解法により, ベースラインの大幅な改善を示す。

Hyperbolic networks have shown prominent improvements over their Euclidean counterparts in several areas involving hierarchical datasets in various domains such as computer vision, graph analysis, and natural language processing. However, their adoption in practice remains restricted due to (i) non-scalability on accelerated deep learning hardware, (ii) vanishing gradients due to the closure of hyperbolic space, and (iii) information loss due to frequent mapping between local tangent space and fully hyperbolic space. To tackle these issues, we propose the approximation of hyperbolic operators using Taylor series expansions, which allows us to reformulate the computationally expensive tangent and cosine hyperbolic functions into their polynomial equivariants which are more efficient. This allows us to retain the benefits of preserving the hierarchical anatomy of the hyperbolic space, while maintaining the scalability over current accelerated deep learning infrastructure. The polynomial formulation also enables us to utilize the advancements in Euclidean networks such as gradient clipping and ReLU activation to avoid vanishing gradients and remove errors due to frequent switching between tangent space and hyperbolic space. Our empirical evaluation on standard benchmarks in the domain of graph analysis and computer vision shows that our polynomial formulation is as scalable as Euclidean architectures, both in terms of memory and time complexity, while providing results as effective as hyperbolic models. Moreover, our formulation also shows a considerable improvement over its baselines due to our solution to vanishing gradients and information loss.
翻訳日:2022-06-10 03:53:28 公開日:2022-06-07
# 偏りのない推薦のためのブリッジングアルゴリズムと理論

Towards Bridging Algorithm and Theory for Unbiased Recommendation ( http://arxiv.org/abs/2206.03851v1 )

ライセンス: Link先を確認
Teng Xiao, Zhengyu Chen, Suhang Wang(参考訳) 本研究は,推薦システムに対するバイアスフィードバックからバイアスのないアルゴリズムを学習する問題を研究する。 理論的およびアルゴリズム的な観点からこの問題に対処する。 近年, メタラーニング, 知識蒸留, 情報ボトルネックなどの技術により, 未開の学習が最先端化している。 実証的な成功にもかかわらず、そのほとんどは理論的な保証がなく、理論と最近のアルゴリズムの間に非無視的なギャップを形成している。 この目的のために、まず分布シフトの観点から、偏りのない推奨問題を考察する。 非バイアス学習の一般化限界を理論的に解析し,最近の非バイアス学習目標との密接な関係を示唆する。 理論的分析に基づき,非偏見的推薦のための基本的枠組みであるAdversarial Self-Training(AST)を提案する。 実世界および半合成データセットの実証評価により,提案したASTの有効性が示された。

This work studies the problem of learning unbiased algorithms from biased feedback for recommender systems. We address this problem from both theoretical and algorithmic perspectives. Recent works in unbiased learning have advanced the state-of-the-art with various techniques such as meta-learning, knowledge distillation, and information bottleneck. Despite their empirical successes, most of them lack theoretical guarantee, forming non-negligible gaps between the theories and recent algorithms. To this end, we first view the unbiased recommendation problem from a distribution shift perspective. We theoretically analyze the generalization bounds of unbiased learning and suggest their close relations with recent unbiased learning objectives. Based on the theoretical analysis, we further propose a principled framework, Adversarial Self-Training (AST), for unbiased recommendation. Empirical evaluation on real-world and semi-synthetic datasets demonstrate the effectiveness of the proposed AST.
翻訳日:2022-06-09 15:05:17 公開日:2022-06-07
# fel: 連合アンサンブル学習による推薦とランキングのための高容量学習

FEL: High Capacity Learning for Recommendation and Ranking via Federated Ensemble Learning ( http://arxiv.org/abs/2206.03852v1 )

ライセンス: Link先を確認
Meisam Hejazinia Dzmitry Huba, Ilias Leontiadis, Kiwan Maeng, Mani Malek, Luca Melis, Ilya Mironov, Milad Nasr, Kaikai Wang, Carole-Jean Wu(参考訳) federated learning(fl)は、消費者プライバシニーズに対処する効果的なアプローチとして登場した。 flはスマートキーボードモデルのトレーニングやキーワードスポッティングなど、特定の機械学習タスクにうまく適用されている。 FLの最初の成功にもかかわらず、ランキングやレコメンデーションタスクなど多くの重要なディープラーニングのユースケースは、デバイス上での学習に限定されている。 dlベースのランキングとレコメンデーションの実際的なfl採用によって直面した重要な課題の1つは、現代のモバイルシステムでは満足できないリソース要件である。 本稿では,ディープラーニングランキングと推薦タスクの大規模なメモリ要件に対処する手段として,FEL(Federated Ensemble Learning)を提案する。 FELは、クライアントデバイスの不整合クラスタ上で複数のモデルバージョンを同時にトレーニングすることにより、デバイス上での大規模ランキングとレコメンデーションモデルのトレーニングを可能にする。 FELは、訓練されたサブモデルをオーバーアーキテクチャ層を介してサーバにホストされるアンサンブルモデルに統合する。 我々の実験は、FELが従来のデバイス上でのフェデレーション学習よりも0.43-2.31%モデル品質の改善をもたらすことを示した。

Federated learning (FL) has emerged as an effective approach to address consumer privacy needs. FL has been successfully applied to certain machine learning tasks, such as training smart keyboard models and keyword spotting. Despite FL's initial success, many important deep learning use cases, such as ranking and recommendation tasks, have been limited from on-device learning. One of the key challenges faced by practical FL adoption for DL-based ranking and recommendation is the prohibitive resource requirements that cannot be satisfied by modern mobile systems. We propose Federated Ensemble Learning (FEL) as a solution to tackle the large memory requirement of deep learning ranking and recommendation tasks. FEL enables large-scale ranking and recommendation model training on-device by simultaneously training multiple model versions on disjoint clusters of client devices. FEL integrates the trained sub-models via an over-arch layer into an ensemble model that is hosted on the server. Our experiments demonstrate that FEL leads to 0.43-2.31% model quality improvement over traditional on-device federated learning - a significant improvement for ranking and recommendation system use cases.
翻訳日:2022-06-09 15:05:05 公開日:2022-06-07
# 深層学習による単一画像超解像を用いた軌道計算の改善

Improving trajectory calculations using deep learning inspired single image superresolution ( http://arxiv.org/abs/2206.04015v1 )

ライセンス: Link先を確認
R\"udiger Brecht, Lucie Bakels, Alex Bihlo, Andreas Stohl(参考訳) ラグランジアン軌道や粒子分散モデル、半ラグランジアン対流スキームは、通常の格子から独立に動く粒子の正確な時空間的位置において風、温度、地電位などの気象データを必要とする。 伝統的に、この高分解能データは、気象モデルの格子データから気象パラメータを補間したり、例えば時空における線形補間を用いて再分析したりすることで得られる。 しかし、補間誤差はこれらのモデルにとって大きな誤差源である。 それらを減らすには、高空間と時間分解能の気象学的入力フィールドが必要であり、必ずしも利用できない可能性があり、データ保存や転送の問題を引き起こす可能性がある。 本稿では,この問題を単一画像超解像課題と解釈する。 我々は、ネイティブ解像度で利用可能な気象場を低解像度画像として解釈し、ディープニューラルネットワークを訓練してより高分解能に拡張し、ラグランジアンモデルに対してより正確なデータを提供する。 低分解能ERA5リアナリシスデータに対する超解像のための最先端深部残像ネットワークの様々なバージョンを訓練し、これらのデータを任意の空間分解能にスケールアップする。 以上の結果から, 線形空間補間により得られた風の大きさの半分の根平均二乗誤差を許容可能な計算コストで有することを示す。 ラグランジュ粒子分散モデルFLEXPARTと低分解能風場を用いた実験では, 2{\deg} から 1{\deg} (4{\deg} から 2{\deg} への学習における風速データの線形補間による48時間後, 0.5{\deg} の風速で計算した「地中トラジェクトリ」の絶対水平輸送偏差が少なくとも49.5% (21.8%) 減少することを示した。

Lagrangian trajectory or particle dispersion models as well as semi-Lagrangian advection schemes require meteorological data such as wind, temperature and geopotential at the exact spatio-temporal locations of the particles that move independently from a regular grid. Traditionally, this high-resolution data has been obtained by interpolating the meteorological parameters from the gridded data of a meteorological model or reanalysis, e.g. using linear interpolation in space and time. However, interpolation errors are a large source of error for these models. Reducing them requires meteorological input fields with high space and time resolution, which may not always be available and can cause severe data storage and transfer problems. Here, we interpret this problem as a single image superresolution task. We interpret meteorological fields available at their native resolution as low-resolution images and train deep neural networks to up-scale them to higher resolution, thereby providing more accurate data for Lagrangian models. We train various versions of the state-of-the-art Enhanced Deep Residual Networks for Superresolution on low-resolution ERA5 reanalysis data with the goal to up-scale these data to arbitrary spatial resolution. We show that the resulting up-scaled wind fields have root-mean-squared errors half the size of the winds obtained with linear spatial interpolation at acceptable computational inference costs. In a test setup using the Lagrangian particle dispersion model FLEXPART and reduced-resolution wind fields, we demonstrate that absolute horizontal transport deviations of calculated trajectories from "ground-truth" trajectories calculated with undegraded 0.5{\deg} winds are reduced by at least 49.5% (21.8%) after 48 hours relative to trajectories using linear interpolation of the wind data when training on 2{\deg} to 1{\deg} (4{\deg} to 2{\deg}) resolution data.
翻訳日:2022-06-09 15:04:38 公開日:2022-06-07
# 過度なパラメトリゼーションは少数派のパフォーマンスにどのように影響するか?

How does overparametrization affect performance on minority groups? ( http://arxiv.org/abs/2206.03515v1 )

ライセンス: Link先を確認
Subha Maity, Saptarshi Roy, Songkai Xue, Mikhail Yurochkin, Yuekai Sun(参考訳) 現代の機械学習(ML)モデルの全体的なパフォーマンスに対するオーバーパラメータ化の利点はよく知られている。 しかし、より粒度の細かいデータサブグループにおける過度パラメータ化の効果は理解されていない。 最近の実証研究は、励ましの結果を示している。 i) 集団が不明な場合,経験的リスク最小化(ERM)で訓練された過度パラメータ化モデルは,少数群に対してより良い性能を発揮する。 2) 群が知られている場合, グループサイズを等化するためにサンプリングされたデータ上のERMは, 過度にパラメータ化された状態において, 最先端の最悪のグループ精度をもたらす。 本稿では,これらの実証研究を補完し,少数集団における過度パラメータ化ランダム特徴モデルのリスクに関する理論的研究を行う。 多数派と少数派の回帰関数が異なる環境では、過パラメータ化は常に少数派のパフォーマンスを改善することを示す。

The benefits of overparameterization for the overall performance of modern machine learning (ML) models are well known. However, the effect of overparameterization at a more granular level of data subgroups is less understood. Recent empirical studies demonstrate encouraging results: (i) when groups are not known, overparameterized models trained with empirical risk minimization (ERM) perform better on minority groups; (ii) when groups are known, ERM on data subsampled to equalize group sizes yields state-of-the-art worst-group-accuracy in the overparameterized regime. In this paper, we complement these empirical studies with a theoretical investigation of the risk of overparameterized random feature models on minority groups. In a setting in which the regression functions for the majority and minority groups are different, we show that overparameterization always improves minority group performance.
翻訳日:2022-06-09 15:03:05 公開日:2022-06-07
# 通信圧縮とベルヌーイアグリゲーションを用いた分散ニュートン型手法

Distributed Newton-Type Methods with Communication Compression and Bernoulli Aggregation ( http://arxiv.org/abs/2206.03588v1 )

ライセンス: Link先を確認
Rustem Islamov and Xun Qian and Slavom\'ir Hanzely and Mher Safaryan and Peter Richt\'arik(参考訳) 計算と通信コストが高いにもかかわらず、Newton型の手法は不条件の凸問題に対する堅牢性のために分散トレーニングに魅力的な選択肢である。 本研究では, 理論的に優れた局所収束保証を維持しつつ, コストを削減するために, 曲率情報に対するommunication compression and aggregate mechanismについて検討する。 最近開発されたRichtarikらの3点圧縮機(3PC)のクラスを証明した。 勾配通信の[2022]もヘッセン通信に一般化できる。 この結果から,契約圧縮や遅延集約などの多種多様な通信戦略が開かれ,不当にコストのかかる曲率情報を圧縮することができる。 さらに,適応しきい値処理やベルヌーイ集約などの新しい3PC機構が発見された。 さらに,双方向コミュニケーション圧縮および部分的デバイス参加設定へのアプローチを拡張し分析し,連合学習における応用の実際的考察に資する。 すべての方法において,高速な条件数非依存局所線形および/または超線形収束率を求める。 最後に,凸最適化問題に対する広範な数値評価を行い,2次情報を用いた複数のキーベースラインと比較して,設計手法が最先端の通信複雑性を実現することを示す。

Despite their high computation and communication costs, Newton-type methods remain an appealing option for distributed training due to their robustness against ill-conditioned convex problems. In this work, we study ommunication compression and aggregation mechanisms for curvature information in order to reduce these costs while preserving theoretically superior local convergence guarantees. We prove that the recently developed class of three point compressors (3PC) of Richtarik et al. [2022] for gradient communication can be generalized to Hessian communication as well. This result opens up a wide variety of communication strategies, such as contractive compression} and lazy aggregation, available to our disposal to compress prohibitively costly curvature information. Moreover, we discovered several new 3PC mechanisms, such as adaptive thresholding and Bernoulli aggregation, which require reduced communication and occasional Hessian computations. Furthermore, we extend and analyze our approach to bidirectional communication compression and partial device participation setups to cater to the practical considerations of applications in federated learning. For all our methods, we derive fast condition-number-independent local linear and/or superlinear convergence rates. Finally, with extensive numerical evaluations on convex optimization problems, we illustrate that our designed schemes achieve state-of-the-art communication complexity compared to several key baselines using second-order information.
翻訳日:2022-06-09 14:35:14 公開日:2022-06-07
# フェデレーション学習における対象粒界差分プライバシー

Subject Granular Differential Privacy in Federated Learning ( http://arxiv.org/abs/2206.03617v1 )

ライセンス: Link先を確認
Virendra J. Marathe and Pallika Kanani(参考訳) 本稿では,フェデレーション・ラーニング(FL)設定において,個人が個人情報を1つのフェデレーション・ユーザに限定するか,複数のフェデレーション・ユーザに分散した複数のデータ項目で具体化している場合の,詳細なプライバシーについて述べる。 FLの主観レベル差分プライバシーの概念を正式に定義する。 対象レベルdpを強制する3つの新しいアルゴリズムを提案する。 これらのアルゴリズムの2つは、それぞれユーザレベルのローカルディファレンシャルプライバシ(ldp)とグループディファレンシャルプライバシの概念に基づいている。 第3のアルゴリズムは、トレーニングミニバッチに参加する被験者のための階層的勾配平均化(HiGradAvgDP)という新しいアイデアに基づいている。 また,複数のフェデレーションユーザが対象とするプライバシ損失の水平構成についても紹介する。 その結果, 水平合成は最悪の場合, 逐次合成と等価であることがわかった。 FEMNIST とシェークスピアデータセットを用いて,全てのアルゴリズムに対して対象レベルのDPを保証することを実証する。 評価の結果,我々の3つのアルゴリズムのうち,higradavgdpは最高のモデル性能を提供し,dp-sgdベースのアルゴリズムでトレーニングされたモデルに近づくことで,項目レベルのプライバシ保証が弱くなることがわかった。

This paper introduces subject granular privacy in the Federated Learning (FL) setting, where a subject is an individual whose private information is embodied by several data items either confined within a single federation user or distributed across multiple federation users. We formally define the notion of subject level differential privacy for FL. We propose three new algorithms that enforce subject level DP. Two of these algorithms are based on notions of user level local differential privacy (LDP) and group differential privacy respectively. The third algorithm is based on a novel idea of hierarchical gradient averaging (HiGradAvgDP) for subjects participating in a training mini-batch. We also introduce horizontal composition of privacy loss for a subject across multiple federation users. We show that horizontal composition is equivalent to sequential composition in the worst case. We prove the subject level DP guarantee for all our algorithms and empirically analyze them using the FEMNIST and Shakespeare datasets. Our evaluation shows that, of our three algorithms, HiGradAvgDP delivers the best model performance, approaching that of a model trained using a DP-SGD based algorithm that provides a weaker item level privacy guarantee.
翻訳日:2022-06-09 14:34:55 公開日:2022-06-07
# DeepCAVE: 自動機械学習のためのインタラクティブ分析ツール

DeepCAVE: An Interactive Analysis Tool for Automated Machine Learning ( http://arxiv.org/abs/2206.03493v1 )

ライセンス: Link先を確認
Ren\'e Sass and Eddie Bergman and Andr\'e Biedenkapp and Frank Hutter and Marius Lindauer(参考訳) Automated Machine Learning(AutoML)は、効率的なハイパーパラメータ、ニューラルアーキテクチャ、さらにはフル機械学習パイプラインの決定において、ユーザをサポートするために、これまで以上に使用されている。 しかし、透明性の欠如により、ユーザは最適化プロセスとその結果が不信になる傾向にあり、手動チューニングが普及している。 我々は,AutoMLの最先端最適化手順を分析し,監視するインタラクティブなフレームワークであるDeepCAVEを紹介した。 DeepCAVEは、完全かつアクセス可能な透明性を目指して、ユーザとAutoMLの間のブリッジを構築し、信頼の確立に貢献する。 当社のフレームワークのモジュール構造は、ユーザが自動的に生成したテキスト、テーブル、グラフィック視覚化を提供する。 我々はDeepCAVEの価値を、異常検出の例に示し、このフレームワークは問題を識別しやすくし、複数の実行を比較し、最適化プロセスを解釈する。 パッケージはGitHub https://github.com/automl/DeepCAVE.comから無料で入手できる。

Automated Machine Learning (AutoML) is used more than ever before to support users in determining efficient hyperparameters, neural architectures, or even full machine learning pipelines. However, users tend to mistrust the optimization process and its results due to a lack of transparency, making manual tuning still widespread. We introduce DeepCAVE, an interactive framework to analyze and monitor state-of-the-art optimization procedures for AutoML easily and ad hoc. By aiming for full and accessible transparency, DeepCAVE builds a bridge between users and AutoML and contributes to establishing trust. Our framework's modular and easy-to-extend nature provides users with automatically generated text, tables, and graphic visualizations. We show the value of DeepCAVE in an exemplary use-case of outlier detection, in which our framework makes it easy to identify problems, compare multiple runs and interpret optimization processes. The package is freely available on GitHub https://github.com/automl/DeepCAVE.
翻訳日:2022-06-09 13:52:01 公開日:2022-06-07
# NOMAD: 演算子学習のための非線形マニフォールドデコーダ

NOMAD: Nonlinear Manifold Decoders for Operator Learning ( http://arxiv.org/abs/2206.03551v1 )

ライセンス: Link先を確認
Jacob H. Seidman, Georgios Kissas, Paris Perdikaris, George J. Pappas(参考訳) 関数空間における教師あり学習は、流体流、固体力学、気候モデリングなどの複雑な物理システムの予測に応用される機械学習研究の新しい分野である。 無限次元関数空間間の写像(作用素)を直接学習することで、これらのモデルは対象関数の離散化不変表現を学ぶことができる。 一般的なアプローチは、そのような対象関数をデータから学習した基底要素の線形結合として表現することである。 しかし、ターゲット関数が低次元部分多様体を形成しても、正確な線形表現には非常に多くの基底要素が必要であるという単純なシナリオがある。 ここでは、非線型部分多様体の有限次元表現を関数空間で学習できる非線形デコーダマップを持つ新しい演算子学習フレームワークであるNOMADを提案する。 本手法は, 偏微分方程式に対する解多様体の低次元表現を, より大きな線形モデルよりも精度良く学習できることを示す。 さらに,複雑な流体力学ベンチマークを用いた最先端の演算子学習手法と比較し,モデルサイズとトレーニングコストを大幅に削減した競合性能を実現する。

Supervised learning in function spaces is an emerging area of machine learning research with applications to the prediction of complex physical systems such as fluid flows, solid mechanics, and climate modeling. By directly learning maps (operators) between infinite dimensional function spaces, these models are able to learn discretization invariant representations of target functions. A common approach is to represent such target functions as linear combinations of basis elements learned from data. However, there are simple scenarios where, even though the target functions form a low dimensional submanifold, a very large number of basis elements is needed for an accurate linear representation. Here we present NOMAD, a novel operator learning framework with a nonlinear decoder map capable of learning finite dimensional representations of nonlinear submanifolds in function spaces. We show this method is able to accurately learn low dimensional representations of solution manifolds to partial differential equations while outperforming linear models of larger size. Additionally, we compare to state-of-the-art operator learning methods on a complex fluid dynamics benchmark and achieve competitive performance with a significantly smaller model size and training cost.
翻訳日:2022-06-09 13:51:45 公開日:2022-06-07
# 伝記的出来事抽出のためのガイドラインとコーパス

Guidelines and a Corpus for Extracting Biographical Events ( http://arxiv.org/abs/2206.03547v1 )

ライセンス: Link先を確認
Marco Antonio Stranisci, Enrico Mensa, Ousmane Diakite, Daniele Radicioni, Rossana Damiano(参考訳) バイオグラフィーはセマンティックウェブに広く普及しているが、自動的に伝記イベントを抽出するリソースやアプローチは限られている。 このような制限は、構造化され、機械で読める伝記情報、特に少数集団に属する人々の量を減らす。 我々の研究は、ライフイベントの意味的アノテーションの一連のガイドラインを提供することによって、この制限に挑戦する。 このガイドラインは、ISO-TimeML (ISO-24617-1) とSemAF (ISO-24617-4) と相互運用できるように設計されている。 ガイドラインはウィキペディアのバイオグラフィー、すなわち非西欧諸国で生まれた作家、移民、または少数民族に属する作家の注釈によってテストされた。 1000の文は4つのアノテーションによって注釈付けされ、平均的なアノテーション間合意は0.825である。 得られたコーパスはOntoNotesにマップされた。 このようなマッピングによってコーパスを拡大することができ、既存のリソースをバイオグラフィカルなイベント抽出タスクに活用できることを示した。

Despite biographies are widely spread within the Semantic Web, resources and approaches to automatically extract biographical events are limited. Such limitation reduces the amount of structured, machine-readable biographical information, especially about people belonging to underrepresented groups. Our work challenges this limitation by providing a set of guidelines for the semantic annotation of life events. The guidelines are designed to be interoperable with existing ISO-standards for semantic annotation: ISO-TimeML (ISO-24617-1), and SemAF (ISO-24617-4). Guidelines were tested through an annotation task of Wikipedia biographies of underrepresented writers, namely authors born in non-Western countries, migrants, or belonging to ethnic minorities. 1,000 sentences were annotated by 4 annotators with an average Inter-Annotator Agreement of 0.825. The resulting corpus was mapped on OntoNotes. Such mapping allowed to to expand our corpus, showing that already existing resources may be exploited for the biographical event extraction task.
翻訳日:2022-06-09 13:26:05 公開日:2022-06-07
# obpose: 3dでオブジェクト中心のシーン推論に標準的なポーズを活用する

ObPose: Leveraging Canonical Pose for Object-Centric Scene Inference in 3D ( http://arxiv.org/abs/2206.03591v1 )

ライセンス: Link先を確認
Yizhe Wu, Oiwi Parker Jones, Ingmar Posner(参考訳) 我々は、RGB-Dビデオから3Dオブジェクトを教師なしで分割することを学ぶ、教師なしオブジェクト中心生成モデルObPoseを提案する。 2D表現学習における先行技術に触発されたObPoseは、対象位置(場所)と外見(場所)情報を別々に符号化して、分解された潜在空間を考える。 特にobposeは、最小体積原理によって定義される対象の標準的姿勢を、where成分を学ぶための新しい帰納的バイアスとして利用する。 そこで本研究では,神経放射場(nerf)から直接物体形状を復元する効率的なボクセル近似手法を提案する。 その結果、ObPoseはシーンを個々のオブジェクトを表すNeRFの合成としてモデル化する。 教師なしシーンセグメンテーションのためのYCBデータセットで評価すると、ObPoseは、ビデオ入力とマルチビュー静的シーンの両方のセグメンテーション品質において、現在の3Dシーン推論(ObSuRF)よりもかなり優れている。 さらに、ObPoseエンコーダの設計選択は、関連する改善によって検証される。

We present ObPose, an unsupervised object-centric generative model that learns to segment 3D objects from RGB-D video in an unsupervised manner. Inspired by prior art in 2D representation learning, ObPose considers a factorised latent space, separately encoding object-wise location (where) and appearance (what) information. In particular, ObPose leverages an object's canonical pose, defined via a minimum volume principle, as a novel inductive bias for learning the where component. To achieve this, we propose an efficient, voxelised approximation approach to recover the object shape directly from a neural radiance field (NeRF). As a consequence, ObPose models scenes as compositions of NeRFs representing individual objects. When evaluated on the YCB dataset for unsupervised scene segmentation, ObPose outperforms the current state-of-the-art in 3D scene inference (ObSuRF) by a significant margin in terms of segmentation quality for both video inputs as well as for multi-view static scenes. In addition, the design choices made in the ObPose encoder are validated with relevant ablations.
翻訳日:2022-06-09 13:25:47 公開日:2022-06-07
# メタラーニング変換可能なパラメータ化スキル

Meta-Learning Transferable Parameterized Skills ( http://arxiv.org/abs/2206.03597v1 )

ライセンス: Link先を確認
Haotian Fu, Shangqun Yu, Saket Tiwari, George Konidaris, Michael Littman(参考訳) 本稿では,移動可能なパラメータ化スキルを学習し,長期タスクにおける効率的な学習を支援する新しいアクション空間に合成することを目的とした,新しいパラメータ化スキル学習アルゴリズムを提案する。 まず、エージェントがメタ学習で再利用可能なパラメータ化スキルを習得できる新しい学習目標(軌道中心の多様性と滑らかさ)を提案する。 エージェントは,これらの学習スキルを用いて,時間拡張されたパラメータ化行動マルコフ決定プロセスを構築し,学習スキルを用いて高レベル制御ポリシーを効率的に学習することを目的とした階層的アクター・クリティックアルゴリズムを提案する。 提案アルゴリズムは, エージェントが複雑な長距離障害物コース環境を解くことを可能にすることを実証的に実証する。

We propose a novel parameterized skill-learning algorithm that aims to learn transferable parameterized skills and synthesize them into a new action space that supports efficient learning in long-horizon tasks. We first propose novel learning objectives -- trajectory-centric diversity and smoothness -- that allow an agent to meta-learn reusable parameterized skills. Our agent can use these learned skills to construct a temporally-extended parameterized-action Markov decision process, for which we propose a hierarchical actor-critic algorithm that aims to efficiently learn a high-level control policy with the learned skills. We empirically demonstrate that the proposed algorithms enable an agent to solve a complicated long-horizon obstacle-course environment.
翻訳日:2022-06-09 13:24:34 公開日:2022-06-07
# 指数関数系多腕バンディットに対するトンプソンサンプリングアルゴリズムの有限時間後悔

Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits ( http://arxiv.org/abs/2206.03520v1 )

ライセンス: Link先を確認
Tianyuan Jin, Pan Xu, Xiaokui Xiao, Anima Anandkumar(参考訳) 本研究では,指数関数群に対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。報奨分布は,ベルヌーイ,ガウス,ガンマ,指数など,多くの共通報酬分布をカバーする一次元指数関数族から得られるものである。 本研究では, 最適なアームの過大評価を避けるために, 新しいサンプリング分布を用いたトンプソンサンプリングアルゴリズムexptsを提案する。 我々はExpTSに対して厳密な後悔解析を行い、同時に有限時間後悔境界と漸近後悔境界の両方をもたらす。 特に、指数関数的な家族報酬を持つ$K$武装バンディットの場合、地平線上のExpTSはサブUCB(問題に依存しない有限時間後悔の強い基準)であり、最小限の最大値は$\sqrt{\log K}$であり、指数関数的な家族報酬に対して漸近的に最適である。 さらに,expts$^+$ を,expts のサンプリング分布に加えて欲張りなエクスプロイトステップを追加して,準最適アームの過剰推定を回避することを提案する。 ExpTS$^+$は任意の帯域幅アルゴリズムであり、指数関数的な家族報酬分布に対して極小最適化と漸近最適化を同時に達成する。 提案手法は一般的かつ概念的にシンプルであり,特定の報酬分布を持つ標準トンプソンサンプリングの解析に容易に適用できる。

We study the regret of Thompson sampling (TS) algorithms for exponential family bandits, where the reward distribution is from a one-dimensional exponential family, which covers many common reward distributions including Bernoulli, Gaussian, Gamma, Exponential, etc. We propose a Thompson sampling algorithm, termed ExpTS, which uses a novel sampling distribution to avoid the under-estimation of the optimal arm. We provide a tight regret analysis for ExpTS, which simultaneously yields both the finite-time regret bound as well as the asymptotic regret bound. In particular, for a $K$-armed bandit with exponential family rewards, ExpTS over a horizon $T$ is sub-UCB (a strong criterion for the finite-time regret that is problem-dependent), minimax optimal up to a factor $\sqrt{\log K}$, and asymptotically optimal, for exponential family rewards. Moreover, we propose ExpTS$^+$, by adding a greedy exploitation step in addition to the sampling distribution used in ExpTS, to avoid the over-estimation of sub-optimal arms. ExpTS$^+$ is an anytime bandit algorithm and achieves the minimax optimality and asymptotic optimality simultaneously for exponential family reward distributions. Our proof techniques are general and conceptually simple and can be easily applied to analyze standard Thompson sampling with specific reward distributions.
翻訳日:2022-06-09 13:22:10 公開日:2022-06-07
# 非ホモフィラスグラフに対する分離自己教師付き学習

Decoupled Self-supervised Learning for Non-Homophilous Graphs ( http://arxiv.org/abs/2206.03601v1 )

ライセンス: Link先を確認
Teng Xiao, Zhengyu Chen, Zhimeng Guo, Zeyang Zhuang, Suhang Wang(参考訳) 本稿では,非ホモフィラスグラフを用いたノード表現学習における自己教師あり学習の課題について検討する。 既存の自己教師付き学習手法では、グラフは一般に、連結ノードがしばしば同じクラスに属したり、類似した特徴を持つホモフレンドリーであると仮定する。 しかし、そのようなホモフィリーの仮定は実世界のグラフにおいて必ずしも真であるとは限らない。 グラフニューラルネットワークのための分離自己教師付き学習(DSSL)フレームワークを開発することでこの問題に対処する。 DSSLはノードの生成過程を模倣し、セマンティック構造を潜在変数モデリングからリンクし、各地区間の異なるセマンティックスを自己教師付きノード学習プロセスに分離する。 当社のDSSLフレームワークはエンコーダに非依存であり,前処理の強化を必要としないため,異なるグラフに対して柔軟性がある。 潜在変数を持つフレームワークを効果的に最適化するために,自己教師付き目標の低バウンドな証拠を導出し,変動推論を用いたスケーラブルなトレーニングアルゴリズムを開発した。 DSSLがよりダウンストリームのパフォーマンスを享受できることを正当化するための理論的分析を提供する。 グラフベンチマークの多種多様な実験により,提案するフレームワークは,競争力のある自己教師付き学習ベースラインと比較して,性能が著しく向上することを示した。

In this paper, we study the problem of conducting self-supervised learning for node representation learning on non-homophilous graphs. Existing self-supervised learning methods typically assume the graph is homophilous where linked nodes often belong to the same class or have similar features. However, such assumptions of homophily do not always hold true in real-world graphs. We address this problem by developing a decoupled self-supervised learning (DSSL) framework for graph neural networks. DSSL imitates a generative process of nodes and links from latent variable modeling of the semantic structure, which decouples different underlying semantics between different neighborhoods into the self-supervised node learning process. Our DSSL framework is agnostic to the encoders and does not need prefabricated augmentations, thus is flexible to different graphs. To effectively optimize the framework with latent variables, we derive the evidence lower-bound of the self-supervised objective and develop a scalable training algorithm with variational inference. We provide a theoretical analysis to justify that DSSL enjoys better downstream performance. Extensive experiments on various types of graph benchmarks demonstrate that our proposed framework can significantly achieve better performance compared with competitive self-supervised learning baselines.
翻訳日:2022-06-09 13:21:42 公開日:2022-06-07
# 認知タスク間の関係を反映した脳状態のデコード学習

Transfer learning to decode brain states reflecting the relationship between cognitive tasks ( http://arxiv.org/abs/2206.03950v1 )

ライセンス: Link先を確認
Youzhi Qu, Xinyao Jian, Wenxin Che, Penghui Du, Kai Fu, Quanying Liu(参考訳) 転送学習は、特定のソースタスクのデータを活用することにより、ターゲットタスクの性能を向上させる。 神経科学では、認知的タスク間の関係は通常、活性化された脳領域や神経表現の類似性によって表される。 しかし、認知タスク間の関係を明らかにするために、伝達学習と神経科学の関連性は研究されていない。 本研究では,認知タスク間の関係を反映した伝達学習フレームワークを提案し,伝達学習と脳領域(ニューロシンスなど)の重なりによって反映されるタスク関係を比較した。 転帰学習の結果は、ニューロシンスから派生したタスク関係とよく一致する認知的タスク間の関係を反映する認知的タスクノミーを生み出す。 伝達学習は、ソースとターゲットの認知タスクが同様の脳領域を活性化した場合、fMRIデータによるタスクデコーディングにおいてより良いパフォーマンスを発揮する。 本研究は,複数の認知的タスクの関係を明らかにし,小標本データに基づくニューラルデコードのためのトランスファー学習におけるソースタスク選択のためのガイダンスを提供する。

Transfer learning improves the performance of the target task by leveraging the data of a specific source task: the closer the relationship between the source and the target tasks, the greater the performance improvement by transfer learning. In neuroscience, the relationship between cognitive tasks is usually represented by similarity of activated brain regions or neural representation. However, no study has linked transfer learning and neuroscience to reveal the relationship between cognitive tasks. In this study, we propose a transfer learning framework to reflect the relationship between cognitive tasks, and compare the task relations reflected by transfer learning and by the overlaps of brain regions (e.g., neurosynth). Our results of transfer learning create cognitive taskonomy to reflect the relationship between cognitive tasks which is well in line with the task relations derived from neurosynth. Transfer learning performs better in task decoding with fMRI data if the source and target cognitive tasks activate similar brain regions. Our study uncovers the relationship of multiple cognitive tasks and provides guidance for source task selection in transfer learning for neural decoding based on small-sample data.
翻訳日:2022-06-09 13:14:23 公開日:2022-06-07
# FedPop:個人化されたフェデレーション学習のためのベイズ的アプローチ

FedPop: A Bayesian Approach for Personalised Federated Learning ( http://arxiv.org/abs/2206.03611v1 )

ライセンス: Link先を確認
Nikita Kotelevskii and Maxime Vono and Eric Moulines and Alain Durmus(参考訳) パーソナライズド・フェデレーション・ラーニング(FL)は、各クライアントに合わせた機械学習モデルを協調的に学習することを目的としている。 この方向には有望な進歩があったが、既存のアプローチの多くは、多くのアプリケーションで重要な不確実な定量化を許さない。 さらに、クロスデバイス環境でのパーソナライゼーションは、特に新規クライアントや少数の観察者にとって、依然として重要な問題である。 本稿は,これらのギャップを埋めることを目的とする。 そこで本研究では,データの不均一性を説明するために,クライアントのモデルが固定された集団パラメータとランダム効果を含む集団モデリングパラダイムに,個人化されたflを再キャストすることで,feedpopを考案した新しい手法を提案する。 本手法の収束保証を導出するために,マルコフ連鎖モンテカルロ法に依拠する新しい連立確率最適化アルゴリズムを導入する。 既存のパーソナライズされたFL法と比較すると,提案手法はクライアントのドリフトに対して堅牢であり,新しいクライアントの推測に実用的であり,その上,軽度の計算およびメモリオーバーヘッド下での不確実性定量化を実現する。 提案するアルゴリズムに対する非漸近収束保証を提供し,その性能を個人化されたフェデレーション学習タスクで示す。

Personalised federated learning (FL) aims at collaboratively learning a machine learning model taylored for each client. Albeit promising advances have been made in this direction, most of existing approaches works do not allow for uncertainty quantification which is crucial in many applications. In addition, personalisation in the cross-device setting still involves important issues, especially for new clients or those having small number of observations. This paper aims at filling these gaps. To this end, we propose a novel methodology coined FedPop by recasting personalised FL into the population modeling paradigm where clients' models involve fixed common population parameters and random effects, aiming at explaining data heterogeneity. To derive convergence guarantees for our scheme, we introduce a new class of federated stochastic optimisation algorithms which relies on Markov chain Monte Carlo methods. Compared to existing personalised FL methods, the proposed methodology has important benefits: it is robust to client drift, practical for inference on new clients, and above all, enables uncertainty quantification under mild computational and memory overheads. We provide non-asymptotic convergence guarantees for the proposed algorithms and illustrate their performances on various personalised federated learning tasks.
翻訳日:2022-06-09 13:14:04 公開日:2022-06-07
# 貯留層計算における漸近安定性

Asymptotic Stability in Reservoir Computing ( http://arxiv.org/abs/2206.03854v1 )

ライセンス: Link先を確認
Jonathan Dong, Erik B\"orve, Mushegh Rafayelyan, Michael Unser(参考訳) Reservoir Computingは、内部重みをランダムに固定したリカレントニューラルネットワークのクラスである。 安定性は摂動に対するネットワーク状態の感度に関係している。 パフォーマンスに直接影響を与えるため、Reservoir Computingでは重要な特性である。 実際には、摂動の影響が指数関数的に爆発するのではなく、貯水池の動力学が豊富であるカオスフロンティアに近い安定した状態にとどまることが望ましい。 現在、入力正則化と不連続活性化関数に関するオープンな疑問が残っている。 本研究では、リカレントカーネル制限を用いて、貯水池コンピューティングの安定性に関する新たな知見を導き出す。 この限界は大きな貯水池のサイズに対応しており、既に数百のニューロンを持つ貯水池に関係している。 安定性とカオスのフロンティアを定量的に評価することで,ハイパーパラメータチューニングに大きな効果が期待できる。 より広い意味では、この結果はリカレントニューラルネットワークの複雑なダイナミクスを理解するのに役立つ。

Reservoir Computing is a class of Recurrent Neural Networks with internal weights fixed at random. Stability relates to the sensitivity of the network state to perturbations. It is an important property in Reservoir Computing as it directly impacts performance. In practice, it is desirable to stay in a stable regime, where the effect of perturbations does not explode exponentially, but also close to the chaotic frontier where reservoir dynamics are rich. Open questions remain today regarding input regularization and discontinuous activation functions. In this work, we use the recurrent kernel limit to draw new insights on stability in reservoir computing. This limit corresponds to large reservoir sizes, and it already becomes relevant for reservoirs with a few hundred neurons. We obtain a quantitative characterization of the frontier between stability and chaos, which can greatly benefit hyperparameter tuning. In a broader sense, our results contribute to understanding the complex dynamics of Recurrent Neural Networks.
翻訳日:2022-06-09 13:13:41 公開日:2022-06-07
# EiX-GNN : グラフニューラルネットワークのための概念レベル固有分散説明器

EiX-GNN : Concept-level eigencentrality explainer for graph neural networks ( http://arxiv.org/abs/2206.03491v1 )

ライセンス: Link先を確認
Pascal Bourdon (XLIM-ASALI), David Helbert (XLIM-ASALI), Adrien Raison(参考訳) 説明は、説明者と説明人の間の現象に関する人間の知識伝達プロセスである。 この現象を説明するために使用される各単語は、その現象の説明者から高い理解を得るために、現在の説明者現象関連知識レベル及び現象自体に応じて、説明者によって慎重に選択されなければならない。 現在、深層モデル、特にグラフニューラルネットワークは、重要な応用においても日常生活において重要な位置を占めている。 このような文脈において、これらのモデルは、センシティブなケースでそれらの使用の信頼性を向上させるために、説明可能であるとも言われる人間の高い解釈性を持つ必要がある。 説明はまた、人間の依存的なタスクであり、深いモデル行動を説明する方法には、利益と品質の説明を提供するためのこれらの社会的関心が含まれる必要がある。 現在の説明方法は、しばしばその説明を提供する社会的側面を阻害し、質問のシグナル的側面のみに焦点を当てている。 本稿では,この社会的特徴をモジュラー概念生成器として,および固有分散概念順序付けアプローチにより信号領域とグラフ領域の側面を活用することにより,グラフニューラルネットワークに適した信頼性の高いソーシャル・アウェア説明手法を提案する。 本手法は,説明過程の背後にある人間依存的な側面を考慮に入れつつ,グラフニューラルネットワークモデルの説明方法を評価する客観的指標について高いスコアを得る。

Explaining is a human knowledge transfer process regarding a phenomenon between an explainer and an explainee. Each word used to explain this phenomenon must be carefully selected by the explainer in accordance with the current explainee phenomenon-related knowledge level and the phenomenon itself in order to have a high understanding from the explainee of the phenomenon. Nowadays, deep models, especially graph neural networks, have a major place in daily life even in critical applications. In such context, those models need to have a human high interpretability also referred as being explainable, in order to improve usage trustability of them in sensitive cases. Explaining is also a human dependent task and methods that explain deep model behavior must include these social-related concerns for providing profitable and quality explanations. Current explaining methods often occlude such social aspect for providing their explanations and only focus on the signal aspect of the question. In this contribution we propose a reliable social-aware explaining method suited for graph neural network that includes this social feature as a modular concept generator and by both leveraging signal and graph domain aspect thanks to an eigencentrality concept ordering approach. Besides our method takes into account the human-dependent aspect underlying any explanation process, we also reach high score regarding state-of-the-art objective metrics assessing explanation methods for graph neural networks models.
翻訳日:2022-06-09 12:31:30 公開日:2022-06-07
# 脳の活動から自然界の映画を自己監督で再現する(動画あり)

A Penny for Your (visual) Thoughts: Self-Supervised Reconstruction of Natural Movies from Brain Activity ( http://arxiv.org/abs/2206.03544v1 )

ライセンス: Link先を確認
Ganit Kupershmidt, Roman Beliy, Guy Gaziv, Michal Irani(参考訳) fMRI脳波記録から自然映像を再構成するのは、大きな2つの理由から非常に難しい。 (i)fMRIデータ取得は困難であるため、監視対象のサンプルは限られており、天然ビデオの巨大な空間をカバーするには不十分である。 (II)fMRI記録の時間分解能は天然ビデオのフレームレートよりもはるかに低い。 本稿では,自然映画再生のための自己監督手法を提案する。 自然なビデオのエンコーディング/デコードよりもサイクル一貫性を採用することで、 (i)トレーニングビデオの全フレームレートを利用して、fMRI記録に対応するクリップに限らない。 (II)fMRI装置内では見たことのない大量の外部天然ビデオを利用する。 これにより、適用可能なトレーニングデータを数桁増やし、デコードネットワークに先立って自然なビデオを導入すると同時に、時間的コヒーレンスも実現する。 我々のアプローチは、制限された教師付きデータでのみトレーニングされるため、競合するメソッドを著しく上回っています。 さらに,従来のfmriデコーダに折り畳むと,元のfmriサンプルレートの最大x8フレームレート(hfr)で映像を再構築できる,新しい簡易な時間的プリミティブも導入した。

Reconstructing natural videos from fMRI brain recordings is very challenging, for two main reasons: (i) As fMRI data acquisition is diffcult, we only have a limited amount of supervised samples, which is not enough to cover the huge space of natural videos; and (ii) The temporal resolution of fMRI recordings is much lower than the frame rate of natural videos. In this paper, we propose a selfsupervised approach for natural movie reconstruction. By employing cycle consistency over Encoding-Decoding natural videos, we can: (i) exploit the full framerate of the training videos, and not be limited only to clips that correspond to fMRI recordings; (ii) exploit massive amounts of external natural videos which the subjects never saw inside the fMRI machine. These enable increasing the applicable training data by several orders of magnitude, introducing natural video priors to the decoding network, as well as temporal coherence. Our approach signifcantly outperforms competing methods, since those train only on the limited supervised data. We further introduce a new and simple temporal prior of natural videos, which when folded into our fMRI decoder further allows us to reconstruct videos at a higher framerate (HFR) of up to x8 of the original fMRI sample rate.
翻訳日:2022-06-09 12:31:05 公開日:2022-06-07
# CNN高効率ネットとIGTDアルゴリズムを用いた電気自動車の充電レベル予測モデル

Predictive Modeling of Charge Levels for Battery Electric Vehicles using CNN EfficientNet and IGTD Algorithm ( http://arxiv.org/abs/2206.03612v1 )

ライセンス: Link先を確認
Seongwoo Choi, Chongzhou Fang, David Haddad, Minsung Kim(参考訳) 畳み込みニューラルネットワーク(CNN)は、膨大な画像データセットを理解するための優れたソリューションです。 電気自動車(EV)のバッテリ装備が世界中で増えている中、電気自動車のドライバーがどのレベルを充電して目的地に着くかを事前に把握する研究が盛んに行われている。 私たちは、テーブル型データセットを分析して、彼らのチャージ状態と、彼らが選択するチャージレベルを理解するために、ディープラーニングのアプローチを実装しました。 さらに,図形データセットを画像データセットとして利用し,畳み込みニューラルネットワークを訓練するための画像生成アルゴリズムを実装した。 また,cnnは表型データセットから変換された画像から情報を読み取るための優れた学習者であり,バッテリ付電気自動車の充電レベルを予測できることを証明するために, efficientnet などの他の cnn アーキテクチャを統合した。 また,モデルの学習率を高めるための最適化手法をいくつか評価し,モデルアーキテクチャの改善に関するさらなる分析を行った。

Convolutional Neural Networks (CNN) have been a good solution for understanding a vast image dataset. As the increased number of battery-equipped electric vehicles is flourishing globally, there has been much research on understanding which charge levels electric vehicle drivers would choose to charge their vehicles to get to their destination without any prevention. We implemented deep learning approaches to analyze the tabular datasets to understand their state of charge and which charge levels they would choose. In addition, we implemented the Image Generator for Tabular Dataset algorithm to utilize tabular datasets as image datasets to train convolutional neural networks. Also, we integrated other CNN architecture such as EfficientNet to prove that CNN is a great learner for reading information from images that were converted from the tabular dataset, and able to predict charge levels for battery-equipped electric vehicles. We also evaluated several optimization methods to enhance the learning rate of the models and examined further analysis on improving the model architecture.
翻訳日:2022-06-09 12:30:47 公開日:2022-06-07
# (参考訳) BERTを用いたスパム検出

Spam Detection Using BERT ( http://arxiv.org/abs/2206.02443v2 )

ライセンス: CC BY 4.0
Thaer Sahmoud, Dr. Mohammad Mikki(参考訳) メールやsmsは、今日のコミュニケーションで最も人気のあるツールであり、メールやsmsの利用者の増加に伴い、スパムの数も増加している。 Spamは、大量のスパムメールやSMSで送られてくる、望ましくない、孤立していないデジタルコミュニケーションの一種であり、ネットワークリンクを不必要に浸水させることで、大きなリソース浪費を引き起こしている。 殆どのスパムメールは、商品を売り込もうとする広告主が発するものだが、フィッシングメールのように、被害者を騙してウェブサイトのログインやクレジットカード情報などの機密情報を漏らそうとする行為は、フィッシング(phishing)と呼ばれる。 スパム対策として、スパムやハムとしてメッセージやメールをフィルタリングできるスパム検知器を構築するために、多くの研究や取り組みが行われている。 本研究では,BERT事前学習モデルを用いて電子メールとメッセージの分類を行い,SMS収集コーパス,エンロンコーパス,スパムアサシンコーパス,Ling-Spamコーパス,SMSスパム収集コーパスなどの複数コーパスを用いてスパム検出モデルを訓練し,スパム検出性能は98.62%,97.83%,99.13%,99.28%であった。 キーワード: Spam Detector、BERT、機械学習、NLP、Transformer、Enron Corpus、SpamAssassin Corpus、SMS Spam Detection Corpus、Ling-Spam Corpus。

Emails and SMSs are the most popular tools in today communications, and as the increase of emails and SMSs users are increase, the number of spams is also increases. Spam is any kind of unwanted, unsolicited digital communication that gets sent out in bulk, spam emails and SMSs are causing major resource wastage by unnecessarily flooding the network links. Although most spam mail originate with advertisers looking to push their products, some are much more malicious in their intent like phishing emails that aims to trick victims into giving up sensitive information like website logins or credit card information this type of cybercrime is known as phishing. To countermeasure spams, many researches and efforts are done to build spam detectors that are able to filter out messages and emails as spam or ham. In this research we build a spam detector using BERT pre-trained model that classifies emails and messages by understanding to their context, and we trained our spam detector model using multiple corpuses like SMS collection corpus, Enron corpus, SpamAssassin corpus, Ling-Spam corpus and SMS spam collection corpus, our spam detector performance was 98.62%, 97.83%, 99.13% and 99.28% respectively. Keywords: Spam Detector, BERT, Machine learning, NLP, Transformer, Enron Corpus, SpamAssassin Corpus, SMS Spam Detection Corpus, Ling-Spam Corpus.
翻訳日:2022-06-09 10:29:25 公開日:2022-06-07
# 深部3dフィッティングとメトリックラーニングによるグレヴィのゼブラ識別に向けて

Towards Individual Grevy's Zebra Identification via Deep 3D Fitting and Metric Learning ( http://arxiv.org/abs/2206.02261v2 )

ライセンス: Link先を確認
Maria Stennett, Daniel I. Rubenstein, Tilo Burghardt(参考訳) 本稿では,1つのパイプラインで種検出,3次元モデルフィッティング,メートル法学習のためのディープラーニング技術を組み合わせて,ユニークなコートパターンを活用し,写真から個体識別を行う。 これは、従来の2DバウンディングボックスやセグメンテーションベースのCNN識別パイプラインと比較して、効果的で明示的な視点正規化を提供し、学習されたバイオメトリックス空間を直線的に可視化することができる。 メトリック学習を使用することで、パイプラインはオープンセットやゼロショットの再識別シナリオにも容易に適用できる点に注意が必要だ。 提案手法をGrevy's zebra(Equus grevyi)の個人識別に適用し,SMALSTデータセットの小さな研究で,3次元モデルフィッティングが実際に性能に有効であることを示す。 特に、3D装着モデルのバックプロジェクションされたテクスチャは、データセットの2Dバウンディングボックスアプローチと比較して識別精度を48.0%から56.8%改善している。 この研究は、大規模な実世界のアプリケーション環境で達成可能なパフォーマンスの可能性を正確に見積もるには小さすぎるが、我々の研究は、動物の生体計測の次のステップとして、オープンな集団環境での深部メートル法学習に向けた概念的かつ実践的な基礎を定めている。 本論文では,ネットワークの重みと関連するファシリテーションソースコードを,完全な再現性とさらなる研究へのインスピレーションとして公開する。

This paper combines deep learning techniques for species detection, 3D model fitting, and metric learning in one pipeline to perform individual animal identification from photographs by exploiting unique coat patterns. This is the first work to attempt this and, compared to traditional 2D bounding box or segmentation based CNN identification pipelines, the approach provides effective and explicit view-point normalisation and allows for a straight forward visualisation of the learned biometric population space. Note that due to the use of metric learning the pipeline is also readily applicable to open set and zero shot re-identification scenarios. We apply the proposed approach to individual Grevy's zebra (Equus grevyi) identification and show in a small study on the SMALST dataset that the use of 3D model fitting can indeed benefit performance. In particular, back-projected textures from 3D fitted models improve identification accuracy from 48.0% to 56.8% compared to 2D bounding box approaches for the dataset. Whilst the study is far too small accurately to estimate the full performance potential achievable in larger-scale real-world application settings and in comparisons against polished tools, our work lays the conceptual and practical foundations for a next step in animal biometrics towards deep metric learning driven, fully 3D-aware animal identification in open population settings. We publish network weights and relevant facilitating source code with this paper for full reproducibility and as inspiration for further research.
翻訳日:2022-06-09 09:34:29 公開日:2022-06-07
# (参考訳) 置換のないサンプリングは有限サム最小値最適化の高速化につながる

Sampling without Replacement Leads to Faster Rates in Finite-Sum Minimax Optimization ( http://arxiv.org/abs/2206.02953v1 )

ライセンス: CC BY 4.0
Aniket Das, Bernhard Sch\"olkopf, Michael Muehlebach(参考訳) 本研究では,スムーズな有限サム最小値最適化のための確率勾配アルゴリズムの収束速度を解析し,多くのアルゴリズムにおいて,置換のないデータ点のサンプリングは,置換によるサンプリングよりも高速な収束をもたらすことを示す。 滑らかで強凸な凹面設定では、勾配勾配の上昇と近点法を考慮し、各エポックごとにデータをシャッフルするRandom Reshuffling(RR)と、開始時にのみシャッフルするSingle Shuffling or Shuffle Once(SO)という2つの一般的な非置換サンプリング戦略を統一的に分析する。 rr等に対する密接な収束率を求め,この手法が一様サンプリングよりも高速に収束することを示す。 凸性を超えて、両面のPolyak-{\L}ojasiewicz不等式を満たす滑らかな非凸非凸目的に対して同様の結果が得られる。 最後に,提案手法はデータ順序付け攻撃の効果を解析するのに十分であり,敵がデータポイントをオプティマイザに供給する順序を操作できることを示す。 我々の分析は、データポイントが全くシャッフルされないインクリメンタル勾配法に対して、タイトなレートを回復する。

We analyze the convergence rates of stochastic gradient algorithms for smooth finite-sum minimax optimization and show that, for many such algorithms, sampling the data points without replacement leads to faster convergence compared to sampling with replacement. For the smooth and strongly convex-strongly concave setting, we consider gradient descent ascent and the proximal point method, and present a unified analysis of two popular without-replacement sampling strategies, namely Random Reshuffling (RR), which shuffles the data every epoch, and Single Shuffling or Shuffle Once (SO), which shuffles only at the beginning. We obtain tight convergence rates for RR and SO and demonstrate that these strategies lead to faster convergence than uniform sampling. Moving beyond convexity, we obtain similar results for smooth nonconvex-nonconcave objectives satisfying a two-sided Polyak-{\L}ojasiewicz inequality. Finally, we demonstrate that our techniques are general enough to analyze the effect of data-ordering attacks, where an adversary manipulates the order in which data points are supplied to the optimizer. Our analysis also recovers tight rates for the incremental gradient method, where the data points are not shuffled at all.
翻訳日:2022-06-09 05:54:27 公開日:2022-06-07
# (参考訳) HMRNet : 放射線治療における脳構造分離のための双方向特徴校正による高分解能・高分解能ネットワーク

HMRNet: High and Multi-Resolution Network with Bidirectional Feature Calibration for Brain Structure Segmentation in Radiotherapy ( http://arxiv.org/abs/2206.02959v1 )

ライセンス: CC BY 4.0
Hao Fu, Guotai Wang, Wenhui Lei, Wei Xu, Qianfei Zhao, Shichuan Zhang, Kang Li, Shaoting Zhang(参考訳) 脳腫瘍の放射線治療における臨床ターゲットボリューム(CTV)の自動デライン化には,解剖学的脳バリアの正確ながん拡散(ABCs)が重要である。 u-netの変種は最先端のセグメンテーションモデルであるにもかかわらず、様々な形状やサイズ、特に薄い構造(例えば、falx cerebri)のabcs構造を扱う場合の性能は限られている。 この問題に対処するために,マルチスケール特徴学習部と高分解能分岐からなる高分解能・高分解能ネットワーク(HMRNet)を提案し,高分解能な文脈情報を維持し,様々なスケールで解剖学的構造のより堅牢な表現を抽出する。 さらに、双方向特徴校正(BFC)ブロックを設計し、相互特徴校正のための空間的注意マップを生成する。 ABC 構造の大きさや位置を考慮し,各構造が大まかに局所化されてより細かなセグメンテーション結果が得られるようにネットワークを適用した。 MICCAI 2020 ABCs チャレンジデータセットの実験によると、 1) 提案した2段階分割戦略は, 全構造を1段階に分割する手法よりも優れていた。 2) 2つの枝を持つHMRNetは高分解能表現を維持でき, 薄型構造の性能向上に有効である。 3) 提案するbfcブロックは, 単方向特徴量校正を用いた既存の注意手法を上回った。 提案手法は, ABCの2020年大会で2位を獲得し, 脳腫瘍のCTVのより正確かつ合理的なデライン化の可能性を秘めている。

Accurate segmentation of Anatomical brain Barriers to Cancer spread (ABCs) plays an important role for automatic delineation of Clinical Target Volume (CTV) of brain tumors in radiotherapy. Despite that variants of U-Net are state-of-the-art segmentation models, they have limited performance when dealing with ABCs structures with various shapes and sizes, especially thin structures (e.g., the falx cerebri) that span only few slices. To deal with this problem, we propose a High and Multi-Resolution Network (HMRNet) that consists of a multi-scale feature learning branch and a high-resolution branch, which can maintain the high-resolution contextual information and extract more robust representations of anatomical structures with various scales. We further design a Bidirectional Feature Calibration (BFC) block to enable the two branches to generate spatial attention maps for mutual feature calibration. Considering the different sizes and positions of ABCs structures, our network was applied after a rough localization of each structure to obtain fine segmentation results. Experiments on the MICCAI 2020 ABCs challenge dataset showed that: 1) Our proposed two-stage segmentation strategy largely outperformed methods segmenting all the structures in just one stage; 2) The proposed HMRNet with two branches can maintain high-resolution representations and is effective to improve the performance on thin structures; 3) The proposed BFC block outperformed existing attention methods using monodirectional feature calibration. Our method won the second place of ABCs 2020 challenge and has a potential for more accurate and reasonable delineation of CTV of brain tumors.
翻訳日:2022-06-09 05:52:50 公開日:2022-06-07
# (参考訳) 商品ファンネルの表現測定における共同設立者分析

Confounder Analysis in Measuring Representation in Product Funnels ( http://arxiv.org/abs/2206.02962v1 )

ライセンス: CC BY 4.0
Jilei Yang, Wentao Su(参考訳) 本稿では,因果推論分野におけるShapley値の適用について論じる。 linkedinメンバーによる観察実験のデータセットをユースケースとして使用し、shapleyの値が高度に情報的であり、その堅牢な重要度ランキング能力のために活用可能であることを示す。

This paper discusses an application of Shapley values in the causal inference field, specifically on how to select the top confounder variables for coarsened exact matching method in a scalable way. We use a dataset from an observational experiment involving LinkedIn members as a use case to test its applicability, and show that Shapley values are highly informational and can be leveraged for its robust importance-ranking capability.
翻訳日:2022-06-09 05:23:41 公開日:2022-06-07
# (参考訳) ゼロショット画像分類のためのマスク非教師なし自己学習

Masked Unsupervised Self-training for Zero-shot Image Classification ( http://arxiv.org/abs/2206.02967v1 )

ライセンス: CC BY 4.0
Junnan Li, Silvio Savarese, Steven C.H. Hoi(参考訳) 最先端のコンピュータビジョンモデルは、主に人間のラベル画像を用いた教師付き学習で訓練されており、高価なアノテーションコストのためスケーラビリティが制限される。 自己教師付き表現学習は目覚ましい進歩を遂げているが、ラベル付きデータを微調整するには第2段階が必要である。 一方、大規模なテキスト画像監視(例えばCLIP)で事前訓練されたモデルでは、下流の画像分類タスクへのゼロショット転送が可能になっている。 しかし、CLIPライクなモデルのゼロショット性能は、実際の採用には不十分であることが多い。 本稿では,下流タスクにおける事前学習されたゼロショット分類器の性能向上のために,ラベルなしデータを活用することを目的とする。 我々は,疑似ラベルと生画像の2つの異なる補完的監督源を活用する新しい手法であるmasted unsupervised self-training (must)を提案する。 MUSTはクラスレベルのグローバル特徴とピクセルレベルのローカル特徴の両方を学ぶための3つの目的を共同で最適化し、両者の正規化を強制する。 様々な領域にわたる8つの下流タスクに対するMUSTの有効性を実証し、CLIPを大きなマージンで改善し、教師なし分類と教師なし分類のパフォーマンスギャップを狭める。 例えば、MUST は ViT-B を用いて ImageNet 上で 77.7% のゼロショットトップ-1 精度を達成している。 私たちのコードはhttps://github.com/salesforce/MUST.comで利用可能です。

State-of-the-art computer vision models are mostly trained with supervised learning using human-labeled images, which limits their scalability due to the expensive annotation cost. While self-supervised representation learning has achieved impressive progress, it still requires a second stage of finetuning on labeled data. On the other hand, models pre-trained with large-scale text-image supervision (e.g., CLIP) have enabled zero-shot transfer to downstream image classification tasks. However, the zero-shot performance of CLIP-like models are often insufficient for real-world adoption. In this paper, we aim to leverage the abundant unlabeled data to improve the performance of a pre-trained zero-shot classifier on downstream tasks. We propose Masked Unsupervised Self-Training (MUST), a new approach which leverages two different and complimentary sources of supervision: pseudo-labels and raw images. MUST jointly optimizes three objectives to learn both class-level global feature and pixel-level local feature and enforces a regularization between the two. We demonstrate the efficacy of MUST on 8 downstream tasks across a variety of domains, where it improves upon CLIP by a large margin and narrows the performance gap between unsupervised and supervised classification. For instance, MUST achieves a zero-shot top-1 accuracy of 77.7% on ImageNet using ViT-B, +9.4% higher than CLIP. Our code is available at https://github.com/salesforce/MUST.
翻訳日:2022-06-09 05:18:30 公開日:2022-06-07
# (参考訳) 言語パラフレージング・プラグマティック・言説の難易度に関する考察 : 音韻の目的について

An Insight into The Intricacies of Lingual Paraphrasing Pragmatic Discourse on The Purpose of Synonyms ( http://arxiv.org/abs/2206.02983v1 )

ライセンス: CC BY 4.0
Jabir Al Nahian, Abu Kaisar Mohammad Masum, Muntaser Mansur Syed, Sheikh Abujar(参考訳) パラフレージング(paraphrasing)とは、入力テキストの感覚を新しい方法で表現し、流束を保ちながら表現するプロセスを指す。 科学研究の流通は勢いを増し、新入生と経験者の両方がそれぞれの分野に参加できるようになった。 その結果、現在では、論文の修正を効率的に効果的に支援し、盗作を避けるためのパラフレーズツールの需要が高まっている。 自然言語処理(NLP)は、文書パラフレーズ化の過程において非常に重要である。 本稿では,英語における言い回しに関する既存の研究を分析し,議論する。 最後に,WordNet と Natural Language Tool Kit (NLTK) を用いて任意の文書や段落を言い換えるアルゴリズムを開発し,その結果を達成するために "Using Synonyms" 技術を維持する。 250段落のパラフレーズ精度は94.8%であった。

The term "paraphrasing" refers to the process of presenting the sense of an input text in a new way while preserving fluency. Scientific research distribution is gaining traction, allowing both rookie and experienced scientists to participate in their respective fields. As a result, there is now a massive demand for paraphrase tools that may efficiently and effectively assist scientists in modifying statements in order to avoid plagiarism. Natural Language Processing (NLP) is very much important in the realm of the process of document paraphrasing. We analyze and discuss existing studies on paraphrasing in the English language in this paper. Finally, we develop an algorithm to paraphrase any text document or paragraphs using WordNet and Natural Language Tool Kit (NLTK) and maintain "Using Synonyms" techniques to achieve our result. For 250 paragraphs, our algorithm achieved a paraphrase accuracy of 94.8%
翻訳日:2022-06-09 05:05:16 公開日:2022-06-07
# (参考訳) イベント境界検出のための構造化コンテキスト変換器

Structured Context Transformer for Generic Event Boundary Detection ( http://arxiv.org/abs/2206.02985v1 )

ライセンス: CC BY 4.0
Congcong Li, Xinyao Wang, Dexiang Hong, Yufei Wang, Libo Zhang, Tiejian Luo, Longyin Wen(参考訳) ジェネリックイベント境界検出(GEBD)は、人間が自然にイベント境界として知覚する瞬間を検出することを目的としている。 本稿では,構造化コンテキスト変換器(SC-Transformer)を用いて,エンド・ツー・エンドで学習可能なGABD課題を解決する。 具体的には、バックボーン畳み込みニューラルネットワーク(CNN)を用いて、各ビデオフレームの特徴を抽出する。 各フレームの時間的コンテキスト情報をキャプチャするために、入力フレームシーケンスを再分割して構造コンテキストトランスフォーマ(sc-transformer)を設計する。 なお、SC-Transformerの全体的な計算複雑性はビデオ長に線形である。 その後、グループ類似度を計算してフレーム間の差をキャプチャする。 次に、軽量な完全畳み込みネットワークを用いて、グループ化された類似度マップに基づいてイベント境界を決定する。 境界アノテーションのあいまいさを補うため、ガウスカーネルは、基幹イベント境界を前処理して精度をさらに高めるために採用されている。 Kinetics-GEBD と TAPOS のデータセットを用いた大規模な実験により,提案手法の有効性が示された。

Generic Event Boundary Detection (GEBD) aims to detect moments where humans naturally perceive as event boundaries. In this paper, we present Structured Context Transformer (or SC-Transformer) to solve the GEBD task, which can be trained in an end-to-end fashion. Specifically, we use the backbone convolutional neural network (CNN) to extract the features of each video frame. To capture temporal context information of each frame, we design the structure context transformer (SC-Transformer) by re-partitioning input frame sequence. Note that, the overall computation complexity of SC-Transformer is linear to the video length. After that, the group similarities are computed to capture the differences between frames. Then, a lightweight fully convolutional network is used to determine the event boundaries based on the grouped similarity maps. To remedy the ambiguities of boundary annotations, the Gaussian kernel is adopted to preprocess the ground-truth event boundaries to further boost the accuracy. Extensive experiments conducted on the challenging Kinetics-GEBD and TAPOS datasets demonstrate the effectiveness of the proposed method compared to the state-of-the-art methods.
翻訳日:2022-06-09 04:54:37 公開日:2022-06-07
# (参考訳) 逆強化学習による実生活の運転

Driving in Real Life with Inverse Reinforcement Learning ( http://arxiv.org/abs/2206.03004v1 )

ライセンス: CC BY 4.0
Tung Phan-Minh and Forbes Howington and Ting-Sheng Chu and Sang Uk Lee and Momchil S. Tomov and Nanxiang Li and Caglayan Dicle and Samuel Findler and Francisco Suarez-Ruiz and Robert Beaudoin and Bo Yang and Sammy Omari and Eric M. Wolff(参考訳) 本稿では,Inverse Reinforcement Learning (IRL) を用いて,都市交通量の多い自動車を駆動する最初の学習プランナを提案する。 私たちのプランナーであるDriveIRLは、様々なトラジェクトリの提案を生成し、これらのトラジェクトリを軽量で解釈可能な安全フィルタでフィルタリングし、学習モデルを用いて各トラジェクトリをスコアリングする。 最善の軌道は、自動運転車の低レベルコントローラによって追跡される。 我々は、ラスベガスの最大エントロピーIRLフレームワーク内で、500時間以上の専門家駆動デモのリアルタイムデータセットで軌道スコアモデルをトレーニングする。 DriveIRLの利点は以下のとおりである: 軌道スコアリング関数、比較的解釈可能な機能、強力な実世界のパフォーマンスを学習することによる単純な設計。 ラスベガス・ストリップでDriveIRLを検証し、カットイン、リード車による突然のブレーキ、ホテルのピックアップ/ドロップオフゾーンを含むシナリオを含む、交通量の多い完全自律運転を実演した。 私たちのデータセットは、この分野のさらなる研究を支援するために公開されます。

In this paper, we introduce the first learning-based planner to drive a car in dense, urban traffic using Inverse Reinforcement Learning (IRL). Our planner, DriveIRL, generates a diverse set of trajectory proposals, filters these trajectories with a lightweight and interpretable safety filter, and then uses a learned model to score each remaining trajectory. The best trajectory is then tracked by the low-level controller of our self-driving vehicle. We train our trajectory scoring model on a 500+ hour real-world dataset of expert driving demonstrations in Las Vegas within the maximum entropy IRL framework. DriveIRL's benefits include: a simple design due to only learning the trajectory scoring function, relatively interpretable features, and strong real-world performance. We validated DriveIRL on the Las Vegas Strip and demonstrated fully autonomous driving in heavy traffic, including scenarios involving cut-ins, abrupt braking by the lead vehicle, and hotel pickup/dropoff zones. Our dataset will be made public to help further research in this area.
翻訳日:2022-06-09 04:53:39 公開日:2022-06-07
# (参考訳) OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual Idiomaticity Detection

OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual Idiomaticity Detection ( http://arxiv.org/abs/2206.03025v1 )

ライセンス: CC BY 4.0
Lis Kanashiro Pereira, Ichiro Kobayashi(参考訳) 文が慣用的表現を含むか否かを判定する多言語逆行訓練モデルを提案する。 このタスクにおける重要な課題は、注釈付きデータの限られたサイズであることを考えると、我々のモデルは、異なる多言語変換言語モデル(例えば、多言語BERTとXLM-RoBERTa)からの事前学習された文脈表現と、モデル一般化とロバスト性をさらに強化する学習方法に依存する。 人為的な特徴や知識ベース、あるいはターゲットデータセット以外のデータセットに頼ることなく、私たちのモデルは競争の結果を達成し、SubTask A(ゼロショット)設定で6位、SubTask A(ワンショット)設定で15位にランク付けしました。

We propose a multilingual adversarial training model for determining whether a sentence contains an idiomatic expression. Given that a key challenge with this task is the limited size of annotated data, our model relies on pre-trained contextual representations from different multi-lingual state-of-the-art transformer-based language models (i.e., multilingual BERT and XLM-RoBERTa), and on adversarial training, a training method for further enhancing model generalization and robustness. Without relying on any human-crafted features, knowledge bases, or additional datasets other than the target datasets, our model achieved competitive results and ranked 6th place in SubTask A (zero-shot) setting and 15th place in SubTask A (one-shot) setting.
翻訳日:2022-06-09 04:33:03 公開日:2022-06-07
# (参考訳) ビジュアルカウントのためのディープラーニング技術

Deep Learning Techniques for Visual Counting ( http://arxiv.org/abs/2206.03033v1 )

ライセンス: CC BY 4.0
Luca Ciampi(参考訳) 本論文では,静止画像やビデオフレーム内のオブジェクト数を自動推定する視覚的カウントタスクについて検討し,拡張した。 近年、その関心が高まっているため、いくつかのCNNベースのソリューションが科学コミュニティによって提案されている。 これらの人工ニューラルネットワークは、生の視覚データから効果的な表現を自動的に学習する方法を提供し、異なる照度やオブジェクトスケールのようなタスクを特徴付ける典型的な課題に対処するためにうまく利用することができる。 しかし、これらの困難を別にして、cnnの採用における他の重要な制限を目標としており、このような欠点によって特に影響を受けることが判明したカウントタスクの文脈で実験的に評価したソリューションを提案しています。 特に、現在のcnnベースのソリューションのトレーニングに必要なデータ不足に関する問題に取り組みました。 ラベル付けの予算が限られていることを考えると、データ不足は依然としてオープンな問題であり、特にカウントするタスクでは、ラベル付けすべきオブジェクトがイメージ毎に数千である。 具体的には,トレーニングラベルを自動的に収集する仮想環境から収集した合成データセットを紹介した。 トレーニングとテストデータ分散の間に存在するドメイン間ギャップを緩和することを目的としたドメイン適応戦略を提案する。 マルチアノテータによってラベル付けされたデータセットを特徴付ける冗長な情報を利用したカウント戦略を提示しました。 さらに、限られた電力資源を持つ環境でのCNN技術の導入によるエンジニアリング上の課題にも取り組みました。 組込み視覚システムで車両を直接カウントするソリューションを導入しました。 最後に、私は、個人および集団の人間の安全ルールを監視するのに役立ついくつかのタスクを実行できる、組み込みのモジュラーコンピュータビジョンベースのシステムを設計しました。

In this thesis, I investigated and enhanced the visual counting task, which automatically estimates the number of objects in still images or video frames. Recently, due to the growing interest in it, several CNN-based solutions have been suggested by the scientific community. These artificial neural networks provide a way to automatically learn effective representations from raw visual data and can be successfully employed to address typical challenges characterizing this task, such as different illuminations and object scales. But apart from these difficulties, I targeted some other crucial limitations in the adoption of CNNs, proposing solutions that I experimentally evaluated in the context of the counting task which turns out to be particularly affected by these shortcomings. In particular, I tackled the problem related to the lack of data needed for training current CNN-based solutions. Given that the budget for labeling is limited, data scarcity still represents an open problem, particularly evident in tasks such as the counting one, where the objects to be labeled are thousands per image. Specifically, I introduced synthetic datasets gathered from virtual environments, where the training labels are automatically collected. I proposed Domain Adaptation strategies aiming at mitigating the domain gap existing between the training and test data distributions. I presented a counting strategy where I took advantage of the redundant information characterizing datasets labeled by multiple annotators. Moreover, I tackled the engineering challenges coming out of the adoption of CNN techniques in environments with limited power resources. I introduced solutions for counting vehicles directly onboard embedded vision systems. Finally, I designed an embedded modular Computer Vision-based system that can carry out several tasks to help monitor individual and collective human safety rules.
翻訳日:2022-06-09 04:27:09 公開日:2022-06-07
# (参考訳) 後方互換性のある埋め込みの学習

Learning Backward Compatible Embeddings ( http://arxiv.org/abs/2206.03040v1 )

ライセンス: CC BY 4.0
Weihua Hu, Rajas Bansal, Kaidi Cao, Nikhil Rao, Karthik Subbian, Jure Leskovec(参考訳) オブジェクトの低次元ベクトル表現である埋め込みは、現代の機械学習システムを構築する上で基本である。 産業環境では通常、組込みモデルを訓練して意図したタスク(製品レコメンデーションなど)を解決する組込みチームがある。 生成された埋め込みは、意図しないタスク(詐欺検出など)を解決するために消費者チームが広く消費する。 しかしながら、組み込みモデルは、意図したタスクのパフォーマンスを改善するために更新および再トレーニングされるため、新たに生成された埋め込みは、既存のコンシューマモデルと互換性がなくなった。 これは、埋め込みの歴史的バージョンを廃止することは決してできないことを意味している。また、すべてのコンシューマチームは、埋め込みの最新バージョンと互換性を持たせるためにモデルを再トレーニングする必要がある。 本稿では,バージョン更新の組込み問題と後方互換性について検討する。 私たちは、組み込みチームが組み込みバージョンをアップデートし続けることを目標とする問題を形式化しますが、コンシューマチームはモデルを再トレーニングする必要がありません。 我々は,後方互換性のある組込みを学習することに基づくソリューションを開発した。組込みモデルバージョンを頻繁に更新できると同時に,組込みの最新バージョンを後方互換性のある履歴バージョンに迅速に変換可能にすることで,コンシューマチームがモデルを再トレーニングする必要がなくなる。 本フレームワークでは,6つの手法を探索し,実世界のレコメンデータ・システム・アプリケーション上で体系的に評価する。 BC-Alignerと呼ばれる最良のメソッドは、複数のモデルバージョンが更新された後も、意図しないタスクとの後方互換性を維持していることを示す。 同時に、bc-alignerは、目的のタスクにのみ最適化された埋め込みモデルと同様の目的のタスク性能を達成する。

Embeddings, low-dimensional vector representation of objects, are fundamental in building modern machine learning systems. In industrial settings, there is usually an embedding team that trains an embedding model to solve intended tasks (e.g., product recommendation). The produced embeddings are then widely consumed by consumer teams to solve their unintended tasks (e.g., fraud detection). However, as the embedding model gets updated and retrained to improve performance on the intended task, the newly-generated embeddings are no longer compatible with the existing consumer models. This means that historical versions of the embeddings can never be retired or all consumer teams have to retrain their models to make them compatible with the latest version of the embeddings, both of which are extremely costly in practice. Here we study the problem of embedding version updates and their backward compatibility. We formalize the problem where the goal is for the embedding team to keep updating the embedding version, while the consumer teams do not have to retrain their models. We develop a solution based on learning backward compatible embeddings, which allows the embedding model version to be updated frequently, while also allowing the latest version of the embedding to be quickly transformed into any backward compatible historical version of it, so that consumer teams do not have to retrain their models. Under our framework, we explore six methods and systematically evaluate them on a real-world recommender system application. We show that the best method, which we call BC-Aligner, maintains backward compatibility with existing unintended tasks even after multiple model version updates. Simultaneously, BC-Aligner achieves the intended task performance similar to the embedding model that is solely optimized for the intended task.
翻訳日:2022-06-09 04:25:00 公開日:2022-06-07
# (参考訳) 物体間相互作用検出のための空間解析と動的時間プーリングネットワーク

Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object Interaction detection ( http://arxiv.org/abs/2206.03061v1 )

ライセンス: CC BY 4.0
Hongsheng Li, Guangming Zhu, Wu Zhen, Lan Ni, Peiyi Shen, Liang Zhang, Ning Wang, Cong Hua(参考訳) 人間-物体相互作用(HOI)認識の鍵は、人間と物体の関係を推測することである。 近年,画像のHuman-Object Interaction(HOI)検出は大きな進歩を遂げている。 しかし,ビデオHOI検出性能は依然として改善の余地がある。 既存のワンステージ手法では、よく設計されたエンドツーエンドネットワークを使用してビデオセグメントを検出し、直接対話を予測する。 これにより、モデル学習とネットワークのさらなる最適化がより複雑になる。 本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。 既存の手法とは異なり,提案手法は空間解析によって対話的対と非対話的対の差を予測し,対話認識を行う。 さらに,映像のキーフレームを強調し,冗長フレームを抑制するために,学習可能で微分可能な動的テンポラリモジュール(dtm)を提案する。 さらに,実験結果から,SPDTPはアクティブな人-物対や有効なキーフレームにより多くの注意を払うことができることが示された。 CAD-120データセットとSomes-Elseデータセットの最先端性能を実現する。

The key of Human-Object Interaction(HOI) recognition is to infer the relationship between human and objects. Recently, the image's Human-Object Interaction(HOI) detection has made significant progress. However, there is still room for improvement in video HOI detection performance. Existing one-stage methods use well-designed end-to-end networks to detect a video segment and directly predict an interaction. It makes the model learning and further optimization of the network more complex. This paper introduces the Spatial Parsing and Dynamic Temporal Pooling (SPDTP) network, which takes the entire video as a spatio-temporal graph with human and object nodes as input. Unlike existing methods, our proposed network predicts the difference between interactive and non-interactive pairs through explicit spatial parsing, and then performs interaction recognition. Moreover, we propose a learnable and differentiable Dynamic Temporal Module(DTM) to emphasize the keyframes of the video and suppress the redundant frame. Furthermore, the experimental results show that SPDTP can pay more attention to active human-object pairs and valid keyframes. Overall, we achieve state-of-the-art performance on CAD-120 dataset and Something-Else dataset.
翻訳日:2022-06-09 04:04:29 公開日:2022-06-07
# (参考訳) 生成学習における量子ニューラルネットワークの最近の進歩

Recent Advances for Quantum Neural Networks in Generative Learning ( http://arxiv.org/abs/2206.03066v1 )

ライセンス: CC BY 4.0
Jinkai Tian, Xiaoyu Sun, Yuxuan Du, Shanshan Zhao, Qing Liu, Kaining Zhang, Wei Yi, Wanrong Huang, Chaoyue Wang, Xingyao Wu, Min-Hsiu Hsieh, Tongliang Liu, Wenjing Yang, Dacheng Tao(参考訳) 量子コンピュータ(quantum computers)は、古典的コンピュータの範囲を超えて計算を行う、次世代のデバイスである。 この目標を達成するための主要な方法は、量子機械学習、特に量子生成学習である。 量子力学の本質的な確率論的性質のため、量子生成学習モデル(QGLM)が古典的モデルを上回る可能性があると仮定することは妥当である。 そのため、量子物理学や計算機科学のコミュニティでは、計算能力の利点のある短期量子マシンに効率的に実装できる様々なqglmが提案されている。 本稿では,機械学習の観点から,QGLMの現状を概観する。 特に、量子回路生成機、量子生成逆数ネットワーク、量子ボルツマンマシン、量子オートエンコーダを古典的生成学習モデルの量子拡張として記述し、これらのQGLMを解釈する。 この文脈で、我々はそれらの本質的関係とその根本的な違いを探求する。 さらに,従来の機械学習タスクと量子物理学におけるqglmsの応用可能性についても概説する。 最後に,QGLMの課題と今後の研究方向性について論じる。

Quantum computers are next-generation devices that hold promise to perform calculations beyond the reach of classical computers. A leading method towards achieving this goal is through quantum machine learning, especially quantum generative learning. Due to the intrinsic probabilistic nature of quantum mechanics, it is reasonable to postulate that quantum generative learning models (QGLMs) may surpass their classical counterparts. As such, QGLMs are receiving growing attention from the quantum physics and computer science communities, where various QGLMs that can be efficiently implemented on near-term quantum machines with potential computational advantages are proposed. In this paper, we review the current progress of QGLMs from the perspective of machine learning. Particularly, we interpret these QGLMs, covering quantum circuit born machines, quantum generative adversarial networks, quantum Boltzmann machines, and quantum autoencoders, as the quantum extension of classical generative learning models. In this context, we explore their intrinsic relation and their fundamental differences. We further summarize the potential applications of QGLMs in both conventional machine learning tasks and quantum physics. Last, we discuss the challenges and further research directions for QGLMs.
翻訳日:2022-06-09 03:46:47 公開日:2022-06-07
# (参考訳) 開発者テキストディスカッションにおける文レベルのIoTセキュリティに関する実証的研究

An Empirical Study of IoT Security Aspects at Sentence-Level in Developer Textual Discussions ( http://arxiv.org/abs/2206.03079v1 )

ライセンス: CC BY 4.0
Nibir Chandra Mandal and Gias Uddin(参考訳) IoTは急速に進化するパラダイムであり、現代の生活のほぼすべての側面を包含しています。 そのため、IoTデバイスのセキュリティを確保することが重要です。 IoTデバイスは従来のコンピューティングと異なる場合があるため、適切なセキュリティ対策の設計と実装はIoTデバイスでは難しい。 私たちはIoT開発者がStack Overflow(SO)のような開発者フォーラムでセキュリティ関連の課題について議論しているのを観察しました。 しかし、IoTセキュリティに関する議論は、SOの非セキュリティに関する議論の中に埋もれてしまう可能性がある。 本稿では,IoTデバイスにセキュリティプラクティスとテクニックを適用しながら,IoT開発者が直面する課題を理解することを目的とする。 1)SOにおけるセキュリティ関連のIoTの議論を自動的に見つけられるモデルを開発すること,2)IoT開発者のセキュリティ関連の課題について学ぶためにモデル出力を研究すること,の2つの目標がある。 まず、IoTに関する議論を含むSOから53Kの投稿をダウンロードします。 第2に,53kの投稿から5,919文を1または0と手動でラベル付けした。 第3に、このベンチマークを使用して、ディープラーニングトランスフォーマーモデルのスイートを調査します。 最高のパフォーマンスモデルはSecBotと呼ばれる。 第4に、secbotを投稿全体に適用し、約30万のセキュリティ関連文を見つける。 第5に、セキュリティ関連文にトピックモデリングを適用する。 次にトピックをラベル付けして分類します。 第6に、SOにおけるトピックの進化を分析する。 その結果,1) SecBotは深層学習モデルRoBERTaの再学習に基づいていることがわかった。 SecBotは0.935の最高のF1スコアを提供し、(2)SecBotの誤分類サンプルには6つのエラーカテゴリがある。 SecBotは、キーワード/コンテキストが曖昧で(例えば、ゲートウェイはセキュリティゲートウェイか単純なゲートウェイ)、(3)ソフトウェア、ハードウェア、ネットワークの3つのカテゴリに分類されるセキュリティトピックが9つあり、(4)最も多くのトピックがソフトウェアセキュリティに属し、次にネットワークセキュリティが続く。

IoT is a rapidly emerging paradigm that now encompasses almost every aspect of our modern life. As such, ensuring the security of IoT devices is crucial. IoT devices can differ from traditional computing, thereby the design and implementation of proper security measures can be challenging in IoT devices. We observed that IoT developers discuss their security-related challenges in developer forums like Stack Overflow(SO). However, we find that IoT security discussions can also be buried inside non-security discussions in SO. In this paper, we aim to understand the challenges IoT developers face while applying security practices and techniques to IoT devices. We have two goals: (1) Develop a model that can automatically find security-related IoT discussions in SO, and (2) Study the model output to learn about IoT developer security-related challenges. First, we download 53K posts from SO that contain discussions about IoT. Second, we manually labeled 5,919 sentences from 53K posts as 1 or 0. Third, we use this benchmark to investigate a suite of deep learning transformer models. The best performing model is called SecBot. Fourth, we apply SecBot on the entire posts and find around 30K security related sentences. Fifth, we apply topic modeling to the security-related sentences. Then we label and categorize the topics. Sixth, we analyze the evolution of the topics in SO. We found that (1) SecBot is based on the retraining of the deep learning model RoBERTa. SecBot offers the best F1-Score of 0.935, (2) there are six error categories in misclassified samples by SecBot. SecBot was mostly wrong when the keywords/contexts were ambiguous (e.g., gateway can be a security gateway or a simple gateway), (3) there are 9 security topics grouped into three categories: Software, Hardware, and Network, and (4) the highest number of topics belongs to software security, followed by network security.
翻訳日:2022-06-09 02:28:43 公開日:2022-06-07
# (参考訳) ビデオトラック一貫性を備えたオンラインディープクラスタリング

Online Deep Clustering with Video Track Consistency ( http://arxiv.org/abs/2206.03086v1 )

ライセンス: CC BY 4.0
Alessandra Alfani, Federico Becattini, Lorenzo Seidenari, Alberto Del Bimbo(参考訳) 近年、大規模なラベルなしデータセットから視覚的特徴を学ぶために、教師なしおよび自己監督的なアプローチが開発されている。 しかし、これらの手法の主な欠点は、単に回転したり、カメラの視点が変化しても、同じ物体の視覚的特徴を認識できないことである。 この制限を克服し、同時に有効な監視源を活用するために、ビデオオブジェクトのトラックを考慮に入れます。 トラック内の2つのパッチは学習された特徴空間に類似した視覚的表現を持つべきであるという直感に続いて、教師なしクラスタリングに基づくアプローチを採用し、そのような表現は同一のオブジェクトやオブジェクトの一部に属する可能性が高いため、同じカテゴリとしてラベル付けされるように制約する。 異なるデータセット上の2つのダウンストリームタスクに対する実験結果は、時間的情報を利用していない以前の作業と比較して、オンラインディープクラスタリングとビデオトラック一貫性(ODCT)アプローチの有効性を示した。 さらに,教師なしのクラス非依存なトラックジェネレータを利用すると,コストのかかる正確なトラックアノテーションに依存するよりも精度が向上することを示す。

Several unsupervised and self-supervised approaches have been developed in recent years to learn visual features from large-scale unlabeled datasets. Their main drawback however is that these methods are hardly able to recognize visual features of the same object if it is simply rotated or the perspective of the camera changes. To overcome this limitation and at the same time exploit a useful source of supervision, we take into account video object tracks. Following the intuition that two patches in a track should have similar visual representations in a learned feature space, we adopt an unsupervised clustering-based approach and constrain such representations to be labeled as the same category since they likely belong to the same object or object part. Experimental results on two downstream tasks on different datasets demonstrate the effectiveness of our Online Deep Clustering with Video Track Consistency (ODCT) approach compared to prior work, which did not leverage temporal information. In addition we show that exploiting an unsupervised class-agnostic, yet noisy, track generator yields to better accuracy compared to relying on costly and precise track annotations.
翻訳日:2022-06-09 02:27:27 公開日:2022-06-07
# (参考訳) スペクトルギャップを超えて:分散学習におけるトポロジーの役割

Beyond spectral gap: The role of the topology in decentralized learning ( http://arxiv.org/abs/2206.03093v1 )

ライセンス: CC BY 4.0
Thijs Vogels and Hadrien Hendrikx and Martin Jaggi(参考訳) 機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。 我々は、すべてのワーカーが同じデータセットからサンプリングし、スパースグラフ(分散)を介して通信する設定を検討する。 この設定では、現在の理論は現実世界の行動の重要な側面を捉えることができない。 まず,コミュニケーショングラフの「スペクトルギャップ」は,深層学習における経験的性能の予測にはならない。 第二に、現在の理論では、コラボレーションはトレーニング単独よりも学習率が大きいことを説明していない。 実際、それはより少ない学習率を規定しており、グラフが大きくなるにつれてさらに減少し、無限グラフの収束を説明できない。 本稿では、労働者が同じデータ分散を共有するとき、疎結合な分散最適化の正確な図面を描くことを目的とする。 グラフトポロジーが二次玩具問題における収束にどのように影響するかを定量化し、一般の滑らかで(強い)凸目的に対して理論的結果を与える。 我々の理論は深層学習における経験的観察と一致し、異なるグラフトポロジーの相対的メリットを正確に記述する。

In data-parallel optimization of machine learning models, workers collaborate to improve their estimates of the model: more accurate gradients allow them to use larger learning rates and optimize faster. We consider the setting in which all workers sample from the same dataset, and communicate over a sparse graph (decentralized). In this setting, current theory fails to capture important aspects of real-world behavior. First, the 'spectral gap' of the communication graph is not predictive of its empirical performance in (deep) learning. Second, current theory does not explain that collaboration enables larger learning rates than training alone. In fact, it prescribes smaller learning rates, which further decrease as graphs become larger, failing to explain convergence in infinite graphs. This paper aims to paint an accurate picture of sparsely-connected distributed optimization when workers share the same data distribution. We quantify how the graph topology influences convergence in a quadratic toy problem and provide theoretical results for general smooth and (strongly) convex objectives. Our theory matches empirical observations in deep learning, and accurately describes the relative merits of different graph topologies.
翻訳日:2022-06-09 02:13:39 公開日:2022-06-07
# (参考訳) RGB-D Salient Object Detectionのためのデュアルスウィントランスを用いた相互対話ネットワーク

Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2206.03105v1 )

ライセンス: CC BY 4.0
Chao Zeng and Sam Kwong(参考訳) Salient Object Detectionは、与えられたシーンにおける人間の参加領域を予測するタスクである。 この作業では, 深度情報の拡散が有効であることが証明されている。 この問題の主な課題は、RGBのモダリティと深さのモダリティから補完情報を集約する方法である。 しかし、従来のディープモデルはCNNの特徴抽出器に大きく依存しており、長い範囲のコンテキスト依存は通常無視される。 本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。 視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。 2つの特徴分枝を1つに融合する前に、各モダリティから特徴を強化するために注意ベースのモジュールが適用される。 我々は,2つのモード間の相補的な情報を活用するために,自己注意に基づく相互モダリティ相互作用モジュールとゲートモードアテンションモジュールを設計する。 耐塩性復号化では,多レベル符号化機能が同時に考慮される間,密結合により拡張された異なるステージを作成し,デコードメモリを保持する。 不正確な深度マップ問題を考慮して,初期段階のrgb特徴をスキップ畳み込みモジュールに収集し,rgbモダリティから最終塩分予測へのガイダンスを与える。 さらに、特徴学習プロセスの標準化にエッジ監視を追加します。 4つの評価指標を用いた標準RGB-D SODベンチマークデータセットの総合実験により,提案手法の優位性を示した。

Salient Object Detection is the task of predicting the human attended region in a given scene. Fusing depth information has been proven effective in this task. The main challenge of this problem is how to aggregate the complementary information from RGB modality and depth modality. However, conventional deep models heavily rely on CNN feature extractors, and the long-range contextual dependencies are usually ignored. In this work, we propose Dual Swin-Transformer based Mutual Interactive Network. We adopt Swin-Transformer as the feature extractor for both RGB and depth modality to model the long-range dependencies in visual inputs. Before fusing the two branches of features into one, attention-based modules are applied to enhance features from each modality. We design a self-attention-based cross-modality interaction module and a gated modality attention module to leverage the complementary information between the two modalities. For the saliency decoding, we create different stages enhanced with dense connections and keep a decoding memory while the multi-level encoding features are considered simultaneously. Considering the inaccurate depth map issue, we collect the RGB features of early stages into a skip convolution module to give more guidance from RGB modality to the final saliency prediction. In addition, we add edge supervision to regularize the feature learning process. Comprehensive experiments on five standard RGB-D SOD benchmark datasets over four evaluation metrics demonstrate the superiority of the proposed DTMINet method.
翻訳日:2022-06-09 01:39:44 公開日:2022-06-07
# (参考訳) シンガポールのサウンドスケープサイト選択調査(S5):軽量k平均クラスタリングによるシンガポールの特徴的サウンドスケープの同定

Singapore Soundscape Site Selection Survey (S5): Identification of Characteristic Soundscapes of Singapore via Weighted k-means Clustering ( http://arxiv.org/abs/2206.03112v1 )

ライセンス: CC BY-SA 4.0
Kenneth Ooi, Bhan Lam, Joo Young Hong, Karn N. Watcharasupat, Zhen-Ting Ong, Woon-Seng Gan(参考訳) 音環境研究の生態学的妥当性は通常、調査対象の知覚空間を表す音環境の選択に依存する。 例えば、サウンドスケープのプレザントネス研究は、サウンドスケープの場所を「不快」から「不快」まで調査する可能性がある。 サウンドスケープの選択は通常研究者主導であるが、参加者主導のプロセスは選択バイアスを減らし、結果の信頼性を向上させる。 そこで本稿では,任意の知覚特性を持つ特徴音像をピンポイントするロバストな参加者主導手法を提案する。 現地の専門家が認識したiso 12913-2外接モデル「音環境知覚」の「満足度」と「事象性」軸から生じる知覚四角形にまたがるシンガポールの音響景観を同定し,本手法の検証を行った。 記憶と経験から、67人の参加者がまずシンガポールの各主要計画地域において、知覚的四分節に対応する場所を選択した。 次に,選択した位置を重み付けしたk-meansクラスタリングを行い,各位置の既往の頻度と各参加者が各場所に費やした時間から各位置の重み付けを行った。 そのため、ウェイツは自信を持つためのプロキシとして機能した。 これにより,ISO 12913-2の知覚的四角形を用いたさらなる研究のために,62箇所が特徴的な音環境を持つ適切な場所として同定された。 音声の映像記録と音響的特徴付けは,今後の研究で実現される予定である。

The ecological validity of soundscape studies usually rests on a choice of soundscapes that are representative of the perceptual space under investigation. For example, a soundscape pleasantness study might investigate locations with soundscapes ranging from "pleasant" to "annoying". The choice of soundscapes is typically researcher-led, but a participant-led process can reduce selection bias and improve result reliability. Hence, we propose a robust participant-led method to pinpoint characteristic soundscapes possessing arbitrary perceptual attributes. We validate our method by identifying Singaporean soundscapes spanning the perceptual quadrants generated from the "Pleasantness" and "Eventfulness" axes of the ISO 12913-2 circumplex model of soundscape perception, as perceived by local experts. From memory and experience, 67 participants first selected locations corresponding to each perceptual quadrant in each major planning region of Singapore. We then performed weighted k-means clustering on the selected locations, with weights for each location derived from previous frequencies and durations spent in each location by each participant. Weights hence acted as proxies for participant confidence. In total, 62 locations were thereby identified as suitable locations with characteristic soundscapes for further research utilizing the ISO 12913-2 perceptual quadrants. Audio-visual recordings and acoustic characterization of the soundscapes will be made in a future study.
翻訳日:2022-06-09 01:07:42 公開日:2022-06-07
# (参考訳) Axial Inpainting Networkにおけるウェーブレット事前注意学習

Wavelet Prior Attention Learning in Axial Inpainting Network ( http://arxiv.org/abs/2206.03113v1 )

ライセンス: CC BY 4.0
Chenjie Cao, Chengrong Wang, Yuntao Zhang, Yanwei Fu(参考訳) 近年,Deep Neural Networks (DNN) によって著しく改善されている,視覚的にリアルな内容のマスクや未知の領域を埋める作業である。 本質的には、逆問題として、インペインティングはテクスチャアーティファクトなしで意味的コヒーレントな結果を再構築するという根本的な課題を持っている。 エッジやセマンティクスセグメンテーションといったアテンションメカニズムや事前知識を活用することで、これまで多くの取り組みがなされてきた。 しかし、これらの作品は、学習可能な事前パラメーターと計算負荷の制限によって、実際には制限されている。 そこで本研究では,エンコーダであるデコーダと,wpa(wavelet image prior attention)とats(stacked multi-layer axial-transformer)の2つのキーコンポーネントを含む,軸方向インペインティングネットワーク(wain)におけるウェーブレット事前注意学習モデルを提案する。 特に、WPAは、多スケールの周波数領域における高レベルの特徴集約をガイドし、テキストアーティファクトを緩和する。 積み重ねられたatsは、合理的な特徴をモデル化する上で、水平および垂直軸の低レベルな特徴とともに、セマンティックコヒーレンスを改善するのに役立つ。 Celeba-HQとPlaces2のデータセットに関する大規模な定量的および定性的な実験を行い、WAINが競合相手に対して最先端のパフォーマンスを達成できることを検証する。 コードとモデルがリリースされます。

Image inpainting is the task of filling masked or unknown regions of an image with visually realistic contents, which has been remarkably improved by Deep Neural Networks (DNNs) recently. Essentially, as an inverse problem, the inpainting has the underlying challenges of reconstructing semantically coherent results without texture artifacts. Many previous efforts have been made via exploiting attention mechanisms and prior knowledge, such as edges and semantic segmentation. However, these works are still limited in practice by an avalanche of learnable prior parameters and prohibitive computational burden. To this end, we propose a novel model -- Wavelet prior attention learning in Axial Inpainting Network (WAIN), whose generator contains the encoder, decoder, as well as two key components of Wavelet image Prior Attention (WPA) and stacked multi-layer Axial-Transformers (ATs). Particularly, the WPA guides the high-level feature aggregation in the multi-scale frequency domain, alleviating the textual artifacts. Stacked ATs employ unmasked clues to help model reasonable features along with low-level features of horizontal and vertical axes, improving the semantic coherence. Extensive quantitative and qualitative experiments on Celeba-HQ and Places2 datasets are conducted to validate that our WAIN can achieve state-of-the-art performance over the competitors. The codes and models will be released.
翻訳日:2022-06-09 00:44:30 公開日:2022-06-07
# (参考訳) 変圧器における信号伝搬:理論的展望とランク崩壊の役割

Signal Propagation in Transformers: Theoretical Perspectives and the Role of Rank Collapse ( http://arxiv.org/abs/2206.03126v1 )

ライセンス: CC BY 4.0
Lorenzo Noci, Sotiris Anagnostidis, Luca Biggio, Antonio Orvieto, Sidak Pal Singh, Aurelien Lucchi(参考訳) トランスフォーマーは自然言語処理からコンピュータビジョンまで、いくつかの領域で顕著な成功を収めてきた。 それにもかかわらず、Transformersのユニークなアーキテクチャコンポーネントである自己アテンションレイヤを積み重ねることで、初期化時にトークン表現のランクが崩れる可能性があることが最近示されている。 ランク崩壊がトレーニングにどのような影響を及ぼすのかという疑問はいまだほとんど答えられておらず、このアーキテクチャをより包括的に理解するにはその調査が必要である。 この研究で私たちは、この現象の原因と効果に新たな光を当てた。 まず,クエリとキーの勾配を初期化時に消失させることで,トークン表現のランク崩壊がトレーニングの妨げとなることを示す。 さらに、ランク崩壊の起源を詳細に説明し、残留枝の適切な深さ依存スケーリングを通じてそれを防ぐ方法について論じる。 最後に,解析結果から,特定のアーキテクチャハイパーパラメータがクエリや値の勾配に異なる影響を与えることが明らかとなり,不均等な勾配規範がもたらされる。 このことはトランスフォーマーの最適化に適応的手法が広く使われることを示唆している。

Transformers have achieved remarkable success in several domains, ranging from natural language processing to computer vision. Nevertheless, it has been recently shown that stacking self-attention layers - the distinctive architectural component of Transformers - can result in rank collapse of the tokens' representations at initialization. The question of if and how rank collapse affects training is still largely unanswered, and its investigation is necessary for a more comprehensive understanding of this architecture. In this work, we shed new light on the causes and the effects of this phenomenon. First, we show that rank collapse of the tokens' representations hinders training by causing the gradients of the queries and keys to vanish at initialization. Furthermore, we provide a thorough description of the origin of rank collapse and discuss how to prevent it via an appropriate depth-dependent scaling of the residual branches. Finally, our analysis unveils that specific architectural hyperparameters affect the gradients of queries and values differently, leading to disproportionate gradient norms. This suggests an explanation for the widespread use of adaptive methods for Transformers' optimization.
翻訳日:2022-06-09 00:24:19 公開日:2022-06-07
# (参考訳) CitySpec:スマートシティにおける要求仕様のためのインテリジェントアシスタントシステム

CitySpec: An Intelligent Assistant System for Requirement Specification in Smart Cities ( http://arxiv.org/abs/2206.03132v1 )

ライセンス: CC BY 4.0
Zirong Chen, Isaac Li, Haoxiang Zhang, Sarah Preum, John A. Stankovic, Meiyi Ma(参考訳) 都市のリアルタイム運用が安全と性能の要求を満たすことを保証するため、スマートシティで監視システムの開発が増えている。 しかし、既存の都市要件の多くは英語で書かれており、不正確、曖昧な情報が欠けている。 監視システムの機械理解可能な形式仕様に人間の特定要件を変換する市の政策立案者を支援するという高い需要がある。 この制限に対処するため、スマートシティにおける要求仕様のための初のインテリジェントアシスタントシステムであるCitySpecを構築した。 CitySpecを作るために、まず100以上の都市から、1500以上の現実世界の都市要件を収集し、都市固有の知識を抽出し、3,061単語の都市語彙のデータセットを生成しました。 また,要求合成による翻訳モデルを構築し,不確実性下で検証可能な新しいオンライン学習フレームワークを開発した。 実世界の都市要件に対する評価結果は、CitySpecが要件仕様の文レベル精度を59.02%から86.64%に引き上げ、新しい都市と新しいドメインに強い適応性を持つことを示している(例えば、シアトルにおける要件のF1スコアは、オンライン学習で77.6%から93.75%に増加した)。

An increasing number of monitoring systems have been developed in smart cities to ensure that real-time operations of a city satisfy safety and performance requirements. However, many existing city requirements are written in English with missing, inaccurate, or ambiguous information. There is a high demand for assisting city policy makers in converting human-specified requirements to machine-understandable formal specifications for monitoring systems. To tackle this limitation, we build CitySpec, the first intelligent assistant system for requirement specification in smart cities. To create CitySpec, we first collect over 1,500 real-world city requirements across different domains from over 100 cities and extract city-specific knowledge to generate a dataset of city vocabulary with 3,061 words. We also build a translation model and enhance it through requirement synthesis and develop a novel online learning framework with validation under uncertainty. The evaluation results on real-world city requirements show that CitySpec increases the sentence-level accuracy of requirement specification from 59.02% to 86.64%, and has strong adaptability to a new city and a new domain (e.g., F1 score for requirements in Seattle increases from 77.6% to 93.75% with online learning).
翻訳日:2022-06-09 00:22:56 公開日:2022-06-07
# (参考訳) Shuffled Check-in: 実践的な分散学習へのプライバシ増幅

Shuffled Check-in: Privacy Amplification towards Practical Distributed Learning ( http://arxiv.org/abs/2206.03151v1 )

ライセンス: CC BY 4.0
Seng Pei Liew, Satoshi Hasegawa, Tsubasa Takahashi(参考訳) 差分プライベート(DP)フェデレーション学習などの形式的プライバシ保証を伴う分散計算の最近の研究は、各ラウンドにおけるクライアントのランダムサンプリング(サブサンプリングによるプライバシ増幅)を活用して、良好なプライバシレベルを達成する。 しかし、これを達成するには、クライアントの正確かつ均一なサブサンプリングや、クライアントのデータを処理する高度に信頼された集約子など、実際に保持できない強い仮定が必要となる。 本稿では、上記の問題を解決するためのより実用的なプロトコルであるシャッフルチェックインについて検討する。 このプロトコルは、クライアントが独立でランダムな決定をして計算に参加し、サーバが起動するサブサンプリングの要件を解放し、クライアントのドロップアウトの堅牢なモデリングを可能にする。 さらに、信頼できるアグリゲータを使う代わりに、シャッフルモデルとして知られる弱い信頼モデルを採用する。 そこで我々は,シャッフルチェックインのR'enyi差分プライバシー(RDP)を特徴付ける新しいツールを提案する。 提案手法は,様々なパラメータ構成におけるdpの強固な構成を用いて,プライバシ保証を少なくとも3回改善することを示す。 さらに,gaussian機構を用いた分散確率勾配降下(sgd)を含む一般シャッフルチェックイン機構のプライバシを追跡する数値的手法を提案する。 我々の知る限りでは、これは文学における分散環境下でのローカル/シャッフルモデルにおけるガウス的メカニズムの初めての評価であり、これは独立した関心を持つことができる。

Recent studies of distributed computation with formal privacy guarantees, such as differentially private (DP) federated learning, leverage random sampling of clients in each round (privacy amplification by subsampling) to achieve satisfactory levels of privacy. Achieving this however requires strong assumptions which may not hold in practice, including precise and uniform subsampling of clients, and a highly trusted aggregator to process clients' data. In this paper, we explore a more practical protocol, shuffled check-in, to resolve the aforementioned issues. The protocol relies on client making independent and random decision to participate in the computation, freeing the requirement of server-initiated subsampling, and enabling robust modelling of client dropouts. Moreover, a weaker trust model known as the shuffle model is employed instead of using a trusted aggregator. To this end, we introduce new tools to characterize the R\'enyi differential privacy (RDP) of shuffled check-in. We show that our new techniques improve at least three times in privacy guarantee over those using approximate DP's strong composition at various parameter regimes. Furthermore, we provide a numerical approach to track the privacy of generic shuffled check-in mechanism including distributed stochastic gradient descent (SGD) with Gaussian mechanism. To the best of our knowledge, this is also the first evaluation of Gaussian mechanism within the local/shuffle model under the distributed setting in the literature, which can be of independent interest.
翻訳日:2022-06-09 00:04:16 公開日:2022-06-07
# (参考訳) エッジ上のアンサンブルによる分散低遅延協調推論

Decentralized Low-Latency Collaborative Inference via Ensembles on the Edge ( http://arxiv.org/abs/2206.03165v1 )

ライセンス: CC0 1.0
May Malka, Erez Farhan, Hai Morgenstern, and Nir Shlezinger(参考訳) ディープニューラルネットワーク(DNN)の成功は、計算資源に大きく依存している。 DNNはクラウドサーバでよく使用されるが、エッジデバイスでDNNを操作する必要性が高まっている。 エッジデバイスは通常、計算リソースに制限があるが、複数のエッジデバイスが同じ環境にデプロイされることが多く、互いに確実に通信することができる。 本研究では,複数のユーザが推論中に協力して精度を向上させることで,エッジ上でのDNNの適用を容易にすることを提案する。 我々のメカニズムは、各デバイスに様々な予測器を持ち、推論中にモデルのアンサンブルを形成することに基づいている。 通信オーバヘッドを軽減するため,ユーザは定量化された特徴を共有し,複数の決定を単一の推論ルールに集約する手法を提案する。 エッジアンサンブルによって引き起こされる遅延を分析し、その性能改善は、通信ネットワーク上の一般的な前提の下で、わずかな追加遅延のコストで生じることを示す。 実験により,コンパクトなDNNを組み込んだエッジアンサンブルによる協調推論により,各ユーザが局所的に推定するよりも精度が大幅に向上し,アンサンブル内の全ネットワークよりも1つの集中型DNNにより性能が向上することを示した。

The success of deep neural networks (DNNs) is heavily dependent on computational resources. While DNNs are often employed on cloud servers, there is a growing need to operate DNNs on edge devices. Edge devices are typically limited in their computational resources, yet, often multiple edge devices are deployed in the same environment and can reliably communicate with each other. In this work we propose to facilitate the application of DNNs on the edge by allowing multiple users to collaborate during inference to improve their accuracy. Our mechanism, coined {\em edge ensembles}, is based on having diverse predictors at each device, which form an ensemble of models during inference. To mitigate the communication overhead, the users share quantized features, and we propose a method for aggregating multiple decisions into a single inference rule. We analyze the latency induced by edge ensembles, showing that its performance improvement comes at the cost of a minor additional delay under common assumptions on the communication network. Our experiments demonstrate that collaborative inference via edge ensembles equipped with compact DNNs substantially improves the accuracy over having each user infer locally, and can outperform using a single centralized DNN larger than all the networks in the ensemble together.
翻訳日:2022-06-08 23:46:25 公開日:2022-06-07
# (参考訳) 驚きを振り返る - 神経近似のためのリバースエクスペリエンスリプレイの安定化

Look Back When Surprised: Stabilizing Reverse Experience Replay for Neural Approximation ( http://arxiv.org/abs/2206.03171v1 )

ライセンス: CC BY 4.0
Ramnath Kumar, Dheeraj Nagaraj(参考訳) 強化学習(RL)アルゴリズムの重要な部分である経験再生法は、時間依存データから学習しながら、素早い相関やバイアスを軽減するように設計されている。 大まかに言えば、これらの手法は大きなバッファからバッチデータを描画することができ、時間的相関が降下アルゴリズムの性能を妨げない。 本研究では,近年開発され,理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。 rerと楽観的経験リプレイ(oer)を組み合わせることで,神経関数近似下で安定なrer++を得る。 実験により,これは様々なタスクにおける優先経験再生(PER)のような手法よりも性能が優れており,計算の複雑さが著しく小さいことを示す。 RLの文献では、最も大きなTDエラー(OERのように)の例を選ぶか、連続したデータポイント(RERのように)でミニバッチを形成するとパフォーマンスが低下する。 しかし,これらの手法を組み合わせる手法は非常にうまく機能する。

Experience replay methods, which are an essential part of reinforcement learning(RL) algorithms, are designed to mitigate spurious correlations and biases while learning from temporally dependent data. Roughly speaking, these methods allow us to draw batched data from a large buffer such that these temporal correlations do not hinder the performance of descent algorithms. In this experimental work, we consider the recently developed and theoretically rigorous reverse experience replay (RER), which has been shown to remove such spurious biases in simplified theoretical settings. We combine RER with optimistic experience replay (OER) to obtain RER++, which is stable under neural function approximation. We show via experiments that this has a better performance than techniques like prioritized experience replay (PER) on various tasks, with a significantly smaller computational complexity. It is well known in the RL literature that choosing examples greedily with the largest TD error (as in OER) or forming mini-batches with consecutive data points (as in RER) leads to poor performance. However, our method, which combines these techniques, works very well.
翻訳日:2022-06-08 23:21:42 公開日:2022-06-07
# (参考訳) 会話における感情認識のための話者誘導エンコーダ・デコーダフレームワーク

Speaker-Guided Encoder-Decoder Framework for Emotion Recognition in Conversation ( http://arxiv.org/abs/2206.03173v1 )

ライセンス: CC BY 4.0
Yinan Bao, Qianwen Ma, Lingwei Wei, Wei Zhou, Songlin Hu(参考訳) 会話における感情認識は,会話中の発話の感情ラベルを予測することを目的としている。 話者間の依存関係は、話者内および話者間依存関係からなる複雑で動的であるため、話者固有情報のモデリングは、ERCにおいて不可欠である。 既存の研究者は様々な話者相互作用モデリング法を提案しているが、動的話者内および話者間依存関係を共同で探索することはできず、文脈の理解が不十分であり、さらに感情予測を妨げている。 そこで本研究では,話者内および話者間依存関係を動的に探索する新しい話者モデリング手法を設計する。 さらに、感情の復号化に話者情報を完全に活用する、ERCのための話者ガイドエンコーダデコーダ(SGED)フレームワークを提案する。 私たちは、フレームワークの会話コンテキストエンコーダとして、異なる既存のメソッドを使用し、提案フレームワークのスケーラビリティと柔軟性を示します。 SGEDの優位性と有効性を示す実験結果を得た。

The emotion recognition in conversation (ERC) task aims to predict the emotion label of an utterance in a conversation. Since the dependencies between speakers are complex and dynamic, which consist of intra- and inter-speaker dependencies, the modeling of speaker-specific information is a vital role in ERC. Although existing researchers have proposed various methods of speaker interaction modeling, they cannot explore dynamic intra- and inter-speaker dependencies jointly, leading to the insufficient comprehension of context and further hindering emotion prediction. To this end, we design a novel speaker modeling scheme that explores intra- and inter-speaker dependencies jointly in a dynamic manner. Besides, we propose a Speaker-Guided Encoder-Decoder (SGED) framework for ERC, which fully exploits speaker information for the decoding of emotion. We use different existing methods as the conversational context encoder of our framework, showing the high scalability and flexibility of the proposed framework. Experimental results demonstrate the superiority and effectiveness of SGED.
翻訳日:2022-06-08 23:07:10 公開日:2022-06-07
# (参考訳) 異なる乱流に対するデータ駆動サブグリッドスケール閉包の伝達学習の物理を説明する

Explaining the physics of transfer learning a data-driven subgrid-scale closure to a different turbulent flow ( http://arxiv.org/abs/2206.03198v1 )

ライセンス: CC BY 4.0
Adam Subel, Yifei Guan, Ashesh Chattopadhyay, Pedram Hassanzadeh(参考訳) トランスファーラーニング(TL)は、気象・気候予測や乱流モデリングといったニューラルネットワーク(NN)の科学的応用において、強力なツールになりつつある。 TLは分布外一般化(例えばパラメータの外挿)と異なるトレーニングセット(例えばシミュレーションや観察)の効果的なブレンディングを可能にする。 TLでは、ベースシステムのためにトレーニング済みのNNの選択されたレイヤが、ターゲットシステムからの小さなデータセットを使用して再トレーニングされる。 効果的なTLのためには、我々は知る必要がある 1) 再トレーニングに最適なレイヤは何か? そして 2)TL中に何を学んだか? 本稿では,多種多様な非線形システムに対して,新しい解析手法と(1)-(2)に対処する新しい枠組みを提案する。 本手法は, システムの非線形物理の観点からtlの内部動作を説明するため, システムのスペクトル解析と畳み込みnnの活性化と核のスペクトル解析を組み合わせたものである。 実験ケースとして2次元乱流のサブグリッドスケールモデルを用いて, 学習したカーネルは低域, 帯域幅, 高域通過フィルタの組み合わせであり, TLはベースシステムとターゲットシステムのスペクトル差に一致した新しいフィルタを学習することを示した。 また、最も浅い層は、機械学習文学においてTLを導く一般的な知恵に反する、これらの場合において、再トレーニングする上で最良のものであることも分かっています。 本フレームワークは,物理理論とNN理論に基づいて,事前トレーニングを行う上で最適なレイヤを同定する。 これらの分析は、TLで学んだ物理学を説明し、気候変動モデリングのような科学や工学の幅広い応用にTLを導くための枠組みを提供する。

Transfer learning (TL) is becoming a powerful tool in scientific applications of neural networks (NNs), such as weather/climate prediction and turbulence modeling. TL enables out-of-distribution generalization (e.g., extrapolation in parameters) and effective blending of disparate training sets (e.g., simulations and observations). In TL, selected layers of a NN, already trained for a base system, are re-trained using a small dataset from a target system. For effective TL, we need to know 1) what are the best layers to re-train? and 2) what physics are learned during TL? Here, we present novel analyses and a new framework to address (1)-(2) for a broad range of multi-scale, nonlinear systems. Our approach combines spectral analyses of the systems' data with spectral analyses of convolutional NN's activations and kernels, explaining the inner-workings of TL in terms of the system's nonlinear physics. Using subgrid-scale modeling of several setups of 2D turbulence as test cases, we show that the learned kernels are combinations of low-, band-, and high-pass filters, and that TL learns new filters whose nature is consistent with the spectral differences of base and target systems. We also find the shallowest layers are the best to re-train in these cases, which is against the common wisdom guiding TL in machine learning literature. Our framework identifies the best layer(s) to re-train beforehand, based on physics and NN theory. Together, these analyses explain the physics learned in TL and provide a framework to guide TL for wide-ranging applications in science and engineering, such as climate change modeling.
翻訳日:2022-06-08 22:54:51 公開日:2022-06-07
# (参考訳) FairVFL: 対立的対人学習を伴う公正な垂直的フェデレーション学習フレームワーク

FairVFL: A Fair Vertical Federated Learning Framework with Contrastive Adversarial Learning ( http://arxiv.org/abs/2206.03200v1 )

ライセンス: CC BY 4.0
Tao Qi, Fangzhao Wu, Chuhan Wu, Lingjuan Lyu, Tong Xu, Zhongliang Yang, Yongfeng Huang, Xing Xie(参考訳) Vertical Federated Learning(VFL)は、プライバシを保存する機械学習パラダイムであり、プライバシを保存する方法で、さまざまなプラットフォームに分散された機能からモデルを学ぶことができる。 実世界のアプリケーションでは、データは公平性に敏感な特徴(例えば性別)のバイアスを含む可能性があるため、VFLモデルはトレーニングデータからのバイアスを継承し、一部のユーザーグループでは不公平になる。 しかし、既存のfair mlメソッドは通常、モデルフェアネスを達成するためにフェアネスに敏感な機能の集中ストレージに依存している。 本稿では,VFLモデルの公平性を向上させるための,公平な垂直連合学習フレームワーク(FairVFL)を提案する。 FairVFLの中核となる考え方は、分散化された機能フィールドに基づいたサンプルの統一的で公正な表現を、プライバシ保護の方法で学習することだ。 具体的には、公平性に敏感な各プラットフォームは、まずローカル機能からローカルデータ表現を学習する。 その後、これらのローカル表現はサーバにアップロードされ、ターゲットタスクの統一表現に集約される。 公正な統一表現を学ぶために、公平性に敏感な特徴を格納した各プラットフォームにそれらを送信し、偏りのあるデータから受け継いだ統一表現からバイアスを取り除くために逆学習を適用します。 さらに,ユーザプライバシを保護するために,サーバの統一表現から,公平性に敏感な機能を持つプラットフォームに送信する前にプライバシー情報を削除するための,対照的な敵学習手法を提案する。 実世界の2つのデータセットの実験により,ユーザのプライバシをよく保護したモデルフェアネスを効果的に改善できることを確認した。

Vertical federated learning (VFL) is a privacy-preserving machine learning paradigm that can learn models from features distributed on different platforms in a privacy-preserving way. Since in real-world applications the data may contain bias on fairness-sensitive features (e.g., gender), VFL models may inherit bias from training data and become unfair for some user groups. However, existing fair ML methods usually rely on the centralized storage of fairness-sensitive features to achieve model fairness, which are usually inapplicable in federated scenarios. In this paper, we propose a fair vertical federated learning framework (FairVFL), which can improve the fairness of VFL models. The core idea of FairVFL is to learn unified and fair representations of samples based on the decentralized feature fields in a privacy-preserving way. Specifically, each platform with fairness-insensitive features first learns local data representations from local features. Then, these local representations are uploaded to a server and aggregated into a unified representation for the target task. In order to learn fair unified representations, we send them to each platform storing fairness-sensitive features and apply adversarial learning to remove bias from the unified representations inherited from the biased data. Moreover, for protecting user privacy, we further propose a contrastive adversarial learning method to remove privacy information from the unified representations in server before sending them to the platforms keeping fairness-sensitive features. Experiments on two real-world datasets validate that our method can effectively improve model fairness with user privacy well-protected.
翻訳日:2022-06-08 22:25:16 公開日:2022-06-07
# (参考訳) FlexLip: 制御可能なテキスト-ライプシステム

FlexLip: A Controllable Text-to-Lip System ( http://arxiv.org/abs/2206.03206v1 )

ライセンス: CC BY 4.0
Dan Oneata, Beata Lorincz, Adriana Stan and Horia Cucu(参考訳) テキスト入力をビデオコンテンツに変換するタスクは、合成メディア生成の重要なトピックになりつつある。 いくつかの方法が提案されており、制約のあるタスクで自然に近いパフォーマンスを達成する方法もある。 本稿では,テキストをリップランドマークに変換することで,テキスト対ビデオ生成問題のサブイシューに取り組む。 しかし、モジュール式で制御可能なシステムアーキテクチャを使ってこれを行い、それぞれのコンポーネントを評価します。 当社のシステムはflexlipと呼ばれ、text-to-speechとspeech-to-lipの2つのモジュールに分かれている。 このモジュール性により,各コンポーネントの置き換えが容易になると同時に,入力機能を分離あるいは投影することで,新たな話者識別への迅速な適応が可能になる。 本研究では,音声生成成分に対して20分以内のデータと,音声からリップまでの成分に対して5分以内を用いることで,生成したリップランドマークの客観的測定は,より大きなトレーニングサンプルを用いた場合と同等であることを示す。 また,データとシステム構成のいくつかの側面を考慮し,システム全体のフローを客観的に評価する手法も導入する。 これらの側面は、トレーニングデータの品質と量、事前訓練されたモデルの使用、それに含まれるデータ、および対象話者の同一性に関するものであり、後者については、モデル内の唇の形状を単に更新することで、目に見えない人物に対するゼロショットの唇適応を行うことができることを示す。

The task of converting text input into video content is becoming an important topic for synthetic media generation. Several methods have been proposed with some of them reaching close-to-natural performances in constrained tasks. In this paper, we tackle a subissue of the text-to-video generation problem, by converting the text into lip landmarks. However, we do this using a modular, controllable system architecture and evaluate each of its individual components. Our system, entitled FlexLip, is split into two separate modules: text-to-speech and speech-to-lip, both having underlying controllable deep neural network architectures. This modularity enables the easy replacement of each of its components, while also ensuring the fast adaptation to new speaker identities by disentangling or projecting the input features. We show that by using as little as 20 min of data for the audio generation component, and as little as 5 min for the speech-to-lip component, the objective measures of the generated lip landmarks are comparable with those obtained when using a larger set of training samples. We also introduce a series of objective evaluation measures over the complete flow of our system by taking into consideration several aspects of the data and system configuration. These aspects pertain to the quality and amount of training data, the use of pretrained models, and the data contained therein, as well as the identity of the target speaker; with regard to the latter, we show that we can perform zero-shot lip adaptation to an unseen identity by simply updating the shape of the lips in our model.
翻訳日:2022-06-08 22:04:48 公開日:2022-06-07
# (参考訳) Marvolo: ML駆動型マルウェア検出のためのプログラムデータ拡張

Marvolo: Programmatic Data Augmentation for Practical ML-Driven Malware Detection ( http://arxiv.org/abs/2206.03265v1 )

ライセンス: CC BY 4.0
Michael D. Wong, Edward Raff, James Holt, Ravi Netravali(参考訳) データ拡張は、元のデータとセマンティックに一致した方法でデータを変更する技術的困難のために、サイバーセキュリティ領域ではまれである。 特にこの欠点は、著作権の制限に満ちた良質で悪意のあるトレーニングデータを取得することの難しさと、銀行や政府のような機関が、大量に存在することのない標的となるマルウェアを受け取ることによる。 本稿では、ML駆動型マルウェア検出装置の精度を高める方法として、マルウェア(および良性)データセットをプログラム的に成長させるバイナリミュータであるMARVOLOを提案する。 MARVOLOは、マルウェアの作者や防御的な良性開発者が日常的に行う変更を模倣した意味保存コード変換を採用しており、意味のある拡張データを生成することができる。 重要なことに、セマンティックス保存変換により、MARVOLOはバイナリの高価なリバースエンジニアリングを強制することなく、オリジナルから新しく生成されたデータサンプルからラベルを安全に伝播することができる。 さらに、MARVOLOは、特定の時間(またはリソース)予算内で生成された多様なデータサンプルの密度を最大化することによって、実践者にとってコストを低くするいくつかの重要な最適化を組み込んでいる。 広範囲にわたる商用マルウェアデータセットと最近のML駆動のマルウェア検出実験により、MARVOLOは潜在的な入力バイナリのごく一部(15%)で運用しながら、アキュラシーを最大5%向上させることが示された。

Data augmentation has been rare in the cyber security domain due to technical difficulties in altering data in a manner that is semantically consistent with the original data. This shortfall is particularly onerous given the unique difficulty of acquiring benign and malicious training data that runs into copyright restrictions, and that institutions like banks and governments receive targeted malware that will never exist in large quantities. We present MARVOLO, a binary mutator that programmatically grows malware (and benign) datasets in a manner that boosts the accuracy of ML-driven malware detectors. MARVOLO employs semantics-preserving code transformations that mimic the alterations that malware authors and defensive benign developers routinely make in practice , allowing us to generate meaningful augmented data. Crucially, semantics-preserving transformations also enable MARVOLO to safely propagate labels from original to newly-generated data samples without mandating expensive reverse engineering of binaries. Further, MARVOLO embeds several key optimizations that keep costs low for practitioners by maximizing the density of diverse data samples generated within a given time (or resource) budget. Experiments using wide-ranging commercial malware datasets and a recent ML-driven malware detector show that MARVOLO boosts accuracies by up to 5%, while operating on only a small fraction (15%) of the potential input binaries.
翻訳日:2022-06-08 21:45:11 公開日:2022-06-07
# (参考訳) 機械学習センサー

Machine Learning Sensors ( http://arxiv.org/abs/2206.03266v1 )

ライセンス: CC BY 4.0
Pete Warden, Matthew Stewart, Brian Plancher, Colby Banbury, Shvetank Prakash, Emma Chen, Zain Asgar, Sachin Katti, and Vijay Janapa Reddi(参考訳) 機械学習センサーは、組み込み機械学習アプリケーションの将来のパラダイムシフトを表している。 組み込み機械学習(ML)の現在のインスタンス化は、複雑な統合、モジュール化の欠如、データムーブメントによるプライバシとセキュリティ上の懸念に悩まされている。 本稿では,これらの課題に対処するために,エッジデバイスにセンサインテリジェンスを組み込むための,データ中心のパラダイムを提案する。 センサ2.0"に対する私たちのビジョンは、ハードウェアレベルでより広いシステムからセンサ入力データとML処理を分離し、従来のセンサー機能を模倣する薄いインターフェースを提供することです。 この分離により、モジュラーで使いやすいMLセンサーデバイスが実現される。 本稿では、組み込みシステム上で制御マイクロプロセッサのソフトウェアスタックにML処理を構築するための標準アプローチによる課題と、MLセンサのモジュラリティがこれらの問題を緩和する方法について論じる。 MLセンサーは、プライバシと精度を高め、システムビルダーがシンプルなコンポーネントとして製品にMLを統合するのを容易にする。 将来的なMLセンサの例と実証的なデータシートをデモとして提供し,センサ2.0に向けての対話の構築を期待する。

Machine learning sensors represent a paradigm shift for the future of embedded machine learning applications. Current instantiations of embedded machine learning (ML) suffer from complex integration, lack of modularity, and privacy and security concerns from data movement. This article proposes a more data-centric paradigm for embedding sensor intelligence on edge devices to combat these challenges. Our vision for "sensor 2.0" entails segregating sensor input data and ML processing from the wider system at the hardware level and providing a thin interface that mimics traditional sensors in functionality. This separation leads to a modular and easy-to-use ML sensor device. We discuss challenges presented by the standard approach of building ML processing into the software stack of the controlling microprocessor on an embedded system and how the modularity of ML sensors alleviates these problems. ML sensors increase privacy and accuracy while making it easier for system builders to integrate ML into their products as a simple component. We provide examples of prospective ML sensors and an illustrative datasheet as a demonstration and hope that this will build a dialogue to progress us towards sensor 2.0.
翻訳日:2022-06-08 21:25:32 公開日:2022-06-07
# (参考訳) 微調整Versusメタ強化学習の有効性について

On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning ( http://arxiv.org/abs/2206.03271v1 )

ライセンス: CC BY 4.0
Zhao Mandi, Pieter Abbeel, Stephen James(参考訳) 知的エージェントは、新しいタスクを迅速かつ効率的に学習するために、以前に学習したタスクからの知識を活用する能力を持つべきである。 メタ学習アプローチは、これを実現するための一般的なソリューションとして現れています。 しかし,メタ強化学習(meta-RL)アルゴリズムは,タスク分布が狭い単純な環境に限定されている。 さらに、新しいタスクに適応するための微調整に続く事前学習のパラダイムが、教師付き学習と自己教師付き学習のシンプルで効果的なソリューションとして浮上した。 これは、メタ学習アプローチの利点が強化学習においても疑問視される。 そこで我々は,Procgen,RLBench,Atariなど,視覚に基づく様々なベンチマークにおけるメタRLアプローチについて検討する。 その結果、メタ学習アプローチが異なるタスク(同じタスクの異なるバリエーションではなく)で評価される場合、新しいタスクの微調整によるマルチタスク事前訓練は、メタテスト時適応によるメタトレーニングよりも同等か、あるいはそれ以上の効果があることがわかった。 マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。 これらの結果から,より難易度の高いタスクに対するメタrl手法の評価を提唱し,単純かつ強固なベースラインとして,微調整によるマルチタスク事前トレーニングを含める。

Intelligent agents should have the ability to leverage knowledge from previously learned tasks in order to learn new ones quickly and efficiently. Meta-learning approaches have emerged as a popular solution to achieve this. However, meta-reinforcement learning (meta-RL) algorithms have thus far been restricted to simple environments with narrow task distributions. Moreover, the paradigm of pretraining followed by fine-tuning to adapt to new tasks has emerged as a simple yet effective solution in supervised and self-supervised learning. This calls into question the benefits of meta-learning approaches also in reinforcement learning, which typically come at the cost of high complexity. We hence investigate meta-RL approaches in a variety of vision-based benchmarks, including Procgen, RLBench, and Atari, where evaluations are made on completely novel tasks. Our findings show that when meta-learning approaches are evaluated on different tasks (rather than different variations of the same task), multi-task pretraining with fine-tuning on new tasks performs equally as well, or better, than meta-pretraining with meta test-time adaptation. This is encouraging for future research, as multi-task pretraining tends to be simpler and computationally cheaper than meta-RL. From these findings, we advocate for evaluating future meta-RL methods on more challenging tasks and including multi-task pretraining with fine-tuning as a simple, yet strong baseline.
翻訳日:2022-06-08 20:55:56 公開日:2022-06-07
# (参考訳) 正規化フローを用いた関節マニフォールド学習と密度推定

Joint Manifold Learning and Density Estimation Using Normalizing Flows ( http://arxiv.org/abs/2206.03293v1 )

ライセンス: CC BY 4.0
Seyedeh Fatemeh Razavi, Mohammad Mahdi Mehmanchi, Reshad Hosseini, Mostafa Tavassolipour(参考訳) 多様体仮説に基づいて、実世界のデータはしばしば低次元多様体上に存在するが、確率に基づく生成モデルとしての正規化フローは、その構造的制約のためにこの多様体を見つけることができない。 なので、1つの興味深い疑問が生まれます: $\textit{" は、正規化フローにおけるデータのサブマニフォールドを見つけ、サブマニフォールド上のデータの密度を見積もることができますか? 本稿では,1ピクセルあたりのペナル化と階層的トレーニングという2つのアプローチを紹介する。 本稿では,多様体およびオフマニフォールド部分への流れの正規化により得られた変換空間を分離し,ジョイント多様体学習と密度推定のための単一ステップ法を提案する。 これは、データのサブマニフォールドを学習するためのピクセル単位のペナルティ化確率関数によって行われる。 正規化フローは変換されたデータがガウス化されていると仮定するが、この仮定は必ずしも真ではない。 この問題に対処するために,部分多様体の密度推定を改善するために階層的トレーニング手法が採用された。 この結果から,生成する画像品質と確率の観点で正規化フローを用いた同時多様体学習と密度推定における提案手法の優位性が検証された。

Based on the manifold hypothesis, real-world data often lie on a low-dimensional manifold, while normalizing flows as a likelihood-based generative model are incapable of finding this manifold due to their structural constraints. So, one interesting question arises: $\textit{"Can we find sub-manifold(s) of data in normalizing flows and estimate the density of the data on the sub-manifold(s)?"}$. In this paper, we introduce two approaches, namely per-pixel penalized log-likelihood and hierarchical training, to answer the mentioned question. We propose a single-step method for joint manifold learning and density estimation by disentangling the transformed space obtained by normalizing flows to manifold and off-manifold parts. This is done by a per-pixel penalized likelihood function for learning a sub-manifold of the data. Normalizing flows assume the transformed data is Gaussianizationed, but this imposed assumption is not necessarily true, especially in high dimensions. To tackle this problem, a hierarchical training approach is employed to improve the density estimation on the sub-manifold. The results validate the superiority of the proposed methods in simultaneous manifold learning and density estimation using normalizing flows in terms of generated image quality and likelihood.
翻訳日:2022-06-08 20:35:25 公開日:2022-06-07
# (参考訳) SGDによる深部ニューラルネットワークの一般化誤差境界

Generalization Error Bounds for Deep Neural Networks Trained by SGD ( http://arxiv.org/abs/2206.03299v1 )

ライセンス: CC BY 4.0
Mingze Wang, Chao Ma(参考訳) 確率勾配降下(sgd)によって訓練された深層ニューラルネットワークの一般化誤差境界は、パラメータノルムに基づく適切なパラメータノルムの動的制御とラデマシェ複雑性推定を組み合わせたものである。 境界はトレーニング軌道に沿った損失に明示的に依存し、多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNN)を含む幅広いネットワークアーキテクチャで動作する。 均一な安定性に基づく境界のようなアルゴリズム依存の一般化推定と比較すると、我々の境界は非凸損失関数の$L$-smoothnessを必要とせず、SGLD(Stochastic Langevin gradient descent)の代わりに直接SGDに適用できる。 数値計算の結果,オプティマイザとネットワークハイパーパラメータの変化に伴い,境界は空白かつ頑健であることが判明した。

Generalization error bounds for deep neural networks trained by stochastic gradient descent (SGD) are derived by combining a dynamical control of an appropriate parameter norm and the Rademacher complexity estimate based on parameter norms. The bounds explicitly depend on the loss along the training trajectory, and work for a wide range of network architectures including multilayer perceptron (MLP) and convolutional neural networks (CNN). Compared with other algorithm-depending generalization estimates such as uniform stability-based bounds, our bounds do not require $L$-smoothness of the nonconvex loss function, and apply directly to SGD instead of Stochastic Langevin gradient descent (SGLD). Numerical results show that our bounds are non-vacuous and robust with the change of optimizer and network hyperparameters.
翻訳日:2022-06-08 20:20:10 公開日:2022-06-07
# (参考訳) SSPQ学習における平均コストMDPの集中境界

Concentration bounds for SSP Q-learning for average cost MDPs ( http://arxiv.org/abs/2206.03328v1 )

ライセンス: CC BY 4.0
Shaan Ul Haque and Vivek Borkar(参考訳) 等価な最短経路問題に基づく平均コストマルコフ決定過程に対するQ-ラーニングアルゴリズムの集中度を導出し、相対値反復に基づく代替スキームと数値的に比較する。

We derive a concentration bound for a Q-learning algorithm for average cost Markov decision processes based on an equivalent shortest path problem, and compare it numerically with the alternative scheme based on relative value iteration.
翻訳日:2022-06-08 20:18:41 公開日:2022-06-07
# (参考訳) 自己監督型グラフ状態モデルによる精神疾患の診断の改善

Improving the Diagnosis of Psychiatric Disorders with Self-Supervised Graph State Space Models ( http://arxiv.org/abs/2206.03331v1 )

ライセンス: CC BY 4.0
Ahmed El Gazzar, Rajat Mani Thomas, Guido Van Wingen(参考訳) 近年,神経画像データによる脳障害の単一被検者予測が注目されている。 しかし、大うつ病障害(MDD)や自閉症スペクトラム障害(ASD)などの異種性疾患では、大規模多地点データセットの予測モデルの性能はいまだに劣っている。 静止状態機能MRI(s-fMRI)から異種精神疾患の診断を改善するための2段階の枠組みを提案する。 まず,健康管理と臨床データセットにおける患者との差異を活用できる健常者データに対する自己教師付きマスク予測タスクを提案する。 次に,学習した識別表現に基づいて教師付き分類器を訓練する。 rs-fMRIデータをモデル化するために、最近提案された状態空間モデルS4への拡張であるGraph-S4を開発した。 このフレームワークとGraph-S4を組み合わせることで、3つのオープンソースマルチセンター rs-fMRI 臨床データセットにおいて、MDD と ASD のニューロイメージングに基づく単体予測モデルの診断性能が大幅に向上することを示す。

Single subject prediction of brain disorders from neuroimaging data has gained increasing attention in recent years. Yet, for some heterogeneous disorders such as major depression disorder (MDD) and autism spectrum disorder (ASD), the performance of prediction models on large-scale multi-site datasets remains poor. We present a two-stage framework to improve the diagnosis of heterogeneous psychiatric disorders from resting-state functional magnetic resonance imaging (rs-fMRI). First, we propose a self-supervised mask prediction task on data from healthy individuals that can exploit differences between healthy controls and patients in clinical datasets. Next, we train a supervised classifier on the learned discriminative representations. To model rs-fMRI data, we develop Graph-S4; an extension to the recently proposed state-space model S4 to graph settings where the underlying graph structure is not known in advance. We show that combining the framework and Graph-S4 can significantly improve the diagnostic performance of neuroimaging-based single subject prediction models of MDD and ASD on three open-source multi-center rs-fMRI clinical datasets.
翻訳日:2022-06-08 20:04:21 公開日:2022-06-07
# (参考訳) Swin-Unet と Multimodal 画像を用いた耳下腺MRI

Parotid Gland MRI Segmentation Based on Swin-Unet and Multimodal Images ( http://arxiv.org/abs/2206.03336v1 )

ライセンス: CC BY 4.0
Yin Dai, Zi'an Xu, Fayu Liu, Siqi Li, Sheng Liu, Lifu Shi, Jun Fu(参考訳) 耳下腺腫瘍は頭頸部腫瘍の約2%から10%を占める。 耳下腺腫瘍に対する術前の腫瘍局在, 鑑別診断, その後の適切な治療法の選択は重要である。 しかし,これらの腫瘍と高度に分散した組織型の相対的悪性度は,術前の放射線検査による腫瘍病変の微妙な鑑別の必要性を欠いている。 近年、ディープラーニング手法が急速に発展し、特にTransformerはコンピュータビジョンにおける従来の畳み込みニューラルネットワークに勝っている。 コンピュータビジョンタスクのために多くの新しいトランスフォーマーベースのネットワークが提案されている。 本研究では,多心性耳下腺MRI画像の収集を行った。 TransformerをベースとしたSwin-Unetが使用された。 STIR, T1, T2モダリティのMRI像を3チャンネルデータに組み合わせてネットワークを訓練した。 耳下腺と腫瘍に対する関心領域のセグメンテーションが得られた。 テストセットのモデルのDSCは88.63%、MPAは99.31%、MIoUは83.99%、HDは3.04であった。 そこで本論文では,アルゴリズムのセグメンテーション性能をさらに検証するために,一連の比較実験を行った。

Parotid gland tumors account for approximately 2% to 10% of head and neck tumors. Preoperative tumor localization, differential diagnosis, and subsequent selection of appropriate treatment for parotid gland tumors is critical. However, the relative rarity of these tumors and the highly dispersed tissue types have left an unmet need for a subtle differential diagnosis of such neoplastic lesions based on preoperative radiomics. Recently, deep learning methods have developed rapidly, especially Transformer beats the traditional convolutional neural network in computer vision. Many new Transformer-based networks have been proposed for computer vision tasks. In this study, multicenter multimodal parotid gland MRI images were collected. The Swin-Unet which was based on Transformer was used. MRI images of STIR, T1 and T2 modalities were combined into a three-channel data to train the network. We achieved segmentation of the region of interest for parotid gland and tumor. The DSC of the model on the test set was 88.63%, MPA was 99.31%, MIoU was 83.99%, and HD was 3.04. Then a series of comparison experiments were designed in this paper to further validate the segmentation performance of the algorithm.
翻訳日:2022-06-08 19:44:56 公開日:2022-06-07
# (参考訳) il-mcam : 対話型学習と多チャンネル注意機構に基づく大腸病理組織像分類アプローチ

IL-MCAM: An interactive learning and multi-channel attention mechanism-based weakly supervised colorectal histopathology image classification approach ( http://arxiv.org/abs/2206.03368v1 )

ライセンス: CC BY 4.0
Haoyuan Chen, Chen Li, Xiaoyan Li, Md Mamunur Rahaman, Weiming Hu, Yixin Li, Wanli Liu, Changhao Sun, Hongzan Sun, Xinyu Huang, Marcin Grzegorzek(参考訳) 近年、大腸癌はヒトの健康を危険にさらす最も重要な疾患の1つとなっている。 大腸病理像の分類には,深層学習法の重要性が増している。 しかし、既存のアプローチでは、人間とコンピュータの相互作用ではなく、コンピュータを用いたエンドツーエンドの自動分類に重点を置いている。 本稿では,IL-MCAMフレームワークを提案する。 それは注意機構と対話的な学習に基づいている。 提案するIL-MCAMフレームワークは,自動学習(AL)と対話学習(IL)の2段階を含む。 AL段階では、3つの異なるアテンションメカニズムチャネルと畳み込みニューラルネットワークを含むマルチチャネルアテンションメカニズムモデルを用いて、分類のためのマルチチャネル特徴を抽出する。 IL段階において、IL-MCAMフレームワークは、対話的なアプローチでトレーニングセットに非分類画像を連続的に付加し、MCAMモデルの分類能力を向上させる。 提案するIL-MCAMフレームワークの性能を検証するため,本データセットとHE-NCT-CRC-100Kデータセットの比較実験を行い,98.98%,99.77%の分類精度を得た。 また,3つのチャネルの機能と交換性を検証するため,アブレーション実験と交換可能性実験を行った。 実験の結果,IL-MCAMフレームワークは大腸病理組織像分類タスクにおいて優れた性能を示した。

In recent years, colorectal cancer has become one of the most significant diseases that endanger human health. Deep learning methods are increasingly important for the classification of colorectal histopathology images. However, existing approaches focus more on end-to-end automatic classification using computers rather than human-computer interaction. In this paper, we propose an IL-MCAM framework. It is based on attention mechanisms and interactive learning. The proposed IL-MCAM framework includes two stages: automatic learning (AL) and interactivity learning (IL). In the AL stage, a multi-channel attention mechanism model containing three different attention mechanism channels and convolutional neural networks is used to extract multi-channel features for classification. In the IL stage, the proposed IL-MCAM framework continuously adds misclassified images to the training set in an interactive approach, which improves the classification ability of the MCAM model. We carried out a comparison experiment on our dataset and an extended experiment on the HE-NCT-CRC-100K dataset to verify the performance of the proposed IL-MCAM framework, achieving classification accuracies of 98.98% and 99.77%, respectively. In addition, we conducted an ablation experiment and an interchangeability experiment to verify the ability and interchangeability of the three channels. The experimental results show that the proposed IL-MCAM framework has excellent performance in the colorectal histopathological image classification tasks.
翻訳日:2022-06-08 19:27:20 公開日:2022-06-07
# (参考訳) 離散拡散のオンラインフィルタリングのための計算Doobの$h$-transforms

Computational Doob's $h$-transforms for Online Filtering of Discretely Observed Diffusions ( http://arxiv.org/abs/2206.03369v1 )

ライセンス: CC BY 4.0
Nicolas Chopin, Andras Fulop, Jeremy Heng, Alexandre H. Thiery(参考訳) 本稿では,離散的に観察された非線形拡散過程のオンラインフィルタリングについて述べる。 私たちのアプローチは、doobの$h$-transformsを含む完全に適応した補助粒子フィルタをベースにしています。 非線形ファインマン・カック公式とニューラルネットワークを用いて、下位コルモゴロフ方程式を解いて、これらの$h$変換を近似する計算フレームワークを提案する。 この手法により、データ同化手順の前に局所最適粒子フィルタを訓練することができる。 数値実験により, モデルの下で観測が極端に大きい場合や, 状態次元が大きい場合には, ブートストラップ粒子フィルタよりもはるかに効率がよいことを示す。

This paper is concerned with online filtering of discretely observed nonlinear diffusion processes. Our approach is based on the fully adapted auxiliary particle filter, which involves Doob's $h$-transforms that are typically intractable. We propose a computational framework to approximate these $h$-transforms by solving the underlying backward Kolmogorov equations using nonlinear Feynman-Kac formulas and neural networks. The methodology allows one to train a locally optimal particle filter prior to the data-assimilation procedure. Numerical experiments illustrate that the proposed approach can be orders of magnitude more efficient than the bootstrap particle filter in the regime of highly informative observations, when the observations are extreme under the model, and if the state dimension is large.
翻訳日:2022-06-08 18:49:35 公開日:2022-06-07
# (参考訳) Garment Avatars: パターン登録によるリアルな衣服運転

Garment Avatars: Realistic Cloth Driving using Pattern Registration ( http://arxiv.org/abs/2206.03373v1 )

ライセンス: CC BY 4.0
Oshri Halimi, Fabian Prada, Tuur Stuyck, Donglai Xiang, Timur Bagautdinov, He Wen, Ron Kimmel, Takaaki Shiratori, Chenglei Wu, Yaser Sheikh(参考訳) 仮想テレプレゼンスは、オンラインコミュニケーションの未来である。 衣服は個人のアイデンティティと自己表現の重要な部分である。 しかし、現実的な布のアニメーションのためのテレプレゼンスモデルの訓練に必要な解像度と精度では、現在、登録された衣服の真実データが利用できない。 本稿では,衣料品の乾式表現のためのエンドツーエンドパイプラインを提案する。 提案手法のコアとなるのは,高精度に変形をキャプチャできる多視点パターン追跡アルゴリズムである。 さらに,この追跡手法によって得られた高品質なデータを活用して,衣服のアバターを製作する。 得られたモデルはスパースビューを用いてアニメーションすることができ、駆動信号に忠実な非常に現実的な再構成を生成する。 2つのビューから衣料品を再構築し,ユーザが希望通りに衣料品のデザインを選択・交換できる現実的仮想テレプレゼンスアプリケーションにおいて,パイプラインの有効性を実証する。 また,身体的姿勢のみに駆り立てられる場合の難解なシナリオを示すとともに,着衣のアバターは,最先端よりも極めて高品質な現実的な布の形状を作り出すことができる。

Virtual telepresence is the future of online communication. Clothing is an essential part of a person's identity and self-expression. Yet, ground truth data of registered clothes is currently unavailable in the required resolution and accuracy for training telepresence models for realistic cloth animation. Here, we propose an end-to-end pipeline for building drivable representations for clothing. The core of our approach is a multi-view patterned cloth tracking algorithm capable of capturing deformations with high accuracy. We further rely on the high-quality data produced by our tracking method to build a Garment Avatar: an expressive and fully-drivable geometry model for a piece of clothing. The resulting model can be animated using a sparse set of views and produces highly realistic reconstructions which are faithful to the driving signals. We demonstrate the efficacy of our pipeline on a realistic virtual telepresence application, where a garment is being reconstructed from two views, and a user can pick and swap garment design as they wish. In addition, we show a challenging scenario when driven exclusively with body pose, our drivable garment avatar is capable of producing realistic cloth geometry of significantly higher quality than the state-of-the-art.
翻訳日:2022-06-08 18:31:56 公開日:2022-06-07
# (参考訳) 過去の成功を模倣することは

Imitating Past Successes can be Very Suboptimal ( http://arxiv.org/abs/2206.03378v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach, Soumith Udatha, Sergey Levine and Ruslan Salakhutdinov(参考訳) 以前の研究では、強化学習(rl)のためのシンプルな戦略を提案している。 これらの結果条件付き模倣学習法は, 単純さ, 高い性能, 教師付き学習との密接な関係から, 魅力的である。 しかし、これらの方法が標準のrl目標、報酬の最大化とどのように関係しているのかは、まだ不明である。 本稿では,既存の成果条件付き模倣学習手法が必ずしもポリシーを改良するわけではないことを実証する。 それにもかかわらず、簡単な修正は、いくつかの仮定の下で、政策改善を保証する方法をもたらすことを示す。 我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化する方法について説明することである。

Prior work has proposed a simple strategy for reinforcement learning (RL): label experience with the outcomes achieved in that experience, and then imitate the relabeled experience. These outcome-conditioned imitation learning methods are appealing because of their simplicity, strong performance, and close ties with supervised learning. However, it remains unclear how these methods relate to the standard RL objective, reward maximization. In this paper, we prove that existing outcome-conditioned imitation learning methods do not necessarily improve the policy; rather, in some settings they can decrease the expected reward. Nonetheless, we show that a simple modification results in a method that does guarantee policy improvement, under some assumptions. Our aim is not to develop an entirely new method, but rather to explain how a variant of outcome-conditioned imitation learning can be used to maximize rewards.
翻訳日:2022-06-08 18:01:59 公開日:2022-06-07
# (参考訳) 拡散モデルを用いた高速無監督脳異常検出とセグメンテーション

Fast Unsupervised Brain Anomaly Detection and Segmentation with Diffusion Models ( http://arxiv.org/abs/2206.03461v1 )

ライセンス: CC BY 4.0
Walter H. L. Pinaya, Mark S. Graham, Robert Gray, Pedro F Da Costa, Petru-Daniel Tudosiu, Paul Wright, Yee H. Mah, Andrew D. MacKinnon, James T. Teo, Rolf Jager, David Werring, Geraint Rees, Parashkev Nachev, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 深層生成モデルは、データ中の任意の異常を検出するための有望なツールとして登場し、手動ラベリングを必要としない。 近年, オートレグレッシブトランスフォーマは, 医用画像における異常検出のための最先端の性能を達成している。 それでもこれらのモデルには、イメージを1Dシーケンスとしてモデル化すること、サンプリングプロセス中のエラーの蓄積、トランスフォーマーに関連する重要な推論時間など、固有の弱点がある。 拡散確率モデル(英: Denoising diffusion probabilistic model)は、コンピュータビジョンにおいて優れたサンプルを生成するために最近示された非自己回帰生成モデルのクラスであり、高速な推論時間を持ちながらトランスフォーマーと競合するログライクな動作を実現する。 拡散モデルはオートエンコーダによって学習される潜在表現に適用でき、簡単にスケーラブルで、医用画像などの高次元データに適用できる優れた候補となる。 本稿では,脳画像中の異常を検出する拡散モデルに基づく手法を提案する。 モデルを健全なデータでトレーニングし、マルコフ連鎖の拡散と逆ステップを探索することにより、潜在空間の異常領域を特定し、ピクセル空間の異常領域を特定することができる。 拡散モデルと2dctおよびmriデータを用いた一連の実験で比較した自己回帰的アプローチは, 推定時間を大幅に短縮し, 臨床的に有用であった。

Deep generative models have emerged as promising tools for detecting arbitrary anomalies in data, dispensing with the necessity for manual labelling. Recently, autoregressive transformers have achieved state-of-the-art performance for anomaly detection in medical imaging. Nonetheless, these models still have some intrinsic weaknesses, such as requiring images to be modelled as 1D sequences, the accumulation of errors during the sampling process, and the significant inference times associated with transformers. Denoising diffusion probabilistic models are a class of non-autoregressive generative models recently shown to produce excellent samples in computer vision (surpassing Generative Adversarial Networks), and to achieve log-likelihoods that are competitive with transformers while having fast inference times. Diffusion models can be applied to the latent representations learnt by autoencoders, making them easily scalable and great candidates for application to high dimensional data, such as medical images. Here, we propose a method based on diffusion models to detect and segment anomalies in brain imaging. By training the models on healthy data and then exploring its diffusion and reverse steps across its Markov chain, we can identify anomalous areas in the latent space and hence identify anomalies in the pixel space. Our diffusion models achieve competitive performance compared with autoregressive approaches across a series of experiments with 2D CT and MRI data involving synthetic and real pathological lesions with much reduced inference times, making their usage clinically viable.
翻訳日:2022-06-08 17:39:20 公開日:2022-06-07
# (参考訳) SDPに基づくニューラルネットワーク検証のためのパラメトリックコードスポーザリティ

Parametric Chordal Sparsity for SDP-based Neural Network Verification ( http://arxiv.org/abs/2206.03482v1 )

ライセンス: CC BY 4.0
Anton Xue, Lars Lindemann, Rajeev Alur(参考訳) 多くの未来の技術はニューラルネットワークに依存しているが、彼らの行動の正しさを検証することは大きな課題である。 ニューラルネットワークは、たとえ小さな入力摂動があっても脆弱であり、予測不可能な出力をもたらすことが知られている。 したがって、ニューラルネットワークの検証は採用に不可欠であり、近年ではいくつかのアプローチが提案されている。 本稿では,ニューラルネットワーク検証のための半定値プログラミング(SDP)に基づく手法に着目する。 我々の出発点はfazlyabらによって提案されたdeepsdpフレームワークで、二次制約を使って検証問題を大規模sdpに抽象化する。 しかし、ニューラルネットワークのサイズが大きくなると、このSDPの解決はすぐに困難になる。 我々のキーとなる観察は、DeepSDPの弦の間隔と特定のパラメトリゼーションを利用することで、大規模な線形行列不等式(LMI)であるDeepSDPの計算ボトルネックを、より小さなLMIの同等のコレクションに分解できるということである。 我々のパラメトリゼーションは調整可能なパラメータを認め、検証手順における効率と精度のトレードオフを可能にします。 我々は,Chordal-DeepSDP を定式化して,(1) チューナブルパラメータによる精度向上,(2) より深いネットワーク上でのDeepSDP の精度向上を示す実験的な評価を行った。

Many future technologies rely on neural networks, but verifying the correctness of their behavior remains a major challenge. It is known that neural networks can be fragile in the presence of even small input perturbations, yielding unpredictable outputs. The verification of neural networks is therefore vital to their adoption, and a number of approaches have been proposed in recent years. In this paper we focus on semidefinite programming (SDP) based techniques for neural network verification, which are particularly attractive because they can encode expressive behaviors while ensuring a polynomial time decision. Our starting point is the DeepSDP framework proposed by Fazlyab et al, which uses quadratic constraints to abstract the verification problem into a large-scale SDP. When the size of the neural network grows, however, solving this SDP quickly becomes intractable. Our key observation is that by leveraging chordal sparsity and specific parametrizations of DeepSDP, we can decompose the primary computational bottleneck of DeepSDP -- a large linear matrix inequality (LMI) -- into an equivalent collection of smaller LMIs. Our parametrization admits a tunable parameter, allowing us to trade-off efficiency and accuracy in the verification procedure. We call our formulation Chordal-DeepSDP, and provide experimental evaluation to show that it can: (1) effectively increase accuracy with the tunable parameter and (2) outperform DeepSDP on deeper networks.
翻訳日:2022-06-08 17:27:22 公開日:2022-06-07
# 時系列モデリングにおけるニューラルネットワークの学習時間と解釈可能性のバランスについて

On the balance between the training time and interpretability of neural ODE for time series modelling ( http://arxiv.org/abs/2206.03304v1 )

ライセンス: Link先を確認
Yakov Golovanev, Alexander Hvatov(参考訳) ほとんどの機械学習手法は、モデリングのブラックボックスとして使用される。 我々は、ニューラルODE(正規微分方程式)のような物理に基づくトレーニング手法から知識を抽出しようとするかもしれない。 ニューラルODEには、おそらく高レベルの表現関数、ブラックボックス機械学習モデルに対する解釈可能性の拡張、トレンドとローカルな振る舞いの両方を記述できるといったメリットがある。 このような利点は、複雑な傾向を持つ時系列において特に重要である。 しかし、既知の欠点は、データ駆動時系列モデリングに広く使用されている自己回帰モデルや長短時間メモリ(LSTM)ネットワークと比較して、高いトレーニング時間である。 したがって、ニューラルネットワークを実際に適用するためには、解釈可能性とトレーニング時間のバランスをとる必要がある。 本稿は,現代のニューラルODEを時系列モデリングアプリケーションのためのシンプルなモデルに還元することはできないことを示す。 ニューラルネットワークodeの複雑さは、従来の時系列モデリングツールと比較または超える。 抽出できる唯一の解釈は作用素の固有空間であり、これは大規模システムにとって不適切な問題である。 スペクトルは、拡張時間の欠点を持たない異なる古典的分析法を用いて抽出することができる。 そこで我々は,ニューラルネットワークをより単純な線形形式に還元し,複合ニューラルネットワークとODEシステムアプローチを用いた時系列モデリングの新しい視点を提案する。

Most machine learning methods are used as a black box for modelling. We may try to extract some knowledge from physics-based training methods, such as neural ODE (ordinary differential equation). Neural ODE has advantages like a possibly higher class of represented functions, the extended interpretability compared to black-box machine learning models, ability to describe both trend and local behaviour. Such advantages are especially critical for time series with complicated trends. However, the known drawback is the high training time compared to the autoregressive models and long-short term memory (LSTM) networks widely used for data-driven time series modelling. Therefore, we should be able to balance interpretability and training time to apply neural ODE in practice. The paper shows that modern neural ODE cannot be reduced to simpler models for time-series modelling applications. The complexity of neural ODE is compared to or exceeds the conventional time-series modelling tools. The only interpretation that could be extracted is the eigenspace of the operator, which is an ill-posed problem for a large system. Spectra could be extracted using different classical analysis methods that do not have the drawback of extended time. Consequently, we reduce the neural ODE to a simpler linear form and propose a new view on time-series modelling using combined neural networks and an ODE system approach.
翻訳日:2022-06-08 16:55:53 公開日:2022-06-07
# ML4SEモデルのプロジェクトレベル微調整の評価

Assessing Project-Level Fine-Tuning of ML4SE Models ( http://arxiv.org/abs/2206.03333v1 )

ライセンス: Link先を確認
Egor Bogomolov and Sergey Zhuravlev and Egor Spirin and Timofey Bryksin(参考訳) machine learning for software engineering(ml4se)は、プログラマの作業を支援する手法に焦点を当てた、活発に成長している研究分野である。 開発手法を実際に適用するには,開発者の注意をそらすのではなく,適切な品質を実現する必要がある。 コード表現とデータ収集に対する新しいアプローチの開発は、モデル全体の品質を改善するが、目の前のプロジェクトから得られる情報を考慮してはいない。 本研究では,特定のプロジェクトを対象とした場合のモデルの品質改善について検討する。 我々は、特定のプロジェクトにおけるメソッド名予測タスクの微調整後にモデルが得る品質改善を評価するフレームワークを開発した。 異なる複雑さの3つのモデルを評価し、その品質を3つの設定で比較します。javaプロジェクトの大規模なデータセット上でトレーニングされ、特定のプロジェクトのデータに基づいてさらに微調整され、このデータからスクラッチからトレーニングされます。 プロジェクトごとの微調整は、プロジェクトのドメインと命名規則をキャプチャすることで、モデルの品質を大幅に改善できることを示す。 データ収集に使用したツールと、実験を実行するためのコードを、オープンソースで公開しています。

Machine Learning for Software Engineering (ML4SE) is an actively growing research area that focuses on methods that help programmers in their work. In order to apply the developed methods in practice, they need to achieve reasonable quality in order to help rather than distract developers. While the development of new approaches to code representation and data collection improves the overall quality of the models, it does not take into account the information that we can get from the project at hand. In this work, we investigate how the model's quality can be improved if we target a specific project. We develop a framework to assess quality improvements that models can get after fine-tuning for the method name prediction task on a particular project. We evaluate three models of different complexity and compare their quality in three settings: trained on a large dataset of Java projects, further fine-tuned on the data from a particular project, and trained from scratch on this data. We show that per-project fine-tuning can greatly improve the models' quality as they capture the project's domain and naming conventions. We open-source the tool we used for data collection, as well as the code to run the experiments: https://zenodo.org/record/6040745.
翻訳日:2022-06-08 16:55:19 公開日:2022-06-07
# 医療画像へのデータ盗み攻撃:データレイクからネットワークをエクスポートすることは安全か?

Data Stealing Attack on Medical Images: Is it Safe to Export Networks from Data Lakes? ( http://arxiv.org/abs/2206.03391v1 )

ライセンス: Link先を確認
Huiyu Li, Nicholas Ayache, Herv\'e Delingette(参考訳) プライバシ保存機械学習では、学習モデルの所有者がデータへの物理的アクセスを持っていないことが一般的である。 代わりに、保護されたデータレイクへのリモートアクセスのみが、データレイクからデータを取得する能力のないモデル所有者に与えられる。 しかし、モデルオーナーは、トレーニングされたモデルを定期的にリモートリポジトリからエクスポートしたいかもしれない。 本稿では,ニューラルネットワークの輸出中におけるデータ盗難攻撃の概念を紹介する。 エクスポートされたネットワークにいくつかの情報を隠して、そのデータレイクに格納された画像のデータレイクの外部に復元を可能にする。 より正確には、損失のある画像圧縮を実行できるネットワークを訓練することができ、同時に画像分割のようなユーティリティなタスクも解決できることを示す。 攻撃は、圧縮デコーダネットワークをいくつかの画像コードと共にエクスポートし、データレイクの外で画像再構成を行う。 対象とするデータセットの知覚的に有意義な再構成が可能であり、盗まれたデータセットを順番に使用して幅広いタスクを解決できることを示すため、ctおよびmr画像データベースに対するそのような攻撃の可能性を検討する。 総合的な実験と分析により、データ盗難攻撃は機密画像データソースの脅威と見なされるべきであることが示された。

In privacy-preserving machine learning, it is common that the owner of the learned model does not have any physical access to the data. Instead, only a secured remote access to a data lake is granted to the model owner without any ability to retrieve data from the data lake. Yet, the model owner may want to export the trained model periodically from the remote repository and a question arises whether this may cause is a risk of data leakage. In this paper, we introduce the concept of data stealing attack during the export of neural networks. It consists in hiding some information in the exported network that allows the reconstruction outside the data lake of images initially stored in that data lake. More precisely, we show that it is possible to train a network that can perform lossy image compression and at the same time solve some utility tasks such as image segmentation. The attack then proceeds by exporting the compression decoder network together with some image codes that leads to the image reconstruction outside the data lake. We explore the feasibility of such attacks on databases of CT and MR images, showing that it is possible to obtain perceptually meaningful reconstructions of the target dataset, and that the stolen dataset can be used in turns to solve a broad range of tasks. Comprehensive experiments and analyses show that data stealing attacks should be considered as a threat for sensitive imaging data sources.
翻訳日:2022-06-08 16:55:00 公開日:2022-06-07
# 外乱検出と周期検出のためのロバスト時系列異性度測定

Robust Time Series Dissimilarity Measure for Outlier Detection and Periodicity Detection ( http://arxiv.org/abs/2206.02956v1 )

ライセンス: Link先を確認
Xiaomin Song, Qingsong Wen, Yan Li, Liang Sun(参考訳) 動的時間ワープ(DTW)は、多くの時系列アプリケーションにおいて有効な相同性尺度である。 その人気にもかかわらず、ノイズや外れ値の傾向があり、特異性の問題や測定のバイアスにつながる。 dtwの時間複雑性は時系列の長さに2倍であり、リアルタイムアプリケーションでは適用できない。 本稿では,雑音や異常値の影響を低減するため,ロバストdtwという新しい時系列異種性尺度を提案する。 具体的には、RobustDTWはトレンドを推定し、設計した時間的グラフトレンドフィルタリングを利用して、時間ワープを交互に最適化する。 効率を向上させるために,より低い解像度で傾向とワープ関数を推定し,高分解能で繰り返し精錬するマルチレベルフレームワークを提案する。 提案したRobustDTWに基づいて、さらに周期性検出と外れ値時系列検出に拡張する。 実世界のデータセットを用いた実験では、外乱時系列検出と周期性検出の両方において、DTWの変種と比較してロバストDTWの優れた性能を示す。

Dynamic time warping (DTW) is an effective dissimilarity measure in many time series applications. Despite its popularity, it is prone to noises and outliers, which leads to singularity problem and bias in the measurement. The time complexity of DTW is quadratic to the length of time series, making it inapplicable in real-time applications. In this paper, we propose a novel time series dissimilarity measure named RobustDTW to reduce the effects of noises and outliers. Specifically, the RobustDTW estimates the trend and optimizes the time warp in an alternating manner by utilizing our designed temporal graph trend filtering. To improve efficiency, we propose a multi-level framework that estimates the trend and the warp function at a lower resolution, and then repeatedly refines them at a higher resolution. Based on the proposed RobustDTW, we further extend it to periodicity detection and outlier time series detection. Experiments on real-world datasets demonstrate the superior performance of RobustDTW compared to DTW variants in both outlier time series detection and periodicity detection.
翻訳日:2022-06-08 16:52:32 公開日:2022-06-07
# 一般化ガウス混合モデルを用いたパッチベース超解像

Patch-based image Super Resolution using generalized Gaussian mixture model ( http://arxiv.org/abs/2206.03069v1 )

ライセンス: Link先を確認
Dang-Phuong-Lan Nguyen (IMB, IMS), Jean-Fran\c{c}ois Aujol (IMB), Yannick Berthoumieu (IMS)(参考訳) シングルイメージ・スーパーレゾリューション(sisr)法は,低解像度の観測からクリーンな画像を高分解能で復元することを目的としている。 最小平均二乗誤差(MMSE)法は、画像のパッチの確率モデルを用いた強力な画像復元法である。 本稿では,低分解能パッチとそれに対応する高分解能パッチのペアからGGMM(Command Generalized Gaussian Mix Model)を基準データから学習するアルゴリズムを提案する。 次に,MMSE法による高解像度画像の再構成を行う。 本稿では,MMSE-GGMM法が他の手法と競合することを示す。

Single Image Super Resolution (SISR) methods aim to recover the clean images in high resolution from low resolution observations.A family of patch-based approaches have received considerable attention and development. The minimum mean square error (MMSE) methodis a powerful image restoration method that uses a probability model on the patches of images. This paper proposes an algorithm to learn a jointgeneralized Gaussian mixture model (GGMM) from a pair of the low resolution patches and the corresponding high resolution patches fromthe reference data. We then reconstruct the high resolution image based on the MMSE method. Our numerical evaluations indicate that theMMSE-GGMM method competes with other state of the art methods.
翻訳日:2022-06-08 16:52:17 公開日:2022-06-07
# SubStrat: より高速なAutoMLのためのサブセットベースの戦略

SubStrat: A Subset-Based Strategy for Faster AutoML ( http://arxiv.org/abs/2206.03070v1 )

ライセンス: Link先を確認
Teddy Lazebnik, Amit Somech, Abraham Itzhak Weinberg(参考訳) 機械学習(AutoML)フレームワークは、MLパイプライン構築のための手作業を大幅に削減するため、データサイエンティストの武器として重要なツールとなっている。 このようなフレームワークは、機能エンジニアリング、モデル選択、ハイパーパラメータチューニングステップを含む数百万の可能なMLパイプラインをインテリジェントに検索し、最終的に予測精度の観点から最適なパイプラインを出力する。 しかしながら、データセットが大きくなると、個々の設定の実行に時間がかかるため、全体のAutoML実行時間が増加します。 そこで本研究では,構成空間ではなく,データサイズに取り組むautoml最適化戦略であるsubstratを提案する。 既存のAutoMLツールをラップし、データセット全体を直接実行する代わりに、SubStratは遺伝子ベースのアルゴリズムを使用して、完全なデータの特定の特性を保持する、小さくて代表的なデータサブセットを見つける。 その後、小さなサブセットにAutoMLツールを使用し、最後に、大きなデータセット上で制限された、はるかに短いAutoMLプロセスを実行することで、結果のパイプラインを洗練する。 代表的な2つのAutoMLフレームワークであるAuto-SklearnとTPOTで実施された実験結果は、SubStratが実行時間を79%削減し(平均で)、結果のMLパイプラインの精度が2%以下になったことを示している。

Automated machine learning (AutoML) frameworks have become important tools in the data scientists' arsenal, as they dramatically reduce the manual work devoted to the construction of ML pipelines. Such frameworks intelligently search among millions of possible ML pipelines - typically containing feature engineering, model selection and hyper parameters tuning steps - and finally output an optimal pipeline in terms of predictive accuracy. However, when the dataset is large, each individual configuration takes longer to execute, therefore the overall AutoML running times become increasingly high. To this end, we present SubStrat, an AutoML optimization strategy that tackles the data size, rather than configuration space. It wraps existing AutoML tools, and instead of executing them directly on the entire dataset, SubStrat uses a genetic-based algorithm to find a small yet representative data subset which preserves a particular characteristic of the full data. It then employs the AutoML tool on the small subset, and finally, it refines the resulted pipeline by executing a restricted, much shorter, AutoML process on the large dataset. Our experimental results, performed on two popular AutoML frameworks, Auto-Sklearn and TPOT, show that SubStrat reduces their running times by 79% (on average), with less than 2% average loss in the accuracy of the resulted ML pipeline.
翻訳日:2022-06-08 16:52:04 公開日:2022-06-07
# リスク対策と上層確率:コヒーレンスと成層化

Risk Measures and Upper Probabilities: Coherence and Stratification ( http://arxiv.org/abs/2206.03183v1 )

ライセンス: Link先を確認
Christian Fr\"ohlich and Robert C. Williamson(参考訳) 機械学習は一般に、アグリゲーションが期待に基づいて構築されることを示す古典的な確率論を前提としている。 現在、機械学習の数学的基礎として、古典的確率論のよりリッチな代替を考える動機づけとなる複数の理由がある。 我々は、スペクトルリスク測度、チョーケ積分、ローレンツノルムなどと呼ばれる、強力な、リッチな代替手段のクラスを体系的に検討する。 我々は、様々な特徴付け結果を示し、このスペクトルファミリをなぜ特別なものにするかを示す。 その際、すべてのコヒーレントリスク測度の自然な階層化を、再配置不変バナッハ空間の理論の結果を駆使して誘導する上確率の観点から示す。 我々は、この新たな不確実性に対するアプローチが、実践的な機械学習問題にどのように対処するかを実証的に示す。

Machine learning typically presupposes classical probability theory which implies that aggregation is built upon expectation. There are now multiple reasons to motivate looking at richer alternatives to classical probability theory as a mathematical foundation for machine learning. We systematically examine a powerful and rich class of such alternatives, known variously as spectral risk measures, Choquet integrals or Lorentz norms. We present a range of characterization results, and demonstrate what makes this spectral family so special. In doing so we demonstrate a natural stratification of all coherent risk measures in terms of the upper probabilities that they induce by exploiting results from the theory of rearrangement invariant Banach spaces. We empirically demonstrate how this new approach to uncertainty helps tackling practical machine learning problems.
翻訳日:2022-06-08 16:51:40 公開日:2022-06-07
# ベイズ最適化の最近の進歩

Recent Advances in Bayesian Optimization ( http://arxiv.org/abs/2206.03301v1 )

ライセンス: Link先を確認
Xilu Wang, Yaochu Jin, Sebastian Schmitt, Markus Olhofer(参考訳) ベイズ最適化はそのデータ効率のために高価なブラックボックス最適化の最前線に現れた。 近年,新しいベイズ最適化アルゴリズムの開発と応用に関する研究が盛んに行われている。 そこで本稿では,ベイズ最適化の最近の進歩を包括的かつ更新した調査を行い,興味深い開問題を明らかにする。 提案手法の動機と焦点に応じて,ベイズ最適化に関する既存の研究を9つの主要グループに分類した。 各カテゴリについて,サロゲートモデルの構築と獲得関数の適応に関して,主な進歩を示す。 最後に、オープンな質問を議論し、特に分散およびフェデレーション最適化システムにおける不均一性、プライバシー保護、公平性について、将来的な研究方向性を提案する。

Bayesian optimization has emerged at the forefront of expensive black-box optimization due to its data efficiency. Recent years have witnessed a proliferation of studies on the development of new Bayesian optimization algorithms and their applications. Hence, this paper attempts to provide a comprehensive and updated survey of recent advances in Bayesian optimization and identify interesting open problems. We categorize the existing work on Bayesian optimization into nine main groups according to the motivations and focus of the proposed algorithms. For each category, we present the main advances with respect to the construction of surrogate models and adaptation of the acquisition functions. Finally, we discuss the open questions and suggest promising future research directions, in particular with regard to heterogeneity, privacy preservation, and fairness in distributed and federated optimization systems.
翻訳日:2022-06-08 16:51:26 公開日:2022-06-07
# 異なる誤りを補正する置換符号のためのニューラルネットワークデコーダ

Neural Network Decoders for Permutation Codes Correcting Different Errors ( http://arxiv.org/abs/2206.03315v1 )

ライセンス: Link先を確認
Yeow Meng Chee, Hui Zhang(参考訳) 電力線通信およびフラッシュメモリのランク変調における異なる種類の誤差を補正するために、置換符号を広範囲に研究した。 本稿では,一括復号法で誤りを訂正するために,置換符号のためのニューラルネットワークデコーダを導入し,このデコーダを長さ$n$の符号に対して,非バイナリシンボルに対して$n$の分類タスクとして扱う。 実際、これら2つのアプリケーションのエラータイプを扱うために導入された最初の一般的なデコーダである。 デコーダの性能は、異なる誤差モデルによるシミュレーションによって評価される。

Permutation codes were extensively studied in order to correct different types of errors for the applications on power line communication and rank modulation for flash memory. In this paper, we introduce the neural network decoders for permutation codes to correct these errors with one-shot decoding, which treat the decoding as $n$ classification tasks for non-binary symbols for a code of length $n$. These are actually the first general decoders introduced to deal with any error type for these two applications. The performance of the decoders is evaluated by simulations with different error models.
翻訳日:2022-06-08 16:49:09 公開日:2022-06-07
# AS2T: 話者認識システムにおける任意ソース対ターゲットアタック

AS2T: Arbitrary Source-To-Target Adversarial Attack on Speaker Recognition Systems ( http://arxiv.org/abs/2206.03351v1 )

ライセンス: Link先を確認
Guangke Chen and Zhe Zhao and Fu Song and Sen Chen and Lingling Fan and Yang Liu(参考訳) 最近の研究は、話者認識システム(SRS)の敵攻撃に対する脆弱性を照らし、SRSの展開において重大なセキュリティ上の懸念を提起している。 しかし、いくつかの設定(例えば、ソースとターゲットのスピーカーの組み合わせ)しか考慮せず、実際の攻撃シナリオだけに多くの興味深い重要な設定を残した。 本研究では,このドメインにおける最初の攻撃であるAS2Tを提案する。この攻撃により,敵は任意の音源を用いて敵の声を作成でき,ターゲット話者は3つの主要な認識タスクのいずれかをこなすことができる。 すべての設定に既存の損失関数は適用できないので、既存および新規に設計されたものを含め、各設定の候補損失関数を探索する。 我々はそれらの効果を徹底的に評価し、既存の損失関数が準最適であることを示す。 そこで,AS2Tの強靭性を向上させるため,無線通信における歪みの可能性を調査し,異なるパラメータの異なる変換関数を用いてその歪みをモデル化し,対向音声の生成に組み込む。 実験により, 各種ハードウェア装置や各種音響環境において, 異なる残響, 環境騒音, 騒音レベルにおいて有効である頑健な対向音声を合成する手法の有効性が検証された。 最後に,AS2Tを用いてこれまでで最大規模の評価を行い,14種類のSRS間の転送可能性について検討した。 転写可能性解析は、画像領域における以前の研究で得られたいくつかの発見と結論に挑戦する興味深い、有用な洞察を提供する。 本研究は,話者認識領域における敵攻撃の今後の方向性についても明らかにした。

Recent work has illuminated the vulnerability of speaker recognition systems (SRSs) against adversarial attacks, raising significant security concerns in deploying SRSs. However, they considered only a few settings (e.g., some combinations of source and target speakers), leaving many interesting and important settings in real-world attack scenarios alone. In this work, we present AS2T, the first attack in this domain which covers all the settings, thus allows the adversary to craft adversarial voices using arbitrary source and target speakers for any of three main recognition tasks. Since none of the existing loss functions can be applied to all the settings, we explore many candidate loss functions for each setting including the existing and newly designed ones. We thoroughly evaluate their efficacy and find that some existing loss functions are suboptimal. Then, to improve the robustness of AS2T towards practical over-the-air attack, we study the possible distortions occurred in over-the-air transmission, utilize different transformation functions with different parameters to model those distortions, and incorporate them into the generation of adversarial voices. Our simulated over-the-air evaluation validates the effectiveness of our solution in producing robust adversarial voices which remain effective under various hardware devices and various acoustic environments with different reverberation, ambient noises, and noise levels. Finally, we leverage AS2T to perform thus far the largest-scale evaluation to understand transferability among 14 diverse SRSs. The transferability analysis provides many interesting and useful insights which challenge several findings and conclusion drawn in previous works in the image domain. Our study also sheds light on future directions of adversarial attacks in the speaker recognition domain.
翻訳日:2022-06-08 16:48:59 公開日:2022-06-07
# DeepOPF-AL: 複数負荷ソリューションマッピングによるAC-OPF問題を解決するための強化学習

DeepOPF-AL: Augmented Learning for Solving AC-OPF Problems with Multiple Load-Solution Mappings ( http://arxiv.org/abs/2206.03365v1 )

ライセンス: Link先を確認
Xiang Pan, Wanjun Huang, Minghua Chen, and Steven H. Low(参考訳) 非凸AC-OPF問題の複数負荷-解写像の存在は、ディープニューラルネットワーク(DNN)スキームに根本的な課題をもたらす。 トレーニングデータセットには、異なる負荷-解決マッピングに対応するデータポイントが混在している可能性があるため、DNNは正当なマッピングを学ばず、劣ったソリューションを生成することができる。 本稿では,この問題に対処するための強化学習手法としてDeepOPF-ALを提案する。 DNNを訓練して、拡張入力、すなわち(負荷、初期点)から繰り返しOPFソルバが生成した解へのユニークなマッピングを、ロードと初期点をインテークとして学習する。 次に、学習した拡張写像を適用し、従来の解法よりもはるかに高速にAC-OPF問題を解く。 IEEEテストケース上でのシミュレーション結果から、DNNと比べ、DeepOPF-ALは明らかに優れた最適性と同様の実現可能性、および高速化性能を実現している。

The existence of multiple load-solution mappings of non-convex AC-OPF problems poses a fundamental challenge to deep neural network (DNN) schemes. As the training dataset may contain a mixture of data points corresponding to different load-solution mappings, the DNN can fail to learn a legitimate mapping and generate inferior solutions. We propose DeepOPF-AL as an augmented-learning approach to tackle this issue. The idea is to train a DNN to learn a unique mapping from an augmented input, i.e., (load, initial point), to the solution generated by an iterative OPF solver with the load and initial point as intake. We then apply the learned augmented mapping to solve AC-OPF problems much faster than conventional solvers. Simulation results over IEEE test cases show that DeepOPF-AL achieves noticeably better optimality and similar feasibility and speedup performance, as compared to a recent DNN scheme, with the same DNN size yet elevated training complexity.
翻訳日:2022-06-08 16:48:31 公開日:2022-06-07
# $\mathbb{R}^N$の低次元部分多様体の線形ジョンソン-リンデンシュトラウス埋め込みの外部ビプシッツ拡大について

On Outer Bi-Lipschitz Extensions of Linear Johnson-Lindenstrauss Embeddings of Low-Dimensional Submanifolds of $\mathbb{R}^N$ ( http://arxiv.org/abs/2206.03376v1 )

ライセンス: Link先を確認
Mark A. Iwen, Mark Philip Roach(参考訳) $\mathcal{m}$ を$\mathbb{r}^n$ のコンパクトな $d$-次元部分多様体とし、$\tau$ と volume $v_{\mathcal m}$ に達する。 epsilon \in (0,1)$ を修正します。 本稿では、非線形関数 $f: \mathbb{r}^n \rightarrow \mathbb{r}^{m}$ が $m \leq c \left(d / \epsilon^2 \right) \log \left(\frac{\sqrt[d]{v_{\mathcal m}}}{\tau} \right)$ で$(1 - \epsilon) \| {\bf x} - {\bf y} \|_2 \leq \left\| f({\bf x}) - f({\bf y}) \right\|_2 \leq (1 + \epsilon) \| {\bf x} - {\bf y} \|_2$$ となることを証明する。 事実上、$f$は、$\mathcal{M}$ から $\mathbb{R}^{m}$ への双Lipschitz函数として機能するだけでなく、$\mathcal{M}$ に満たない点から$\mathcal{M}$ のすべての点までの距離をほぼ保存する。 さらに、証明は構成的であり、実際にうまく動作するアルゴリズムが得られる。 特に、このような非線形関数は標準線形ジョンソン・リンデンシュトラウス埋め込みよりもより正確な圧縮的近接分類を可能にすることが実証的に証明されている。

Let $\mathcal{M}$ be a compact $d$-dimensional submanifold of $\mathbb{R}^N$ with reach $\tau$ and volume $V_{\mathcal M}$. Fix $\epsilon \in (0,1)$. In this paper we prove that a nonlinear function $f: \mathbb{R}^N \rightarrow \mathbb{R}^{m}$ exists with $m \leq C \left(d / \epsilon^2 \right) \log \left(\frac{\sqrt[d]{V_{\mathcal M}}}{\tau} \right)$ such that $$(1 - \epsilon) \| {\bf x} - {\bf y} \|_2 \leq \left\| f({\bf x}) - f({\bf y}) \right\|_2 \leq (1 + \epsilon) \| {\bf x} - {\bf y} \|_2$$ holds for all ${\bf x} \in \mathcal{M}$ and ${\bf y} \in \mathbb{R}^N$. In effect, $f$ not only serves as a bi-Lipschitz function from $\mathcal{M}$ into $\mathbb{R}^{m}$ with bi-Lipschitz constants close to one, but also approximately preserves all distances from points not in $\mathcal{M}$ to all points in $\mathcal{M}$ in its image. Furthermore, the proof is constructive and yields an algorithm which works well in practice. In particular, it is empirically demonstrated herein that such nonlinear functions allow for more accurate compressive nearest neighbor classification than standard linear Johnson-Lindenstrauss embeddings do in practice.
翻訳日:2022-06-08 16:48:13 公開日:2022-06-07
# 深層学習による短ブロック長Wiretapチャネル符号の設計と性能評価

Short Blocklength Wiretap Channel Codes via Deep Learning: Design and Performance Evaluation ( http://arxiv.org/abs/2206.03477v1 )

ライセンス: Link先を確認
Vidhi Rana and Remi A. Chou(参考訳) 我々はgaussian wiretapチャネルの短いブロック長符号を情報理論的なセキュリティ保証の下で設計する。 私たちのアプローチは、コード設計における信頼性と機密性の制約を分離することにあります。 具体的には、オートエンコーダを介して信頼性制約を扱い、ハッシュ関数による秘密制約を処理する。 ブロック長が16以下の場合,正規受信機における誤差の確率と,コード構築のための盗聴器における漏れの確率をシミュレーションにより評価する。 この漏洩は、機密メッセージと盗聴者のチャネル観測との間の相互情報として定義され、ニューラルネットワークに基づく相互情報推定器を介して経験的に測定される。 シミュレーション結果は,gaussian wiretapチャネルにおいて非構築的に得られた最も既知の秘密化率よりも高い正の秘密化率を持つ符号の例を示す。 さらに,本設計は,チャネル統計が完全には分かっていないが,事前に特定された不確実性集合に属することが知られているガウス通信路に適用できることを示す。 これらのモデルは、チャネル統計の推定に関連する不確実性だけでなく、eavesdropperが正当な送信を妨害したり、位置を変更して自身のチャネル統計に影響を及ぼすシナリオも捉えている。

We design short blocklength codes for the Gaussian wiretap channel under information-theoretic security guarantees. Our approach consists in decoupling the reliability and secrecy constraints in our code design. Specifically, we handle the reliability constraint via an autoencoder, and handle the secrecy constraint with hash functions. For blocklengths smaller than or equal to 16, we evaluate through simulations the probability of error at the legitimate receiver and the leakage at the eavesdropper for our code construction. This leakage is defined as the mutual information between the confidential message and the eavesdropper's channel observations, and is empirically measured via a neural network-based mutual information estimator. Our simulation results provide examples of codes with positive secrecy rates that outperform the best known achievable secrecy rates obtained non-constructively for the Gaussian wiretap channel. Additionally, we show that our code design is suitable for the compound and arbitrarily varying Gaussian wiretap channels, for which the channel statistics are not perfectly known but only known to belong to a pre-specified uncertainty set. These models not only capture uncertainty related to channel statistics estimation, but also scenarios where the eavesdropper jams the legitimate transmission or influences its own channel statistics by changing its location.
翻訳日:2022-06-08 16:47:08 公開日:2022-06-07
# (参考訳) パーソナライズド・フェデレーション学習のためのグループプライバシ

Group privacy for personalized federated learning ( http://arxiv.org/abs/2206.03396v1 )

ライセンス: CC BY 4.0
Filippo Galli, Sayan Biswas, Kangsoo Jung, Catuscia Palamidessi, Tommaso Cucinotta(参考訳) フェデレーション学習(federated learning)は、コラボレーションマシンラーニングの一種で、参加者のクライアントがデータをローカルに処理し、コラボレーティブモデルのアップデートのみを共有する。 これにより、プライバシを意識した分散機械学習モデルの構築が可能になる。 目標は、クライアントのセットによってローカルに保存されるデータセットの集合のコスト関数を最小化することで、統計モデルのパラメータの最適化である。 このプロセスでは、クライアントがプライベート情報の漏洩とモデルのパーソナライゼーションの欠如という2つの問題に対処する。 一方,近年のデータ解析技術の進歩に伴い,参加者のプライバシー侵害に対する懸念が高まっている。 これを軽減するために、差分プライバシーとその変種は、正式なプライバシー保証を提供する標準となる。 クライアントは、しばしば非常に異質なコミュニティを表し、非常に多様なデータを保持する。 したがって、FLコミュニティが最近焦点を合わせ、多様性を表すユーザのためのパーソナライズされたモデルのフレームワークを構築することは、クライアントの機密情報や個人情報に対する潜在的な脅威から保護することが最も重要である。 最近普及した位置情報プライバシのパラダイムであるgeo-indistinguishabilityの一般化である$d$-privacyは、元のデータの空間分布を保存するメトリックベースの難読化技術を使用している。 クライアントのプライバシ保護とパーソナライズされたモデルトレーニングによるシステムの公平性と有用性の向上という課題に対処するため,FLの枠組みの下でパーソナライズされたモデルを可能にする$d$-privacyのキープロパティを利用するグループプライバシ保証を提案する。 提案手法の適用可能性と実世界のデータセットの実験的検証を理論的に正当化し,提案手法の動作を説明する。

Federated learning is a type of collaborative machine learning, where participating clients process their data locally, sharing only updates to the collaborative model. This enables to build privacy-aware distributed machine learning models, among others. The goal is the optimization of a statistical model's parameters by minimizing a cost function of a collection of datasets which are stored locally by a set of clients. This process exposes the clients to two issues: leakage of private information and lack of personalization of the model. On the other hand, with the recent advancements in techniques to analyze data, there is a surge of concern for the privacy violation of the participating clients. To mitigate this, differential privacy and its variants serve as a standard for providing formal privacy guarantees. Often the clients represent very heterogeneous communities and hold data which are very diverse. Therefore, aligned with the recent focus of the FL community to build a framework of personalized models for the users representing their diversity, it is also of utmost importance to protect against potential threats against the sensitive and personal information of the clients. $d$-privacy, which is a generalization of geo-indistinguishability, the lately popularized paradigm of location privacy, uses a metric-based obfuscation technique that preserves the spatial distribution of the original data. To address the issue of protecting the privacy of the clients and allowing for personalized model training to enhance the fairness and utility of the system, we propose a method to provide group privacy guarantees exploiting some key properties of $d$-privacy which enables personalized models under the framework of FL. We provide with theoretical justifications to the applicability and experimental validation on real-world datasets to illustrate the working of the proposed method.
翻訳日:2022-06-08 16:46:18 公開日:2022-06-07
# シームズエンコーダを用いた肺結節の成長傾向予測用時空間混合器

Siamese Encoder-based Spatial-Temporal Mixer for Growth Trend Prediction of Lung Nodules on CT Scans ( http://arxiv.org/abs/2206.03049v1 )

ライセンス: Link先を確認
Jiansheng Fang, Jingwen Wang, Anwei Li, Yuguang Yan, Yonghe Hou, Chao Song, Hongbo Liu, and Jiang Liu(参考訳) 肺結節の管理においては,ctスキャンによる結節の径変化から結節進展を予測し,結節の成長傾向の予測結果に応じてフォローアップを推奨することが望ましい。 肺結節の成長傾向予測の性能を向上させるためには, 連続ctで同じ結節の変化を比較することが重要である。 NLST(National Lung Screening Trial)データセットから4,666名の被験者をスキャンし,NLSTtと呼ばれる時間的データセットを整理した。 本研究は,まず,登録CTスキャンに基づいて,同一結節をカバーする興味領域(ROI)を検出する。 その後,モデルを用いて結節のテクスチャのカテゴリーと直径を予測した。 最後に,各結節の直径の変化に応じて,各結節の進化クラスに注釈を付ける。 構築したNLSTtデータセットに基づいて,連続CTスキャンから検出した3次元ROIの識別特性を同時に活用するシアムエンコーダを提案する。 次に, 時空間ミキサー(STM)を新たに設計し, 連続3次元ROIにおける同じ結節の間隔変化を利用して, 結節領域と現在の3次元ROIの空間依存性を捉える。 臨床診断ルーチンでは,結節の成長に注意を払うために階層的損失を用いる。 組織化されたデータセットに対する広範な実験により,提案手法の利点が示された。 また,本手法の臨床的有用性を評価するため,本手法を熟練臨床医と比較検討した。

In the management of lung nodules, we are desirable to predict nodule evolution in terms of its diameter variation on Computed Tomography (CT) scans and then provide a follow-up recommendation according to the predicted result of the growing trend of the nodule. In order to improve the performance of growth trend prediction for lung nodules, it is vital to compare the changes of the same nodule in consecutive CT scans. Motivated by this, we screened out 4,666 subjects with more than two consecutive CT scans from the National Lung Screening Trial (NLST) dataset to organize a temporal dataset called NLSTt. In specific, we first detect and pair regions of interest (ROIs) covering the same nodule based on registered CT scans. After that, we predict the texture category and diameter size of the nodules through models. Last, we annotate the evolution class of each nodule according to its changes in diameter. Based on the built NLSTt dataset, we propose a siamese encoder to simultaneously exploit the discriminative features of 3D ROIs detected from consecutive CT scans. Then we novelly design a spatial-temporal mixer (STM) to leverage the interval changes of the same nodule in sequential 3D ROIs and capture spatial dependencies of nodule regions and the current 3D ROI. According to the clinical diagnosis routine, we employ hierarchical loss to pay more attention to growing nodules. The extensive experiments on our organized dataset demonstrate the advantage of our proposed method. We also conduct experiments on an in-house dataset to evaluate the clinical utility of our method by comparing it against skilled clinicians.
翻訳日:2022-06-08 16:06:51 公開日:2022-06-07
# CPU上での自律運転における学習ベーストレーサビリティ分析の限界を押し上げる

Pushing the Limits of Learning-based Traversability Analysis for Autonomous Driving on CPU ( http://arxiv.org/abs/2206.03083v1 )

ライセンス: Link先を確認
Daniel Fusaro, Emilio Olivastri, Daniele Evangelista, Marco Imperoli, Emanuele Menegatti, and Alberto Pretto(参考訳) 自動運転車と自動地上ロボットは、安全なナビゲーションのために周囲の環境の移動性を分析する信頼性と正確な方法を必要とする。 本稿では,svm分類器に基づくハイブリッド手法において,幾何学的特徴と外観的特徴を組み合わせたリアルタイム機械学習に基づくトラバーサビリティ解析手法を提案する。 特に,新しい幾何学的特徴と視覚的特徴を統合し,重要な実装詳細に注目することで,性能と信頼性が著しく向上することを示す。 提案手法は、屋外運転シナリオのパブリックデータセットに関する最先端のDeep Learningアプローチと比較されている。 複雑性の異なるシナリオでは89.2%の精度に達し、その有効性と堅牢性を示している。 このメソッドはcpu上で完全に動作し、他のメソッドと同等の結果に到達し、より高速に動作し、ハードウェアリソースを少なくする。

Self-driving vehicles and autonomous ground robots require a reliable and accurate method to analyze the traversability of the surrounding environment for safe navigation. This paper proposes and evaluates a real-time machine learning-based Traversability Analysis method that combines geometric features with appearance-based features in a hybrid approach based on a SVM classifier. In particular, we show that integrating a new set of geometric and visual features and focusing on important implementation details enables a noticeable boost in performance and reliability. The proposed approach has been compared with state-of-the-art Deep Learning approaches on a public dataset of outdoor driving scenarios. It reaches an accuracy of 89.2% in scenarios of varying complexity, demonstrating its effectiveness and robustness. The method runs fully on CPU and reaches comparable results with respect to the other methods, operates faster, and requires fewer hardware resources.
翻訳日:2022-06-08 16:06:23 公開日:2022-06-07
# 集団人工知能を用いたより良い解釈・一般化可能なAD検出に向けて

Towards better Interpretable and Generalizable AD detection using Collective Artificial Intelligence ( http://arxiv.org/abs/2206.03247v1 )

ライセンス: Link先を確認
Huy-Dung Nguyen, Micha\"el Cl\'ement, Boris Mansencal, Pierrick Coup\'e(参考訳) アルツハイマー病の正確な診断と予後は、新しい治療法の開発と関連するコストの削減に不可欠である。 近年,畳み込みニューラルネットワークの進歩に伴い,この2つのタスクを構造MRIを用いて自動化する深層学習法が提案されている。 しかし、これらの方法はしばしば解釈可能性や一般化の欠如に苦しめられ、予後に乏しい。 本稿では,これらの制約を克服する新しい深層フレームワークを提案する。 私たちのパイプラインは2つの段階からなる。 最初の段階では、125個の3D U-Netを使って脳全体のボクセルワイドのスコアを推定する。 得られた3Dマップは融合し、構造レベルで病気の重症度を示す解釈可能な3D階調マップを構築する。 その結果、臨床医はこの地図を使って疾患の影響を受ける脳構造を検出することができる。 第2段階では、階調マップと被写体年齢を用いて、グラフ畳み込みニューラルネットワークを用いて分類を行う。 2106名を対象にした実験結果では,ad診断と予後の両方において,異なるデータセットにおける最先端手法と比較して,深層フレームワークの競合性が示された。 さらに,多量のu-netを用いて異なる重複脳領域を処理することにより,提案手法の一般化能力が向上した。

Accurate diagnosis and prognosis of Alzheimer's disease are crucial for developing new therapies and reducing the associated costs. Recently, with the advances of convolutional neural networks, deep learning methods have been proposed to automate these two tasks using structural MRI. However, these methods often suffer from a lack of interpretability and generalization and have limited prognosis performance. In this paper, we propose a novel deep framework designed to overcome these limitations. Our pipeline consists of two stages. In the first stage, 125 3D U-Nets are used to estimate voxelwise grade scores over the whole brain. The resulting 3D maps are then fused to construct an interpretable 3D grading map indicating the disease severity at the structure level. As a consequence, clinicians can use this map to detect the brain structures affected by the disease. In the second stage, the grading map and subject's age are used to perform classification with a graph convolutional neural network. Experimental results based on 2106 subjects demonstrated competitive performance of our deep framework compared to state-of-the-art methods on different datasets for both AD diagnosis and prognosis. Moreover, we found that using a large number of U-Nets processing different overlapping brain areas improved the generalization capacity of the proposed methods.
翻訳日:2022-06-08 16:06:10 公開日:2022-06-07
# 超解像抑圧画像の階層的類似性学習

Hierarchical Similarity Learning for Aliasing Suppression Image Super-Resolution ( http://arxiv.org/abs/2206.03361v1 )

ライセンス: Link先を確認
Yuqing Liu, Qi Jia, Jian Zhang, Xin Fan, Shanshe Wang, Siwei Ma and Wen Gao(参考訳) 非常に不適切な問題として、近年では単一画像超解像(SISR)が広く研究されている。 SISRの主な課題は、分解処理による情報損失を回復することである。 ナイキストサンプリング理論によれば、劣化はエイリアス効果をもたらし、低解像度(LR)画像から正しいテクスチャを復元することが困難になる。 実際、自然画像に隣接するパッチ間には相関関係と自己相似性がある。 本稿では,自己相似性を考慮し,エイリアスの影響を抑制する階層画像超解像ネットワーク(HSRNet)を提案する。 最適化の観点からSISR問題を考察し、半四分法分割法(HQS)に基づく反復解パターンを提案する。 局所画像を用いてテクスチャを探索するため,階層探索ブロック (HEB) を設計し, 受容場を漸進的に増加させる。 さらに,マルチレベル空間アテンション(MSA)を考案し,隣接する特徴の関係を把握し,視覚体験において重要な役割を担う高周波情報を強化する。 実験の結果,HSRNetは他の作品よりも定量的,視覚的パフォーマンスが向上し,エイリアスをより効果的に再現できることがわかった。

As a highly ill-posed issue, single image super-resolution (SISR) has been widely investigated in recent years. The main task of SISR is to recover the information loss caused by the degradation procedure. According to the Nyquist sampling theory, the degradation leads to aliasing effect and makes it hard to restore the correct textures from low-resolution (LR) images. In practice, there are correlations and self-similarities among the adjacent patches in the natural images. This paper considers the self-similarity and proposes a hierarchical image super-resolution network (HSRNet) to suppress the influence of aliasing. We consider the SISR issue in the optimization perspective, and propose an iterative solution pattern based on the half-quadratic splitting (HQS) method. To explore the texture with local image prior, we design a hierarchical exploration block (HEB) and progressive increase the receptive field. Furthermore, multi-level spatial attention (MSA) is devised to obtain the relations of adjacent feature and enhance the high-frequency information, which acts as a crucial role for visual experience. Experimental result shows HSRNet achieves better quantitative and visual performance than other works, and remits the aliasing more effectively.
翻訳日:2022-06-08 16:05:52 公開日:2022-06-07
# モンテカルロレンダリングと雑音除去を用いた画像からの形状・光・物質分解

Shape, Light & Material Decomposition from Images using Monte Carlo Rendering and Denoising ( http://arxiv.org/abs/2206.03380v1 )

ライセンス: Link先を確認
Jon Hasselgren, Nikolai Hofmann and Jacob Munkberg(参考訳) 最近の微分可能レンダリングの進歩により、マルチビュー画像からの3dシーンの高品質な再構築が可能となった。 ほとんどの方法は単純なレンダリングアルゴリズムに依存している。 レイトレーシングとモンテカルロの統合を取り入れたより現実的なシェーディングモデルが, 形状, 材料, 照明の分解を著しく改善することを示す。 残念なことに、モンテカルロ積分は大きなサンプル数であっても大きなノイズを伴う推定を提供するため、勾配に基づく逆レンダリングは非常に困難である。 これを解決するために、新しい逆レンダリングパイプラインに複数の重要サンプリングとデノイングを組み込む。 これは収束を大幅に改善し、低いサンプル数での勾配に基づく最適化を可能にする。 本稿では, 従来よりも材料と光の分離を著しく改善する, 幾何学(特殊三角形メッシュ), 材料, 照明を共同で再構築する効率的な方法を提案する。 我々は、ノイズ化は高品質な逆レンダリングパイプラインの不可欠な部分になり得ると主張している。

Recent advances in differentiable rendering have enabled high-quality reconstruction of 3D scenes from multi-view images. Most methods rely on simple rendering algorithms: pre-filtered direct lighting or learned representations of irradiance. We show that a more realistic shading model, incorporating ray tracing and Monte Carlo integration, substantially improves decomposition into shape, materials & lighting. Unfortunately, Monte Carlo integration provides estimates with significant noise, even at large sample counts, which makes gradient-based inverse rendering very challenging. To address this, we incorporate multiple importance sampling and denoising in a novel inverse rendering pipeline. This substantially improves convergence and enables gradient-based optimization at low sample counts. We present an efficient method to jointly reconstruct geometry (explicit triangle meshes), materials, and lighting, which substantially improves material and light separation compared to previous work. We argue that denoising can become an integral part of high quality inverse rendering pipelines.
翻訳日:2022-06-08 16:05:35 公開日:2022-06-07
# 最大化最小化による高速かつロバストな非リギッドレジストレーション

Fast and Robust Non-Rigid Registration Using Accelerated Majorization-Minimization ( http://arxiv.org/abs/2206.03410v1 )

ライセンス: Link先を確認
Yuxin Yao and Bailin Deng and Weiwei Xu and Juyong Zhang(参考訳) 非剛性登録は、ターゲット形状と整合する非剛性な方法でソース形状を変形させるが、コンピュータビジョンにおける古典的な問題である。 このような問題は、不完全なデータ(ノイズ、外れ値、部分的な重複)と高い自由度のために困難である。 既存の手法は一般に$\ell_{p}$型ロバストノルムを用いてアライメント誤差を測定し、変形の滑らかさを正則化し、近似アルゴリズムを用いて結果の非滑らかな最適化問題を解く。 しかし、そのようなアルゴリズムの緩やかな収束は幅広い応用を制限する。 本稿では,アライメントと正規化のための世界規模でスムーズなロバストなノルムに基づくロバストな非剛体登録のための定式化を提案する。 この問題は、各反復を閉形式解で凸二次問題に還元する偏極最小化アルゴリズムを用いて解決される。 さらにアンダーソン加速度を適用して解器の収束を高速化し、計算能力に制限のあるデバイス上で効率的に動作できるようにする。 広範囲にわたる実験により, 異常値と部分重なりを持つ2つの形状間の非剛性アライメント法の有効性が示され, 登録精度と計算速度の面では最先端手法よりも優れていることを示す定量的評価が得られた。 ソースコードはhttps://github.com/yaoyx689/amm_nrrで入手できる。

Non-rigid registration, which deforms a source shape in a non-rigid way to align with a target shape, is a classical problem in computer vision. Such problems can be challenging because of imperfect data (noise, outliers and partial overlap) and high degrees of freedom. Existing methods typically adopt the $\ell_{p}$ type robust norm to measure the alignment error and regularize the smoothness of deformation, and use a proximal algorithm to solve the resulting non-smooth optimization problem. However, the slow convergence of such algorithms limits their wide applications. In this paper, we propose a formulation for robust non-rigid registration based on a globally smooth robust norm for alignment and regularization, which can effectively handle outliers and partial overlaps. The problem is solved using the majorization-minimization algorithm, which reduces each iteration to a convex quadratic problem with a closed-form solution. We further apply Anderson acceleration to speed up the convergence of the solver, enabling the solver to run efficiently on devices with limited compute capability. Extensive experiments demonstrate the effectiveness of our method for non-rigid alignment between two shapes with outliers and partial overlaps, with quantitative evaluation showing that it outperforms state-of-the-art methods in terms of registration accuracy and computational speed. The source code is available at https://github.com/yaoyx689/AMM_NRR.
翻訳日:2022-06-08 16:05:19 公開日:2022-06-07
# コーンビームCTを用いた適応放射線治療のための深層学習に基づく直接分割と変形性画像登録の組み合わせの検討

Exploring the combination of deep-learning based direct segmentation and deformable image registration for cone-beam CT based auto-segmentation for adaptive radiotherapy ( http://arxiv.org/abs/2206.03413v1 )

ライセンス: Link先を確認
Xiao Liang, Howard Morgan, Ti Bai, Michael Dohopolski, Dan Nguyen, Steve Jiang(参考訳) cbctベースのオンライン適応放射線療法(art)は、患者が治療が始まるのを待つ治療テーブルに固定されているため、医師が輪郭を編集するのに要する時間を削減するために正確な自己セグメンテーションモデルを要求する。 しかし, CBCT画像の自動分離は, 画像品質が低く, 深層学習(DL)モデルのトレーニングに真のラベルが欠如しているため, 難しい作業である。 一方、ARTにおけるCBCTの自動分割は、CT(pCT)を手動で作成する他のセグメンテーション問題と比較すると、ユニークなタスクである。 そこで本研究では, 変形性画像登録 (DIR) と直接分割 (DS) を併用して, 頭部・頸部患者のCBCTに導入することを提案する。 まず,pCTとCBCT間の複数のDIR法から導出される変形したpCT輪郭を擬似ラベルとして用いた。 第二に、変形したpCT輪郭をバウンディングボックスとして、DSの関心領域を制限する。 一方、変形したpCT輪郭はトレーニング用の擬似ラベルとして使用されるが、バウンディングボックスから異なるDIRアルゴリズムから生成される。 第3に、真のラベルのバウンディングボックスでモデルを微調整する。 疑似ラベルで訓練したCBCT上のDSは,DIRのみのセグメンテーションに比べて,事前知識を使わずにセグメンテーション性能が劣っていることがわかった。 しかし、DSネットワークのバウンディングボックスとして変形したpCT輪郭を追加することで、DIRのみのセグメンテーションに匹敵するセグメンテーション性能が劇的に向上する。 境界ボックス付きDSモデルは、いくつかの実ラベルで微調整することでさらに改善することができる。 実験の結果、19の構造物のうち7つは、DIRのみのセグメンテーションに比べて0.2ダイス類似係数が増加した。 変形したpCT輪郭を擬似ラベルとして用い,DSモデルにおける形状と位置特徴抽出のためのバウンディングボックスとして利用することは,DIRとDSを組み合わせる上でよい方法である。

CBCT-based online adaptive radiotherapy (ART) calls for accurate auto-segmentation models to reduce the time cost for physicians to edit contours, since the patient is immobilized on the treatment table waiting for treatment to start. However, auto-segmentation of CBCT images is a difficult task, majorly due to low image quality and lack of true labels for training a deep learning (DL) model. Meanwhile CBCT auto-segmentation in ART is a unique task compared to other segmentation problems, where manual contours on planning CT (pCT) are available. To make use of this prior knowledge, we propose to combine deformable image registration (DIR) and direct segmentation (DS) on CBCT for head and neck patients. First, we use deformed pCT contours derived from multiple DIR methods between pCT and CBCT as pseudo labels for training. Second, we use deformed pCT contours as bounding box to constrain the region of interest for DS. Meanwhile deformed pCT contours are used as pseudo labels for training, but are generated from different DIR algorithms from bounding box. Third, we fine-tune the model with bounding box on true labels. We found that DS on CBCT trained with pseudo labels and without utilizing any prior knowledge has very poor segmentation performance compared to DIR-only segmentation. However, adding deformed pCT contours as bounding box in the DS network can dramatically improve segmentation performance, comparable to DIR-only segmentation. The DS model with bounding box can be further improved by fine-tuning it with some real labels. Experiments showed that 7 out of 19 structures have at least 0.2 dice similarity coefficient increase compared to DIR-only segmentation. Utilizing deformed pCT contours as pseudo labels for training and as bounding box for shape and location feature extraction in a DS model is a good way to combine DIR and DS.
翻訳日:2022-06-08 16:04:51 公開日:2022-06-07
# アクティベート3dセンサを用いたロボット自己校正

Robot Self-Calibration Using Actuated 3D Sensors ( http://arxiv.org/abs/2206.03430v1 )

ライセンス: Link先を確認
Arne Peters(参考訳) ロボットとハンドアイの校正は、何十年も研究の対象とされてきた。 現在のアプローチでは、ロボットの運動モデルのパラメータを正確かつロバストに識別する一方で、キャリブレーション対象、マーカー、外部センサーといった外部デバイスに依存しています。 本論文は,ロボットキャリブレーションを,既知の物体のモデルに適合させる代わりに,移動体連鎖によって空間内の固定点に走査ポーズがリンクされるオフラインSLAM問題として扱う。 これにより、任意の眼深度センサのみを用いてロボットのキャリブレーションが可能となり、外部ツールを使わずに完全に自律的な自己校正が可能となる。 私の新しいアプローチは、反復閉点アルゴリズムの修正版を使用して、運動モデルの最適パラメータを推定する複数の3次元記録のバンドル調整を実行する。 各種の3Dセンサーを装着した実ロボットに対して,システムの詳細評価を行った。 以上の結果から,本システムは外部追跡システムに匹敵する精度を低コストで達成できることが示唆された。

Both, robot and hand-eye calibration haven been object to research for decades. While current approaches manage to precisely and robustly identify the parameters of a robot's kinematic model, they still rely on external devices, such as calibration objects, markers and/or external sensors. Instead of trying to fit the recorded measurements to a model of a known object, this paper treats robot calibration as an offline SLAM problem, where scanning poses are linked to a fixed point in space by a moving kinematic chain. As such, the presented framework allows robot calibration using nothing but an arbitrary eye-in-hand depth sensor, thus enabling fully autonomous self-calibration without any external tools. My new approach is utilizes a modified version of the Iterative Closest Point algorithm to run bundle adjustment on multiple 3D recordings estimating the optimal parameters of the kinematic model. A detailed evaluation of the system is shown on a real robot with various attached 3D sensors. The presented results show that the system reaches precision comparable to a dedicated external tracking system at a fraction of its cost.
翻訳日:2022-06-08 16:04:19 公開日:2022-06-07
# CAISAR:人工知能の安全性とロバスト性を特徴付けるプラットフォーム

CAISAR: A platform for Characterizing Artificial Intelligence Safety and Robustness ( http://arxiv.org/abs/2206.03044v1 )

ライセンス: Link先を確認
Michele Alberti, Fran\c{c}ois Bobot (LIST (CEA)), Zakaria Chihani, Julien Girard-Satabin (LIST (CEA)), Augustin Lemesle(参考訳) 我々は,AIシステムの堅牢性と安全性を評価できるオープンソースプラットフォームであるCAISARを提案する。 CAISARは、Why3検証プラットフォームの成熟した表現力のある言語であるWhyMLを使用して、検証問題を定義するための統一されたエントリポイントを提供する。 さらにcaisarは、最先端の機械学習検証ツールをオーケストレーションし、構成し、個別に、すべての問題を効率的に処理できないが、総じて、増加するプロパティをカバーすることができる。 我々は,与えられた検証問題に合わせた方法論選択の負担を軽減することで,v\&vプロセスを支援すると同時に,有用な機能-可視化,レポート生成,プロパティ記述-をひとつのプラットフォームに分解するツール開発を支援することを目的とする。 CAISARはもうすぐhttps://git.frama-c.com/pub/caisar.comで利用可能になる。

We present CAISAR, an open-source platform under active development for the characterization of AI systems' robustness and safety. CAISAR provides a unified entry point for defining verification problems by using WhyML, the mature and expressive language of the Why3 verification platform. Moreover, CAISAR orchestrates and composes state-of-the-art machine learning verification tools which, individually, are not able to efficiently handle all problems but, collectively, can cover a growing number of properties. Our aim is to assist, on the one hand, the V\&V process by reducing the burden of choosing the methodology tailored to a given verification problem, and on the other hand the tools developers by factorizing useful features-visualization, report generation, property description-in one platform. CAISAR will soon be available at https://git.frama-c.com/pub/caisar.
翻訳日:2022-06-08 16:04:01 公開日:2022-06-07
# 緩和されたガウス過程補間:ベイズ最適化への目標指向アプローチ

Relaxed Gaussian process interpolation: a goal-oriented approach to Bayesian optimization ( http://arxiv.org/abs/2206.03034v1 )

ライセンス: Link先を確認
S\'ebastien Petit (GdR MASCOT-NUM), Julien Bect (GdR MASCOT-NUM, L2S), Emmanuel Vazquez (GdR MASCOT-NUM, L2S)(参考訳) この研究は、ガウス過程(GP)モデリング(英語版)の文脈における予測分布を得るための新しい手順を示し、ある関心領域外における補間制約を緩和する。 緩和ガウス過程(reGP)補間と呼ばれるこの方法は、特にGPモデルの定常性仮定が適切でない場合において、興味の範囲におけるより良い予測分布を提供する。 目的指向の手法と見なすことができ、例えば低関数値に対する優れた予測分布が重要である目的関数の最小化など、ベイズ最適化において特に興味深いものとなる。 評価点を順次選択するために期待改善基準とregpを用いると、結果として得られる最適化アルゴリズムの収束は理論的に保証される(最適化される関数は、基礎となるガウス過程の既知の共分散に付随する再生核ヒルベルト空間にある)。 実験により、ベイズ最適化において定常GPモデルの代わりにreGPを使うことが有益であることが示されている。

This work presents a new procedure for obtaining predictive distributions in the context of Gaussian process (GP) modeling, with a relaxation of the interpolation constraints outside some ranges of interest: the mean of the predictive distributions no longer necessarily interpolates the observed values when they are outside ranges of interest, but are simply constrained to remain outside. This method called relaxed Gaussian process (reGP) interpolation provides better predictive distributions in ranges of interest, especially in cases where a stationarity assumption for the GP model is not appropriate. It can be viewed as a goal-oriented method and becomes particularly interesting in Bayesian optimization, for example, for the minimization of an objective function, where good predictive distributions for low function values are important. When the expected improvement criterion and reGP are used for sequentially choosing evaluation points, the convergence of the resulting optimization algorithm is theoretically guaranteed (provided that the function to be optimized lies in the reproducing kernel Hilbert spaces attached to the known covariance of the underlying Gaussian process). Experiments indicate that using reGP instead of stationary GP models in Bayesian optimization is beneficial.
翻訳日:2022-06-08 16:02:42 公開日:2022-06-07
# 多変量楕円拡散過程の濃度解析

Concentration analysis of multivariate elliptic diffusion processes ( http://arxiv.org/abs/2206.03329v1 )

ライセンス: Link先を確認
Cathrine Aeckerle-Willems, Claudia Strauch and Lukas Trottner(参考訳) 多変量非可逆拡散過程の非有界関数に対する連続および離散時間加法関数に対する濃度不等式と関連するPAC境界を証明した。 我々の分析はポアソン方程式によるアプローチに依存しており、非常に幅広い指数的エルゴード過程のクラスを考えることができる。 これらの結果は、これまでの拡散過程の加法関数に対する既存の濃度不等式を、有界関数あるいはより小さなクラスからのプロセスの非有界関数に対してのみ利用できたものである。 非常に異なる領域の2つの例により、これらの指数的不等式のパワーを実証する。 スパーシティ制約下での高次元パラメトリック非線形ドリフトモデルを考えると、oracleの不等式を導出する基礎となるlasso推定の制限固有値条件を検証するために連続時間集中結果を適用する。 離散加法関数の結果は、調整されていないランゲヴィンMCMCアルゴリズムを用いて、適度に重みのある密度$\pi$のサンプリングを行う。 特に、多項式成長関数に対して$\pi(f)$の積分のサンプルモンテカルロ推定器に対して、所定のマージン内における近似のための十分なサンプルとステップサイズを高確率で定量化するpac境界を与える。

We prove concentration inequalities and associated PAC bounds for continuous- and discrete-time additive functionals for possibly unbounded functions of multivariate, nonreversible diffusion processes. Our analysis relies on an approach via the Poisson equation allowing us to consider a very broad class of subexponentially ergodic processes. These results add to existing concentration inequalities for additive functionals of diffusion processes which have so far been only available for either bounded functions or for unbounded functions of processes from a significantly smaller class. We demonstrate the power of these exponential inequalities by two examples of very different areas. Considering a possibly high-dimensional parametric nonlinear drift model under sparsity constraints, we apply the continuous-time concentration results to validate the restricted eigenvalue condition for Lasso estimation, which is fundamental for the derivation of oracle inequalities. The results for discrete additive functionals are used to investigate the unadjusted Langevin MCMC algorithm for sampling of moderately heavy-tailed densities $\pi$. In particular, we provide PAC bounds for the sample Monte Carlo estimator of integrals $\pi(f)$ for polynomially growing functions $f$ that quantify sufficient sample and step sizes for approximation within a prescribed margin with high probability.
翻訳日:2022-06-08 16:02:18 公開日:2022-06-07
# 異種データを用いたユーザレベルのプライバシー下でのヒストグラム推定

Histogram Estimation under User-level Privacy with Heterogeneous Data ( http://arxiv.org/abs/2206.03008v1 )

ライセンス: Link先を確認
Yuhan Liu, Ananda Theertha Suresh, Wennan Zhu, Peter Kairouz, Marco Gruteser(参考訳) ユーザレベルの差分プライバシに基づくヒストグラム推定の問題について検討し,その目的は,ユーザのすべてのエントリのプライバシを維持することである。 アイテムレベルのプライバシ設定では、各ユーザが1つのデータポイントだけをコントリビュートするが、ユーザレベルのプライバシ設定では、この古典的な問題に関する文献が豊富である。 データの量と分布がユーザ毎に異なるという異種シナリオを考察する。 そこで本研究では,クリップングの最適閾値に対する近似をほぼ達成するクリッピング戦略に基づくアルゴリズムを提案する。 この結果は、データに対する分布の仮定なしに成り立つ。 また,非i.i.d.ポアソン分布からのクリッピングバイアスを有意に低減し,そのような制約がなくてもデバイアス法が改善をもたらすことを示す。 実データと合成データの両方における実験は、理論的な知見を検証し、アルゴリズムの有効性を実証する。

We study the problem of histogram estimation under user-level differential privacy, where the goal is to preserve the privacy of all entries of any single user. While there is abundant literature on this classical problem under the item-level privacy setup where each user contributes only one data point, little has been known for the user-level counterpart. We consider the heterogeneous scenario where both the quantity and distribution of data can be different for each user. We propose an algorithm based on a clipping strategy that almost achieves a two-approximation with respect to the best clipping threshold in hindsight. This result holds without any distribution assumptions on the data. We also prove that the clipping bias can be significantly reduced when the counts are from non-i.i.d. Poisson distributions and show empirically that our debiasing method provides improvements even without such constraints. Experiments on both real and synthetic datasets verify our theoretical findings and demonstrate the effectiveness of our algorithms.
翻訳日:2022-06-08 15:58:39 公開日:2022-06-07
# トラヒック予測のための注意ネットワークを用いた時空間適応グラフ畳み込み

Spatial-Temporal Adaptive Graph Convolution with Attention Network for Traffic Forecasting ( http://arxiv.org/abs/2206.03128v1 )

ライセンス: Link先を確認
Chen Weikang and Li Yawen and Xue Zhe and Li Ang and Wu Guobin(参考訳) 交通予測は知的交通システムにおける時空間学習の標準的な例である。 既存のアプローチは、グラフ畳み込みニューラルネットワークにおける事前決定行列による空間依存を捉える。 しかし、明示的なグラフ構造はノード間の関係の隠れた表現を失う。 さらに、従来のグラフ畳み込みニューラルネットワークは、グラフの長距離ノードを集約できない。 これらの限界を克服するために,トラヒック予測のための空間-時間適応グラフ畳み込み法(staan)を提案する。 まず,GCN処理中に事前に定義された行列を使わずに適応的依存行列を採用し,ノード間の依存性を推定する。 第2に,グローバルな依存のために設計されたグラフアテンションネットワークに基づくPWアテンションと,空間ブロックとしてのGCNを統合する。 さらに、長期予測において効率のよい拡張された1次元畳み込みが、異なる時系列をキャプチャするための時間ブロックに採用されています。 実世界のデータセットを2つ評価し,そのモデルが最先端のベースラインを上回ることを検証した。

Traffic forecasting is one canonical example of spatial-temporal learning task in Intelligent Traffic System. Existing approaches capture spatial dependency with a pre-determined matrix in graph convolution neural operators. However, the explicit graph structure losses some hidden representations of relationships among nodes. Furthermore, traditional graph convolution neural operators cannot aggregate long-range nodes on the graph. To overcome these limits, we propose a novel network, Spatial-Temporal Adaptive graph convolution with Attention Network (STAAN) for traffic forecasting. Firstly, we adopt an adaptive dependency matrix instead of using a pre-defined matrix during GCN processing to infer the inter-dependencies among nodes. Secondly, we integrate PW-attention based on graph attention network which is designed for global dependency, and GCN as spatial block. What's more, a stacked dilated 1D convolution, with efficiency in long-term prediction, is adopted in our temporal block for capturing the different time series. We evaluate our STAAN on two real-world datasets, and experiments validate that our model outperforms state-of-the-art baselines.
翻訳日:2022-06-08 15:58:22 公開日:2022-06-07
# 心拍変動解析に基づく心不整脈予測の改善

Improved Cardiac Arrhythmia Prediction Based on Heart Rate Variability Analysis ( http://arxiv.org/abs/2206.03222v1 )

ライセンス: Link先を確認
Ashkan Parsi(参考訳) 過去100年間で心室性不整脈や心房性不整脈が臨床で発見されており、これらの不整脈は突然の心臓死の主な原因となっている。 心室頻拍、心室細動、発作性心房細動は最も多く発症し危険な不整脈である。 ペースメーカーのような移植可能な装置は、突然の心臓死のリスクが高い患者に一般的に使用される。 医療技術は大きな進歩を遂げているが、共通不整脈の効果的な治療には大きな課題がある。 本論文は、不整脈を非生死性心疾患と区別する新しい不整脈検出および予測方法を提案し、死亡につながる事象の検出可能性を高め、不要な治療介入の発生を減少させる。 本手法は,心拍変動(HRV)情報の詳細な解析に基づく。 その結果,本手法の有効性が示され,植込み式ペースメーカーや除細動器などの心房性不整脈予知装置への展開の可能性が示唆された。

Many types of ventricular and atrial cardiac arrhythmias have been discovered in clinical practice in the past 100 years, and these arrhythmias are a major contributor to sudden cardiac death. Ventricular tachycardia, ventricular fibrillation, and paroxysmal atrial fibrillation are the most commonly-occurring and dangerous arrhythmias, therefore early detection is crucial to prevent any further complications and reduce fatalities. Implantable devices such as pacemakers are commonly used in patients at high risk of sudden cardiac death. While great advances have been made in medical technology, there remain significant challenges in effective management of common arrhythmias. This thesis proposes novel arrhythmia detection and prediction methods to differentiate cardiac arrhythmias from non-life-threatening cardiac events, to increase the likelihood of detecting events that may lead to mortality, as well as reduce the incidence of unnecessary therapeutic intervention. The methods are based on detailed analysis of Heart Rate Variability (HRV) information. The results of the work show good performance of the proposed methods and support the potential for their deployment in resource-constrained devices for ventricular and atrial arrhythmia prediction, such as implantable pacemakers and defibrillators.
翻訳日:2022-06-08 15:58:06 公開日:2022-06-07
# 特徴選択が心疾患予測の精度に及ぼす影響の分析

Analyzing the impact of feature selection on the accuracy of heart disease prediction ( http://arxiv.org/abs/2206.03239v1 )

ライセンス: Link先を確認
Muhammad Salman Pathan, Avishek Nag, Muhammad Mohisn Pathan, and Soumyabrata Dev(参考訳) 心臓病は、人間の生活に大きな影響を与える最も深刻な病気の1つになっている。 過去10年間、世界中の人々が死亡する主要な原因の1つとして現れてきた。 患者がさらなるダメージを受けるのを防ぐために、時間による心臓病の正確な診断が不可欠である。 近年,医療分野における人工知能などの非侵襲的医療手法の利用が注目されている。 特に機械学習は、広く使われているいくつかのアルゴリズムと技法を採用しており、より少ない時間で心臓病を正確に診断するのに非常に有用である。 しかし、心臓病の予測は容易ではない。 医療データセットの増大は、実践者が複雑な特徴の関係を理解し、病気の予測を行うための複雑なタスクとなった。 本研究の目的は,合併症の少ない心臓病の正確な分類を支援する高次元データセットから,最も重要なリスク因子を特定することである。 より広範な分析のために、様々な医学的特徴を持つ心疾患データセットを2つ使用した。 ベンチマークしたモデルの分類結果から,分類精度に関連性が高いことが判明した。 特徴量を減らしても、分類モデルの性能は、完全な特徴セットで訓練されたモデルと比較してトレーニング時間を大幅に改善した。

Heart Disease has become one of the most serious diseases that has a significant impact on human life. It has emerged as one of the leading causes of mortality among the people across the globe during the last decade. In order to prevent patients from further damage, an accurate diagnosis of heart disease on time is an essential factor. Recently we have seen the usage of non-invasive medical procedures, such as artificial intelligence-based techniques in the field of medical. Specially machine learning employs several algorithms and techniques that are widely used and are highly useful in accurately diagnosing the heart disease with less amount of time. However, the prediction of heart disease is not an easy task. The increasing size of medical datasets has made it a complicated task for practitioners to understand the complex feature relations and make disease predictions. Accordingly, the aim of this research is to identify the most important risk-factors from a highly dimensional dataset which helps in the accurate classification of heart disease with less complications. For a broader analysis, we have used two heart disease datasets with various medical features. The classification results of the benchmarked models proved that there is a high impact of relevant features on the classification accuracy. Even with a reduced number of features, the performance of the classification models improved significantly with a reduced training time as compared with models trained on full feature set.
翻訳日:2022-06-08 15:57:46 公開日:2022-06-07
# (参考訳) MIX-MAB:LoRaWANのための強化学習に基づく資源配分アルゴリズム

MIX-MAB: Reinforcement Learning-based Resource Allocation Algorithm for LoRaWAN ( http://arxiv.org/abs/2206.03401v1 )

ライセンス: CC BY 4.0
Farzad Azizi, Benyamin Teymuri, Rojin Aslani, Mehdi Rasti, Jesse Tolvanen, and Pedro H. J. Nardelli(参考訳) 本稿では、パケット配信率(PDR)、すなわち、長距離広帯域ネットワーク(LoRaWAN)において、エンドデバイス(ED)が送信したパケットの受信数の観点から、リソース割り当てアルゴリズムの改善に焦点を当てる。 送信パラメータの設定はPDRに大きく影響する。 強化学習(RL)を用いて,EDが送信パラメータを分散的に設定できる資源割当アルゴリズムを提案する。 資源割当問題をマルチアームバンディット(mab)としてモデル化し,探索・搾取のための指数重み(exp3)と逐次排除(se)アルゴリズムからなる2相アルゴリズムであるmix-mabを提案する。 シミュレーションの結果からMIX-MABの性能を評価し,他の既存手法と比較した。 数値計算の結果,提案手法は収束時間やPDRの点で既存の手法よりも優れていることがわかった。

This paper focuses on improving the resource allocation algorithm in terms of packet delivery ratio (PDR), i.e., the number of successfully received packets sent by end devices (EDs) in a long-range wide-area network (LoRaWAN). Setting the transmission parameters significantly affects the PDR. Employing reinforcement learning (RL), we propose a resource allocation algorithm that enables the EDs to configure their transmission parameters in a distributed manner. We model the resource allocation problem as a multi-armed bandit (MAB) and then address it by proposing a two-phase algorithm named MIX-MAB, which consists of the exponential weights for exploration and exploitation (EXP3) and successive elimination (SE) algorithms. We evaluate the MIX-MAB performance through simulation results and compare it with other existing approaches. Numerical results show that the proposed solution performs better than the existing schemes in terms of convergence time and PDR.
翻訳日:2022-06-08 15:55:17 公開日:2022-06-07
# 誠実性を超えて: 敬礼法を特徴付けて比較する枠組み

Beyond Faithfulness: A Framework to Characterize and Compare Saliency Methods ( http://arxiv.org/abs/2206.02958v1 )

ライセンス: Link先を確認
Angie Boggust, Harini Suresh, Hendrik Strobelt, John V. Guttag, Arvind Satyanarayan(参考訳) saliencyメソッドは、各入力機能が機械学習モデルの予測にどれほど重要であるかを計算し、一般的にモデルの推論を理解するために使用される。 正当性(Faithfulness)とは、これらの方法において、正当性出力が基礎となるモデルをどのように完全に正確に反映するかである。 しかし、説明手法は必ずしも単純さなどのユーザー指向の目的のために特定の情報を犠牲にしなければならない。 その目的のために、私たちは、パフォーマンスメトリクスと同様に、サラレンシーメソッドを抽象化として、モデル行動の特定の側面に関する洞察を提供し、トレードオフを伴います。 このフレーミングを用いて、サリエンシ法の特性を特徴づけ、比較する9次元の枠組みを記述する。 これらの次元を、解釈過程の異なるフェーズにマッピングする3つのカテゴリに分類する。方法論、または、サリエンシの計算方法、感度、サリエンシの結果と基礎となるモデルまたは入力の関係、そして、ユーザがその結果をどのように解釈するか。 例えば、ドキュメンテーションの形式として"saliency card"を開発することや、下流のユーザがトレードオフを理解し、特定のユースケースのためにメソッドを選択するのを支援することです。 さらに,このフレームワークにおける既存のサリエンシー手法の活用によって,景観のギャップを埋めることや,新たな評価指標の開発など,今後の作業の機会を見出した。

Saliency methods calculate how important each input feature is to a machine learning model's prediction, and are commonly used to understand model reasoning. "Faithfulness", or how fully and accurately the saliency output reflects the underlying model, is an oft-cited desideratum for these methods. However, explanation methods must necessarily sacrifice certain information in service of user-oriented goals such as simplicity. To that end, and akin to performance metrics, we frame saliency methods as abstractions: individual tools that provide insight into specific aspects of model behavior and entail tradeoffs. Using this framing, we describe a framework of nine dimensions to characterize and compare the properties of saliency methods. We group these dimensions into three categories that map to different phases of the interpretation process: methodology, or how the saliency is calculated; sensitivity, or relationships between the saliency result and the underlying model or input; and, perceptibility, or how a user interprets the result. As we show, these dimensions give us a granular vocabulary for describing and comparing saliency methods -- for instance, allowing us to develop "saliency cards" as a form of documentation, or helping downstream users understand tradeoffs and choose a method for a particular use case. Moreover, by situating existing saliency methods within this framework, we identify opportunities for future work, including filling gaps in the landscape and developing new evaluation metrics.
翻訳日:2022-06-08 15:43:40 公開日:2022-06-07
# ニューラルネットワークプルーニングにおけるリコール歪みと未決定プルーニングアルゴリズム

Recall Distortion in Neural Network Pruning and the Undecayed Pruning Algorithm ( http://arxiv.org/abs/2206.02976v1 )

ライセンス: Link先を確認
Aidan Good and Jiaqi Lin and Hannah Sieg and Mikey Ferguson and Xin Yu and Shandian Zhe and Jerzy Wieczorek and Thiago Serra(参考訳) プルーニング技術はニューラルネットワークで精度とスパーシティのトレードオフに成功している。 しかし、ネットワークのプルーニングの影響は一様ではなく、以前の研究では、データセット内の表現不足のクラスに対するリコールがよりネガティブな影響を受ける可能性があることが示されている。 本研究では,モデルに固有の強度効果を仮定することにより,リコール中の相対歪みについて検討する。 すなわち、プルーニングは、精度より低いクラスのリコールを比較的悪くし、逆に、精度より高いクラスのリコールを比較的良くする。 また,その効果の減衰を目的とした新しい刈り込みアルゴリズムを提案する。 統計的解析により, 強化はアルゴリズムの重大さを低下させるが, 比較的難易度の高いタスク, 複雑度の低いモデル, 高い刈り取り率でより明瞭になることがわかった。 より驚くべきことに、より低いプルーニング比によるデインテンシフィケーション効果を逆に観察する。

Pruning techniques have been successfully used in neural networks to trade accuracy for sparsity. However, the impact of network pruning is not uniform: prior work has shown that the recall for underrepresented classes in a dataset may be more negatively affected. In this work, we study such relative distortions in recall by hypothesizing an intensification effect that is inherent to the model. Namely, that pruning makes recall relatively worse for a class with recall below accuracy and, conversely, that it makes recall relatively better for a class with recall above accuracy. In addition, we propose a new pruning algorithm aimed at attenuating such effect. Through statistical analysis, we have observed that intensification is less severe with our algorithm but nevertheless more pronounced with relatively more difficult tasks, less complex models, and higher pruning ratios. More surprisingly, we conversely observe a de-intensification effect with lower pruning ratios.
翻訳日:2022-06-08 15:43:11 公開日:2022-06-07
# 分散不変学習 : 合理化と実践的アルゴリズム

Distributionally Invariant Learning: Rationalization and Practical Algorithms ( http://arxiv.org/abs/2206.02990v1 )

ライセンス: Link先を確認
Jiashuo Liu, Jiayun Wu, Jie Peng, Zheyan Shen, Bo Li, Peng Cui(参考訳) 環境間の不変性は、アウト・オブ・ディストリビューション(OOD)一般化問題における不変学習手法の中心である。 直感的には妥当ではあるが、厳密な不変性の学習には、環境の可用性と品質に関する強い仮定が不可欠である。 近年,環境の要件を実証的に緩和するために,不変学習のための擬環境学習を提案する研究もある。 しかし,疑似環境学習の過程では根底の不変性が破られた可能性があるため,潜在性不均一性下で厳密な不分散を追求する場合は誤解を招く可能性がある。 この目的のために、厳密な不変性に代わる緩和された代替として分布不変性を考え出した。 本研究では,不均一な不均一性下での不変学習問題を分散不変性を求める緩和形式に再構成し,新しい分散不変学習(DIL)フレームワークと,DIL-MMDとDIL-KLという2つの実装を提案する。 理論的には、一般化誤差ギャップの境界と同様に分布不変性の保証を提供する。 提案手法の有効性を検証する実験を行った。

The invariance property across environments is at the heart of invariant learning methods for the Out-of-Distribution (OOD) Generalization problem. Although intuitively reasonable, strong assumptions on the availability and quality of environments have to be made for the learnability of the strict invariance property. Recently, to relax the requirements for environments empirically, some works propose to learn pseudo-environments for invariant learning. However, it could be misleading when pursuing strict invariance under latent heterogeneity, since the underlying invariance could have been violated during the pseudo-environment learning procedure. To this end, we come up with the distributional invariance property as a relaxed alternative to the strict invariance, which considers the invariance only among sub-populations down to a prescribed scale and allows a certain degree of variation. We reformulate the invariant learning problem under latent heterogeneity into a relaxed form that pursues the distributional invariance, based on which we propose our novel Distributionally Invariant Learning (DIL) framework as well as two implementations named DIL-MMD and DIL-KL. Theoretically, we provide the guarantees for the distributional invariance as well as bounds of the generalization error gap. Extensive experimental results validate the effectiveness of our proposed algorithms.
翻訳日:2022-06-08 15:42:56 公開日:2022-06-07
# 生存バンド問題

The Survival Bandit Problem ( http://arxiv.org/abs/2206.03019v1 )

ライセンス: Link先を確認
Charles Riou and Junya Honda and Masashi Sugiyama(参考訳) ペロットら(2019)によるオープン問題で導入された多腕バンディット問題の変種であるサバイバルバンディット問題(サバイバルバンディット問題)を累積報酬に制約を課し、各時間ステップにおいて、エージェントが(おそらく負の)報酬を受け取り、累積報酬が予め定められた閾値よりも低い場合には、手続きが停止し、この現象を破滅と呼ぶ。 遺跡が常に発生しているが必ずしも発生しない枠組みを研究する最初の論文である。 まず, 後悔のナイーブな定義の下では, サブリニアな後悔は実現不可能であると論じる。 次に、崩壊の確率(およびポリシーの一致)について、厳格な下限を提供する。 この下限に基づいて、我々は生存後悔を最小化し、時間的地平線T$が知られている場合(少なくとも積分報酬の場合)のサブ線形生存後悔を達成するための政策を提供する目的として定義する。

We study the survival bandit problem, a variant of the multi-armed bandit problem introduced in an open problem by Perotto et al. (2019), with a constraint on the cumulative reward; at each time step, the agent receives a (possibly negative) reward and if the cumulative reward becomes lower than a prespecified threshold, the procedure stops, and this phenomenon is called ruin. This is the first paper studying a framework where the ruin might occur but not always. We first discuss that a sublinear regret is unachievable under a naive definition of the regret. Next, we provide tight lower bounds on the probability of ruin (as well as matching policies). Based on this lower bound, we define the survival regret as an objective to minimize and provide a policy achieving a sublinear survival regret (at least in the case of integral rewards) when the time horizon $T$ is known.
翻訳日:2022-06-08 15:42:31 公開日:2022-06-07
# ロバスト特徴表現のための適応重み付き非負行列分解

Adaptive Weighted Nonnegative Matrix Factorization for Robust Feature Representation ( http://arxiv.org/abs/2206.03020v1 )

ライセンス: Link先を確認
Tingting Shen, Junhang Li, Can Tong, Qiang He, Chen Li, Yudong Yao, Yueyang Teng(参考訳) 非負行列分解(NMF)は、機械学習の次元化に広く用いられている。 しかし、従来のNMFは、ノイズに敏感であるように、外れ値を扱うことができない。 本稿では,nmfのロバスト性を向上させるために,各データポイントの異なる重要度を強調する重み付けを導入する適応重み付けnmfを提案する。 成長類似度を緩やかに測定する既存の頑健なNMFとは大きく異なる。 具体的には、ファジエ重み付き手法とエントロピー重み付き正規化手法の2つの戦略が提案され、どちらも単純な形式で反復解をもたらす。 実験結果から,新しい手法は消音法よりもノイズのある複数の実データに対してより堅牢な特徴表現を有することがわかった。

Nonnegative matrix factorization (NMF) has been widely used to dimensionality reduction in machine learning. However, the traditional NMF does not properly handle outliers, so that it is sensitive to noise. In order to improve the robustness of NMF, this paper proposes an adaptive weighted NMF, which introduces weights to emphasize the different importance of each data point, thus the algorithmic sensitivity to noisy data is decreased. It is very different from the existing robust NMFs that use a slow growth similarity measure. Specifically, two strategies are proposed to achieve this: fuzzier weighted technique and entropy weighted regularized technique, and both of them lead to an iterative solution with a simple form. Experimental results showed that new methods have more robust feature representation on several real datasets with noise than exsiting methods.
翻訳日:2022-06-08 15:42:12 公開日:2022-06-07
# 機械学習によるインテリジェント回路設計と実装

Intelligent Circuit Design and Implementation with Machine Learning ( http://arxiv.org/abs/2206.03032v1 )

ライセンス: Link先を確認
Zhiyao Xie(参考訳) eda 技術の停滞は,知識の再利用不足が原因である。 実際には、非常に類似したシミュレーションや最適化の結果をスクラッチから繰り返し構築する必要がある。 これは、事前データに基づいた設計フローにおける複雑な相関を探索する機械学習(ml)をedaに導入する上で、私の研究のモチベーションとなった。 設計時間に加えて,実行時の回路管理を支援することでIC性能を向上させるMLソリューションも提案する。 この論文では、レジスタ転送レベル(RTL)からサインオフまでの幅広いチップ設計段階をカバーする複数の高速かつ正確なMLモデルを提示し、電力、タイミング、相互接続、IRドロップ、ルータビリティ、設計フローチューニングに関する主要なチップ設計問題を解く。 RTLステージをターゲットに、完全に自動化された電力モデリングフレームワークであるAPOLLOを紹介します。 最も電力に関連のある信号を抽出することで、サイクル当たりの正確な電力モデルを構築する。 このモデルは、前例のない低いハードウェアコストで実行時の電力管理のためにチップにさらに実装することができる。 ゲートレベルのネットリストをターゲットとし, 配置後ワイヤ長の早期推定のためのNet2を提案する。 さらに、実際の物理設計情報なしでより正確なタイミング分析を可能にする。 回路レイアウトを目標とし,早期のroutability予測のためのRouteNetを提案する。 最初のディープラーニングに基づくroutability推定器として提案された特徴抽出とモデル設計の原則は、後世の研究で広く採用されている。 また、高速IRドロップ推定のためのPowerNetも提示します。 カスタマイズされたcnnアーキテクチャで電力分布に関する時間的および時間的情報をキャプチャする。 最後に, 論理合成と物理設計の両方において, 設計フローパラメータを効率的に調整するためのFISTを提案する。

The stagnation of EDA technologies roots from insufficient knowledge reuse. In practice, very similar simulation or optimization results may need to be repeatedly constructed from scratch. This motivates my research on introducing more 'intelligence' to EDA with machine learning (ML), which explores complex correlations in design flows based on prior data. Besides design time, I also propose ML solutions to boost IC performance by assisting the circuit management at runtime. In this dissertation, I present multiple fast yet accurate ML models covering a wide range of chip design stages from the register-transfer level (RTL) to sign-off, solving primary chip-design problems about power, timing, interconnect, IR drop, routability, and design flow tuning. Targeting the RTL stage, I present APOLLO, a fully automated power modeling framework. It constructs an accurate per-cycle power model by extracting the most power-correlated signals. The model can be further implemented on chip for runtime power management with unprecedented low hardware costs. Targeting gate-level netlist, I present Net2 for early estimations on post-placement wirelength. It further enables more accurate timing analysis without actual physical design information. Targeting circuit layout, I present RouteNet for early routability prediction. As the first deep learning-based routability estimator, some feature-extraction and model-design principles proposed in it are widely adopted by later works. I also present PowerNet for fast IR drop estimation. It captures spatial and temporal information about power distribution with a customized CNN architecture. Last, besides targeting a single design step, I present FIST to efficiently tune design flow parameters during both logic synthesis and physical design.
翻訳日:2022-06-08 15:41:58 公開日:2022-06-07
# バンディットと交換コストの両世界のバウンドの良さ

Better Best of Both Worlds Bounds for Bandits with Switching Costs ( http://arxiv.org/abs/2206.03098v1 )

ライセンス: Link先を確認
Idan Amir, Guy Azov, Tomer Koren, Roi Livni(参考訳) 本稿では,2021年にRouryer,Seldin,Cesa-Bianchiらにより,スイッチングコストを伴うバンディットのベスト・オブ・ワールドスアルゴリズムについて検討した。 両腕を切り替える(単位)スイッチングコストの両面において、両腕の両腕の間隙を$\Delta$とすると、両腕の両腕を交互に制限した状態において$\mathcal{O}(T^{2/3})$と$\mathcal{O}(\min\{\log (T)/T^{2/3}\})$を同時に達成する、驚くほど単純で効果的なアルゴリズムを導入する。 確率的に制約された場合、我々の境界は、$\mathcal{O}(T^{1/3}/\Delta)$を後悔したRoyerらによる以前の結果よりも改善される。 一般に、$\tilde{\Omega}(\min\{1/\Delta^2,T^{2/3}\})$ regretは、$\mathcal{O}(T^{2/3})$ worst-case regretを持つアルゴリズムの確率的に制約されたケースでは避けられない。

We study best-of-both-worlds algorithms for bandits with switching cost, recently addressed by Rouyer, Seldin and Cesa-Bianchi, 2021. We introduce a surprisingly simple and effective algorithm that simultaneously achieves minimax optimal regret bound of $\mathcal{O}(T^{2/3})$ in the oblivious adversarial setting and a bound of $\mathcal{O}(\min\{\log (T)/\Delta^2,T^{2/3}\})$ in the stochastically-constrained regime, both with (unit) switching costs, where $\Delta$ is the gap between the arms. In the stochastically constrained case, our bound improves over previous results due to Rouyer et al., that achieved regret of $\mathcal{O}(T^{1/3}/\Delta)$. We accompany our results with a lower bound showing that, in general, $\tilde{\Omega}(\min\{1/\Delta^2,T^{2/3}\})$ regret is unavoidable in the stochastically-constrained case for algorithms with $\mathcal{O}(T^{2/3})$ worst-case regret.
翻訳日:2022-06-08 15:41:35 公開日:2022-06-07
# 暗黙的忠実性情報を用いたメタ学習アルゴリズム選択に向けて

Towards Meta-learned Algorithm Selection using Implicit Fidelity Information ( http://arxiv.org/abs/2206.03130v1 )

ライセンス: Link先を確認
Aditya Mohan, Tim Ruhkopf, Marius Lindauer(参考訳) 与えられたデータセットの最高のパフォーマンスアルゴリズムを自動選択するか、期待されるパフォーマンスで複数のアルゴリズムをランク付けするかは、新しい機械学習アプリケーションの開発においてユーザを支援します。 この問題に対するほとんどのアプローチは、データセットのメタ機能とランドマークのパフォーマンスに依存して、データセットとアルゴリズムが対応しているトポロジの突出したトポロジをキャプチャする。 ランドマークは通常、トポロジの安価な近似を得るために、必ずしも候補アルゴリズムのプールにない安価なアルゴリズムを利用する。 手作りのデータセットのメタ機能とランドマークは記述に不足している可能性が高いが、ランドマークと候補が検索するジオメトリのアライメントに強く依存している。 テスト中、LSTMネットワークを介して非パラメトリックなメタ学習曲線の形で、候補アルゴリズムから直接多要素ランドマーク情報を利用する方法であるIMFASを提案する。 このメカニズムを用いて、IMFASはデータセットのトポロジとアルゴリズムの帰納バイアスを、高価な訓練をすることなく、共同で学習する。 IMFASは、計算コストの低い任意のメタ機能によって容易に豊かになる情報的ランドマークを生成し、より安価なフィデリティを使用して望ましいランキングを作成できる。 また、テスト期間中に、ほぼ半分の忠実度シーケンスでSuccessive Halvingを破ることができることを示す。

Automatically selecting the best performing algorithm for a given dataset or ranking multiple of them by their expected performance supports users in developing new machine learning applications. Most approaches for this problem rely on dataset meta-features and landmarking performances to capture the salient topology of the datasets and those topologies that the algorithms attend to. Landmarking usually exploits cheap algorithms not necessarily in the pool of candidate algorithms to get inexpensive approximations of the topology. While somewhat indicative, handcrafted dataset meta-features and landmarks are likely insufficient descriptors, strongly depending on the alignment of the geometries the landmarks and candidates search for. We propose IMFAS, a method to exploit multi-fidelity landmarking information directly from the candidate algorithms in the form of non-parametrically non-myopic meta-learned learning curves via LSTM networks in a few-shot setting during testing. Using this mechanism, IMFAS jointly learns the topology of of the datasets and the inductive biases of algorithms without expensively training them to convergence. IMFAS produces informative landmarks, easily enriched by arbitrary meta-features at a low computational cost, capable of producing the desired ranking using cheaper fidelities. We additionally show that it is able to beat Successive Halving with at most half the fidelity sequence during test time
翻訳日:2022-06-08 15:41:03 公開日:2022-06-07
# テキスト分類器における騙し説明

Fooling Explanations in Text Classifiers ( http://arxiv.org/abs/2206.03178v1 )

ライセンス: Link先を確認
Adam Ivankay, Ivan Girardi, Chiara Marchiori, Pascal Frossard(参考訳) 最先端のテキスト分類モデルは、ディープニューラルネットワーク(DNN)にますます依存している。 ブラックボックスの性質のため、忠実で堅牢な説明法は実生活シナリオに展開するために分類器を伴わなければならない。 しかし、視覚的応用において、説明法は、予測されたクラスを変更することなく説明を著しく変更できる局所的、知覚不能な摂動に影響を受けやすいことが示されている。 ここでは,このような摂動の存在がテキスト分類にも及んでいることを示す。 具体的には、テキスト入力サンプルを非知覚的に変更し、広く使われている説明手法の結果が変化し、分類器の予測が変化しないような新しい説明攻撃アルゴリズムであるTextExplanationFooler(TEF)を紹介する。 3つのDNNアーキテクチャと3つのトランスフォーマーアーキテクチャを用いて,TEFにおける属性頑健性評価性能を5つのシーケンス分類データセットで評価した。 TEFは、変化しない入力属性と摂動した入力属性の相関を著しく減少させ、全てのモデルと説明法がTEF摂動の影響を受けやすいことを示す。 さらに,摂動が他のモデルアーキテクチャや帰属方法にどのように転移するかを評価し,対象モデルや説明方法が不明なシナリオにおいてもtef摂動が有効であることを示す。 最後に,攻撃された分類器の知識や説明法を使わずに高速で計算的な光摂動を計算できる半ユニバーサル攻撃を導入する。 全体として、テキスト分類器における説明は非常に脆弱であり、ユーザーは重要なアプリケーションでそれらに依存する前に、彼らの堅牢性に慎重に対処する必要がある。

State-of-the-art text classification models are becoming increasingly reliant on deep neural networks (DNNs). Due to their black-box nature, faithful and robust explanation methods need to accompany classifiers for deployment in real-life scenarios. However, it has been shown in vision applications that explanation methods are susceptible to local, imperceptible perturbations that can significantly alter the explanations without changing the predicted classes. We show here that the existence of such perturbations extends to text classifiers as well. Specifically, we introduceTextExplanationFooler (TEF), a novel explanation attack algorithm that alters text input samples imperceptibly so that the outcome of widely-used explanation methods changes considerably while leaving classifier predictions unchanged. We evaluate the performance of the attribution robustness estimation performance in TEF on five sequence classification datasets, utilizing three DNN architectures and three transformer architectures for each dataset. TEF can significantly decrease the correlation between unchanged and perturbed input attributions, which shows that all models and explanation methods are susceptible to TEF perturbations. Moreover, we evaluate how the perturbations transfer to other model architectures and attribution methods, and show that TEF perturbations are also effective in scenarios where the target model and explanation method are unknown. Finally, we introduce a semi-universal attack that is able to compute fast, computationally light perturbations with no knowledge of the attacked classifier nor explanation method. Overall, our work shows that explanations in text classifiers are very fragile and users need to carefully address their robustness before relying on them in critical applications.
翻訳日:2022-06-08 15:40:02 公開日:2022-06-07
# コラボレーティブインテリジェンスオーケストレーション: 非一貫性に基づく半教師付き学習とアクティブラーニングの融合

Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of Semi-Supervised Learning and Active Learning ( http://arxiv.org/abs/2206.03288v1 )

ライセンス: Link先を確認
Jiannan Guo, Yangyang Kang, Yu Duan, Xiaozhong Liu, Siliang Tang, Wenqiao Zhang, Kun Kuang, Changlong Sun, Fei Wu(参考訳) 高度な学習モデルを満たすために十分な量のデータをアノテートすることは、現実世界の多くのアプリケーションにとってコストを抑えることができる。 active learning (al) と semi-supervised learning (ssl) の2つは有効だが、分離されていることが多い。 いくつかの最近の研究は、ラベルのないデータをよりよく調査するためにALとSSLを組み合わせる可能性を調査している。 しかしながら、現代のSSL-ALの作業のほとんどは、SSLとAL固有の関係を無視した単純な組み合わせ戦略を使用している。 さらに、大規模で高次元のデータセットを扱う場合、計算コストが高い。 業界におけるラベル付けの実践に触発されて,SSL-ALの潜在的な優位性をさらに調査し,ALとSSLの相互強化を実現するための,一貫性のない仮想aDvErsarial Active Learning (IDEAL)アルゴリズムを提案する。 細粒度連続摂動探査や粗粒度データ変換など,粒度の増大戦略により,ラベルなしサンプルの不一致を推定した。 テキスト領域と画像領域の両方での大規模な実験は、提案アルゴリズムの有効性を検証し、最先端のベースラインと比較する。 2つの実世界のケーススタディは、提案するデータサンプリングアルゴリズムの適用とデプロイの実用的工業的価値を可視化する。

While annotating decent amounts of data to satisfy sophisticated learning models can be cost-prohibitive for many real-world applications. Active learning (AL) and semi-supervised learning (SSL) are two effective, but often isolated, means to alleviate the data-hungry problem. Some recent studies explored the potential of combining AL and SSL to better probe the unlabeled data. However, almost all these contemporary SSL-AL works use a simple combination strategy, ignoring SSL and AL's inherent relation. Further, other methods suffer from high computational costs when dealing with large-scale, high-dimensional datasets. Motivated by the industry practice of labeling data, we propose an innovative Inconsistency-based virtual aDvErsarial Active Learning (IDEAL) algorithm to further investigate SSL-AL's potential superiority and achieve mutual enhancement of AL and SSL, i.e., SSL propagates label information to unlabeled samples and provides smoothed embeddings for AL, while AL excludes samples with inconsistent predictions and considerable uncertainty for SSL. We estimate unlabeled samples' inconsistency by augmentation strategies of different granularities, including fine-grained continuous perturbation exploration and coarse-grained data transformations. Extensive experiments, in both text and image domains, validate the effectiveness of the proposed algorithm, comparing it against state-of-the-art baselines. Two real-world case studies visualize the practical industrial value of applying and deploying the proposed data sampling algorithm.
翻訳日:2022-06-08 15:39:34 公開日:2022-06-07
# PyTSK: TSKファジィシステムのためのPythonツールボックス

PyTSK: A Python Toolbox for TSK Fuzzy Systems ( http://arxiv.org/abs/2206.03310v1 )

ライセンス: Link先を確認
Yuqi Cui and Dongrui Wu and Xue Jiang and Yifan Xu(参考訳) 本稿では,高木スゲノカン(TSK)ファジィシステムを開発するためのPythonツールボックスであるPyTSKについて述べる。 scikit-learnとPyTorchをベースにしたPyTSKでは、ファジィクラスタリングやMBGD(Mini-batch gradient descent)ベースのアルゴリズムを使用して、TSKファジィシステムを最適化することができる。 いくつかの最先端MBGDベースの最適化アルゴリズムがツールボックスに実装されており、特にビッグデータアプリケーションにおいてTSKファジィシステムの一般化性能を向上させることができる。 PyTSKは、TSKファジィシステムの構造の変更、より洗練されたトレーニングアルゴリズムの開発、TSKファジィシステムとニューラルネットワークの組み合わせなど、より複雑なアルゴリズムのために容易に拡張およびカスタマイズできる。 PyTSKのコードはhttps://github.com/YuqiCui/pytskにある。

This paper presents PyTSK, a Python toolbox for developing Takagi-Sugeno-Kang (TSK) fuzzy systems. Based on scikit-learn and PyTorch, PyTSK allows users to optimize TSK fuzzy systems using fuzzy clustering or mini-batch gradient descent (MBGD) based algorithms. Several state-of-the-art MBGD-based optimization algorithms are implemented in the toolbox, which can improve the generalization performance of TSK fuzzy systems, especially for big data applications. PyTSK can also be easily extended and customized for more complicated algorithms, such as modifying the structure of TSK fuzzy systems, developing more sophisticated training algorithms, and combining TSK fuzzy systems with neural networks. The code of PyTSK can be found at https://github.com/YuqiCui/pytsk.
翻訳日:2022-06-08 15:38:58 公開日:2022-06-07
# オフライン強化学習における割引要因の役割について

On the Role of Discount Factor in Offline Reinforcement Learning ( http://arxiv.org/abs/2206.03383v1 )

ライセンス: Link先を確認
Hao Hu, Yiqin Yang, Qianchuan Zhao, Chongjie Zhang(参考訳) オフライン強化学習(RL)は、以前に収集したデータから探索なしで効果的な学習を可能にする。 割引係数である$\gamma$は、オンラインRLサンプル効率と推定精度を改善する上で重要な役割を果たすが、オフラインRLにおける割引係数の役割はよく調べられていない。 本稿では,オフラインRLにおける$\gamma$の2つの異なる効果,すなわち正規化効果と悲観効果について検討する。 一方、$\gamma$は、既存のオフラインテクニックによるサンプル効率による最適性をトレードオフするレギュレータである。 一方、低いガイダンス$\gamma$は、最悪のモデルでポリシーのパフォーマンスを最適化する悲観的な方法であると見なすこともできる。 上述の理論的観察を表状MDPと標準D4RLタスクで実証的に検証する。 その結果、既存のオフラインメソッド上の小さなデータレジームと、他の保守性のない大規模データレジームの両方において、オフラインrlアルゴリズムの性能において、ディスカウント係数が重要な役割を担っていることが示された。

Offline reinforcement learning (RL) enables effective learning from previously collected data without exploration, which shows great promise in real-world applications when exploration is expensive or even infeasible. The discount factor, $\gamma$, plays a vital role in improving online RL sample efficiency and estimation accuracy, but the role of the discount factor in offline RL is not well explored. This paper examines two distinct effects of $\gamma$ in offline RL with theoretical analysis, namely the regularization effect and the pessimism effect. On the one hand, $\gamma$ is a regulator to trade-off optimality with sample efficiency upon existing offline techniques. On the other hand, lower guidance $\gamma$ can also be seen as a way of pessimism where we optimize the policy's performance in the worst possible models. We empirically verify the above theoretical observation with tabular MDPs and standard D4RL tasks. The results show that the discount factor plays an essential role in the performance of offline RL algorithms, both under small data regimes upon existing offline methods and in large data regimes without other conservatisms.
翻訳日:2022-06-08 15:36:22 公開日:2022-06-07
# 感性属性漏洩の軽減によるグラフニューラルネットワークの公平性向上

Improving Fairness in Graph Neural Networks via Mitigating Sensitive Attribute Leakage ( http://arxiv.org/abs/2206.03426v1 )

ライセンス: Link先を確認
Yu Wang, Yuying Zhao, Yushun Dong, Huiyuan Chen, Jundong Li, Tyler Derr(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上のノード表現を学習する際の大きな力を示している。 しかし、それらはトレーニングデータから歴史的偏見を継承し、予測における差別バイアスをもたらす可能性がある。 公正なGNNを開発した研究もあるが、そのほとんどは、GNNの特徴伝播に起因する機密性漏洩の潜在的な問題を考慮せずに、非グラフ領域から公正な表現学習技術を直接借りている。 しかし,従来の無害な非感性特徴と敏感な特徴との相関は,特徴伝播によって変化する可能性が実証された。 これは、予測における差別をさらに悪化させる可能性のある機密情報の漏洩と見なすことができる。 そこで本稿では,特徴の伝達を考慮した2つの特徴マスキング戦略を設計し,識別の緩和における特徴の伝搬と相関のばらつきを考慮することの重要性を強調した。 本研究では,Fair View Graph Neural Network (FairVGNN) を用いて,特徴伝播後の相関変動を考慮した感度関連特徴の自動識別とマスキングにより特徴の公正なビューを生成する。 学習したフェアビューから、エンコーダの重みを適応的にクランプすることで、センシティブな特徴の使用を避けることができる。 実世界のデータセットの実験は、FairVGNNがモデルユーティリティとフェアネスのトレードオフを良くしていることを示している。 私たちのコードは、 \href{https://github.com/YuWVandy/FairVGNN}{\textcolor{blue}{https://github.com/YuWVandy/FairVGNN}}で公開されています。

Graph Neural Networks (GNNs) have shown great power in learning node representations on graphs. However, they may inherit historical prejudices from training data, leading to discriminatory bias in predictions. Although some work has developed fair GNNs, most of them directly borrow fair representation learning techniques from non-graph domains without considering the potential problem of sensitive attribute leakage caused by feature propagation in GNNs. However, we empirically observe that feature propagation could vary the correlation of previously innocuous non-sensitive features to the sensitive ones. This can be viewed as a leakage of sensitive information which could further exacerbate discrimination in predictions. Thus, we design two feature masking strategies according to feature correlations to highlight the importance of considering feature propagation and correlation variation in alleviating discrimination. Motivated by our analysis, we propose Fair View Graph Neural Network (FairVGNN) to generate fair views of features by automatically identifying and masking sensitive-correlated features considering correlation variation after feature propagation. Given the learned fair views, we adaptively clamp weights of the encoder to avoid using sensitive-related features. Experiments on real-world datasets demonstrate that FairVGNN enjoys a better trade-off between model utility and fairness. Our code is publicly available at \href{https://github.com/YuWVandy/FairVGNN}{\textcolor{blue}{https://github.com/YuWVandy/FairVGNN}}.
翻訳日:2022-06-08 15:36:03 公開日:2022-06-07
# フェデレーションヘテロタスク学習

Federated Hetero-Task Learning ( http://arxiv.org/abs/2206.03436v1 )

ライセンス: Link先を確認
Liuyi Yao, Dawei Gao, Zhen Wang, Yuexiang Xie, Weirui Kuang, Daoyuan Chen, Haohui Wang, Chenhe Dong, Bolin Ding, Yaliang Li(参考訳) 実世界のシナリオにおけるフェデレーション学習の不均一性を調べるため,従来のフェデレーション学習をフェデレーション・ヘテロタスク学習に一般化し,データ分散と学習タスクの両方の観点から、フェデレーション学習の参加者間の不整合を強調する。 また,シミュレーションデータセット,FLプロトコル,統一評価機構で構成されるヘテロタスク学習ベンチマークであるB-FHTLを提案する。 B-FHTLデータセットは、3つのよく設計されたフェデレーション学習タスクを含む。 各タスクは、異なるデータ分散と学習タスクでクライアントをシミュレートする。 さまざまなFLアルゴリズムの公正な比較を保証するため、B-FHTLはプライバシーの漏洩を避けるための高レベルのAPIを提供し、回帰、分類、テキスト生成など、さまざまな学習タスクにまたがる最も一般的な評価指標をプリセットすることによって、FLプロトコルの完全なスイートを構築する。 さらに,b-fhtlにおけるフェデレーションマルチタスク学習,フェデレーションパーソナライゼーション,フェデレーションメタ学習の分野におけるflアルゴリズムを比較し,フェデレーションヘテロタスク学習の多様性と困難さの影響を強調した。 フェデレーションデータセット、プロトコル、評価メカニズム、予備実験を含む我々のベンチマークはhttps://github.com/alibaba/FederatedScope/tree/contest/v1.0でオープンソース化されている。

To investigate the heterogeneity of federated learning in real-world scenarios, we generalize the classical federated learning to federated hetero-task learning, which emphasizes the inconsistency across the participants in federated learning in terms of both data distribution and learning tasks. We also present B-FHTL, a federated hetero-task learning benchmark consisted of simulation dataset, FL protocols and a unified evaluation mechanism. B-FHTL dataset contains three well-designed federated learning tasks with increasing heterogeneity. Each task simulates the clients with different data distributions and learning tasks. To ensure fair comparison among different FL algorithms, B-FHTL builds in a full suite of FL protocols by providing high-level APIs to avoid privacy leakage, and presets most common evaluation metrics spanning across different learning tasks, such as regression, classification, text generation and etc. Furthermore, we compare the FL algorithms in fields of federated multi-task learning, federated personalization and federated meta learning within B-FHTL, and highlight the influence of heterogeneity and difficulties of federated hetero-task learning. Our benchmark, including the federated dataset, protocols, the evaluation mechanism and the preliminary experiment, is open-sourced at https://github.com/alibaba/FederatedScope/tree/contest/v1.0.
翻訳日:2022-06-08 15:35:36 公開日:2022-06-07
# 物理に基づく手法とデータ駆動手法の組み合わせによる信頼性のあるハイブリッド分析とモデリング

Combining physics-based and data-driven techniques for reliable hybrid analysis and modeling using the corrective source term approach ( http://arxiv.org/abs/2206.03451v1 )

ライセンス: Link先を確認
Sindre Stenen Blakseth, Adil Rasheed, Trond Kvamsdal, Omer San(参考訳) 安全クリティカルなアプリケーションを含むデジタルツインや自律システム、人工知能システムといった今後の技術は、正確で解釈可能で、計算効率が高く、一般化可能なモデルを必要とする。 残念ながら、物理学に基づくモデリング(PBM)とデータ駆動モデリング(DDM)の2つの最も一般的なモデリングアプローチは、これらの要件をすべて満たしていない。 本研究では,pbm と ddm のベストを結合したハイブリッドアプローチが,両者を上回らせるモデルにどのように影響するかを実証する。 我々は、部分的既知の物理を記述した第一原理に基づく偏微分方程式とブラックボックスddmを組み合わせることにより、この場合、未知の物理を補償するディープニューラルネットワークモデルを構築する。 まず, この手法がなぜ動作するのかという数学的議論を行い, 2次元熱拡散問題を未知のソース項でモデル化するためにハイブリッドアプローチを適用する。 その結果, 精度, 一般化性の観点から, この手法の優れた性能を示す。 さらに、DDM部分がハイブリッドフレームワーク内でどのように解釈され、全体的なアプローチが信頼できるかを示す。

Upcoming technologies like digital twins, autonomous, and artificial intelligent systems involving safety-critical applications require models which are accurate, interpretable, computationally efficient, and generalizable. Unfortunately, the two most commonly used modeling approaches, physics-based modeling (PBM) and data-driven modeling (DDM) fail to satisfy all these requirements. In the current work, we demonstrate how a hybrid approach combining the best of PBM and DDM can result in models which can outperform them both. We do so by combining partial differential equations based on first principles describing partially known physics with a black box DDM, in this case, a deep neural network model compensating for the unknown physics. First, we present a mathematical argument for why this approach should work and then apply the hybrid approach to model two dimensional heat diffusion problem with an unknown source term. The result demonstrates the method's superior performance in terms of accuracy, and generalizability. Additionally, it is shown how the DDM part can be interpreted within the hybrid framework to make the overall approach reliable.
翻訳日:2022-06-08 15:35:10 公開日:2022-06-07
# 敵対的再プログラミングの再考

Adversarial Reprogramming Revisited ( http://arxiv.org/abs/2206.03466v1 )

ライセンス: Link先を確認
Matthias Englert and Ranko Lazic(参考訳) Elsayed、Goodfellow、Shl-Dicksteinが導入した逆プログラムは、ニューラルネットワークを使って異なるタスクを実行し、重みを変更せずに入力を操作する。 ランダム重みを持つ2層reluニューラルネットワークは、ハイパーキューブ頂点上のbernoulliデータモデルにおいて、ネットワーク幅が入力次元よりも大きい場合、任意に高い精度を達成するために逆プログラム可能であることが証明される。 また, 直交分離可能なデータセット上で2層ReLUニューラルネットワークをトレーニングすることで, 対向プログラミングの失敗を招きかねない, 勾配流の方向性収束に関するPhuongとLampertの最近の結果を著しく強化する。 バッチ正規化層が適当に初期化されている限り、ランダムな重み付きネットワークでさえ、対数再プログラミングの影響を受けやすいことを示す実験により、これらの理論結果を支持する。 これは、訓練されていないネットワークでは、いかなるレベルの信頼性でも逆再プログラミングは不可能であると示唆する最近のいくつかの研究における観察とは対照的である。

Adversarial reprogramming, introduced by Elsayed, Goodfellow, and Sohl-Dickstein, seeks to repurpose a neural network to perform a different task, by manipulating its input without modifying its weights. We prove that two-layer ReLU neural networks with random weights can be adversarially reprogrammed to achieve arbitrarily high accuracy on Bernoulli data models over hypercube vertices, provided the network width is no greater than its input dimension. We also substantially strengthen a recent result of Phuong and Lampert on directional convergence of gradient flow, and obtain as a corollary that training two-layer ReLU neural networks on orthogonally separable datasets can cause their adversarial reprogramming to fail. We support these theoretical results by experiments that demonstrate that, as long as batch normalisation layers are suitably initialised, even untrained networks with random weights are susceptible to adversarial reprogramming. This is in contrast to observations in several recent works that suggested that adversarial reprogramming is not possible for untrained networks to any degree of reliability.
翻訳日:2022-06-08 15:34:51 公開日:2022-06-07
# fdgnn:完全動的グラフニューラルネットワーク

FDGNN: Fully Dynamic Graph Neural Network ( http://arxiv.org/abs/2206.03469v1 )

ライセンス: Link先を確認
Alice Moallemy-Oureh, Silvia Beddar-Wiesing, R\"udiger Nather, Josephine M. Thomas(参考訳) 動的グラフニューラルネットワークは、数学、生物学、社会科学、物理学、コンピュータ科学など、多くの科学分野のグラフが自然界で動的であるため、最近ますます重要になっている。 時間変化(力学)は多くの実世界のアプリケーションで不可欠な役割を果たすが、グラフニューラルネットワーク(gnn)のモデルの多くは静的グラフを処理する。 動的グラフ上の少数のgnnモデルは、ノード属性動的グラフやグラフのエッジの追加や変更に制限された構造動的グラフなど、ダイナミクスの例外的なケースのみを考慮に入れている。 そこで本研究では,フルダイナミックグラフを連続的に処理できる新しいフルダイナミックグラフニューラルネットワーク(FDGNN)を提案する。 提案手法は,ノードとエッジを埋め込み,追加および削除されたノードやエッジに対処するアクティビティと,可能な属性を含む。 さらに、埋め込みは、構造および属性に関連した入射グラフイベントの分布をエンコードする各イベントの時間的ポイントプロセスを指定する。 さらに,局所的な再トレーニングのための単一イベントを考慮し,効率的に更新できる。

Dynamic Graph Neural Networks recently became more and more important as graphs from many scientific fields, ranging from mathematics, biology, social sciences, and physics to computer science, are dynamic by nature. While temporal changes (dynamics) play an essential role in many real-world applications, most of the models in the literature on Graph Neural Networks (GNN) process static graphs. The few GNN models on dynamic graphs only consider exceptional cases of dynamics, e.g., node attribute-dynamic graphs or structure-dynamic graphs limited to additions or changes to the graph's edges, etc. Therefore, we present a novel Fully Dynamic Graph Neural Network (FDGNN) that can handle fully-dynamic graphs in continuous time. The proposed method provides a node and an edge embedding that includes their activity to address added and deleted nodes or edges, and possible attributes. Furthermore, the embeddings specify Temporal Point Processes for each event to encode the distributions of the structure- and attribute-related incoming graph events. In addition, our model can be updated efficiently by considering single events for local retraining.
翻訳日:2022-06-08 15:34:32 公開日:2022-06-07
# 勾配空間における次元性低減によるマイズショット学習

Few-Shot Learning by Dimensionality Reduction in Gradient Space ( http://arxiv.org/abs/2206.03483v1 )

ライセンス: Link先を確認
Martin Gauch, Maximilian Beck, Thomas Adler, Dmytro Kotsur, Stefan Fiel, Hamid Eghbal-zadeh, Johannes Brandstetter, Johannes Kofler, Markus Holzleitner, Werner Zellinger, Daniel Klotz, Sepp Hochreiter, Sebastian Lehner(参考訳) 本稿では,確率勾配降下更新が低次元パラメータ部分空間に居住する傾向にあるという最近の知見に基づく,新しい数ショット学習手法SubGDを紹介する。 実験および理論的解析では、適切な事前定義部分空間に限定されたモデルが、少数ショット学習をうまく一般化することを示す。 適当な部分空間は与えられたタスクの3つの基準を満たす。 (a)勾配流によるトレーニング誤差の低減を可能にする。 (b)よく一般化したモデルにつながり、 (c)は確率勾配降下によって同定できる。 SubGDはこれらの部分空間を、異なるタスク間で更新方向の自動相関行列の固有分解から特定する。 解析系記述の1つまたは少数のパラメータによって記述される様々な特性を持つ力学系の数ショット学習に適した低次元部分空間を同定することができる。 このようなシステムは、科学や工学における現実世界のアプリケーションの中で広く使われている。 我々は,3つの異なる動的システム問題設定におけるSubGDの利点を実験的に相関させ,サンプル効率と性能の両面において,人気のある数ショット学習法を著しく上回った。

We introduce SubGD, a novel few-shot learning method which is based on the recent finding that stochastic gradient descent updates tend to live in a low-dimensional parameter subspace. In experimental and theoretical analyses, we show that models confined to a suitable predefined subspace generalize well for few-shot learning. A suitable subspace fulfills three criteria across the given tasks: it (a) allows to reduce the training error by gradient flow, (b) leads to models that generalize well, and (c) can be identified by stochastic gradient descent. SubGD identifies these subspaces from an eigendecomposition of the auto-correlation matrix of update directions across different tasks. Demonstrably, we can identify low-dimensional suitable subspaces for few-shot learning of dynamical systems, which have varying properties described by one or few parameters of the analytical system description. Such systems are ubiquitous among real-world applications in science and engineering. We experimentally corroborate the advantages of SubGD on three distinct dynamical systems problem settings, significantly outperforming popular few-shot learning methods both in terms of sample efficiency and performance.
翻訳日:2022-06-08 15:34:14 公開日:2022-06-07
# 記号演算子の学習:電気自動車電池の自律分解のためのニューロシンボリック解法

Learning Symbolic Operators: A Neurosymbolic Solution for Autonomous Disassembly of Electric Vehicle Battery ( http://arxiv.org/abs/2206.03027v1 )

ライセンス: Link先を確認
Yidong Du, Wenshuo Wang, Zhigang Wang, Hua Yang, Haitao Wang, Yinghao Cai and Ming Chen(参考訳) 電気自動車のブームは、リサイクルを環境に優しいものにするための効率的な電池分解を要求する。 現在、バッテリーの分解は、主に人間によって行われており、おそらくロボットによって支援されている。 高電圧・有毒環境における作業効率の向上と人的リスクの低減を目的とした自律型ソリューションの設計が極めて望ましい。 本稿では,従来の変分オートエンコーダ(VAE)モデルを拡張したニューロシンボリック手法を提案する。 シンボリック演算子は、確率的状態記号接地モデルと、各実行後の状態を予測して自律的なタスクと動作計画を可能にする状態遷移行列を含む。 最終的に、試験結果により、本手法の有効性が検証される。

The booming of electric vehicles demands efficient battery disassembly for recycling to be environment-friendly. Currently, battery disassembly is still primarily done by humans, probably assisted by robots, due to the unstructured environment and high uncertainties. It is highly desirable to design autonomous solutions to improve work efficiency and lower human risks in high voltage and toxic environments. This paper proposes a novel neurosymbolic method, which augments the traditional Variational Autoencoder (VAE) model to learn symbolic operators based on raw sensory inputs and their relationships. The symbolic operators include a probabilistic state symbol grounding model and a state transition matrix for predicting states after each execution to enable autonomous task and motion planning. At last, the method's feasibility is verified through test results.
翻訳日:2022-06-08 15:33:05 公開日:2022-06-07
# 表現システム理論:表現の符号化、解析、変換への統一的アプローチ

Representational Systems Theory: A Unified Approach to Encoding, Analysing and Transforming Representations ( http://arxiv.org/abs/2206.03172v1 )

ライセンス: Link先を確認
Daniel Raggi, Gem Stapleton, Mateja Jamnik, Aaron Stockdill, Grecia Garcia Garcia, Peter C-H. Cheng(参考訳) 表現の研究はコミュニケーションのあらゆる形態において根本的に重要であり、それらを効果的に活用する能力は最重要である。 本稿では3つの中核的な視点から多種多様な表現を抽象的にエンコードするために設計された新しい理論、表現システム理論について述べる。 構成空間の概念を導入することで、それぞれのコアコンポーネントを単一の統一パラダイムでエンコードすることが可能になります。 表現システム理論を用いて、ある系における表現を別の系における表現に構造的に変換することができる。 構造変換手法の内在的な側面は、相対的な認知的効果や構造的複雑性など、表現が持つ特性に基づいた表現選択である。 一般的な構造変換技術を提供する上での大きな理論的障壁は、終了アルゴリズムの欠如である。 表現系理論は、終端アルゴリズムが完全変換を生成できない場合、部分変換の導出を可能にする。 表現系理論は、表現系を符号化するための普遍的なアプローチを提供するため、さらに重要な障壁が排除される: 異なるシステムが異なる形式化アプローチを採用する場合に必要となる、システム固有の構造変換アルゴリズムを考案する必要性。 したがって、表現システム理論は、表現を符号化するための統一的なアプローチを提供し、構造変換による表現選択をサポートし、広く実用化される可能性を持つ最初の一般的なフレームワークである。

The study of representations is of fundamental importance to any form of communication, and our ability to exploit them effectively is paramount. This article presents a novel theory -- Representational Systems Theory -- that is designed to abstractly encode a wide variety of representations from three core perspectives: syntax, entailment, and their properties. By introducing the concept of a construction space, we are able to encode each of these core components under a single, unifying paradigm. Using our Representational Systems Theory, it becomes possible to structurally transform representations in one system into representations in another. An intrinsic facet of our structural transformation technique is representation selection based on properties that representations possess, such as their relative cognitive effectiveness or structural complexity. A major theoretical barrier to providing general structural transformation techniques is a lack of terminating algorithms. Representational Systems Theory permits the derivation of partial transformations when no terminating algorithm can produce a full transformation. Since Representational Systems Theory provides a universal approach to encoding representational systems, a further key barrier is eliminated: the need to devise system-specific structural transformation algorithms, that are necessary when different systems adopt different formalisation approaches. Consequently, Representational Systems Theory is the first general framework that provides a unified approach to encoding representations, supports representation selection via structural transformations, and has the potential for widespread practical application.
翻訳日:2022-06-08 15:32:51 公開日:2022-06-07
# TSFEDL:ディープラーニングを用いた時系列時空間特徴抽出と予測のためのPythonライブラリ(詳細なネットワークアーキテクチャと実験事例を含む)

TSFEDL: A Python Library for Time Series Spatio-Temporal Feature Extraction and Prediction using Deep Learning (with Appendices on Detailed Network Architectures and Experimental Cases of Study) ( http://arxiv.org/abs/2206.03179v1 )

ライセンス: Link先を確認
Ignacio Aguilera-Martos, \'Angel M. Garc\'ia-Vico, Juli\'an Luengo, Sergio Damas, Francisco J. Melero, Jos\'e Javier Valle-Alonso, Francisco Herrera(参考訳) 畳み込みニューラルネットワーク(convolutional neural network)と再帰ニューラルネットワーク(recurrent neural networks)の組み合わせは、予測、分類、異常検出などの時系列予測問題の鍵となる時間的依存性とともに、高品質の時空間的特徴の抽出を可能にする有望なフレームワークである。 本稿では,TSFEDLライブラリを紹介する。 時系列特徴抽出と予測のための20の最先端手法をコンパイルし、畳み込みと再帰的なディープニューラルネットワークを使用して、いくつかのデータマイニングタスクで使用する。 このライブラリは、AGPLv3ライセンスの下でTensorflow+KerasとPyTorchモジュールのセット上に構築されている。 この提案に含まれるアーキテクチャのパフォーマンス検証は、このPythonパッケージの有用性を確認している。

The combination of convolutional and recurrent neural networks is a promising framework that allows the extraction of high-quality spatio-temporal features together with its temporal dependencies, which is key for time series prediction problems such as forecasting, classification or anomaly detection, amongst others. In this paper, the TSFEDL library is introduced. It compiles 20 state-of-the-art methods for both time series feature extraction and prediction, employing convolutional and recurrent deep neural networks for its use in several data mining tasks. The library is built upon a set of Tensorflow+Keras and PyTorch modules under the AGPLv3 license. The performance validation of the architectures included in this proposal confirms the usefulness of this Python package.
翻訳日:2022-06-08 15:32:30 公開日:2022-06-07
# 社会ロボットのための変分メタ強化学習

Variational Meta Reinforcement Learning for Social Robotics ( http://arxiv.org/abs/2206.03211v1 )

ライセンス: Link先を確認
Anand Ballou, Chris Reinke, Xavier Alameda-Pineda(参考訳) 日々の環境においてロボットの存在感が高まる中、社会的スキルの向上は極めて重要である。 それでも、ソーシャルロボティクスは多くの課題に直面している。 一つのボトルネックは、ロボットの行動は環境に強く依存する社会規範として適応する必要があることである。 例えば、ロボットは、オフィスで働く人に比べて、病院の患者の周りを慎重に移動する必要がある。 本研究ではメタ強化学習(meta-RL)を潜在的ソリューションとして検討する。 ここでは、ロボットが所定の環境に対して適切な行動を学ぶために、報酬関数を選択する必要がある強化学習を通じてロボットの動作を学習する。 本稿では,ロボットの動作を新たな報酬関数に迅速に適応する変分メタRL手法を提案する。 その結果、新しい環境が与えられると、異なる報酬関数を迅速に評価し、適切なものを選択できる。 この手順は、報酬関数のベクトル化表現と、そのような表現に条件付けできるメタ政治を学習する。 新しい報酬関数からの観察によって、手続きはその表現とそれに対するメタポリシーを識別する。 手順の能力を調査する中で,表現の次元のサブセットのみが有用な情報をエンコードし,結果として性能が低下する後方崩壊に苦しむことが判明した。 第2の貢献である放射基底関数(RBF)層は、この負の効果を部分的に緩和する。 RBF層は高次元空間に表現を持ち上げ、メタ政治にとってより容易に利用することができる。 4つのロボットシミュレーションタスクにおいて,RBF層の関心とメタRLの社会ロボティクスへの応用を示す。

With the increasing presence of robots in our every-day environments, improving their social skills is of utmost importance. Nonetheless, social robotics still faces many challenges. One bottleneck is that robotic behaviors need to be often adapted as social norms depend strongly on the environment. For example, a robot should navigate more carefully around patients in a hospital compared to workers in an office. In this work, we investigate meta-reinforcement learning (meta-RL) as a potential solution. Here, robot behaviors are learned via reinforcement learning where a reward function needs to be chosen so that the robot learns an appropriate behavior for a given environment. We propose to use a variational meta-RL procedure that quickly adapts the robots' behavior to new reward functions. As a result, given a new environment different reward functions can be quickly evaluated and an appropriate one selected. The procedure learns a vectorized representation for reward functions and a meta-policy that can be conditioned on such a representation. Given observations from a new reward function, the procedure identifies its representation and conditions the meta-policy to it. While investigating the procedures' capabilities, we realized that it suffers from posterior collapse where only a subset of the dimensions in the representation encode useful information resulting in a reduced performance. Our second contribution, a radial basis function (RBF) layer, partially mitigates this negative effect. The RBF layer lifts the representation to a higher dimensional space, which is more easily exploitable for the meta-policy. We demonstrate the interest of the RBF layer and the usage of meta-RL for social robotics on four robotic simulation tasks.
翻訳日:2022-06-08 15:32:16 公開日:2022-06-07
# 説明可能なソーシャルエージェントオーサリングツールを目指して:FAtiMA-Toolkitを事例として

Towards Explainable Social Agent Authoring tools: A case study on FAtiMA-Toolkit ( http://arxiv.org/abs/2206.03360v1 )

ライセンス: Link先を確認
Manuel Guimar\~aes, Joana Campos, Pedro A. Santos, Jo\~ao Dias, Rui Prada(参考訳) 学習環境における社会的インテリジェントエージェント(SIAs)の展開は、様々な分野のアプリケーションにいくつかの利点があることが証明されている。 ソーシャルエージェントオーサリングツールにより、シナリオデザイナは、SIAの振る舞いを高いコントロールでカスタマイズしたエクスペリエンスを作成できるが、一方で、シナリオとオーサリングの複雑さが過大評価される可能性があるため、コストがかかる。 本稿では,ソーシャルエージェントのオーサリングツールが理解され,解釈可能であるかどうかを分析することを目的とした,説明可能なソーシャルエージェントオーサリングツールの概念を紹介する。 この目的のために、著者の視点から、著者ツールであるFAtiMA-Toolkitが理解可能かどうかを検証し、著者の解釈を行う。 シナリオデザイナの視点から,FAtiMA-Toolkitの解釈可能性,理解性,透明性を定量的に評価する2つのユーザスタディを行った。 重要な発見の1つは、FAtiMA-Toolkitの概念モデルが一般に理解可能であるという事実である。 FAtiMA-Toolkitの説明可能性にはいくつかの肯定的な側面があるが、完全に説明可能なソーシャルエージェントオーサリングツールを実現するための進展がまだある。 私たちは、開発者がそのようなツールを構築するのをガイドできる重要な概念と可能なソリューションのセットを提供します。

The deployment of Socially Intelligent Agents (SIAs) in learning environments has proven to have several advantages in different areas of application. Social Agent Authoring Tools allow scenario designers to create tailored experiences with high control over SIAs behaviour, however, on the flip side, this comes at a cost as the complexity of the scenarios and its authoring can become overbearing. In this paper we introduce the concept of Explainable Social Agent Authoring Tools with the goal of analysing if authoring tools for social agents are understandable and interpretable. To this end we examine whether an authoring tool, FAtiMA-Toolkit, is understandable and its authoring steps interpretable, from the point-of-view of the author. We conducted two user studies to quantitatively assess the Interpretability, Comprehensibility and Transparency of FAtiMA-Toolkit from the perspective of a scenario designer. One of the key findings is the fact that FAtiMA-Toolkit's conceptual model is, in general, understandable, however the emotional-based concepts were not as easily understood and used by the authors. Although there are some positive aspects regarding the explainability of FAtiMA-Toolkit, there is still progress to be made to achieve a fully explainable social agent authoring tool. We provide a set of key concepts and possible solutions that can guide developers to build such tools.
翻訳日:2022-06-08 15:31:56 公開日:2022-06-07
# legonn: モジュラーエンコーダ-デコーダモデルの構築

LegoNN: Building Modular Encoder-Decoder Models ( http://arxiv.org/abs/2206.03318v1 )

ライセンス: Link先を確認
Siddharth Dalmia, Dmytro Okhonko, Mike Lewis, Sergey Edunov, Shinji Watanabe, Florian Metze, Luke Zettlemoyer, and Abdelrahman Mohamed(参考訳) 最先端エンコーダデコーダモデル(例えば、機械翻訳(MT)や音声認識(ASR))は、原子単位として構築され、訓練されたエンドツーエンドである。 モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できない。 LegoNNは、デコーダモジュールでエンコーダ-デコーダアーキテクチャを構築する手順であり、微調整を必要とせず、様々なMTタスクやASRタスクで再利用することができる。 再使用性を達成するため、各エンコーダモジュールとデコーダモジュール間のインタフェースは、モデルデザイナが予め定義した離散語彙上の境界分布のシーケンスに基礎を置いている。 我々は,これらの辺縁を摂取するための2つのアプローチを提案する。1つは微分可能であり,ネットワーク全体の勾配の流れを許容し,もう1つは勾配分離である。 異なるソース言語やASRなどのタスク間でのMTタスク間のデコーダモジュールのポータビリティを実現するため、あらかじめ訓練されたデコーダの入力長範囲に合わせるために、エンコーダの出力長を動的に適応する長さ制御機構からなるモダリティ非依存エンコーダを導入する。 ドイツ語(De-En) MTタスクのトレーニング言語生成LegoNNデコーダモジュールは、Europarl English ASRとルーマニア英語(Ro-En) MTタスクの微調整なしで再利用でき、それぞれのベースラインモデルに適合または打ち勝つことができる。 数千回の更新で目標タスクに向けて微調整を行うと、LegoNNモデルはRo-En MTタスクを1.5 BLEUポイント改善し、Europarl ASRタスクの相対的なWER削減を12.5%達成した。 さらに、拡張性を示すために、3つのモジュールからLegoNN ASRモデルを構築します。

State-of-the-art encoder-decoder models (e.g. for machine translation (MT) or speech recognition (ASR)) are constructed and trained end-to-end as an atomic unit. No component of the model can be (re-)used without the others. We describe LegoNN, a procedure for building encoder-decoder architectures with decoder modules that can be reused across various MT and ASR tasks, without the need for any fine-tuning. To achieve reusability, the interface between each encoder and decoder modules is grounded to a sequence of marginal distributions over a discrete vocabulary pre-defined by the model designer. We present two approaches for ingesting these marginals; one is differentiable, allowing the flow of gradients across the entire network, and the other is gradient-isolating. To enable portability of decoder modules between MT tasks for different source languages and across other tasks like ASR, we introduce a modality agnostic encoder which consists of a length control mechanism to dynamically adapt encoders' output lengths in order to match the expected input length range of pre-trained decoders. We present several experiments to demonstrate the effectiveness of LegoNN models: a trained language generation LegoNN decoder module from German-English (De-En) MT task can be reused with no fine-tuning for the Europarl English ASR and the Romanian-English (Ro-En) MT tasks to match or beat respective baseline models. When fine-tuned towards the target task for few thousand updates, our LegoNN models improved the Ro-En MT task by 1.5 BLEU points, and achieved 12.5% relative WER reduction for the Europarl ASR task. Furthermore, to show its extensibility, we compose a LegoNN ASR model from three modules -- each has been learned within different end-to-end trained models on three different datasets -- boosting the WER reduction to 19.5%.
翻訳日:2022-06-08 15:31:13 公開日:2022-06-07
# ディフルエンシ検出システムにおけるデータセット分割の影響

The Influence of Dataset Partitioning on Dysfluency Detection Systems ( http://arxiv.org/abs/2206.03400v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Dominik Wagner, Elmar N\"oth, Tobias Bocklet, and Korbinian Riedhammer(参考訳) 本稿では, ディフルエンシ検出システムの性能に及ぼすデータ分割と分割戦略の影響を実験的に検討する。 そこで我々は,wav2vec 2.0モデルから抽出した特徴と合わせて,分類ヘッドを備えたwav2vec 2.0モデルとサポートベクタマシン(SVM)を用いた実験を行った。 我々は,ポッドキャスト(sep-28k)データセットにおける発話イベントの非話者排他的および話者排他的分割の異なるシステムを訓練し,評価し,w.r.t.の結果のばらつきを分割法に適用した。 さらに,SEP-28kデータセットは少数の話者で支配されており,評価が困難であることを示す。 この問題を解決するために,sep-28k-extended (sep-28k-e) を開発し,sep-28kコーパスに対して,半自動生成話者と性情報を含む。

This paper empirically investigates the influence of different data splits and splitting strategies on the performance of dysfluency detection systems. For this, we perform experiments using wav2vec 2.0 models with a classification head as well as support vector machines (SVM) in conjunction with the features extracted from the wav2vec 2.0 model to detect dysfluencies. We train and evaluate the systems with different non-speaker-exclusive and speaker-exclusive splits of the Stuttering Events in Podcasts (SEP-28k) dataset to shed some light on the variability of results w.r.t. to the partition method used. Furthermore, we show that the SEP-28k dataset is dominated by only a few speakers, making it difficult to evaluate. To remedy this problem, we created SEP-28k-Extended (SEP-28k-E), containing semi-automatically generated speaker and gender information for the SEP-28k corpus, and suggest different data splits, each useful for evaluating other aspects of methods for dysfluency detection.
翻訳日:2022-06-08 15:29:28 公開日:2022-06-07
# 臨床記録を有する医用画像のトランスフォーマーによるパーソナライズドアテンション機構(PersAM)

Transformer-based Personalized Attention Mechanism (PersAM) for Medical Images with Clinical Records ( http://arxiv.org/abs/2206.03003v1 )

ライセンス: Link先を確認
Yusuke Takagi, Noriaki Hashimoto, Hiroki Masuda, Hiroaki Miyoshi, Koichi Ohshima, Hidekata Hontani, Ichiro Takeuchi(参考訳) 画像診断では、注意領域、すなわち、その診断が行われる関心領域を特定することが重要な課題である。 医療画像からターゲット領域を自動的に識別する様々な手法が開発されている。 しかし、実際の医療実践においては、診断は画像だけでなく、様々な臨床記録に基づいて行われる。 これは、病理学者が患者の事前の知識で医療画像を調べ、臨床記録に応じて注意領域が変化することを意味する。 本研究では,医療画像中の注意領域を臨床記録に応じて適応的に変化させる,パーソナライズ・アテンション・メカニズム(persam)と呼ばれる手法を提案する。 PersAM法の主な考え方は、トランスフォーマーアーキテクチャの変種を用いて、医療画像と臨床記録の関係を符号化することである。 PersAM法の有効性を実証するために,842名の悪性リンパ腫患者の画像と臨床記録に基づいて,そのサブタイプを同定する大規模デジタル診断問題に適用した。

In medical image diagnosis, identifying the attention region, i.e., the region of interest for which the diagnosis is made, is an important task. Various methods have been developed to automatically identify target regions from given medical images. However, in actual medical practice, the diagnosis is made based not only on the images but also on a variety of clinical records. This means that pathologists examine medical images with some prior knowledge of the patients and that the attention regions may change depending on the clinical records. In this study, we propose a method called the Personalized Attention Mechanism (PersAM), by which the attention regions in medical images are adaptively changed according to the clinical records. The primary idea of the PersAM method is to encode the relationships between the medical images and clinical records using a variant of Transformer architecture. To demonstrate the effectiveness of the PersAM method, we applied it to a large-scale digital pathology problem of identifying the subtypes of 842 malignant lymphoma patients based on their gigapixel whole slide images and clinical records.
翻訳日:2022-06-08 15:27:40 公開日:2022-06-07
# COVIDx CT-3:胸部CT画像からのコンピュータ支援型COVID-19スクリーニングのための大規模・多国籍オープンソースベンチマークデータセット

COVIDx CT-3: A Large-scale, Multinational, Open-Source Benchmark Dataset for Computer-aided COVID-19 Screening from Chest CT Images ( http://arxiv.org/abs/2206.03043v1 )

ライセンス: Link先を確認
Tia Tuinstra, Hayden Gunraj, Alexander Wong(参考訳) CTは、RT-PCR検査を補完する新型コロナウイルススクリーニングおよび評価ツールとして広く研究されている。 CTによる新型コロナウイルススクリーニングを支援するため,多くのコンピュータ支援システムが提案されているが,その量と多様性に制限のあるCTデータを用いて構築されているシステムも少なくない。 機械学習によるスクリーニングシステムの開発を支援するため,胸部CT画像からCOVID-19症例を検出するための大規模多国間ベンチマークデータセットであるCOVIDx CT-3を導入する。 COVIDx CT-3には、少なくとも17カ国で6,068人の患者の431,205 CTスライスが含まれている。 さらに, COVIDx CT-3データセットのデータ多様性と潜在的なバイアスについて検討し, 多様な情報源からのデータ収集にも拘わらず, 地理的・階級的不均衡が著しいことが確認された。

Computed tomography (CT) has been widely explored as a COVID-19 screening and assessment tool to complement RT-PCR testing. To assist radiologists with CT-based COVID-19 screening, a number of computer-aided systems have been proposed; however, many proposed systems are built using CT data which is limited in both quantity and diversity. Motivated to support efforts in the development of machine learning-driven screening systems, we introduce COVIDx CT-3, a large-scale multinational benchmark dataset for detection of COVID-19 cases from chest CT images. COVIDx CT-3 includes 431,205 CT slices from 6,068 patients across at least 17 countries, which to the best of our knowledge represents the largest, most diverse dataset of COVID-19 CT images in open-access form. Additionally, we examine the data diversity and potential biases of the COVIDx CT-3 dataset, finding that significant geographic and class imbalances remain despite efforts to curate data from a wide variety of sources.
翻訳日:2022-06-08 15:27:22 公開日:2022-06-07
# (参考訳) FedRel: 時空間グラフ学習のための適応型フェデレーション関連フレームワーク

FedRel: An Adaptive Federated Relevance Framework for Spatial Temporal Graph Learning ( http://arxiv.org/abs/2206.03420v1 )

ライセンス: CC BY 4.0
Tiehua Zhang, Yuze Liu, Zhishu Shen, Rui Xu, Xin Chen, Xiaowei Huang, Xi Zheng(参考訳) 空間時間データには豊富な情報が含まれており、多くの分野における関連する応用の急速な発展により近年広く研究されている。 例えば、医療機関は患者の異なる部分に取り付けられた電極を使用して、健康診断や疾患診断のための空間的・時間的特徴に富んだ脳波データを分析します。 既存の研究は主に畳み込みニューラルネットワーク(cnn)やリカレントニューラルネットワーク(rnn)といったディープラーニング技術を使用して、隠れた空間-時間的特徴を抽出する。 しかし,相互依存型空間情報と動的時間変化を同時に取り入れることは困難である。 実際、これらの空間的-時間的特徴を利用して複雑な予測タスクを実行するモデルの場合、十分なモデル性能を得るためには、しばしば大量のトレーニングデータが必要となる。 本稿では,これらの課題を考慮し,空間時間グラフ学習のための適応型フェデレーション関連フレームワークであるFedRelを提案する。 生の空間-時間間データを高品質な特徴に変換した後、フレームワークのコアとなるdynamic inter-intra graph (diig)モジュールは、これらの特徴を利用して、これらのグラフに隠されたトポロジーおよび長期の時間的相関情報をキャプチャできる空間-時間的グラフを生成することができる。 局所的なデータプライバシーを保ちながらモデルの一般化能力と性能を向上させるため,本フレームワークでは関連性駆動型フェデレーション学習モジュールを設計し,モデルの注意的な集約を伴う参加者の多様なデータ分散を活用する。

Spatial-temporal data contains rich information and has been widely studied in recent years due to the rapid development of relevant applications in many fields. For instance, medical institutions often use electrodes attached to different parts of a patient to analyse the electorencephal data rich with spatial and temporal features for health assessment and disease diagnosis. Existing research has mainly used deep learning techniques such as convolutional neural network (CNN) or recurrent neural network (RNN) to extract hidden spatial-temporal features. Yet, it is challenging to incorporate both inter-dependencies spatial information and dynamic temporal changes simultaneously. In reality, for a model that leverages these spatial-temporal features to fulfil complex prediction tasks, it often requires a colossal amount of training data in order to obtain satisfactory model performance. Considering the above-mentioned challenges, we propose an adaptive federated relevance framework, namely FedRel, for spatial-temporal graph learning in this paper. After transforming the raw spatial-temporal data into high quality features, the core Dynamic Inter-Intra Graph (DIIG) module in the framework is able to use these features to generate the spatial-temporal graphs capable of capturing the hidden topological and long-term temporal correlation information in these graphs. To improve the model generalization ability and performance while preserving the local data privacy, we also design a relevance-driven federated learning module in our framework to leverage diverse data distributions from different participants with attentive aggregations of their models.
翻訳日:2022-06-08 15:26:34 公開日:2022-06-07
# TadML: Mechanics-MLPを用いた高速時間動作検出

TadML: A fast temporal action detection with Mechanics-MLP ( http://arxiv.org/abs/2206.02997v1 )

ライセンス: Link先を確認
Bowen Deng and Dongchang Liu(参考訳) 時間的行動検出(TAD)はビデオ理解において不可欠だが困難な課題であり、長いビデオで各アクションインスタンスのタイプと終了フレームの両方を検知することを目的としており、ほとんどのモデルでは、TADタスクにRGBとOpto-Flowストリームを採用する。 したがって、オリジナルのRGBフレームは、計算量と時間コストを増し、手動で光フローフレームに変換する必要があり、リアルタイム処理の障害となる。 現在、多くのモデルが2段階の戦略を採用しており、これは推論の速度を遅くし、提案を複雑に調整する。比較により、rgbストリームのみを用いた1段階のアンカーフリーな時間的局所化手法を提案し、新しいニュートンの \emph{mechanics-mlp} アーキテクチャが確立されている。 既存の最先端モデルと同等の精度を持つ一方で、これらのメソッドの推論速度を大きなマージンで上回っている。 この論文の典型的な推論速度は、THUMOS14で毎秒4.44ビデオである。 アプリケーションでは、光学フローを変換する必要がないため、推論速度が速くなり、tadのような下流タスクにおいて \emph{mlp} が大きな可能性を秘めている。 ソースコードは \url{https://github.com/BonedDeng/TadML} で入手できる。

Temporal Action Detection(TAD) is a crucial but challenging task in video understanding.It is aimed at detecting both the type and start-end frame for each action instance in a long, untrimmed video.Most current models adopt both RGB and Optical-Flow streams for the TAD task. Thus, original RGB frames must be converted manually into Optical-Flow frames with additional computation and time cost, which is an obstacle to achieve real-time processing. At present, many models adopt two-stage strategies, which would slow the inference speed down and complicatedly tuning on proposals generating.By comparison, we propose a one-stage anchor-free temporal localization method with RGB stream only, in which a novel Newtonian \emph{Mechanics-MLP} architecture is established. It has comparable accuracy with all existing state-of-the-art models, while surpasses the inference speed of these methods by a large margin. The typical inference speed in this paper is astounding 4.44 video per second on THUMOS14. In applications, because there is no need to convert optical flow, the inference speed will be faster.It also proves that \emph{MLP} has great potential in downstream tasks such as TAD. The source code is available at \url{https://github.com/BonedDeng/TadML}
翻訳日:2022-06-08 15:00:45 公開日:2022-06-07
# PP-OCRv3:超軽量OCRシステムの改善に向けたさらなる試み

PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System ( http://arxiv.org/abs/2206.03001v1 )

ライセンス: Link先を確認
Chenxia Li, Weiwei Liu, Ruoyu Guo, Xiaoting Yin, Kaitao Jiang, Yongkun Du, Yuning Du, Lingfeng Zhu, Baohua Lai, Xiaoguang Hu, Dianhai Yu, Yanjun Ma(参考訳) 光文字認識(OCR)技術は、図1に示すように、様々な場面で広く使われている。 実用的なOCRシステムの設計は、それでも有意義だが難しい課題である。 従来,効率と精度を考慮して,実用的で軽量なOCRシステム(PP-OCR)と最適化されたPP-OCRv2を提案する。 PP-OCRv2の性能向上のために,より堅牢なOCRシステムPP-OCRv3を提案する。 PP-OCRv3は、PP-OCRv2に基づいてテキスト検出モデルとテキスト認識モデルを9つの側面でアップグレードする。 テキスト検出には,LK-PANという大きな受容野を持つPANモジュール,RSE-FPNと呼ばれる残留注意機構を持つFPNモジュール,DML蒸留戦略を導入する。 テキスト認識では,ベースモデルがcrnnからsvtrに置き換えられ,軽量テキスト認識ネットワークsvtr lcnet,注意によるctcの指導訓練,データ拡張戦略textconaug,自己教師付きtextrotnet,udml,uimによる事前学習モデルの改善により,モデルを高速化し,効果を向上させる。 実データを用いた実験によれば、pp-ocrv3のhmeanはpp-ocrv2よりも5%高い。 上記のモデルはすべてオープンソースで、コードは、PaddlePaddleを使用したGitHubリポジトリPaddleOCRで利用可能である。

Optical character recognition (OCR) technology has been widely used in various scenes, as shown in Figure 1. Designing a practical OCR system is still a meaningful but challenging task. In previous work, considering the efficiency and accuracy, we proposed a practical ultra lightweight OCR system (PP-OCR), and an optimized version PP-OCRv2. In order to further improve the performance of PP-OCRv2, a more robust OCR system PP-OCRv3 is proposed in this paper. PP-OCRv3 upgrades the text detection model and text recognition model in 9 aspects based on PP-OCRv2. For text detector, we introduce a PAN module with large receptive field named LK-PAN, a FPN module with residual attention mechanism named RSE-FPN, and DML distillation strategy. For text recognizer, the base model is replaced from CRNN to SVTR, and we introduce lightweight text recognition network SVTR LCNet, guided training of CTC by attention, data augmentation strategy TextConAug, better pre-trained model by self-supervised TextRotNet, UDML, and UIM to accelerate the model and improve the effect. Experiments on real data show that the hmean of PP-OCRv3 is 5% higher than PP-OCRv2 under comparable inference speed. All the above mentioned models are open-sourced and the code is available in the GitHub repository PaddleOCR which is powered by PaddlePaddle.
翻訳日:2022-06-08 15:00:21 公開日:2022-06-07
# MS-RNN:時空間予測学習のための柔軟なマルチスケールフレームワーク

MS-RNN: A Flexible Multi-Scale Framework for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2206.03010v1 )

ライセンス: Link先を確認
Zhifeng Ma, Hao Zhang, and Jie Liu(参考訳) 時空間予測学習は、歴史的事前知識を通じて将来のフレーム変化を予測することである。 これまでの作業はネットワークを広くより深くすることで予測性能を向上させるが、これはまた大きなメモリオーバーヘッドをもたらし、技術の開発と応用を著しく妨げている。 スケールは、一般的なコンピュータビジョンタスクにおけるモデルパフォーマンスを改善するもう1つの次元であり、コンピューティング要件とコンテキストのセンスを低下させる可能性がある。 このような重要な改善点は、最近のRNNモデルでは検討されていない。 本稿では、マルチスケールの利点から学習し、最近のrnnモデルを強化するために、マルチスケールrnn(ms-rnn)という汎用フレームワークを提案する。 4つのデータセット(MNIST, KTH, TaxiBJ, HKO-7)と複数のRNNモデル(ConvLSTM, TrajGRU, PredRNN, PredRNN++, MIM, MotionRNN)の徹底的な実験によりMS-RNNフレームワークを検証する。 その結果、我々のフレームワークを組み込んだrnnモデルは、メモリコストがずっと低く、性能が以前よりも向上した効率を示しました。 私たちのコードは \url{https://github.com/mazhf/ms-rnn} でリリースされる。

Spatiotemporal predictive learning is to predict future frames changes through historical prior knowledge. Previous work improves prediction performance by making the network wider and deeper, but this also brings huge memory overhead, which seriously hinders the development and application of the technology. Scale is another dimension to improve model performance in common computer vision task, which can decrease the computing requirements and better sense of context. Such an important improvement point has not been considered and explored by recent RNN models. In this paper, learning from the benefit of multi-scale, we propose a general framework named Multi-Scale RNN (MS-RNN) to boost recent RNN models. We verify the MS-RNN framework by exhaustive experiments on 4 different datasets (Moving MNIST, KTH, TaxiBJ, and HKO-7) and multiple popular RNN models (ConvLSTM, TrajGRU, PredRNN, PredRNN++, MIM, and MotionRNN). The results show the efficiency that the RNN models incorporating our framework have much lower memory cost but better performance than before. Our code is released at \url{https://github.com/mazhf/MS-RNN}.
翻訳日:2022-06-08 14:59:53 公開日:2022-06-07
# the devil is in the labels: noise label correction for robust scene graph generation (英語)

The Devil is in the Labels: Noisy Label Correction for Robust Scene Graph Generation ( http://arxiv.org/abs/2206.03014v1 )

ライセンス: Link先を確認
Lin Li, Long Chen, Yifeng Huang, Zhimeng Zhang, Songyang Zhang, Jun Xiao(参考訳) SGGは近年大きな進歩を遂げている。 しかし、既存のSGGモデルのほとんどは、一般的なSGGデータセットの真真正なアノテーションの質を見落としている。 1) 手動でアノテートした正のサンプルはすべて等しく正しい。 2) 注釈なし陰性サンプルはすべて絶対的背景である。 本稿では,両仮定がSGGには適用できないことを論じる。これら2つの仮定を破る多くの「ノイズ」ベーストゥルト述語ラベルがあり,これらのノイズのあるサンプルは,実際にはバイアスのないSGGモデルのトレーニングに悪影響を及ぼす。 そこで本研究では,SGG: NICEのための新しいモデルに依存しないNoIsyラベルCorrEction戦略を提案する。 NICEはノイズの多いサンプルを検出するだけでなく、より高品質な述語ラベルを再割り当てすることもできる。 NICEトレーニングの後、モデルトレーニングのためのSGGデータセットのよりクリーンなバージョンを得ることができる。 具体的には、NICEは負のノイズサンプル検出(Neg-NSD)、正のNSD(Pos-NSD)、ノイズサンプル補正(NSC)の3つのコンポーネントから構成される。 第一に、Neg-NSDでは、このタスクを分布外検出問題として定式化し、検出されたノイズ負のサンプルすべてに擬似ラベルを割り当てる。 pos-nsdでは,すべての正のサンプルを複数の集合に分割し,最もノイズの多い正のサンプルとして扱うクラスタリングに基づくアルゴリズムを用いる。 最後に、NSCでは、単純だが効果的な重み付けKNNを用いて、新しい述語ラベルをノイズのある正のサンプルに再割り当てする。 異なるバックボーンやタスクの広範囲な結果は,NICEの各コンポーネントの有効性と一般化能力に証明されている。

Unbiased SGG has achieved significant progress over recent years. However, almost all existing SGG models have overlooked the ground-truth annotation qualities of prevailing SGG datasets, i.e., they always assume: 1) all the manually annotated positive samples are equally correct; 2) all the un-annotated negative samples are absolutely background. In this paper, we argue that both assumptions are inapplicable to SGG: there are numerous "noisy" groundtruth predicate labels that break these two assumptions, and these noisy samples actually harm the training of unbiased SGG models. To this end, we propose a novel model-agnostic NoIsy label CorrEction strategy for SGG: NICE. NICE can not only detect noisy samples but also reassign more high-quality predicate labels to them. After the NICE training, we can obtain a cleaner version of SGG dataset for model training. Specifically, NICE consists of three components: negative Noisy Sample Detection (Neg-NSD), positive NSD (Pos-NSD), and Noisy Sample Correction (NSC). Firstly, in Neg-NSD, we formulate this task as an out-of-distribution detection problem, and assign pseudo labels to all detected noisy negative samples. Then, in Pos-NSD, we use a clustering-based algorithm to divide all positive samples into multiple sets, and treat the samples in the noisiest set as noisy positive samples. Lastly, in NSC, we use a simple but effective weighted KNN to reassign new predicate labels to noisy positive samples. Extensive results on different backbones and tasks have attested to the effectiveness and generalization abilities of each component of NICE.
翻訳日:2022-06-08 14:59:30 公開日:2022-06-07
# マスク誘導による層状深さ微細化

Layered Depth Refinement with Mask Guidance ( http://arxiv.org/abs/2206.03048v1 )

ライセンス: Link先を確認
Soo Ye Kim, Jianming Zhang, Simon Niklaus, Yifei Fan, Simon Chen, Zhe Lin, Munchurl Kim(参考訳) 深度マップは、3dレンダリングからボケのような2dイメージ効果まで幅広いアプリケーションで使われている。 しかし、単一画像深度推定(SIDE)モデルによって予測されるものは、しばしば物体の孤立した穴を捉えたり、不正確な境界領域を持つ。 一方、高品質のマスクは、商用の自動マスキングツールや、セグメンテーションやマットの既製の方法、あるいは手作業による編集など、入手がずっと容易である。 そこで本稿では,SIDEモデルの深度予測を改良するために汎用マスクを用いたマスク誘導深度補正の新たな問題を定式化する。 本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。 奥行きとマスクアノテーションの両方のデータセットが不足しているため,任意のマスクとRGB-Dデータセットを用いた自己教師付き学習手法を提案する。 本手法は,異なる種類のマスクと初期深度予測に頑健であり,内面と外面の境界領域の深さ値を正確に精錬できることを実証的に示す。 さらに,このモデルをアブレーション研究により解析し,実応用結果を示す。 詳細はhttps://sooyekim.github.io/MaskDepth/ で確認できる。

Depth maps are used in a wide range of applications from 3D rendering to 2D image effects such as Bokeh. However, those predicted by single image depth estimation (SIDE) models often fail to capture isolated holes in objects and/or have inaccurate boundary regions. Meanwhile, high-quality masks are much easier to obtain, using commercial auto-masking tools or off-the-shelf methods of segmentation and matting or even by manual editing. Hence, in this paper, we formulate a novel problem of mask-guided depth refinement that utilizes a generic mask to refine the depth prediction of SIDE models. Our framework performs layered refinement and inpainting/outpainting, decomposing the depth map into two separate layers signified by the mask and the inverse mask. As datasets with both depth and mask annotations are scarce, we propose a self-supervised learning scheme that uses arbitrary masks and RGB-D datasets. We empirically show that our method is robust to different types of masks and initial depth predictions, accurately refining depth values in inner and outer mask boundary regions. We further analyze our model with an ablation study and demonstrate results on real applications. More information can be found at https://sooyekim.github.io/MaskDepth/ .
翻訳日:2022-06-08 14:59:01 公開日:2022-06-07
# オブジェクトスキャンコンテキスト:3Dポイントクラウドマップ内の位置認識のためのオブジェクト中心空間記述子

Object Scan Context: Object-centric Spatial Descriptor for Place Recognition within 3D Point Cloud Map ( http://arxiv.org/abs/2206.03062v1 )

ライセンス: Link先を確認
Haodong Yuan, Yudong Zhang, Shengyin Fan, Xue Li and Jian Wang(参考訳) 位置認識技術は、蓄積したエラーを排除し、自身を再ローカライズする機能を備えたSLAMアルゴリズムを提供する。 既存のクラウドベースの位置認識手法では、ライダー中心のグローバルディスクリプタのマッチングを利用することが多い。 これらの方法には2つの大きな欠陥があり、二つの点雲間の距離が遠くなると位置認識が行えず、x方向とy方向のオフセットなしでは回転角のみを計算できる。 そこで本稿では,この2つの問題を解決するために,主物体を中心に構築した新しいグローバルディスクリプタを提案する。 本手法は上記の2つの問題を完璧に解くことができるという理論を解析し,kittiといくつかの極端なシナリオで多くの実験を行い,従来の手法よりも明らかな利点があることを示した。

Place recognition technology endows a SLAM algorithm with the ability to eliminate accumulated errors and to relocalize itself. Existing methods on point cloud-based place recognition often leverage the matching of global descriptors which are lidar-centric. These methods have the following two major defects: place recognition cannot be performed when the distance between the two point clouds is far, and only the rotation angle can be calculated without the offset in the X and Y direction. To solve these two problems, we propose a novel global descriptor, which is built around the Main Object, in this way, descriptors are no longer dependent on the observation position. We analyze the theory that this method can perfectly solve the above two problems, and conduct a lot of experiments in KITTI and some extreme scenarios, which show that our method has obvious advantages over traditional methods.
翻訳日:2022-06-08 14:58:40 公開日:2022-06-07
# エンド・ツー・エンドの時空間行動検知器構築のための最小限の取り組み

Minimum Efforts to Build an End-to-End Spatial-Temporal Action Detector ( http://arxiv.org/abs/2206.03064v1 )

ライセンス: Link先を確認
Lin Sui, Chen-Lin Zhang, Lixin Gu, Feng Han(参考訳) 時空間行動検出はビデオ理解の重要な部分である。 現在の時空間行動検出法はまず物体検出器を用いて人候補の提案を得る。 次に、モデルは、人物候補を異なるアクションカテゴリに分類する。 いわゆる2段階法は重く、現実世界の応用では適用が難しい。 既存のメソッドでは統一されたモデル構造を使用しているが、バニラモデルではパフォーマンスが悪く、パフォーマンスを高めるために追加のモジュールが必要になることが多い。 本稿では,最小限の修正を施した終端時空間行動検知器の構築戦略を検討する。 そこで本研究では,時空間行動検出問題をエンドツーエンドに解決するME-STADという手法を提案する。 モデル設計の他に,空間時空間データセットにおけるスパースアノテーションを扱う新しいラベリング戦略を提案する。 提案したME-STADは、元の2段検出器よりも良い結果(2.2% mAP)を達成し、約80%のFLOPを削減した。 さらに,提案するME-STADは,従来のメソッドに対して最小限の変更しか行わず,余分なコンポーネントを必要としない。 私たちのコードは公開されます。

Spatial-temporal action detection is a vital part of video understanding. Current spatial-temporal action detection methods will first use an object detector to obtain person candidate proposals. Then, the model will classify the person candidates into different action categories. So-called two-stage methods are heavy and hard to apply in real-world applications. Some existing methods use a unified model structure, But they perform badly with the vanilla model and often need extra modules to boost the performance. In this paper, we explore the strategy to build an end-to-end spatial-temporal action detector with minimal modifications. To this end, we propose a new method named ME-STAD, which solves the spatial-temporal action detection problem in an end-to-end manner. Besides the model design, we propose a novel labeling strategy to deal with sparse annotations in spatial-temporal datasets. The proposed ME-STAD achieves better results (2.2% mAP boost) than original two-stage detectors and around 80% FLOPs reduction. Moreover, our proposed ME-STAD only has minimum modifications with previous methods and does not require extra components. Our code will be made public.
翻訳日:2022-06-08 14:58:25 公開日:2022-06-07
# 野生における神経表面再構成のための臨界規則化

Critical Regularizations for Neural Surface Reconstruction in the Wild ( http://arxiv.org/abs/2206.03087v1 )

ライセンス: Link先を確認
Jingyang Zhang, Yao Yao, Shiwei Li, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan(参考訳) ニューラル暗黙の関数は、最近、複数の視点からの表面再構成に有望な結果を示している。 しかし、現在の手法では、境界のないシーンや複雑なシーンを再構築する際の時間的複雑さや頑健さに苦しめられている。 本稿では,適切な点群雲の監督と幾何正規化が高品質でロバストな再構成結果を生み出すのに十分であることを示すresdfを提案する。 具体的には、RegSDFは追加の配向点クラウドを入力として、符号付き距離フィールドと微分可能なレンダリングフレームワーク内の表面光フィールドを最適化する。 この最適化には2つの重要な正規化も導入する。 1つ目はヘッセン正則化であり、符号付き距離値は雑音と不完全入力を与えられた距離場全体に滑らかに拡散する。 2つ目は、不足した幾何学をコンパクトに補間し外挿する最小表面正規化である。 DTU、BlendedMVS、タンクとテンプルのデータセットで大規模な実験が行われた。 最近の神経表面再構成法と比較して、regsdfは複雑なトポロジーと非構造化カメラ軌跡を持つオープンシーンでも、詳細な表面を再構築することができる。

Neural implicit functions have recently shown promising results on surface reconstructions from multiple views. However, current methods still suffer from excessive time complexity and poor robustness when reconstructing unbounded or complex scenes. In this paper, we present RegSDF, which shows that proper point cloud supervisions and geometry regularizations are sufficient to produce high-quality and robust reconstruction results. Specifically, RegSDF takes an additional oriented point cloud as input, and optimizes a signed distance field and a surface light field within a differentiable rendering framework. We also introduce the two critical regularizations for this optimization. The first one is the Hessian regularization that smoothly diffuses the signed distance values to the entire distance field given noisy and incomplete input. And the second one is the minimal surface regularization that compactly interpolates and extrapolates the missing geometry. Extensive experiments are conducted on DTU, BlendedMVS, and Tanks and Temples datasets. Compared with recent neural surface reconstruction approaches, RegSDF is able to reconstruct surfaces with fine details even for open scenes with complex topologies and unstructured camera trajectories.
翻訳日:2022-06-08 14:57:08 公開日:2022-06-07
# MIRNF: ニューラルネットワークによる医用画像登録

MIRNF: Medical Image Registration via Neural Fields ( http://arxiv.org/abs/2206.03111v1 )

ライセンス: Link先を確認
Shanlin Sun and Kun Han and Deying Kong and Chenyu You and Xiaohui Xie(参考訳) 画像登録は医療画像解析において、2つの画像間の空間対応を提供するために広く使われている。 近年,画像登録問題に対する畳み込みニューラルネットワーク(CNN)を用いた学習手法が提案されている。 学習に基づく手法は従来の最適化手法よりもはるかに高速であるが、複雑なCNNベースの手法から得られる精度の改善は控えめである。 本稿では,ニューラルフィールドによって実装された連続関数との対応マッピングを表す,新しい深層ニューラルネットベースの画像登録フレームワーク \textbf{mirnf} を紹介する。 MIRNFは、3D座標が与えられた変形ベクトルまたは速度ベクトルを入力として出力する。 写像が微分同相であることを保証するため、MIRNFから出力される速度ベクトルはNeural ODEソルバを用いて統合され、2つの画像間の対応を導出する。 さらに,高相似マッピング性能と低歪変形場を実現するために,カスケードアーキテクチャとともにハイブリッド座標サンプラーを提案する。 2つの3次元mr脳スキャンデータセットについて実験を行い,提案手法が同等の最適化時間を維持しつつ,最先端の登録性能を提供することを示した。

Image registration is widely used in medical image analysis to provide spatial correspondences between two images. Recently learning-based methods utilizing convolutional neural networks (CNNs) have been proposed for solving image registration problems. The learning-based methods tend to be much faster than traditional optimization-based methods, but the accuracy improvements gained from the complex CNN-based methods are modest. Here we introduce a new deep-neural net-based image registration framework, named \textbf{MIRNF}, which represents the correspondence mapping with a continuous function implemented via Neural Fields. MIRNF outputs either a deformation vector or velocity vector given a 3D coordinate as input. To ensure the mapping is diffeomorphic, the velocity vector output from MIRNF is integrated using the Neural ODE solver to derive the correspondences between two images. Furthermore, we propose a hybrid coordinate sampler along with a cascaded architecture to achieve the high-similarity mapping performance and low-distortion deformation fields. We conduct experiments on two 3D MR brain scan datasets, showing that our proposed framework provides state-of-art registration performance while maintaining comparable optimization time.
翻訳日:2022-06-08 14:56:50 公開日:2022-06-07
# 音声合成適応のための手書き単語認識の自己学習

Self-Training of Handwritten Word Recognition for Synthetic-to-Real Adaptation ( http://arxiv.org/abs/2206.03149v1 )

ライセンス: Link先を確認
Fabian Wolf and Gernot A. Fink(参考訳) 手書き文字認識(HTR)モデルの性能は、ラベル付きおよび代表的トレーニングサンプルの可用性によって決定される。 しかし、多くのアプリケーションシナリオでは、ラベル付けされたサンプルは入手が困難またはコストがかかる。 本研究では,合成サンプルとラベルなしデータのみに基づくHTRモデルを学習するための自己学習手法を提案する。 提案手法は、合成データに基づいて訓練された初期モデルを用いて、ラベルなしターゲットデータセットの予測を行う。 まず,この初期モデルから,予測された擬似ラベルに対してトレーニングを行うことで,相当な適応が可能となることを示す。 さらに, 自己学習戦略では, 手動でアノテートしたトレーニングサンプルは不要である。 提案手法は, 広く使用されている4つのベンチマークデータセット上で評価し, 完全に教師付きで訓練されたモデルとのギャップを閉じる効果を示す。

Performances of Handwritten Text Recognition (HTR) models are largely determined by the availability of labeled and representative training samples. However, in many application scenarios labeled samples are scarce or costly to obtain. In this work, we propose a self-training approach to train a HTR model solely on synthetic samples and unlabeled data. The proposed training scheme uses an initial model trained on synthetic data to make predictions for the unlabeled target dataset. Starting from this initial model with rather poor performance, we show that a considerable adaptation is possible by training against the predicted pseudo-labels. Moreover, the investigated self-training strategy does not require any manually annotated training samples. We evaluate the proposed method on four widely used benchmark datasets and show its effectiveness on closing the gap to a model trained in a fully-supervised manner.
翻訳日:2022-06-08 14:56:32 公開日:2022-06-07
# 文品質制御信号による画像キャプションの改善

Improving Image Captioning with Control Signal of Sentence Quality ( http://arxiv.org/abs/2206.03196v1 )

ライセンス: Link先を確認
Zhangzi Zhu and Hong Qu(参考訳) 画像キャプションのデータセットでは、各イメージは複数のキャプションで整列される。 これらの記述の質は様々であるが、既存の字幕モデルは訓練過程において等しく扱う。 本稿では,キャプションモデルに付加的な入力として,文品質の新たな制御信号を提案する。 制御信号情報を統合することにより、キャプションモデルはターゲット文の品質レベルを認識し、異なる処理を行う。 さらに,文品質の制御信号に特化し,q-sat(quality-oriented self-annotated training)という新しい強化訓練法を提案する。 R-Drop戦略を応用し,提案手法の有効性を検証した精度に基づく評価指標に基づいて,最高品質で制御されたモデルがベースラインモデルを上回った。

In the dataset of image captioning, each image is aligned with several captions. Despite the fact that the quality of these descriptions varies, existing captioning models treat them equally in the training process. In this paper, we propose a new control signal of sentence quality, which is taken as an additional input to the captioning model. By integrating the control signal information, captioning models are aware of the quality level of the target sentences and handle them differently. Moreover, we propose a novel reinforcement training method specially designed for the control signal of sentence quality: Quality-oriented Self-Annotated Training (Q-SAT). Equipped with R-Drop strategy, models controlled by the highest quality level surpass baseline models a lot on accuracy-based evaluation metrics, which validates the effectiveness of our proposed methods.
翻訳日:2022-06-08 14:56:19 公開日:2022-06-07
# 画像分類の高速化のためのセマンティックパッチの局所化

Localizing Semantic Patches for Accelerating Image Classification ( http://arxiv.org/abs/2206.03367v1 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Yongjun Xu(参考訳) 既存の作品は、画像分類を加速するためにアーキテクチャ冗長性を減らすことに注力することが多いが、入力画像の空間冗長性は無視する。 本稿では,この問題を解決するための効率的な画像分類パイプラインを提案する。 まず、anchornetと呼ばれる軽量パッチ提案ネットワークにより、入力画像上のタスク認識領域をピンポイントする。 次に、より小さな空間冗長性を持つ局所的なセマンティックパッチを一般的な分類ネットワークに供給する。 深層CNNの一般的な設計とは異なり、中間畳み込みパディングを使わずに、AnchorNetの受容場を慎重に設計することを目指している。 これにより、高レベルの空間位置から特定の入力画像パッチへの正確なマッピングが保証される。 各パッチの貢献は解釈可能である。 さらに、AnchorNetはダウンストリームアーキテクチャと互換性がある。 ImageNetの実験結果から,提案手法は推論コストの少ないSOTA動的推論手法よりも優れていることがわかった。 私たちのコードはhttps://github.com/winycg/AnchorNetで利用可能です。

Existing works often focus on reducing the architecture redundancy for accelerating image classification but ignore the spatial redundancy of the input image. This paper proposes an efficient image classification pipeline to solve this problem. We first pinpoint task-aware regions over the input image by a lightweight patch proposal network called AnchorNet. We then feed these localized semantic patches with much smaller spatial redundancy into a general classification network. Unlike the popular design of deep CNN, we aim to carefully design the Receptive Field of AnchorNet without intermediate convolutional paddings. This ensures the exact mapping from a high-level spatial location to the specific input image patch. The contribution of each patch is interpretable. Moreover, AnchorNet is compatible with any downstream architecture. Experimental results on ImageNet show that our method outperforms SOTA dynamic inference methods with fewer inference costs. Our code is available at https://github.com/winycg/AnchorNet.
翻訳日:2022-06-08 14:56:09 公開日:2022-06-07
# 集団カウントにおける自己監督型ドメイン適応

Self-supervised Domain Adaptation in Crowd Counting ( http://arxiv.org/abs/2206.03431v1 )

ライセンス: Link先を確認
Pha Nguyen, Thanh-Dat Truong, Miaoqing Huang, Yi Liang, Ngan Le, Khoa Luu(参考訳) 自己学習型群衆カウントはコンピュータビジョンの重要な課題の1つであるが、注意深い検討はされていない。 実際には、完全に監督されたメソッドは通常、手動アノテーションの集中的なリソースを必要とする。 この課題に対処するため、本研究では、既存のデータセットと基底真理を併用して、ラベルなしデータセット、名前付きドメイン適応(domain adaptation)をクラウドカウントでより堅牢に予測する新しいアプローチを導入する。 ネットワークはラベル付きデータでトレーニングされる一方で、ターゲットドメインからのラベルのないサンプルもトレーニングプロセスに追加される。 このプロセスでは、エントロピーマップを計算し、並列に設計された対角的トレーニングプロセスに加えて最小化する。 上海テク, ucf_cc_50, ucf-qnrfデータセットにおける実験により, クロスドメイン設定における他の最先端技術よりもより一般化した手法が得られた。

Self-training crowd counting has not been attentively explored though it is one of the important challenges in computer vision. In practice, the fully supervised methods usually require an intensive resource of manual annotation. In order to address this challenge, this work introduces a new approach to utilize existing datasets with ground truth to produce more robust predictions on unlabeled datasets, named domain adaptation, in crowd counting. While the network is trained with labeled data, samples without labels from the target domain are also added to the training process. In this process, the entropy map is computed and minimized in addition to the adversarial training process designed in parallel. Experiments on Shanghaitech, UCF_CC_50, and UCF-QNRF datasets prove a more generalized improvement of our method over the other state-of-the-arts in the cross-domain setting.
翻訳日:2022-06-08 14:54:10 公開日:2022-06-07
# CNNはトランスフォーマーよりロバストか?

Can CNNs Be More Robust Than Transformers? ( http://arxiv.org/abs/2206.03452v1 )

ライセンス: Link先を確認
Zeyu Wang, Yutong Bai, Yuyin Zhou, Cihang Xie(参考訳) 最近のVision Transformersの成功は、画像認識における10年間、畳み込みニューラルネットワーク(CNN)の長い支配を揺るがしている。 特に、配布外サンプルの堅牢性に関して、最近の研究では、トランスフォーマーは異なるトレーニング設定に関わらず、本質的にCNNよりも堅牢であることがわかった。 さらに、トランスフォーマーのそのような優位性は、それ自体が自己注意型アーキテクチャであると考えられる。 本稿では,トランスフォーマーの設計を精査することで,その信念を疑問視する。 我々の発見は、ロバスト性を高めるために3つの非常に効果的なアーキテクチャ設計につながったが、数行のコードで実装できるほど単純である。 a) 入力画像のパッチ b) カーネルサイズを拡大すること,及び c) 活性化層及び正規化層の減少。 これらのコンポーネントをまとめることで、Transformerほど堅牢で、さらに堅牢な注意のような操作をすることなく、純粋なCNNアーキテクチャを構築することができます。 この作業によって、堅牢なニューラルアーキテクチャの設計をより理解できるようになることを願っています。 コードはhttps://github.com/UCSC-VLAA/RobustCNNで公開されている。

The recent success of Vision Transformers is shaking the long dominance of Convolutional Neural Networks (CNNs) in image recognition for a decade. Specifically, in terms of robustness on out-of-distribution samples, recent research finds that Transformers are inherently more robust than CNNs, regardless of different training setups. Moreover, it is believed that such superiority of Transformers should largely be credited to their self-attention-like architectures per se. In this paper, we question that belief by closely examining the design of Transformers. Our findings lead to three highly effective architecture designs for boosting robustness, yet simple enough to be implemented in several lines of code, namely a) patchifying input images, b) enlarging kernel size, and c) reducing activation layers and normalization layers. Bringing these components together, we are able to build pure CNN architectures without any attention-like operations that is as robust as, or even more robust than, Transformers. We hope this work can help the community better understand the design of robust neural architectures. The code is publicly available at https://github.com/UCSC-VLAA/RobustCNN.
翻訳日:2022-06-08 14:53:58 公開日:2022-06-07
# Detection Hub: 言語埋め込みにおけるクエリ適応によるオブジェクト検出データセットの統合

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding ( http://arxiv.org/abs/2206.03484v1 )

ライセンス: Link先を確認
Lingchen Meng, Xiyang Dai, Yinpeng Chen, Pengchuan Zhang, Dongdong Chen, Mengchen Liu, Jianfeng Wang, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang(参考訳) 大規模データを活用することで、多くのコンピュータビジョンタスクのパフォーマンス向上が可能になる。 残念ながら、これは複数のデータセットで単一のモデルをトレーニングする際にオブジェクト検出では発生しない。 分類学の違いとバウンディングボックスアノテーションの不整合という2つの主な障害を観察する。 本稿では,データセットごとのカテゴリの言語埋め込みにオブジェクトクエリを適応させることで,この2つの課題を効果的に解決できることを示す。 データセットの異なる分布に基づいてカテゴリ埋め込みに基づくクエリを動的に適応する検出ハブを設計する。 従来の手法がすべてのデータセットのジョイント埋め込みを学習しようとしたのと異なり、この適応手法は共通カテゴリのセマンティクスセンタとして言語埋め込みを活用でき、アノテーションの違いを処理し、ドメインギャップを構成するために、異なるデータセットに属する特定のカテゴリに対するセマンティクスバイアスを学習できる。 これらの新たな改善により、複数のデータセット上で1つの検出器を同時にエンドツーエンドでトレーニングし、その利点を完全に享受することができます。 複数のデータセットのジョイントトレーニングに関するさらなる実験は、個別の微調整検出器よりも大きな性能向上を示す。

Leveraging large-scale data can introduce performance gains on many computer vision tasks. Unfortunately, this does not happen in object detection when training a single model under multiple datasets together. We observe two main obstacles: taxonomy difference and bounding box annotation inconsistency, which introduces domain gaps in different datasets that prevents us from joint training. In this paper, we show that these two challenges can be effectively addressed by simply adapting object queries on language embedding of categories per dataset. We design a detection hub to dynamically adapt queries on category embedding based on the different distributions of datasets. Unlike previous methods attempted to learn a joint embedding for all datasets, our adaptation method can utilize the language embedding as semantic centers for common categories, while learning the semantic bias towards specific categories belonging to different datasets to handle annotation differences and make up the domain gaps. These novel improvements enable us to end-to-end train a single detector on multiple datasets simultaneously to fully take their advantages. Further experiments on joint training on multiple datasets demonstrate the significant performance gains over separate individual fine-tuned detectors.
翻訳日:2022-06-08 14:53:40 公開日:2022-06-07
# (参考訳) 後継表現による離散状態動作抽象化

Discrete State-Action Abstraction via the Successor Representation ( http://arxiv.org/abs/2206.03467v1 )

ライセンス: CC BY 4.0
Amnon Attali, Pedro Cisneros-Velarde, Marco Morales, Nancy M. Amato(参考訳) 強化学習をスパース報酬に適用する場合、エージェントは学習信号なしで未知の環境を探索するのに、極めて長い時間を費やさなければならない。 抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。 事前の作業は、密集した連続的潜在空間にフォーカスするか、手動で表現を提供する必要がある。 私たちのアプローチは、基盤となる環境の個別の抽象化を自動的に学習する最初の方法です。 さらに、この手法は、エンドツーエンドのトレーニング可能な正規化後継表現モデルを用いて任意の入力空間で動作する。 抽象状態間の遷移のために、オプション、すなわちアクション抽象化の形式で時間的に拡張された一連のアクションを訓練する。 提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングを反復的に置き換えて,環境をより効率的に探索し,状態抽象化を改善する。 その結果,本モデルは転校学習だけでなく,オンライン学習環境においても有用であることがわかった。 エージェントが環境を探索し,与えられたタスクをベースライン強化学習アルゴリズムよりも効率的に解決できることを実証的に示す。 我々のコードは \url{https://github.com/amnonattali/dsaa} で公開されている。

When reinforcement learning is applied with sparse rewards, agents must spend a prohibitively long time exploring the unknown environment without any learning signal. Abstraction is one approach that provides the agent with an intrinsic reward for transitioning in a latent space. Prior work focuses on dense continuous latent spaces, or requires the user to manually provide the representation. Our approach is the first for automatically learning a discrete abstraction of the underlying environment. Moreover, our method works on arbitrary input spaces, using an end-to-end trainable regularized successor representation model. For transitions between abstract states, we train a set of temporally extended actions in the form of options, i.e., an action abstraction. Our proposed algorithm, Discrete State-Action Abstraction (DSAA), iteratively swaps between training these options and using them to efficiently explore more of the environment to improve the state abstraction. As a result, our model is not only useful for transfer learning but also in the online learning setting. We empirically show that our agent is able to explore the environment and solve provided tasks more efficiently than baseline reinforcement learning algorithms. Our code is publicly available at \url{https://github.com/amnonattali/dsaa}.
翻訳日:2022-06-08 14:50:34 公開日:2022-06-07
# スコア拡散を用いたユニバーサル音声強調

Universal Speech Enhancement with Score-based Diffusion ( http://arxiv.org/abs/2206.03065v1 )

ライセンス: Link先を確認
Joan Serr\`a, Santiago Pascual, Jordi Pons, R. Oguz Araz, Davide Scaini(参考訳) 音声音声からの背景雑音の除去は、特に近年、仮想コミュニケーションやアマチュア録音の台頭により、かなりの研究と努力の対象となっている。 しかし、残響、クリップ、コーデックアーティファクト、問題のある等化、帯域幅の制限、一貫性のない大音量等が同様に乱れ、ユビキタスである。 本研究では,音声強調の課題を全体的取り組みとして考慮し,同時に55種類の歪みに対処する普遍的な音声強調システムを提案する。 提案手法は,スコアベース拡散を用いた生成モデルと,混合密度ネットワークを用いて拡張を行うマルチレゾリューションコンディショニングネットワークから構成される。 提案手法は,専門家が実施した主観的テストにおいて,技量を著しく上回ることを示す。 また,高速サンプリングの具体的な戦略を考慮せずに,わずか4~8の拡散ステップで競合目標スコアを達成できることを示す。 私たちの方法論と技術的貢献の両方が、研究者や実践者に対して、音声強調に普遍的なアプローチを採用するように促すことを願っています。

Removing background noise from speech audio has been the subject of considerable research and effort, especially in recent years due to the rise of virtual communication and amateur sound recording. Yet background noise is not the only unpleasant disturbance that can prevent intelligibility: reverb, clipping, codec artifacts, problematic equalization, limited bandwidth, or inconsistent loudness are equally disturbing and ubiquitous. In this work, we propose to consider the task of speech enhancement as a holistic endeavor, and present a universal speech enhancement system that tackles 55 different distortions at the same time. Our approach consists of a generative model that employs score-based diffusion, together with a multi-resolution conditioning network that performs enhancement with mixture density networks. We show that this approach significantly outperforms the state of the art in a subjective test performed by expert listeners. We also show that it achieves competitive objective scores with just 4-8 diffusion steps, despite not considering any particular strategy for fast sampling. We hope that both our methodology and technical contributions encourage researchers and practitioners to adopt a universal approach to speech enhancement, possibly framing it as a generative task.
翻訳日:2022-06-08 14:31:44 公開日:2022-06-07
# 一般化データ配信イテレーション

Generalized Data Distribution Iteration ( http://arxiv.org/abs/2206.03192v1 )

ライセンス: Link先を確認
Jiajun Fan, Changnan Xiao(参考訳) 深層強化学習(drl)の大きな課題の一つとして、高いサンプル効率と優れた最終性能を同時に得ることにある。 以前の作業ではこれらの課題の1つに対処できたが、通常は同時に対処できなかった。 本稿では,これら2つの課題を同時に解決する。 これを実現するために、まずこれらの課題を2つの古典的なRL問題に分割する。 そして、これらの2つの問題をトレーニングデータ分散最適化問題、すなわち、限られたインタラクション内で所望のトレーニングデータを取得し、同時に対処する。 一 行動政策の能力及び多様性の明示的なモデル化及び制御 二 モノトニックデータ分布最適化による行動ポリシーの選択的・サンプリング分布のよりきめ細かい適応制御 最後に、このプロセスを一般化ポリシーイテレーション(GPI)に統合し、一般化データ分散イテレーション(GDI)と呼ばれるより一般的なフレームワークを得る。 我々は、DQNからAgent57までのよく知られたRLメソッドの演算子ベースのバージョンをGDIフレームワークで導入する。 GPIと比較してGDIの優位性は理論的に保証される。 また,本アルゴリズムは,平均ヒト正規化スコア (hns), 1146.39% の中央値 hn を9620.33% 達成し,200m のトレーニングフレームで 22 個の世界記録を突破したアーケード学習環境 (ale) 上での最先端 (sota) 性能を実証した。 パフォーマンスはエージェント57に匹敵しますが,データ消費量は500分の1です。 我々は、エールで真の超人的エージェントを得るまでにはまだ長い道のりがあると主張する。

To obtain higher sample efficiency and superior final performance simultaneously has been one of the major challenges for deep reinforcement learning (DRL). Previous work could handle one of these challenges but typically failed to address them concurrently. In this paper, we try to tackle these two challenges simultaneously. To achieve this, we firstly decouple these challenges into two classic RL problems: data richness and exploration-exploitation trade-off. Then, we cast these two problems into the training data distribution optimization problem, namely to obtain desired training data within limited interactions, and address them concurrently via i) explicit modeling and control of the capacity and diversity of behavior policy and ii) more fine-grained and adaptive control of selective/sampling distribution of the behavior policy using a monotonic data distribution optimization. Finally, we integrate this process into Generalized Policy Iteration (GPI) and obtain a more general framework called Generalized Data Distribution Iteration (GDI). We use the GDI framework to introduce operator-based versions of well-known RL methods from DQN to Agent57. Theoretical guarantee of the superiority of GDI compared with GPI is concluded. We also demonstrate our state-of-the-art (SOTA) performance on Arcade Learning Environment (ALE), wherein our algorithm has achieved 9620.33% mean human normalized score (HNS), 1146.39% median HNS and surpassed 22 human world records using only 200M training frames. Our performance is comparable to Agent57's while we consume 500 times less data. We argue that there is still a long way to go before obtaining real superhuman agents in ALE.
翻訳日:2022-06-08 14:31:24 公開日:2022-06-07
# 重度リスクに対する安全を考慮したオンライン学習のためのシンプルで最適なポリシー設計

A Simple and Optimal Policy Design for Online Learning with Safety against Heavy-tailed Risk ( http://arxiv.org/abs/2206.02969v1 )

ライセンス: Link先を確認
David Simchi-Levi, Zeyu Zheng, Feng Zhu(参考訳) 我々は、古典的多武装バンディット問題における重大リスクに対する安全性を確保するためのシンプルで最適なポリシーを設計する。 まず、標準のアッパー信頼境界政策やトンプソンサンプリング政策のような広く使われている政策が重大リスクをもたらすことを示し、すなわち、線形後悔を引き起こす最悪の確率は、多項式レート1/T$で徐々に低下し、そこでは、$T$が時間的水平線であることを示す。 さらに,この重み付きリスクが,すべての"instance-dependent consistent"政策に対して存在することを示す。 このような重大リスクに対する安全性を確保するため、両腕バンディット設定では、簡単なポリシー設計を提供する。 (i)$\tilde o(\sqrt{t})$ で期待される後悔に対して最悪の場合の最適性を持つ (ii) は指数率$\exp(-\Omega(\sqrt{T}))$で線形後悔の崩壊を起こす最悪の場合の尾の確率を持つ。 さらに, テイル確率の指数的減衰速度は, 期待される後悔に対して最悪の最適性を持つすべての方針において最適であることが証明される。 最後に、ポリシー設計と分析を一般的な$k$のバンディット設定に改善します。 当社のポリシー設計では,後悔しきい値に対するテール確率の詳細な特徴付けを行う。 つまり、$x$より大きい後悔を引き起こす最悪の確率は、$\exp(-\Omega(x/\sqrt{KT}))$で上限となる。 理論的知見を説明するための数値実験を行った。 以上の結果から,不整合性と軽度リスクの不整合性に関する知見が得られたが,軽度リスクと軽度リスクに対する最悪の最適性は相容れないことが示唆された。

We design simple and optimal policies that ensure safety against heavy-tailed risk in the classical multi-armed bandit problem. We start by showing that some widely used policies such as the standard Upper Confidence Bound policy and the Thompson Sampling policy incur heavy-tailed risk; that is, the worst-case probability of incurring a linear regret slowly decays at a polynomial rate of $1/T$, where $T$ is the time horizon. We further show that this heavy-tailed risk exists for all "instance-dependent consistent" policies. To ensure safety against such heavy-tailed risk, for the two-armed bandit setting, we provide a simple policy design that (i) has the worst-case optimality for the expected regret at order $\tilde O(\sqrt{T})$ and (ii) has the worst-case tail probability of incurring a linear regret decay at an exponential rate $\exp(-\Omega(\sqrt{T}))$. We further prove that this exponential decaying rate of the tail probability is optimal across all policies that have worst-case optimality for the expected regret. Finally, we improve the policy design and analysis to the general $K$-armed bandit setting. We provide detailed characterization of the tail probability bound for any regret threshold under our policy design. Namely, the worst-case probability of incurring a regret larger than $x$ is upper bounded by $\exp(-\Omega(x/\sqrt{KT}))$. Numerical experiments are conducted to illustrate the theoretical findings. Our results reveal insights on the incompatibility between consistency and light-tailed risk, whereas indicate that worst-case optimality on expected regret and light-tailed risk are compatible.
翻訳日:2022-06-08 14:28:13 公開日:2022-06-07
# 二分分類と多類分類における人口統計から不公平さと誤差を推測する

Inferring Unfairness and Error from Population Statistics in Binary and Multiclass Classification ( http://arxiv.org/abs/2206.03234v1 )

ライセンス: Link先を確認
Sivan Sabato, Eran Treister, Elad Yom-Tov(参考訳) 本稿では,集団統計のみを用いて,与えられた分類器の妥当性と精度を推定する手法を提案する。 これは、例えば、分類器または代表的個人レベルの検証セットにアクセスできない場合、個別の分類データを得ることができない場合に必要である。 マルチクラス分類に一般化した等化オッズ基準に関する公平性について検討する。 本稿では、不公平に扱われる人口の割合を定量化する、この基準に関する不公平度尺度を提案する。 次に,各個体群における各ラベルの予測率や各ラベルの真数といった集計ラベル統計を用いて,与えられた分類器の不公平さや誤差に対する推論がどのように得られるかを示す。 各サブポピュレーションにおける混乱行列が知られている場合、およびそれらが未知である場合において、バイナリ分類器とマルチクラス分類器の推論手順を導出する。 提案手法の有効性と適用範囲を検証し,多種多様なアプリケーションを表すデータセットについて実験を行った。

We propose methods for making inferences on the fairness and accuracy of a given classifier, using only aggregate population statistics. This is necessary when it is impossible to obtain individual classification data, for instance when there is no access to the classifier or to a representative individual-level validation set. We study fairness with respect to the equalized odds criterion, which we generalize to multiclass classification. We propose a measure of unfairness with respect to this criterion, which quantifies the fraction of the population that is treated unfairly. We then show how inferences on the unfairness and error of a given classifier can be obtained using only aggregate label statistics such as the rate of prediction of each label in each sub-population, as well as the true rate of each label. We derive inference procedures for binary classifiers and for multiclass classifiers, for the case where confusion matrices in each sub-population are known, and for the significantly more challenging case where they are unknown. We report experiments on data sets representing diverse applications, which demonstrate the effectiveness and the wide range of possible uses of the proposed methodology.
翻訳日:2022-06-08 14:27:46 公開日:2022-06-07
# 過パラメータ化非凸バーラのためのプレコンディショニンググラディエントDescence--大域的最適性認定によるモンテイロ因子化

Preconditioned Gradient Descent for Overparameterized Nonconvex Burer--Monteiro Factorization with Global Optimality Certification ( http://arxiv.org/abs/2206.03345v1 )

ライセンス: Link先を確認
Gavin Zhang, Salar Fattahi, Richard Y. Zhang(参考訳) 非凸関数 $f(X)=\phi(XX^{T})$ over a $n\times r$ factor matrix $X$ ここで、$\phi$ は $n\times n$ matrice 上で定義される滑らかな凸コスト関数である。 2階定常点の$X$のみが妥当な時間で証明できるが、もしも$X$がさらにランク不足であるなら、そのランク不足はそれを大域的に最適であると認定する。 このグローバル最適性の証明方法は、必ずしも現在のイテレートの$X$の検索ランク$r$を、大域最小化の$X^{\star}$のランク$r^{\star}$に対して過度にパラメータ化する必要がある。 残念なことに、過パラメータ化は、$r=r^{\star}$の線形速度から$r>r^{\star}$のサブ線形速度へ、$\phi$が強い凸である場合でも、勾配降下の収束を著しく遅くする。 本稿では,過小パラメータの場合の勾配降下の収束率を線形に戻すとともに,大域的最小値$x^{\star}$ における悪条件化を不可知にする安価なプリコンディショナーを提案する。

We consider using gradient descent to minimize the nonconvex function $f(X)=\phi(XX^{T})$ over an $n\times r$ factor matrix $X$, in which $\phi$ is an underlying smooth convex cost function defined over $n\times n$ matrices. While only a second-order stationary point $X$ can be provably found in reasonable time, if $X$ is additionally rank deficient, then its rank deficiency certifies it as being globally optimal. This way of certifying global optimality necessarily requires the search rank $r$ of the current iterate $X$ to be overparameterized with respect to the rank $r^{\star}$ of the global minimizer $X^{\star}$. Unfortunately, overparameterization significantly slows down the convergence of gradient descent, from a linear rate with $r=r^{\star}$ to a sublinear rate when $r>r^{\star}$, even when $\phi$ is strongly convex. In this paper, we propose an inexpensive preconditioner that restores the convergence rate of gradient descent back to linear in the overparameterized case, while also making it agnostic to possible ill-conditioning in the global minimizer $X^{\star}$.
翻訳日:2022-06-08 14:27:27 公開日:2022-06-07
# 自己学習による胸部X線画像からのCovid-19検出

Self-Knowledge Distillation based Self-Supervised Learning for Covid-19 Detection from Chest X-Ray Images ( http://arxiv.org/abs/2206.03009v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) コロナウイルス2019(COVID-19)の世界的な流行は、世界中の医療システムに過負荷をもたらしている。 新型コロナウイルスの迅速検出と患者トリアージのコンピューター支援診断が重要になっている。 胸部X線画像からの新型コロナウイルス検出のための自己知識蒸留に基づく自己学習手法を提案する。 本手法は,視覚的特徴の類似性に基づいて,自己教師付き学習を行うことができる。 実験の結果, 最大開胸x線データを用いて, hmスコア0.988, auc 0.999, 精度0.957を達成した。

The global outbreak of the Coronavirus 2019 (COVID-19) has overloaded worldwide healthcare systems. Computer-aided diagnosis for COVID-19 fast detection and patient triage is becoming critical. This paper proposes a novel self-knowledge distillation based self-supervised learning method for COVID-19 detection from chest X-ray images. Our method can use self-knowledge of images based on similarities of their visual features for self-supervised learning. Experimental results show that our method achieved an HM score of 0.988, an AUC of 0.999, and an accuracy of 0.957 on the largest open COVID-19 chest X-ray dataset.
翻訳日:2022-06-08 14:25:22 公開日:2022-06-07
# mri-artefact generatorsとadversarial trainingを用いた高効率半教師付き品質制御システム

An efficient semi-supervised quality control system trained using physics-based MRI-artefact generators and adversarial training ( http://arxiv.org/abs/2206.03359v1 )

ライセンス: Link先を確認
Daniele Ravi (for the Alzheimer's Disease Neuroimaging Initiative), Frederik Barkhof, Daniel C. Alexander, Geoffrey JM Parker, Arman Eshaghi(参考訳) 医療画像データセットの大規模化が進んでいる。 これらのデータセットで共通する課題は、各サンプルが重要な成果物のない最低品質要件を満たすことを保証することである。 医療画像の欠陥やアーチファクトを特定するために、既存の様々な自動手法が開発されているが、それらは主にデータハングリー法に依存している。 特に、トレーニングに利用可能なアーティファクトの十分なスキャンが不足していることは、臨床研究における機械学習の設計とデプロイの障壁を生み出した。 この問題を解決するために,(1)磁気共鳴物理学に触発された人工物発生器のセットを脳mriスキャンを破ってトレーニングデータセットを増強する,(2)画像をコンパクトに表現するための抽象的かつ工学的特徴のセット,(3)分類性能を向上させるために人工物の種類に依存する特徴選択プロセス,(4)人工物を特定するために訓練された支援ベクターマシン(svm)分類器のセット,の4つの主成分からなる新しい枠組みを提案する。 まず、新しい物理ベースのアーティファクトジェネレータを使用して、制御されたアーティファクトを用いた合成脳MRIスキャンをデータ拡張技術として作成します。 これにより、まれなアーティファクトによるスキャンの労働集約的な収集とラベル付けのプロセスが回避される。 第2に,構造mriのための9つの異なるアーティファクトを識別するために開発された,抽象的および工学的画像特徴のプールを提案する。 最後に、アーティファクトベースの特徴選択ブロックを使用し、各アーティファクトのクラス毎に、最高の分類性能を提供する機能セットを見つけ出す。 人工的人工骨材を用いた大規模なデータ集合の検証実験を行い, 実物が専門家によって同定された多発性硬化症臨床試験において, 提案パイプラインが従来の方法を上回ることを示した。

Large medical imaging data sets are becoming increasingly available. A common challenge in these data sets is to ensure that each sample meets minimum quality requirements devoid of significant artefacts. Despite a wide range of existing automatic methods having been developed to identify imperfections and artefacts in medical imaging, they mostly rely on data-hungry methods. In particular, the lack of sufficient scans with artefacts available for training has created a barrier in designing and deploying machine learning in clinical research. To tackle this problem, we propose a novel framework having four main components: (1) a set of artefact generators inspired by magnetic resonance physics to corrupt brain MRI scans and augment a training dataset, (2) a set of abstract and engineered features to represent images compactly, (3) a feature selection process that depends on the class of artefact to improve classification performance, and (4) a set of Support Vector Machine (SVM) classifiers trained to identify artefacts. Our novel contributions are threefold: first, we use the novel physics-based artefact generators to generate synthetic brain MRI scans with controlled artefacts as a data augmentation technique. This will avoid the labour-intensive collection and labelling process of scans with rare artefacts. Second, we propose a large pool of abstract and engineered image features developed to identify 9 different artefacts for structural MRI. Finally, we use an artefact-based feature selection block that, for each class of artefacts, finds the set of features that provide the best classification performance. We performed validation experiments on a large data set of scans with artificially-generated artefacts, and in a multiple sclerosis clinical trial where real artefacts were identified by experts, showing that the proposed pipeline outperforms traditional methods.
翻訳日:2022-06-08 14:25:13 公開日:2022-06-07
# shred: 学習した局所操作による3次元形状領域の分解

SHRED: 3D Shape Region Decomposition with Learned Local Operations ( http://arxiv.org/abs/2206.03480v1 )

ライセンス: Link先を確認
R. Kenny Jones and Aalia Habib and Daniel Ritchie(参考訳) 3D SHape Region Decomposition法としてSHREDを提案する。 SHREDは3Dポイントクラウドを入力として、学習したローカル操作を使用して、きめ細かい部分インスタンスを近似するセグメンテーションを生成する。 SHREDには領域分割,領域間の境界の固定,領域の合併という3つの分解操作が組み込まれている。 モジュールは独立してローカルにトレーニングされ、shedはトレーニング中に見えないカテゴリの高品質なセグメンテーションを生成することができる。 マージ・スレッショルド・ハイパーパラメータを用いて,shedはベースライン法と比較して,任意の所望の分解粒度において,基礎的アノテーションをより尊重するセグメンテーションを生成できることを示した。 最後に、shredは下流アプリケーションにとって有用であり、ゼロショットの細かい部分インスタンスのセグメンテーションで全てのベースラインを上回り、形状領域をラベル付けする手法と組み合わせることで、最小のきめ細かなセグメンテーションを実現できることを実証する。

We present SHRED, a method for 3D SHape REgion Decomposition. SHRED takes a 3D point cloud as input and uses learned local operations to produce a segmentation that approximates fine-grained part instances. We endow SHRED with three decomposition operations: splitting regions, fixing the boundaries between regions, and merging regions together. Modules are trained independently and locally, allowing SHRED to generate high-quality segmentations for categories not seen during training. We train and evaluate SHRED with fine-grained segmentations from PartNet; using its merge-threshold hyperparameter, we show that SHRED produces segmentations that better respect ground-truth annotations compared with baseline methods, at any desired decomposition granularity. Finally, we demonstrate that SHRED is useful for downstream applications, out-performing all baselines on zero-shot fine-grained part instance segmentation and few-shot fine-grained semantic segmentation when combined with methods that learn to label shape regions.
翻訳日:2022-06-08 14:24:38 公開日:2022-06-07
# 精度モデル予測軌道追従のための物理インスピレーションによる四回転子ダイナミクスの時間学習

Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate Model Predictive Trajectory Tracking ( http://arxiv.org/abs/2206.03305v1 )

ライセンス: Link先を確認
Alessandro Saviolo, Guanrui Li, Giuseppe Loianno(参考訳) quadrotorのシステムダイナミクスを正確にモデリングすることは、アジャイル、安全、安定したナビゲーションを保証する上で重要である。 このモデルは、空力力やトルク、ローターの相互作用、あるいはシステム構成の変更など、高度に非線形な効果を生み出すものを含む、複数の飛行レジームと運用条件でシステムの挙動を捉える必要がある。 古典的なアプローチは手作りのモデルに依存し、これらの効果を捉えるために一般化とスケールに苦労する。 本稿では,物理に触発された時間的畳み込みネットワーク(pi-tcn)を用いて,ロボットの経験から純粋にシステムダイナミクスを学習する手法を提案する。 提案手法は,スパース時間畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。 さらに、トレーニングプロセスには物理制約が組み込まれており、トレーニングディストリビューション外のデータへのネットワークの一般化が容易になっている。 最後に,学習したモデル予測を完全に活用した正確な閉ループ軌道追跡に学習ダイナミクスを組み込んだモデル予測制御手法を設計する。 実験の結果,クワッドローターの力学構造をデータから正確に抽出し,古典的アプローチに隠された効果を捉えることができた。 私たちの知る限りでは、物理に触発されたディープラーニングが時間的畳み込みネットワークとシステム識別タスクにうまく適用され、同時に予測制御が可能となったのはこれが初めてです。

Accurately modeling quadrotor's system dynamics is critical for guaranteeing agile, safe, and stable navigation. The model needs to capture the system behavior in multiple flight regimes and operating conditions, including those producing highly nonlinear effects such as aerodynamic forces and torques, rotor interactions, or possible system configuration modifications. Classical approaches rely on handcrafted models and struggle to generalize and scale to capture these effects. In this paper, we present a novel Physics-Inspired Temporal Convolutional Network (PI-TCN) approach to learning quadrotor's system dynamics purely from robot experience. Our approach combines the expressive power of sparse temporal convolutions and dense feed-forward connections to make accurate system predictions. In addition, physics constraints are embedded in the training process to facilitate the network's generalization capabilities to data outside the training distribution. Finally, we design a model predictive control approach that incorporates the learned dynamics for accurate closed-loop trajectory tracking fully exploiting the learned model predictions in a receding horizon fashion. Experimental results demonstrate that our approach accurately extracts the structure of the quadrotor's dynamics from data, capturing effects that would remain hidden to classical approaches. To the best of our knowledge, this is the first time physics-inspired deep learning is successfully applied to temporal convolutional networks and to the system identification task, while concurrently enabling predictive control.
翻訳日:2022-06-08 14:24:15 公開日:2022-06-07
# 話者認識における音声対応事例の理解と緩和に向けて

Towards Understanding and Mitigating Audio Adversarial Examples for Speaker Recognition ( http://arxiv.org/abs/2206.03393v1 )

ライセンス: Link先を確認
Guangke Chen and Zhe Zhao and Fu Song and Sen Chen and Lingling Fan and Feng Wang and Jiashui Wang(参考訳) 話者認識システム(SRS)は、最近敵の攻撃に対して脆弱であることが示され、重大なセキュリティ上の懸念が提起されている。 本研究は,srssの確保を目的としたトランスフォーメーションと対向訓練に基づく防御を体系的に検討する。 srssの特徴により,22種類の多様な変換を提示し,話者認識における近年の有望な7つの敵攻撃(ホワイトボックス4つ,ブラックボックス3つ)を用いて徹底的に評価する。 防衛評価におけるベストプラクティスを慎重に検討し,適応攻撃に耐える変換の強さを分析した。 また, 対人訓練と組み合わせることで, 適応攻撃に対する効果を評価・理解する。 本研究は,画像領域や音声認識領域の結論と新しいものや矛盾するものが多いこと,例えば,可変ビットレートと定数ビットレートの音声圧縮は性能が異なること,画像領域でよく機能する現在の有望な回避技術に対して,微分不能な変換が有効であることなど,多くの有用な知見と知見を提供する。 提案手法は, 完全ホワイトボックス設定における単独の対人訓練に比べて, 対人訓練と組み合わせた新たな特徴レベル変換がより効果的であること, 例えば, 13.62%の精度向上と2桁の攻撃コスト向上を図っている。 この研究はこの分野の研究の方向性にさらに光を当てている。 評価プラットフォームであるSPEAKERGUARDもリリースし、さらなる研究を促進する。

Speaker recognition systems (SRSs) have recently been shown to be vulnerable to adversarial attacks, raising significant security concerns. In this work, we systematically investigate transformation and adversarial training based defenses for securing SRSs. According to the characteristic of SRSs, we present 22 diverse transformations and thoroughly evaluate them using 7 recent promising adversarial attacks (4 white-box and 3 black-box) on speaker recognition. With careful regard for best practices in defense evaluations, we analyze the strength of transformations to withstand adaptive attacks. We also evaluate and understand their effectiveness against adaptive attacks when combined with adversarial training. Our study provides lots of useful insights and findings, many of them are new or inconsistent with the conclusions in the image and speech recognition domains, e.g., variable and constant bit rate speech compressions have different performance, and some non-differentiable transformations remain effective against current promising evasion techniques which often work well in the image domain. We demonstrate that the proposed novel feature-level transformation combined with adversarial training is rather effective compared to the sole adversarial training in a complete white-box setting, e.g., increasing the accuracy by 13.62% and attack cost by two orders of magnitude, while other transformations do not necessarily improve the overall defense capability. This work sheds further light on the research directions in this field. We also release our evaluation platform SPEAKERGUARD to foster further research.
翻訳日:2022-06-08 14:23:53 公開日:2022-06-07
# ニューラルネットワークの潜伏成分を学習するための分解線形力学系(dLDS)

Decomposed Linear Dynamical Systems (dLDS) for learning the latent components of neural dynamics ( http://arxiv.org/abs/2206.02972v1 )

ライセンス: Link先を確認
Noga Mudrik, Yenho Chen, Eva Yezerets, Christopher J. Rozell, and Adam S. Charles(参考訳) 集団レベルでの神経動力学の解釈可能な表現を学ぶことは、神経活動が知覚と行動にどのように関連しているかを理解するための重要な第一歩である。 ニューラルダイナミクスのモデルでは、神経活動の低次元の投影や、時間とともに神経の状態に明示的に関係する力学系の学習にしばしば焦点が当てられる。 低次元多様体上の流れの表現として力学系を考えることにより、これらの2つのアプローチがどのように相互関係を持つかについて議論する。 この概念に基づいて,時系列データの複雑な非定常および非線形ダイナミクスを,より単純で解釈可能なコンポーネントの疎結合として表現する,新しい分解力学系モデルを提案する。 ダイナミクスの分解的な性質は、以前のスイッチングアプローチを一般化し、ダイナミクスにおける重複と非定常ドリフトのモデリングを可能にする。 さらに,モデルフィッティングに対する辞書学習駆動型アプローチを提案し,近年の結果を利用してスパースベクトルの時間的追跡を行う。 本モデルでは,連続時間と離散時間の両方において,動的モード間の効率的な表現と滑らかな遷移を学習できることを実証する。 低次元線形および非線形誘引器を用いて, 分解された力学系モデルが非線形力学をうまく近似できることを示す。 さらに,このモデルをc. elegansデータに適用し,離散状態に分類した場合のダイナミクスの多様性を明らかにした。

Learning interpretable representations of neural dynamics at a population level is a crucial first step to understanding how neural activity relates to perception and behavior. Models of neural dynamics often focus on either low-dimensional projections of neural activity, or on learning dynamical systems that explicitly relate to the neural state over time. We discuss how these two approaches are interrelated by considering dynamical systems as representative of flows on a low-dimensional manifold. Building on this concept, we propose a new decomposed dynamical system model that represents complex non-stationary and nonlinear dynamics of time-series data as a sparse combination of simpler, more interpretable components. The decomposed nature of the dynamics generalizes over previous switched approaches and enables modeling of overlapping and non-stationary drifts in the dynamics. We further present a dictionary learning-driven approach to model fitting, where we leverage recent results in tracking sparse vectors over time. We demonstrate that our model can learn efficient representations and smooth transitions between dynamical modes in both continuous-time and discrete-time examples. We show results on low-dimensional linear and nonlinear attractors to demonstrate that our decomposed dynamical systems model can well approximate nonlinear dynamics. Additionally, we apply our model to C. elegans data, illustrating a diversity of dynamics that is obscured when classified into discrete states.
翻訳日:2022-06-08 14:23:25 公開日:2022-06-07
# 正方形の和によるロバストスパース平均推定

Robust Sparse Mean Estimation via Sum of Squares ( http://arxiv.org/abs/2206.03441v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Sushrut Karmalkar, Ankit Pensia, Thanasis Pittas(参考訳) 本研究では, 対向異常値の$\epsilon$-fractionの存在下での高次元スパース平均推定の問題について検討する。 先行研究は、同一共分散部分ガウジアン分布に対するこのタスクのサンプルおよび計算効率のよいアルゴリズムを得た。 本研究では,共分散の事前知識を必要とせず,ロバストなスパース平均推定のための最初の効率的なアルゴリズムを開発する。 r^d$ と "certifiably bounded" $t$-th moments and enough light tails" の分布に対して、本アルゴリズムはサンプル複雑性 $m = (k\log(d))^{o(t)}/\epsilon^{2-2/t}$ で$o(\epsilon^{1-1/t})$ の誤差を達成する。 ガウス分布の特別な場合、我々のアルゴリズムは、サンプル複雑性$m = O(k^4 \mathrm{polylog}(d))/\epsilon^2$で$\tilde O(\epsilon)$に近い最適誤差を達成する。 我々のアルゴリズムは2乗法に基づく証明からアルゴリズムへのアプローチに従っている。 統計的クエリと低次多項式テストで上界を補完し、アルゴリズムによって達成されたサンプル-時間-エラートレードオフが最適であることを示す。

We study the problem of high-dimensional sparse mean estimation in the presence of an $\epsilon$-fraction of adversarial outliers. Prior work obtained sample and computationally efficient algorithms for this task for identity-covariance subgaussian distributions. In this work, we develop the first efficient algorithms for robust sparse mean estimation without a priori knowledge of the covariance. For distributions on $\mathbb R^d$ with "certifiably bounded" $t$-th moments and sufficiently light tails, our algorithm achieves error of $O(\epsilon^{1-1/t})$ with sample complexity $m = (k\log(d))^{O(t)}/\epsilon^{2-2/t}$. For the special case of the Gaussian distribution, our algorithm achieves near-optimal error of $\tilde O(\epsilon)$ with sample complexity $m = O(k^4 \mathrm{polylog}(d))/\epsilon^2$. Our algorithms follow the Sum-of-Squares based, proofs to algorithms approach. We complement our upper bounds with Statistical Query and low-degree polynomial testing lower bounds, providing evidence that the sample-time-error tradeoffs achieved by our algorithms are qualitatively the best possible.
翻訳日:2022-06-08 14:23:04 公開日:2022-06-07
# DiMS: 反復非自己回帰変換器の複数のステップを蒸留する

DiMS: Distilling Multiple Steps of Iterative Non-Autoregressive Transformers ( http://arxiv.org/abs/2206.02999v1 )

ライセンス: Link先を確認
Sajad Norouzi, Rasa Hosseinzadeh, Felipe Perez, Maksims Volkovs(参考訳) 繰り返し非自己回帰変換器の計算上の利点は復号ステップの数が増えるにつれて減少する。 本稿では, 簡易かつ効果的な蒸留技術であるDistill Multiple Steps (DiMS)を導入し, 一定の翻訳品質に達するために必要なステップ数を削減した。 蒸留モデルは、いくつかの反復的なステップからの強化を保ちながら、初期のイテレーションの計算上の利点を享受する。 DiMSは学生と教師という2つのモデルに依存している。 生徒は複数のデコードステップを経て教師の出力を予測するように最適化され、教師はゆっくり動く平均で生徒を追いかける。 移動平均は教師の知識を更新させ、教師が提供するラベルの品質を高める。 推論の間、学生は翻訳に使われ、追加の計算は追加されない。 本研究では, 蒸留液の7点, 生の wmt データセットの12点の改良点を得るため, 各種モデルにおけるdimmの有効性を検証した。 コードをhttps://github.com/layer6ai-labs/DiMSでリリースします。

The computational benefits of iterative non-autoregressive transformers decrease as the number of decoding steps increases. As a remedy, we introduce Distill Multiple Steps (DiMS), a simple yet effective distillation technique to decrease the number of required steps to reach a certain translation quality. The distilled model enjoys the computational benefits of early iterations while preserving the enhancements from several iterative steps. DiMS relies on two models namely student and teacher. The student is optimized to predict the output of the teacher after multiple decoding steps while the teacher follows the student via a slow-moving average. The moving average keeps the teacher's knowledge updated and enhances the quality of the labels provided by the teacher. During inference, the student is used for translation and no additional computation is added. We verify the effectiveness of DiMS on various models obtaining improvements of up to 7 BLEU points on distilled and 12 BLEU points on raw WMT datasets for single-step translation. We release our code at https://github.com/layer6ai-labs/DiMS.
翻訳日:2022-06-08 14:21:28 公開日:2022-06-07
# 事前学習言語モデルからのプロット記述

Plot Writing From Pre-Trained Language Models ( http://arxiv.org/abs/2206.03021v1 )

ライセンス: Link先を確認
Yiping Jin, Vishakha Kadam, Dittaya Wanvarie(参考訳) 事前学習された言語モデル(plm)は、グローバルな構造を考慮しないため、長文のナラティブテキストを生成することができない。 その結果、生成されたテキストは、しばしば密着性、反復性、あるいは内容の欠如である。 ストーリー生成における最近の研究は、プロンプト、キーワード、セマンティックフレームの形式で明示的なコンテンツ計画を再導入した。 大規模な並列コーパスでトレーニングされたこれらのモデルは、より論理的なイベントシーケンスを生成し、より満足なストーリーを生成することができる。 しかし、これらの中間表現は自然言語では使われず、微調整なしではPLMでは利用できない。 密集的でコンテントフルなストーリーを生成するためのコンテンツプランニングの利点を維持しつつ,既成のPLMを用いてストーリープロットを生成することを提案する。 提案手法であるScratchPlotは,まずPLMにコンテントプラン作成を促す。 そして、ストーリーの本体を生成し、コンテンツ計画に基づいて終了します。 さらに,生成した(ストーリー,エンディング)ペアをランク付けするために追加のplmを使用することで,生成・ランクのアプローチを取る。 本手法を様々なベースラインでベンチマークし,人間および自動評価において優れた結果を得た。

Pre-trained language models (PLMs) fail to generate long-form narrative text because they do not consider global structure. As a result, the generated texts are often incohesive, repetitive, or lack content. Recent work in story generation reintroduced explicit content planning in the form of prompts, keywords, or semantic frames. Trained on large parallel corpora, these models can generate more logical event sequences and thus more contentful stories. However, these intermediate representations are often not in natural language and cannot be utilized by PLMs without fine-tuning. We propose generating story plots using off-the-shelf PLMs while maintaining the benefit of content planning to generate cohesive and contentful stories. Our proposed method, ScratchPlot, first prompts a PLM to compose a content plan. Then, we generate the story's body and ending conditioned on the content plan. Furthermore, we take a generate-and-rank approach by using additional PLMs to rank the generated (story, ending) pairs. We benchmark our method with various baselines and achieved superior results in both human and automatic evaluation.
翻訳日:2022-06-08 14:21:12 公開日:2022-06-07
# RAAT:文書レベルイベント抽出における関係モデリングのための関係拡張注意変換器

RAAT: Relation-Augmented Attention Transformer for Relation Modeling in Document-Level Event Extraction ( http://arxiv.org/abs/2206.03377v1 )

ライセンス: Link先を確認
Yuan Liang, Zhuoxuan Jiang, Di Yin, Bo Ren(参考訳) 文書レベルのイベント抽出(DEE)タスクでは、イベント引数は常に文中に散りばめられ、複数のイベントが1つのドキュメント(複数イベント)に置かれることがある。 本稿では、上記の2つの問題に対処する上で、イベント引数の関係情報は極めて重要であると論じ、Relation-augmented Document-level Event extract (ReDEE)と呼ばれる関係依存性をモデル化できる新しいDEEフレームワークを提案する。 より具体的には、このフレームワークはRelation-augmented Attention Transformer (RAAT)という名前の、新しくカスタマイズされたトランスフォーマーを備えている。 RAATはスケーラブルで、マルチスケールおよびマルチマウントの引数関係をキャプチャする。 さらに関係情報を活用するために,イベント関係予測タスクを分離し,イベント抽出性能を明示的に向上させるマルチタスク学習手法を導入する。 2つの公開データセット上で最先端の性能を実現するための提案手法の有効性を示す。 コードはhttps://github.com/で入手できる。 https://aws.com/TencentYoutuResearch/RAAT。

In document-level event extraction (DEE) task, event arguments always scatter across sentences (across-sentence issue) and multiple events may lie in one document (multi-event issue). In this paper, we argue that the relation information of event arguments is of great significance for addressing the above two issues, and propose a new DEE framework which can model the relation dependencies, called Relation-augmented Document-level Event Extraction (ReDEE). More specifically, this framework features a novel and tailored transformer, named as Relation-augmented Attention Transformer (RAAT). RAAT is scalable to capture multi-scale and multi-amount argument relations. To further leverage relation information, we introduce a separate event relation prediction task and adopt multi-task learning method to explicitly enhance event extraction performance. Extensive experiments demonstrate the effectiveness of the proposed method, which can achieve state-of-the-art performance on two public datasets. Our code is available at https://github. com/TencentYoutuResearch/RAAT.
翻訳日:2022-06-08 14:20:57 公開日:2022-06-07
# 存在規則の正規化: それほど無害ではない!

Normalisations of Existential Rules: Not so Innocuous! ( http://arxiv.org/abs/2206.03124v1 )

ライセンス: Link先を確認
David Carral, Lucas Larroque, Marie-Laure Mugnier and Micha\"el Thomazo(参考訳) 存在規則は、主にデータ問い合わせのために開発された表現力のある知識表現言語である。 文学において、それらは技術開発を単純化する通常の形式であると考えられることが多い。 例えば、ルールヘッドは原子、すなわち単一の原子に制限されているという一般的な仮定がある。 このような仮定は、包含を保ちながら規則のすべての集合を正規化できる限り、一般性を失うことなくなされると考えられる。 しかし、重要な疑問は推論の決定可能性を保証する性質が保存されているかどうかである。 追跡(非破壊)とfo-rewritabilityに関する異なるチェイス変異に対するこれらの手順の影響を体系的に研究する。 これはまた、独立利害の追撃終了に関連するオープンな問題の研究にも繋がる。

Existential rules are an expressive knowledge representation language mainly developed to query data. In the literature, they are often supposed to be in some normal form that simplifies technical developments. For instance, a common assumption is that rule heads are atomic, i.e., restricted to a single atom. Such assumptions are considered to be made without loss of generality as long as all sets of rules can be normalised while preserving entailment. However, an important question is whether the properties that ensure the decidability of reasoning are preserved as well. We provide a systematic study of the impact of these procedures on the different chase variants with respect to chase (non-)termination and FO-rewritability. This also leads us to study open problems related to chase termination of independent interest.
翻訳日:2022-06-08 14:20:38 公開日:2022-06-07
# オフライン計画のためのオンラインモデリング

Position Paper: Online Modeling for Offline Planning ( http://arxiv.org/abs/2206.03356v1 )

ライセンス: Link先を確認
Eyal Weiss and Gal A. Kaminka(参考訳) 計画問題の定義と表現は、AI計画研究の中心にある。 重要な部分はアクションモデルの表現である。 宣言的行動モデル表現を改善する進歩の年月は、多くの理論的進歩と、機能的で、ドメインに依存しないプランナーを生み出した。 しかし、この分野が成熟しているにもかかわらず、AI計画技術は研究コミュニティ以外では使われていないため、複雑な数学的機能やデータから学んだモデルなど、現在の表現が現実世界の要求を捉えていないことを示唆している。 これは、モデリングプロセスが計画プロセス、すなわちオフライン計画のためのオフラインモデリングの前に実行され、完了したと仮定されているためであると主張する。 宣言型モデリング言語の表現性に制限があること、選択と計算のモデリングへの早期のコミットメント、各アクションモデルに最も適した解決方法の使用を妨げていること、計画中にしか知られていないこと、非宣言型学習モデルの使用を確実にできないこと、などである。 そこで我々は、オフライン計画においてオンラインモデリングを行うような、AI計画プロセスを変更することを提案する。 これは既存のアプローチ(オフラインモデリング)を一般化する。 提案した定義は,新規な計画プロセスを認め,提案手法の具体的実装を提案する。 本研究は,行動コストを見積もる計画を立てる最初の試みとして得られた最初の成果をスケッチする。 オープンな課題を議論することで締めくくります。

The definition and representation of planning problems is at the heart of AI planning research. A key part is the representation of action models. Decades of advances improving declarative action model representations resulted in numerous theoretical advances, and capable, working, domain-independent planners. However, despite the maturity of the field, AI planning technology is still rarely used outside the research community, suggesting that current representations fail to capture real-world requirements, such as utilizing complex mathematical functions and models learned from data. We argue that this is because the modeling process is assumed to have taken place and completed prior to the planning process, i.e., offline modeling for offline planning. There are several challenges inherent to this approach, including: limited expressiveness of declarative modeling languages; early commitment to modeling choices and computation, that preclude using the most appropriate resolution for each action model -- which can only be known during planning; and difficulty in reliably using non-declarative, learned, models. We therefore suggest to change the AI planning process, such that is carries out online modeling in offline planning, i.e., the use of action models that are computed or even generated as part of the planning process, as they are accessed. This generalizes the existing approach (offline modeling). The proposed definition admits novel planning processes, and we suggest one concrete implementation, demonstrating the approach. We sketch initial results that were obtained as part of a first attempt to follow this approach by planning with action cost estimators. We conclude by discussing open challenges.
翻訳日:2022-06-08 14:20:27 公開日:2022-06-07
# (参考訳) ダイナミックシーンのロングビデオの生成

Generating Long Videos of Dynamic Scenes ( http://arxiv.org/abs/2206.03429v1 )

ライセンス: CC BY 4.0
Tim Brooks, Janne Hellsten, Miika Aittala, Ting-Chun Wang, Timo Aila, Jaakko Lehtinen, Ming-Yu Liu, Alexei A. Efros, Tero Karras(参考訳) 本稿では,物体の動きを正確に再現する映像生成モデル,カメラ視点の変化,時間とともに発生する新たなコンテンツについて述べる。 既存のビデオ生成手法は、しばしば時間の関数として新しいコンテンツを生成するのに失敗するが、現実の環境(例えば、可算なダイナミクスやオブジェクトの永続化など)で期待されているコンピテンシーを維持している。 一般的な障害ケースは、ビデオ全体のコンテンツを決定する単一の潜在コードなど、インダクティブバイアスの過度な依存によって、コンテンツが決して変わることはない、というものです。 一方、長期的な一貫性がなければ、生成されたビデオは異なるシーン間で非現実的に変化する可能性がある。 これらの制限に対処するために,時間的潜在表現を再設計し,長いビデオのトレーニングによってデータから長期的な一貫性を学ぶことにより,時間軸を優先する。 この目的のために,我々は2段階のトレーニング戦略を活用し,より長い動画を低解像度で,より短い動画を高解像度で個別にトレーニングする。 本モデルの有効性を評価するため,長期時間変動に着目したベンチマークデータセットを2つ導入した。

We present a video generation model that accurately reproduces object motion, changes in camera viewpoint, and new content that arises over time. Existing video generation methods often fail to produce new content as a function of time while maintaining consistencies expected in real environments, such as plausible dynamics and object persistence. A common failure case is for content to never change due to over-reliance on inductive biases to provide temporal consistency, such as a single latent code that dictates content for the entire video. On the other extreme, without long-term consistency, generated videos may morph unrealistically between different scenes. To address these limitations, we prioritize the time axis by redesigning the temporal latent representation and learning long-term consistency from data by training on longer videos. To this end, we leverage a two-phase training strategy, where we separately train using longer videos at a low resolution and shorter videos at a high resolution. To evaluate the capabilities of our model, we introduce two new benchmark datasets with explicit focus on long-term temporal dynamics.
翻訳日:2022-06-08 14:18:19 公開日:2022-06-07
# Margin Boostingによるロバストなアンサンブルの構築

Building Robust Ensembles via Margin Boosting ( http://arxiv.org/abs/2206.03362v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Hongyang Zhang, Aaron Courville, Yoshua Bengio, Pradeep Ravikumar, Arun Sai Suggala(参考訳) 敵対的ロバストネスの文脈では、単一のモデルは、通常、すべての敵の攻撃に対して防御するのに十分な力を持っておらず、その結果、準最適ロバスト性を持つ。 その結果、新たな研究は、敵の攻撃から守るためにニューラルネットワークのアンサンブルを学ぶことに重点を置いている。 本研究では,ロバストアンサンブル構築に向けた原則的アプローチを採る。 我々は、この問題をマージンブースティングの観点から捉え、最大マージンを持つアンサンブルを学習するためのアルゴリズムを開発する。 ベンチマークデータセットの広範囲な経験的評価を通じて,本アルゴリズムが既存のセンシング手法を上回っているだけでなく,エンドツーエンドでトレーニングされた大規模モデルよりも優れていることを示す。 我々の研究の重要な副産物は、マージン最大クロスエントロピー(MCE)損失であり、これは標準クロスエントロピー(CE)損失のより良い代替品である。 実験により, 最先端の対人訓練技術におけるCE損失をMCE損失に置き換えることで, 高い性能向上が得られた。

In the context of adversarial robustness, a single model does not usually have enough power to defend against all possible adversarial attacks, and as a result, has sub-optimal robustness. Consequently, an emerging line of work has focused on learning an ensemble of neural networks to defend against adversarial attacks. In this work, we take a principled approach towards building robust ensembles. We view this problem from the perspective of margin-boosting and develop an algorithm for learning an ensemble with maximum margin. Through extensive empirical evaluation on benchmark datasets, we show that our algorithm not only outperforms existing ensembling techniques, but also large models trained in an end-to-end fashion. An important byproduct of our work is a margin-maximizing cross-entropy (MCE) loss, which is a better alternative to the standard cross-entropy (CE) loss. Empirically, we show that replacing the CE loss in state-of-the-art adversarial training techniques with our MCE loss leads to significant performance improvement.
翻訳日:2022-06-08 13:53:07 公開日:2022-06-07
# 計算的に難解なOracleなしで観測可能なPOMDPで学ぶ

Learning in Observable POMDPs, without Computationally Intractable Oracles ( http://arxiv.org/abs/2206.03446v1 )

ライセンス: Link先を確認
Noah Golowich, Ankur Moitra, Dhruv Rohatgi(参考訳) 強化学習理論の多くは、計算処理が難しいoracle上に構築されている。 特に、部分観測可能なマルコフ決定過程(POMDP)における準最適ポリシーを学習するためには、既存のアルゴリズムはモデル力学(例えば決定論的遷移)について強い仮定をする必要があるか、あるいは厳密な楽観的な計画や推定問題をサブルーチンとして解くためのオラクルへのアクセスを仮定する必要がある。 そこで本研究では,PMDPのための最初のオラクルフリー学習アルゴリズムを合理的な仮定で開発する。 具体的には、「観測可能」なPOMDPで学習するための準ポロリノミカル時間終端アルゴリズムを与えるが、観測可能性とは、状態上のよく分断された分布が観察よりもよく分断された分布を誘導するという仮定である。 我々の技術は、不確実性の下での楽観主義の原理を探索を促進する伝統的なアプローチを回避し、代わりに、政策カバーの構築にバリュセントリックスパンナーの新たな応用を与える。

Much of reinforcement learning theory is built on top of oracles that are computationally hard to implement. Specifically for learning near-optimal policies in Partially Observable Markov Decision Processes (POMDPs), existing algorithms either need to make strong assumptions about the model dynamics (e.g. deterministic transitions) or assume access to an oracle for solving a hard optimistic planning or estimation problem as a subroutine. In this work we develop the first oracle-free learning algorithm for POMDPs under reasonable assumptions. Specifically, we give a quasipolynomial-time end-to-end algorithm for learning in "observable" POMDPs, where observability is the assumption that well-separated distributions over states induce well-separated distributions over observations. Our techniques circumvent the more traditional approach of using the principle of optimism under uncertainty to promote exploration, and instead give a novel application of barycentric spanners to constructing policy covers.
翻訳日:2022-06-08 13:52:48 公開日:2022-06-07
# 回答検索のための質問と回答によるデュアルエンコーダの強化

Enhancing Dual-Encoders with Question and Answer Cross-Embeddings for Answer Retrieval ( http://arxiv.org/abs/2206.02978v1 )

ライセンス: Link先を確認
Yanmeng Wang, Jun Bai, Ye Wang, Jianfei Zhang, Wenge Rong, Zongcheng Ji, Shaojun Wang, Jing Xiao(参考訳) デュアルエンコーダは質問応答システム(QA)における回答検索のための有望なメカニズムである。 現在、ほとんどの従来のデュアルエンコーダは、一致するスコアだけで質問や回答の意味表現を学習している。 研究者らは、スコアリング機能においてQA相互作用機能を導入することを提案したが、推論段階では効率が低かった。 推論段階の間、質問と回答の独立した符号化を維持するため、トレーニング段階における表現学習におけるqaインタラクションを強化する補助タスクとして質問(回答)埋め込みから回答(質問)を再構築するために、変分オートエンコーダがさらに導入される。 しかし、テキスト生成と回答検索の必要性は異なるため、訓練の難しさにつながる。 本研究では,質問応答のクロスエンベディングによるデュアルエンコーダモデルと,デュアルエンコーダからの埋め込みの形状をクロスエンコーダの形状と整合させる新しい幾何アライメント機構(gam)を提案する。 広範な実験結果から,マルチ回答検索データセットでは,デュアルエンコーダモデルが大幅に改善され,最先端手法よりも優れていた。

Dual-Encoders is a promising mechanism for answer retrieval in question answering (QA) systems. Currently most conventional Dual-Encoders learn the semantic representations of questions and answers merely through matching score. Researchers proposed to introduce the QA interaction features in scoring function but at the cost of low efficiency in inference stage. To keep independent encoding of questions and answers during inference stage, variational auto-encoder is further introduced to reconstruct answers (questions) from question (answer) embeddings as an auxiliary task to enhance QA interaction in representation learning in training stage. However, the needs of text generation and answer retrieval are different, which leads to hardness in training. In this work, we propose a framework to enhance the Dual-Encoders model with question answer cross-embeddings and a novel Geometry Alignment Mechanism (GAM) to align the geometry of embeddings from Dual-Encoders with that from Cross-Encoders. Extensive experimental results show that our framework significantly improves Dual-Encoders model and outperforms the state-of-the-art method on multiple answer retrieval datasets.
翻訳日:2022-06-08 13:52:30 公開日:2022-06-07
# クロスドメインNERにおける最適サブワードトークン化の探索

Searching for Optimal Subword Tokenization in Cross-domain NER ( http://arxiv.org/abs/2206.03352v1 )

ライセンス: Link先を確認
Ruotian Ma, Yiding Tan, Xin Zhou, Xuanting Chen, Di Liang, Sirui Wang, Wei Wu, Tao Gui, Qi Zhang(参考訳) 入力分布シフトは、教師なし領域適応(UDA)において重要な問題の一つである。 最も人気のあるUDAアプローチはドメイン不変表現学習であり、異なるドメインからの機能を同様の機能分布に整合させようとしている。 しかし、これらのアプローチはドメイン間の入力語分布の直接的アライメントを無視しており、これはクロスドメインnerのような単語レベルの分類タスクにおいて重要な要素である。 本研究では,NERの入力語レベル分布シフトのためのサブワードレベルのソリューションであるX-Pieceを導入することで,ドメイン間NERに新たな光を当てる。 具体的には、ソースドメインの入力語を再学習し、ターゲットサブワード分布にアプローチし、最適な輸送問題として定式化して解決する。 このアプローチは入力レベルにフォーカスしているので、さらなる改善のために以前のdirlメソッドと組み合わせることもできる。 4つのベンチマークNERデータセットに対して,BERT-taggerに基づく提案手法の有効性を示す実験結果を得た。 また,提案手法はDANNなどのDIRL法に有効であることが証明された。

Input distribution shift is one of the vital problems in unsupervised domain adaptation (UDA). The most popular UDA approaches focus on domain-invariant representation learning, trying to align the features from different domains into similar feature distributions. However, these approaches ignore the direct alignment of input word distributions between domains, which is a vital factor in word-level classification tasks such as cross-domain NER. In this work, we shed new light on cross-domain NER by introducing a subword-level solution, X-Piece, for input word-level distribution shift in NER. Specifically, we re-tokenize the input words of the source domain to approach the target subword distribution, which is formulated and solved as an optimal transport problem. As this approach focuses on the input level, it can also be combined with previous DIRL methods for further improvement. Experimental results show the effectiveness of the proposed method based on BERT-tagger on four benchmark NER datasets. Also, the proposed method is proved to benefit DIRL methods such as DANN.
翻訳日:2022-06-08 13:52:12 公開日:2022-06-07
# cViL:知識蒸留を用いた視覚言語モデルの言語間学習

cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation ( http://arxiv.org/abs/2206.03354v1 )

ライセンス: Link先を確認
Kshitij Gupta, Devansh Gautam, Radhika Mamidi(参考訳) 視覚と言語に関するタスクは研究コミュニティで人気を集めているが、依然として英語に重点を置いている。 対象言語に対する単言語モデルの学習に英語のみの視覚モデルを用いたパイプラインを提案する。 我々は,オブジェクトタグをアンカーポイントとして活用して画像テキストアライメントを学習するモデルであるOSCAR+を拡張し,異なる言語での視覚的質問応答データセットのトレーニングを行う。 並列文を用いた他言語におけるモデルを学習するための知識蒸留の新しい手法を提案する。 事前学習コーパスで対象言語を使用する他のモデルと比較して,既存の英語モデルを利用して,より少ないリソースを用いて対象言語に知識を伝達することができる。 また,日本語とヒンディー語による大規模ビジュアル質問応答データセットも公開している。 我々は視覚的な質問応答に限定するが、我々のモデルは任意のシーケンスレベルの分類タスクに拡張でき、他の言語にも拡張できる。 本稿では,視覚的質問応答課題である日本語とヒンディー語の2つの言語に注目した。 我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。

Vision-and-language tasks are gaining popularity in the research community, but the focus is still mainly on English. We propose a pipeline that utilizes English-only vision-language models to train a monolingual model for a target language. We propose to extend OSCAR+, a model which leverages object tags as anchor points for learning image-text alignments, to train on visual question answering datasets in different languages. We propose a novel approach to knowledge distillation to train the model in other languages using parallel sentences. Compared to other models that use the target language in the pretraining corpora, we can leverage an existing English model to transfer the knowledge to the target language using significantly lesser resources. We also release a large-scale visual question answering dataset in Japanese and Hindi language. Though we restrict our work to visual question answering, our model can be extended to any sequence-level classification task, and it can be extended to other languages as well. This paper focuses on two languages for the visual question answering task - Japanese and Hindi. Our pipeline outperforms the current state-of-the-art models by a relative increase of 4.4% and 13.4% respectively in accuracy.
翻訳日:2022-06-08 13:51:57 公開日:2022-06-07
# TriBYOL: 自己監督型表現学習のためのTriplet BYOL

TriBYOL: Triplet BYOL for Self-Supervised Representation Learning ( http://arxiv.org/abs/2206.03012v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 本稿では,バッチサイズの小さい表現を学習するための新しい自己教師あり学習法を提案する。 サイムズネットワークの特定の形態に基づく自己指導型学習法が数多く出現し,注目されている。 しかし、これらの方法は優れた表現を学習するために大きなバッチサイズを使用し、重い計算リソースを必要とする。 本稿では,3重ビューの損失と組み合わせて,小規模バッチサイズで自己教師付き表現学習の性能向上を図る。 実験結果から,本手法は小バッチの場合のいくつかのデータセットにおいて,最先端の自己教師型学習法を大幅に上回ることを示す。 提案手法は,小規模バッチサイズを用いた実世界の高解像度画像を用いた自己教師あり学習を実現する。

This paper proposes a novel self-supervised learning method for learning better representations with small batch sizes. Many self-supervised learning methods based on certain forms of the siamese network have emerged and received significant attention. However, these methods need to use large batch sizes to learn good representations and require heavy computational resources. We present a new triplet network combined with a triple-view loss to improve the performance of self-supervised representation learning with small batch sizes. Experimental results show that our method can drastically outperform state-of-the-art self-supervised learning methods on several datasets in small-batch cases. Our method provides a feasible solution for self-supervised learning with real-world high-resolution images that uses small batch sizes.
翻訳日:2022-06-08 13:51:39 公開日:2022-06-07
# 自動気管管およびカイナ検出装置の開発 : 人工知能を用いた可搬型胸部X線撮影

Development of Automatic Endotracheal Tube and Carina Detection on Portable Supine Chest Radiographs using Artificial Intelligence ( http://arxiv.org/abs/2206.03017v1 )

ライセンス: Link先を確認
Chi-Yeh Chen, Min-Hsin Huang, Yung-Nien Sun, Chao-Han Lai(参考訳) 胸部x線画像の画質は低コントラストと高ノイズのため本質的に低品質である。 気管内挿管検出は気管内管(ETT)先端とカリーナの位置を必要とする。 胸部X線撮影では,ETT先端とカリーナ間の距離を求めることが目的である。 そこで本稿では,Mask R-CNNを用いた特徴抽出手法を提案する。 Mask R-CNNは、画像中の管と気管分岐を予測する。 次に、特徴抽出法を用いて、ETT先端の特徴点とカリーナの特徴点を求める。 したがって、ETT-carina距離を得ることができる。 実験では, 再現率と精度で96 %を超える結果が得られた。 さらに、オブジェクトエラーは4.7751\pm 5.3420$ mm未満であり、ETT-carina距離エラーは5.5432\pm 6.3100$ mm未満である。 外部検証の結果,提案手法は高ロバスト性システムであることがわかった。 ピアソン相関係数(pearson correlation coefficient)により,ボード認定インテンシティストとett-carina距離の相関が強いことがわかった。

The image quality of portable supine chest radiographs is inherently poor due to low contrast and high noise. The endotracheal intubation detection requires the locations of the endotracheal tube (ETT) tip and carina. The goal is to find the distance between the ETT tip and the carina in chest radiography. To overcome such a problem, we propose a feature extraction method with Mask R-CNN. The Mask R-CNN predicts a tube and a tracheal bifurcation in an image. Then, the feature extraction method is used to find the feature point of the ETT tip and that of the carina. Therefore, the ETT-carina distance can be obtained. In our experiments, our results can exceed 96\% in terms of recall and precision. Moreover, the object error is less than $4.7751\pm 5.3420$ mm, and the ETT-carina distance errors are less than $5.5432\pm 6.3100$ mm. The external validation shows that the proposed method is a high-robustness system. According to the Pearson correlation coefficient, we have a strong correlation between the board-certified intensivists and our result in terms of ETT-carina distance.
翻訳日:2022-06-08 13:51:29 公開日:2022-06-07
# Omnivision Predictioning:衛星観測と天空画像の組み合わせによる太陽エネルギーの時間内予測の改善

Omnivision forecasting: combining satellite observations with sky images for improved intra-hour solar energy predictions ( http://arxiv.org/abs/2206.03207v1 )

ライセンス: Link先を確認
Quentin Paletta, Guillaume Arbod, Joan Lasenby(参考訳) 断続的再生可能エネルギー源の電力グリッドへの大量統合は困難である。 この困難に対処するための確立されたアプローチは、グリッドの応答に適応するためのエネルギー供給の変動性を予測することである。 太陽エネルギーでは、雲を隠蔽することによる発電の短期的な変化は、全天球カメラ(30分前)や衛星観測(6時間前)と異なる時間スケールで予測できる。 本研究では,これら2つのクラウドカバーの相補的な視点を1つの機械学習フレームワークに統合し,時間内(60分前)の照度予測を改善する。 決定論的および確率論的予測は、異なる気象条件(クラースキー、曇り、オーバーキャスト)と異なる入力構成(スキー画像、衛星観測、過去の照度値)で評価される。 以上の結果から,ハイブリッドモデルでは明確な条件下での予測が有効であり,長期予測の改善が期待できる。 本研究は, スカイイメージと衛星観測を一つの学習枠組みで組み合わせ, 太陽点火を推し進めるための新しいアプローチの基礎となる。

Integration of intermittent renewable energy sources into electric grids in large proportions is challenging. A well-established approach aimed at addressing this difficulty involves the anticipation of the upcoming energy supply variability to adapt the response of the grid. In solar energy, short-term changes in electricity production caused by occluding clouds can be predicted at different time scales from all-sky cameras (up to 30-min ahead) and satellite observations (up to 6h ahead). In this study, we integrate these two complementary points of view on the cloud cover in a single machine learning framework to improve intra-hour (up to 60-min ahead) irradiance forecasting. Both deterministic and probabilistic predictions are evaluated in different weather conditions (clear-sky, cloudy, overcast) and with different input configurations (sky images, satellite observations and/or past irradiance values). Our results show that the hybrid model benefits predictions in clear-sky conditions and improves longer-term forecasting. This study lays the groundwork for future novel approaches of combining sky images and satellite observations in a single learning framework to advance solar nowcasting.
翻訳日:2022-06-08 13:50:07 公開日:2022-06-07
# DynaMaR: マスクトーケン表現によるダイナミックプロンプト

DynaMaR: Dynamic Prompt with Mask Token Representation ( http://arxiv.org/abs/2206.02982v1 )

ライセンス: Link先を確認
Xiaodi Sun, Sunny Rajagopalan, Priyanka Nigam, Weiyi Lu, Yi Xu, Belinda Zeng, Trishul Chilimbi(参考訳) 近年の研究では、教師なしアプローチを用いて事前訓練された大規模言語モデルにより、下流タスクにおける大幅な性能向上が達成されている。 通常、分類や回帰タスクのような下流タスクにこれらの言語モデルを適用する場合、言語モデルからの文表現をタスク固有のヘッドに入力する微調整パラダイムを採用します。 しかし、GPT-3のようなモデルが出現すると、プロンプトベースの微調整が数発のタスクで成功していることが証明された。 この研究に触発されて、我々は個別のプロンプト技術を実際に研究した。 標準的なプロンプトアプローチには2つの問題がある。 まず、プロンプトテンプレートに過剰に適合する。 第二に、ダウンストリームタスクを言語モデル問題として定式化するには、手作業が必要です。 本稿では,これらの2つの問題に対処するプロンプトベースファインタニングの改良を提案する。 われわれのアプローチをDynaMaR - Mask Token Representationを用いたDynamic Promptと呼ぶ。 その結果、DynaMaRは4つのeコマースアプリケーションにおける標準的な微調整アプローチよりも、数ショット設定で平均10%改善し、データリッチな設定で3.7%改善できることがわかった。

Recent research has shown that large language models pretrained using unsupervised approaches can achieve significant performance improvement on many downstream tasks. Typically when adapting these language models to downstream tasks, like a classification or regression task, we employ a fine-tuning paradigm in which the sentence representation from the language model is input to a task-specific head; the model is then fine-tuned end-to-end. However, with the emergence of models like GPT-3, prompt-based fine-tuning has been proven to be a successful approach for few-shot tasks. Inspired by this work, we study discrete prompt technologies in practice. There are two issues that arise with the standard prompt approach. First, it can overfit on the prompt template. Second, it requires manual effort to formulate the downstream task as a language model problem. In this paper, we propose an improvement to prompt-based fine-tuning that addresses these two issues. We refer to our approach as DynaMaR -- Dynamic Prompt with Mask Token Representation. Results show that DynaMaR can achieve an average improvement of 10% in few-shot settings and improvement of 3.7% in data-rich settings over the standard fine-tuning approach on four e-commerce applications.
翻訳日:2022-06-08 13:49:44 公開日:2022-06-07
# GRETEL:グラフ対実説明評価のための統合フレームワーク

GRETEL: A unified framework for Graph Counterfactual Explanation Evaluation ( http://arxiv.org/abs/2206.02957v1 )

ライセンス: Link先を確認
Mario Alfonso Prado-Romero and Giovanni Stilo(参考訳) 機械学習(ml)システムは、いくつかのアプリケーションドメインにおける日々の生活に影響を与えるモダンなツールの構成要素です。 ブラックボックスの性質から、これらのシステムは、決定プロセスを理解することが最も重要なアプリケーションドメイン(例えば、健康、ファイナンス)では、ほとんど採用されない。 MLモデルが特定のケース/インスタンスに対してどのように特定の決定を下したかを説明するために説明法を開発した。 Graph Counterfactual Explanations (GCE)は、グラフ学習領域で採用されている説明手法の1つである。 グラフの反事実説明の既存の作品は、主に問題定義、アプリケーションドメイン、テストデータ、評価メトリクスに分散しており、既存の作品のほとんどは、文献に存在する他の反事実説明技術と徹底的に比較していない。 本稿では,GCE メソッドを複数の設定で開発・テストするための統合フレームワーク GRETEL を提案する。 gretelはオープンサイエンスと評価の再現性を促進する、高度に拡張可能な評価フレームワークであり、実データと合成データセット、mlモデル、最先端の説明技術、評価指標の両方を統合および管理するためのよく定義されたメカニズムセットを提供することによって、再現性を促進する。 GRETELを提案するために,既存の説明手法とベースMLモデルを用いて,複数の合成および実データの統合とテストを行った。

Machine Learning (ML) systems are a building part of the modern tools which impact our daily life in several application domains. Due to their black-box nature, those systems are hardly adopted in application domains (e.g. health, finance) where understanding the decision process is of paramount importance. Explanation methods were developed to explain how the ML model has taken a specific decision for a given case/instance. Graph Counterfactual Explanations (GCE) is one of the explanation techniques adopted in the Graph Learning domain. The existing works of Graph Counterfactual Explanations diverge mostly in the problem definition, application domain, test data, and evaluation metrics, and most existing works do not compare exhaustively against other counterfactual explanation techniques present in the literature. We present GRETEL, a unified framework to develop and test GCE methods in several settings. GRETEL is a highly extensible evaluation framework which promotes the Open Science and the evaluations reproducibility by providing a set of well-defined mechanisms to integrate and manage easily: both real and synthetic datasets, ML models, state-of-the-art explanation techniques, and evaluation measures. To present GRETEL, we show the experiments conducted to integrate and test several synthetic and real datasets with several existing explanation techniques and base ML models.
翻訳日:2022-06-08 13:49:23 公開日:2022-06-07
# 反復的自己意味的知識蒸留による知識グラフ埋め込みの改善

Improving Knowledge Graph Embedding via Iterative Self-Semantic Knowledge Distillation ( http://arxiv.org/abs/2206.02963v1 )

ライセンス: Link先を確認
Zhehui Zhou, Defang Chen, Can Wang, Yan Feng and Chun Chen(参考訳) 知識グラフ埋め込み (KGE) は, 連続ベクトル空間への実体と関係の投影によるリンク予測のために, 集中的に研究されている。 現在の一般的な高次元KGE法は、膨大な計算とメモリコストを必要とするが、非常にわずかな性能向上が得られる。 高次元のKGEモデルとは対照的に、低次元モデルのトレーニングはより効率的であり、実用的なインテリジェントシステムへのより良い展開に価値がある。 しかし、知識グラフ(KG)における意味情報のモデル表現性は、低次元パラメータ空間において非常に限定的である。 本稿では,低次元空間におけるKGEモデル表現性を改善するための反復的自己意味的知識蒸留戦略を提案する。 提案手法と組み合わせたKGEモデルは、学習過程全体において、教師と学生の役割を代替的に果たす。 具体的には、あるイテレーションでは、モデルが教師と見なされ、生徒に意味的な情報を提供する。 次のイテレーションでは、モデルは教師から転送される意味情報を取り入れる学生とみなされる。 また,学習モデルの自己蒸留のための反復的意味情報を抽出するための新しい意味抽出ブロックを設計した。 反復的に、反復ベースの意味情報を取り込んで蓄積することで、低次元モデルは、kgsのリンク予測をよりよく表現できる。 トレーニング全体の間に1つのモデルしか存在せず、計算コストとメモリ要件の増加を緩和する。 さらに,提案手法はモデルに依存しず,他のKGEモデルとシームレスに組み合わせることができる。 4つの標準データセットにおける実験評価の一貫性と有意な性能向上は,提案する自己蒸留法の有効性を示す。

Knowledge graph embedding (KGE) has been intensively investigated for link prediction by projecting entities and relations into continuous vector spaces. Current popular high-dimensional KGE methods obtain quite slight performance gains while require enormous computation and memory costs. In contrast to high-dimensional KGE models, training low-dimensional models is more efficient and worthwhile for better deployments to practical intelligent systems. However, the model expressiveness of semantic information in knowledge graphs (KGs) is highly limited in the low dimension parameter space. In this paper, we propose iterative self-semantic knowledge distillation strategy to improve the KGE model expressiveness in the low dimension space. KGE model combined with our proposed strategy plays the teacher and student roles alternatively during the whole training process. Specifically, at a certain iteration, the model is regarded as a teacher to provide semantic information for the student. At next iteration, the model is regard as a student to incorporate the semantic information transferred from the teacher. We also design a novel semantic extraction block to extract iteration-based semantic information for the training model self-distillation. Iteratively incorporating and accumulating iteration-based semantic information enables the low-dimensional model to be more expressive for better link prediction in KGs. There is only one model during the whole training, which alleviates the increase of computational expensiveness and memory requirements. Furthermore, the proposed strategy is model-agnostic and can be seamlessly combined with other KGE models. Consistent and significant performance gains in experimental evaluations on four standard datasets demonstrate the effectiveness of the proposed self-distillation strategy.
翻訳日:2022-06-08 13:49:02 公開日:2022-06-07
# どこまで進むか:$f$-Advantage Regressionによるオフラインゴール・コンディション強化学習

How Far I'll Go: Offline Goal-Conditioned Reinforcement Learning via $f$-Advantage Regression ( http://arxiv.org/abs/2206.03023v1 )

ライセンス: Link先を確認
Yecheng Jason Ma, Jason Yan, Dinesh Jayaraman, Osbert Bastani(参考訳) オフライン目標条件強化学習(gcrl)は、純粋にオフラインデータセットから多様な目標を達成する形で、汎用スキル学習を約束する。 我々は,状態占有者マッチングの観点から得られた,新しい回帰型オフラインgcrlアルゴリズムである$\textbf{go}$al-conditioned $f$-$\textbf{a}$dvantage $\textbf{r}$egression (gofar)を提案する。 従来のアプローチとは対照的に、GoFARは後向きのレバーベリングを一切必要とせず、その価値とポリシーネットワークに対する非インターリーブ最適化を享受している。 これらの特徴は、より優れたオフラインパフォーマンスと安定性を持つGoFARと、従来のメソッドでは実現不可能な統計的パフォーマンスを保証する。 さらに,新たな対象領域へのゼロショット転送を可能にする純粋にオフラインなソースドメインデータからエージェントに依存しない目標条件付きプランナーを学ぶために,gofarのトレーニング目標を再利用できることを実証する。 広範な実験を通じて,GoFARの有効性を様々な問題設定やタスクで検証し,先行技術よりも優れていた。 特に、実際のロボットの巧妙な操作タスクでは、他の方法が意味のある進歩を遂げることはないが、GoFARは多様な目標を達成する複雑な操作行動を取得する。

Offline goal-conditioned reinforcement learning (GCRL) promises general-purpose skill learning in the form of reaching diverse goals from purely offline datasets. We propose $\textbf{Go}$al-conditioned $f$-$\textbf{A}$dvantage $\textbf{R}$egression (GoFAR), a novel regression-based offline GCRL algorithm derived from a state-occupancy matching perspective; the key intuition is that the goal-reaching task can be formulated as a state-occupancy matching problem between a dynamics-abiding imitator agent and an expert agent that directly teleports to the goal. In contrast to prior approaches, GoFAR does not require any hindsight relabeling and enjoys uninterleaved optimization for its value and policy networks. These distinct features confer GoFAR with much better offline performance and stability as well as statistical performance guarantee that is unattainable for prior methods. Furthermore, we demonstrate that GoFAR's training objectives can be re-purposed to learn an agent-independent goal-conditioned planner from purely offline source-domain data, which enables zero-shot transfer to new target domains. Through extensive experiments, we validate GoFAR's effectiveness in various problem settings and tasks, significantly outperforming prior state-of-art. Notably, on a real robotic dexterous manipulation task, while no other method makes meaningful progress, GoFAR acquires complex manipulation behavior that successfully accomplishes diverse goals.
翻訳日:2022-06-08 13:48:43 公開日:2022-06-07
# エージェント内音声がゼロショットタスクの獲得を許可

Intra-agent speech permits zero-shot task acquisition ( http://arxiv.org/abs/2206.03139v1 )

ライセンス: Link先を確認
Chen Yan, Federico Carnevale, Petko Georgiev, Adam Santoro, Aurelia Guy, Alistair Muldal, Chia-Chun Hung, Josh Abramson, Timothy Lillicrap, Gregory Wayne(参考訳) 人間の言語学習者は、情報的かつ文脈に敏感な言語に晒されているが、生の知覚データが溢れている。 社会的言語の使用とリハーサルと実践の内部プロセスの両方を通じて、言語学習者は自身の認識を説明する高レベルでセマンティックな表現を構築することができる。 そこで本研究では,人間におけるインナースピーチ(Vygotsky,1934)のプロセスからインスピレーションを得て,実施行動におけるエージェント内スピーチの役割をよりよく理解する。 まず, エージェント内音声を半教師付き問題として用い, ラベル付き言語データによる視覚的接頭字幕作成が可能な2つのアルゴリズムを開発した。 次に、異なるラベル付きデータのスケーリング曲線を実験的に計算し、データ効率を教師付き学習ベースラインと比較する。 最後に,3次元仮想空間で動作する組込み型移動マニピュレータエージェントにエージェント内音声を組み込んで,150以上の画像キャプションを付加することで,エージェントにタスク指向体験(ゼロショット)を伴わずに,新たなオブジェクトに関する質問を操作・回答する能力(ゼロショット)を付与することを示す。 実験結果から,エージェントが直接の対話経験を必要とせず,効果的に新しいタスクを学習できることが示唆された。

Human language learners are exposed to a trickle of informative, context-sensitive language, but a flood of raw sensory data. Through both social language use and internal processes of rehearsal and practice, language learners are able to build high-level, semantic representations that explain their perceptions. Here, we take inspiration from such processes of "inner speech" in humans (Vygotsky, 1934) to better understand the role of intra-agent speech in embodied behavior. First, we formally pose intra-agent speech as a semi-supervised problem and develop two algorithms that enable visually grounded captioning with little labeled language data. We then experimentally compute scaling curves over different amounts of labeled data and compare the data efficiency against a supervised learning baseline. Finally, we incorporate intra-agent speech into an embodied, mobile manipulator agent operating in a 3D virtual world, and show that with as few as 150 additional image captions, intra-agent speech endows the agent with the ability to manipulate and answer questions about a new object without any related task-directed experience (zero-shot). Taken together, our experiments suggest that modelling intra-agent speech is effective in enabling embodied agents to learn new tasks efficiently and without direct interaction experience.
翻訳日:2022-06-08 13:48:13 公開日:2022-06-07
# 容量型電気自動車ルーティング問題に対する適応型シミュレートアニーリングと強化学習に基づく新しい超ヒューリスティック

A new Hyper-heuristic based on Adaptive Simulated Annealing and Reinforcement Learning for the Capacitated Electric Vehicle Routing Problem ( http://arxiv.org/abs/2206.03185v1 )

ライセンス: Link先を確認
Erick Rodr\'iguez-Esparza, Antonio D Masegosa, Diego Oliva, Enrique Onieva(参考訳) 電気自動車(ev)は、貨物車の増加に伴う環境汚染や地球温暖化の低減のために都市部で採用されている。 しかし、社会的・経済的持続可能性に影響を与えるラストマイルロジスティクスの軌跡のルーティングにはまだ欠陥がある。 そこで本稿では,強化学習による超ヒューリスティック適応型アニーリング(hhasa$_{rl}$)という超ヒューリスティック(hh)アプローチを提案する。 容量型電気自動車ルーティング問題(cevrp)と呼ばれる問題を解決するために,マルチアームバンディット法と自己適応型シミュレートアニーリング(sa)メタヒューリスティックアルゴリズムから構成される。 充電ステーションの数とevの走行距離が限られているため、evは事前にバッテリーの充電モーメントを必要とし、走行時間とコストを削減しなければならない。 実装されたHHは、複数の最小限のベストプラクティスを改善し、IEEE WCCI2020コンペティションのために提案されたベンチマークに対して、いくつかの高次元インスタンスの最良の平均値を得る。

Electric vehicles (EVs) have been adopted in urban areas to reduce environmental pollution and global warming as a result of the increasing number of freight vehicles. However, there are still deficiencies in routing the trajectories of last-mile logistics that continue to impact social and economic sustainability. For that reason, in this paper, a hyper-heuristic (HH) approach called Hyper-heuristic Adaptive Simulated Annealing with Reinforcement Learning (HHASA$_{RL}$) is proposed. It is composed of a multi-armed bandit method and the self-adaptive Simulated Annealing (SA) metaheuristic algorithm for solving the problem called Capacitated Electric Vehicle Routing Problem (CEVRP). Due to the limited number of charging stations and the travel range of EVs, the EVs must require battery recharging moments in advance and reduce travel times and costs. The HH implemented improves multiple minimum best-known solutions and obtains the best mean values for some high-dimensional instances for the proposed benchmark for the IEEE WCCI2020 competition.
翻訳日:2022-06-08 13:47:49 公開日:2022-06-07
# where"から"what"へ--概念適合性伝播を通した人間理解可能な説明へ

From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation ( http://arxiv.org/abs/2206.03208v1 )

ライセンス: Link先を確認
Reduan Achtibat, Maximilian Dreyer, Ilona Eisenbraun, Sebastian Bosse, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin(参考訳) eXplainable Artificial Intelligence(XAI)の新興分野は、今日の強力だが不透明なディープラーニングモデルに透明性をもたらすことを目指している。 ローカルxaiメソッドは帰属マップの形で個々の予測を説明し、それによって重要な特徴がどこで発生したかを特定する(ただし、それらが表現した情報を提供しない)が、グローバル説明技法はモデルがエンコードするために一般的に学んだ概念を視覚化する。 したがって、どちらのタイプのメソッドも部分的な洞察しか提供せず、モデルの推論をユーザーに解釈する責任を残します。 地域的・グローバルなXAIの背景にある原則を組み合わせることで、より情報的な説明を得ることを目的としている技術はごくわずかである。 しかし、これらの手法は特定のモデルアーキテクチャに限定されたり、トレーニング体制やデータやラベルの可用性に関する追加の要件を課すことがよくある。 本研究では,xaiの局所的視点とグローバル的視点を組み合わせた概念適合伝播(crp)アプローチを導入し,追加の制約を伴わずに,個々の予測に対する「場所」と「何を」という問いに答える。 さらに,モデルの有用性に基づいた符号化概念の代表的な例を見つけるために,妥当性の最大化の原理も紹介する。 これにより、アクティベーション最大化の一般的な実践とその制限への依存を解消する。 提案手法を様々な環境で実証し,概念関係の伝播と妥当性の最大化が,より人間的な解釈可能な説明につながることを示すとともに,概念のアトラス,概念構成分析,概念部分空間の定量的調査と,その微細な意思決定における役割について深い洞察を与える。

The emerging field of eXplainable Artificial Intelligence (XAI) aims to bring transparency to today's powerful but opaque deep learning models. While local XAI methods explain individual predictions in form of attribution maps, thereby identifying where important features occur (but not providing information about what they represent), global explanation techniques visualize what concepts a model has generally learned to encode. Both types of methods thus only provide partial insights and leave the burden of interpreting the model's reasoning to the user. Only few contemporary techniques aim at combining the principles behind both local and global XAI for obtaining more informative explanations. Those methods, however, are often limited to specific model architectures or impose additional requirements on training regimes or data and label availability, which renders the post-hoc application to arbitrarily pre-trained models practically impossible. In this work we introduce the Concept Relevance Propagation (CRP) approach, which combines the local and global perspectives of XAI and thus allows answering both the "where" and "what" questions for individual predictions, without additional constraints imposed. We further introduce the principle of Relevance Maximization for finding representative examples of encoded concepts based on their usefulness to the model. We thereby lift the dependency on the common practice of Activation Maximization and its limitations. We demonstrate the capabilities of our methods in various settings, showcasing that Concept Relevance Propagation and Relevance Maximization lead to more human interpretable explanations and provide deep insights into the model's representations and reasoning through concept atlases, concept composition analyses, and quantitative investigations of concept subspaces and their role in fine-grained decision making.
翻訳日:2022-06-08 13:46:30 公開日:2022-06-07
# フェデレーション学習における主観的メンバーシップ推論攻撃

Subject Membership Inference Attacks in Federated Learning ( http://arxiv.org/abs/2206.03317v1 )

ライセンス: Link先を確認
Anshuman Suri, Pallika Kanani, Virendra J. Marathe, Daniel W. Peterson(参考訳) フェデレーション学習におけるプライバシ(FL)は、個々のデータポイントを保護するアイテムレベルと、フェデレーション内の各ユーザ(参加者)を保護するユーザレベルという2つの異なる粒度で研究される。 プライベートなfl文学のほとんどすべてが、プライバシー攻撃とこの2つの粒度の防御の研究に費やされている。 近年,複数の(組織的な)FL設定でデータを分散する個人(データ主体)のプライバシを保護する手段として,主観レベルのプライバシが登場している。 敵は、訓練されたモデルを攻撃することによって、これらの個人に関する情報(例えば、データ科目)を回収することに興味があるかもしれない。 これらのパターンを体系的に研究するには、実際のデータセットでは不可能なフェデレーションを完全に制御する必要がある。 我々は,様々な合成フェデレーション構成を生成するシミュレータを設計し,データの性質,モデル設計とトレーニング,およびフェデレーション自体がプライバシリスクに与える影響について検討する。 我々は, \emph{subject member inference} に対する3つの攻撃を提案し,攻撃の有効性に影響を与えるフェデレーション内のすべての因子間の相互作用を検討する。 また,この脅威を緩和する上でのディファレンシャルプライバシの有効性についても検討する。 われわれの分析結果はfemnistのような現実世界のデータセットに一般化され、われわれの発見に信頼を与えている。

Privacy in Federated Learning (FL) is studied at two different granularities: item-level, which protects individual data points, and user-level, which protects each user (participant) in the federation. Nearly all of the private FL literature is dedicated to studying privacy attacks and defenses at these two granularities. Recently, subject-level privacy has emerged as an alternative privacy granularity to protect the privacy of individuals (data subjects) whose data is spread across multiple (organizational) users in cross-silo FL settings. An adversary might be interested in recovering private information about these individuals (a.k.a. \emph{data subjects}) by attacking the trained model. A systematic study of these patterns requires complete control over the federation, which is impossible with real-world datasets. We design a simulator for generating various synthetic federation configurations, enabling us to study how properties of the data, model design and training, and the federation itself impact subject privacy risk. We propose three attacks for \emph{subject membership inference} and examine the interplay between all factors within a federation that affect the attacks' efficacy. We also investigate the effectiveness of Differential Privacy in mitigating this threat. Our takeaways generalize to real-world datasets like FEMNIST, giving credence to our findings.
翻訳日:2022-06-08 13:45:59 公開日:2022-06-07
# 線形文脈帯域におけるグループメリトクラテスフェアネス

Group Meritocratic Fairness in Linear Contextual Bandits ( http://arxiv.org/abs/2206.03150v1 )

ライセンス: Link先を確認
Riccardo Grazzi, Arya Akhavan, John Isak Texas Falk, Leonardo Cella, Massimiliano Pontil(参考訳) エージェントがプールから1つの候補を選択し、各候補がセンシティブなグループに属するという線形文脈帯域問題について検討する。 この設定では、候補者の報酬がグループ間で直接比較されない場合がある。例えば、エージェントが異なる民族集団の雇用者であり、差別的偏見や社会的不正による低い報酬を持つグループもある。 本論では,同一集団の候補者と比較して報酬がどれだけ優れているかを測定するために,最上位の候補者を選択する際に,エージェントの方針が公平であることを示す公平性の概念を提案する。 これはフェアネスの非常に強い概念であり、相対的なランクはエージェントによって直接観察されず、基礎となる報酬モデルと報酬の分配に依存する。 そこで本稿では,各グループ間で文脈が独立であり,各グループの報酬分布が絶対連続であるという条件の下で,公正な政策を近似する政策を学習する問題を考察する。 特に,各ラウンドにおいて観測されたコンテキスト・リワード対からリッジ回帰推定器を構築し,経験的累積分布関数を用いて各候補の相対ランクの推定値を計算するグリーディ・ポリシーを設計する。 グリーディ・ポリシーが、t$ラウンドの後、ログ・ファクターまで、そして高い確率で、$d$がコンテキスト・ベクターの次元である場合、$\sqrt{dt}$という正準レグレットを達成することが証明される。 このポリシーは、選択前に利用可能なすべての可能な情報を平均化するごとに、各ラウンドにおける人口比率を満たす。 また,提案手法が準線形公正な擬似回帰を実現するという概念シミュレーションの実証を行った。

We study the linear contextual bandit problem where an agent has to select one candidate from a pool and each candidate belongs to a sensitive group. In this setting, candidates' rewards may not be directly comparable between groups, for example when the agent is an employer hiring candidates from different ethnic groups and some groups have a lower reward due to discriminatory bias and/or social injustice. We propose a notion of fairness that states that the agent's policy is fair when it selects a candidate with highest relative rank, which measures how good the reward is when compared to candidates from the same group. This is a very strong notion of fairness, since the relative rank is not directly observed by the agent and depends on the underlying reward model and on the distribution of rewards. Thus we study the problem of learning a policy which approximates a fair policy under the condition that the contexts are independent between groups and the distribution of rewards of each group is absolutely continuous. In particular, we design a greedy policy which at each round constructs a ridge regression estimator from the observed context-reward pairs, and then computes an estimate of the relative rank of each candidate using the empirical cumulative distribution function. We prove that the greedy policy achieves, after $T$ rounds, up to log factors and with high probability, a fair pseudo-regret of order $\sqrt{dT}$, where $d$ is the dimension of the context vectors. The policy also satisfies demographic parity at each round when averaged over all possible information available before the selection. We finally show with a proof of concept simulation that our policy achieves sub-linear fair pseudo-regret also in practice.
翻訳日:2022-06-08 13:45:19 公開日:2022-06-07
# 適応スライスワッサーシュタイン距離へのPAC-ベイズ光の被覆

Shedding a PAC-Bayesian Light on Adaptive Sliced-Wasserstein Distances ( http://arxiv.org/abs/2206.03230v1 )

ライセンス: Link先を確認
Ruben Ohana, Kimia Nadjahi, Alain Rakotomamonjy, Liva Ralaivola(参考訳) スライス・ワッセルシュタイン距離(sliced-wasserstein distance, sw)は、ワッセルシュタイン距離に代わる計算効率と理論上は接地された距離である。 しかし、スライス分布に関する統計学的性質に関する文献は、一様測度を超えるものはほとんどない。 この研究に新たな貢献をするため、我々はpac-ベイズ理論とswが実際にスライス分配依存のギブスリスクにかかっているという中央観測を活用し、pac-ベイズ境界の種類を特徴付けるように設計した。 4種類の結果が得られます 一 適応スライス・ヴァッサーシュタイン距離、すなわちスライスの任意の分布に関して定義される距離を保ったPAC-ベイズ一般化境界 二 当社のPAC-ベイズ境界を最適化することにより、最大判別SWを生成するスライス分布の学習方法 三 分布的スライス・ワッセルシュタイン距離の性能が、我々の理論によりどのように説明され得るか、及び iv) 調査結果の実証的な例示

The Sliced-Wasserstein distance (SW) is a computationally efficient and theoretically grounded alternative to the Wasserstein distance. Yet, the literature on its statistical properties with respect to the distribution of slices, beyond the uniform measure, is scarce. To bring new contributions to this line of research, we leverage the PAC-Bayesian theory and the central observation that SW actually hinges on a slice-distribution-dependent Gibbs risk, the kind of quantity PAC-Bayesian bounds have been designed to characterize. We provide four types of results: i) PAC-Bayesian generalization bounds that hold on what we refer as adaptive Sliced-Wasserstein distances, i.e. distances defined with respect to any distribution of slices, ii) a procedure to learn the distribution of slices that yields a maximally discriminative SW, by optimizing our PAC-Bayesian bounds, iii) an insight on how the performance of the so-called distributional Sliced-Wasserstein distance may be explained through our theory, and iv) empirical illustrations of our findings.
翻訳日:2022-06-08 13:44:48 公開日:2022-06-07
# ディープニューラルネットワークにおけるランダム効果の統合

Integrating Random Effects in Deep Neural Networks ( http://arxiv.org/abs/2206.03314v1 )

ライセンス: Link先を確認
Giora Simchoni, Saharon Rosset(参考訳) ディープニューラルネットワーク(DNN)のような教師付き学習に対する現代のアプローチは、一般的に観察された応答が統計的に独立であると暗黙的に仮定する。 対照的に、相関データは、空間的、時間的、クラスタリング構造を含む典型的な相関源を持つ、実生活の大規模アプリケーションで広く使われている。 これらの相関関係はDNNによって無視されるか、特定のユースケースに対してアドホックなソリューションが開発される。 DNNの相関データを扱うために混合モデルフレームワークを提案する。 相関構造の基礎となる効果をランダムな効果として扱うことにより、混合モデルは過剰なパラメータ推定を避け、最終的により良い予測性能が得られる。 混合モデルとDNNを組み合わせる鍵は、確率勾配降下(SGD)を含むDNN機械で最小化される自然損失関数としてガウス負対数類似関数(NLL)を用いることである。 NLLは標準のDNN損失関数のように分解されないため、NLLでのSGDの使用はいくつかの理論的および実装上の課題を提起する。 LMMNNと呼ばれる我々のアプローチは、様々なシミュレーションおよび実データに対する様々な相関シナリオにおいて、自然競合よりも性能を向上させることが実証されている。 私たちの焦点は回帰設定と表型データセットですが、分類の結果もいくつか示しています。 私たちのコードはhttps://github.com/gsimchoni/lmmnnで入手できる。

Modern approaches to supervised learning like deep neural networks (DNNs) typically implicitly assume that observed responses are statistically independent. In contrast, correlated data are prevalent in real-life large-scale applications, with typical sources of correlation including spatial, temporal and clustering structures. These correlations are either ignored by DNNs, or ad-hoc solutions are developed for specific use cases. We propose to use the mixed models framework to handle correlated data in DNNs. By treating the effects underlying the correlation structure as random effects, mixed models are able to avoid overfitted parameter estimates and ultimately yield better predictive performance. The key to combining mixed models and DNNs is using the Gaussian negative log-likelihood (NLL) as a natural loss function that is minimized with DNN machinery including stochastic gradient descent (SGD). Since NLL does not decompose like standard DNN loss functions, the use of SGD with NLL presents some theoretical and implementation challenges, which we address. Our approach which we call LMMNN is demonstrated to improve performance over natural competitors in various correlation scenarios on diverse simulated and real datasets. Our focus is on a regression setting and tabular datasets, but we also show some results for classification. Our code is available at https://github.com/gsimchoni/lmmnn.
翻訳日:2022-06-08 13:42:26 公開日:2022-06-07
# 対向訓練における適応正規化

Adaptive Regularization for Adversarial Training ( http://arxiv.org/abs/2206.03353v1 )

ライセンス: Link先を確認
Dongyoon Yang, Insung Kong, Yongdai Kim(参考訳) 敵の攻撃に対する堅牢性を高めるための敵意トレーニングは、与えられた深層ニューラルネットワークを欺くために、人間の知覚可能なデータの摂動を生成することが容易であるため、多くの注目を集めている。 本稿では,既存のアルゴリズムよりも理論的にモチベーションが高く,経験的に優れている新しい学習アルゴリズムを提案する。 提案アルゴリズムの新たな特徴は,データ適応正規化を用いて予測モデルを構築することである。 敵攻撃に対してより脆弱なデータに対してより規則化を適用する。 データ適応正則化の考え方は新しいものではないが、我々のデータ適応正則化はロバストリスクの上限を下げる理論的な基礎を持っている。 数値実験により,提案手法が一般化(クリーンサンプルの精度)とロバスト性(敵対攻撃の精度)を同時に改善し,最先端の性能を実現することを示す。

Adversarial training, which is to enhance robustness against adversarial attacks, has received much attention because it is easy to generate human-imperceptible perturbations of data to deceive a given deep neural network. In this paper, we propose a new adversarial training algorithm that is theoretically well motivated and empirically superior to other existing algorithms. A novel feature of the proposed algorithm is to use a data-adaptive regularization for robustifying a prediction model. We apply more regularization to data which are more vulnerable to adversarial attacks and vice versa. Even though the idea of data-adaptive regularization is not new, our data-adaptive regularization has a firm theoretical base of reducing an upper bound of the robust risk. Numerical experiments illustrate that our proposed algorithm improves the generalization (accuracy on clean samples) and robustness (accuracy on adversarial attacks) simultaneously to achieve the state-of-the-art performance.
翻訳日:2022-06-08 13:42:00 公開日:2022-06-07
# Tutel: スケールでの適応的な混合処理

Tutel: Adaptive Mixture-of-Experts at Scale ( http://arxiv.org/abs/2206.03382v1 )

ライセンス: Link先を確認
Changho Hwang, Wei Cui, Yifan Xiong, Ziyue Yang, Ze Liu, Han Hu, Zilong Wang, Rafael Salas, Jithin Jose, Prabhat Ram, Joe Chau, Peng Cheng, Fan Yang, Mao Yang, Yongqiang Xiong(参考訳) 近年、モデルのキャパシティを1兆以上のパラメータにスケールし、分散計算による計算コストを削減できるディープラーニングの有望なテクニックとして、mixed-of-experts(moe)が登場している。 MoEは、非常に大きなモデルの新たなフロンティアを開くが、MoEの動的性質とシステムの静的並列性/パイプライニングとのミスマッチにより、数千のGPUの実装が制限されている。 動的適応並列処理とパイプライニングを備えたMoEのための高度にスケーラブルなスタック設計および実装であるTutelを提案する。 Tutelは、実行時に適応並列性スイッチングと適応パイプライン化を提供し、それぞれ1.74xと2.00xの単一MoE層を高速化する。 また,従来の2,048GPUの20.7倍の性能を持つMoE通信高速化のための新しい2次元階層アルゴリズムを提案する。 すべてのテクニックを集約することで、tutelは最終的に16gpu上の1つのmoeレイヤの4.96倍と5.75倍のスピードアップをfairseq上で実現している。 Tutelのソースコードは、https://github.com/microsoft/tutel.comで公開されている。 評価の結果,tutel は最先端のコンピュータビジョンアーキテクチャである swin transformer v2 を基盤とした実世界の moe ベースのモデル swinv2-moe を効率的かつ効果的に動作させることがわかった。 効率性では、TutelはSwinV2-MoEを加速し、Fairseq上でのトレーニングで最大1.55倍と2.11倍のスピードアップを達成する。 SwinV2-MoEモデルは、COCOオブジェクト検出などの事前学習および下流コンピュータビジョンタスクにおいて、一方の高密度モデルよりも優れた精度を実現し、エンドツーエンドのモデルトレーニングと推論のためのTutelの準備ができていることを示す。 SwinV2-MoEはhttps://github.com/microsoft/Swin-Transformerでオープンソース化されている。

In recent years, Mixture-of-Experts (MoE) has emerged as a promising technique for deep learning that can scale the model capacity to trillion-plus parameters while reducing the computing cost via sparse computation. While MoE opens a new frontier of exceedingly large models, its implementation over thousands of GPUs has been limited due to mismatch between the dynamic nature of MoE and static parallelism/pipelining of the system. We present Tutel, a highly scalable stack design and implementation for MoE with dynamically adaptive parallelism and pipelining. Tutel delivers adaptive parallelism switching and adaptive pipelining at runtime, which achieves up to 1.74x and 2.00x single MoE layer speedup, respectively. We also propose a novel two-dimensional hierarchical algorithm for MoE communication speedup that outperforms the previous state-of-the-art up to 20.7x over 2,048 GPUs. Aggregating all techniques, Tutel finally delivers 4.96x and 5.75x speedup of a single MoE layer on 16 GPUs and 2,048 GPUs, respectively, over Fairseq: Meta's Facebook AI Research Sequence-to-Sequence Toolkit (Tutel is now partially adopted by Fairseq). Tutel source code is available in public: https://github.com/microsoft/tutel . Our evaluation shows that Tutel efficiently and effectively runs a real-world MoE-based model named SwinV2-MoE, built upon Swin Transformer V2, a state-of-the-art computer vision architecture. On efficiency, Tutel accelerates SwinV2-MoE, achieving up to 1.55x and 2.11x speedup in training and inference over Fairseq, respectively. On effectiveness, the SwinV2-MoE model achieves superior accuracy in both pre-training and down-stream computer vision tasks such as COCO object detection than the counterpart dense model, indicating the readiness of Tutel for end-to-end real-world model training and inference. SwinV2-MoE is open sourced in https://github.com/microsoft/Swin-Transformer .
翻訳日:2022-06-08 13:41:44 公開日:2022-06-07
# DETR++: マルチスケール検出トランスのカスタマイズ

DETR++: Taming Your Multi-Scale Detection Transformer ( http://arxiv.org/abs/2206.02977v1 )

ライセンス: Link先を確認
Chi Zhang, Lijuan Liu, Xiaoxue Zang, Frederick Liu, Hao Zhang, Xinying Song, Jindong Chen(参考訳) 畳み込みニューラルネットワーク(CNN)は,ImageNet分類におけるAlexNetの成功以来,検出の領域を支配してきた[12]。 自然言語処理におけるトランスフォーマーの徹底的な改革 [27] , Carion et al。 [2] 変圧器に基づく検出法、すなわち detr を導入する。 しかし、変圧器の自己着脱機構の二次的な複雑さのため、detrは既存のcnnベースの検出器のようにマルチスケールの機能を組み込むことができないため、小さな物体検出では劣る結果となる。 この問題を緩和し,さらにDETRの性能向上を図るため,本研究では,マルチスケール特徴を組み込む様々な手法について検討し,両方向特徴ピラミッド(BiFPN)がDETRに最適であることを確認した。 この発見により,ms coco 2017では1.9% ap,ricoアイコン検出では11.5%,既存ベースライン上で9.1% apの検出結果を改善する新しいアーキテクチャであるdetr++を提案する。

Convolutional Neural Networks (CNN) have dominated the field of detection ever since the success of AlexNet in ImageNet classification [12]. With the sweeping reform of Transformers [27] in natural language processing, Carion et al. [2] introduce the Transformer-based detection method, i.e., DETR. However, due to the quadratic complexity in the self-attention mechanism in the Transformer, DETR is never able to incorporate multi-scale features as performed in existing CNN-based detectors, leading to inferior results in small object detection. To mitigate this issue and further improve performance of DETR, in this work, we investigate different methods to incorporate multi-scale features and find that a Bi-directional Feature Pyramid (BiFPN) works best with DETR in further raising the detection precision. With this discovery, we propose DETR++, a new architecture that improves detection results by 1.9% AP on MS COCO 2017, 11.5% AP on RICO icon detection, and 9.1% AP on RICO layout extraction over existing baselines.
翻訳日:2022-06-08 13:41:07 公開日:2022-06-07
# 皮質メッシュセグメンテーションにおける等価メッセージパッシングの有用性

Utility of Equivariant Message Passing in Cortical Mesh Segmentation ( http://arxiv.org/abs/2206.03164v1 )

ライセンス: Link先を確認
D\'aniel Unyi, Ferdinando Insalata, Petar Veli\v{c}kovi\'c, B\'alint Gyires-T\'oth(参考訳) 皮質領域の自動分割は医用画像解析における長年の課題である。 皮質の複雑な幾何学は一般に多角形メッシュとして表現され、そのセグメンテーションはグラフベースの学習方法によって対処できる。 被験者間で皮質メッシュがミスアライメントされる場合、現在の方法はセグメント化結果が著しく悪化し、マルチドメインデータを扱う能力が制限される。 本稿では,E(n)-同変グラフニューラルネットワーク(EGNN)の有用性について検討し,その性能を通常のグラフニューラルネットワーク(GNN)と比較する。 評価の結果,グローバル座標系の存在を活用できるため,GNNは協調メッシュ上でのEGNNよりも優れていた。 ミスアライメントメッシュでは、プレーンgnnのパフォーマンスは大幅に低下し、e(n)-equivariant message passingは同じセグメンテーション結果を維持する。 最適な結果を得るには、アライメントされたデータ(グローバル座標系における共登録メッシュ)にプレーンGNNを使用することも可能である。

The automated segmentation of cortical areas has been a long-standing challenge in medical image analysis. The complex geometry of the cortex is commonly represented as a polygon mesh, whose segmentation can be addressed by graph-based learning methods. When cortical meshes are misaligned across subjects, current methods produce significantly worse segmentation results, limiting their ability to handle multi-domain data. In this paper, we investigate the utility of E(n)-equivariant graph neural networks (EGNNs), comparing their performance against plain graph neural networks (GNNs). Our evaluation shows that GNNs outperform EGNNs on aligned meshes, due to their ability to leverage the presence of a global coordinate system. On misaligned meshes, the performance of plain GNNs drop considerably, while E(n)-equivariant message passing maintains the same segmentation results. The best results can also be obtained by using plain GNNs on realigned data (co-registered meshes in a global coordinate system).
翻訳日:2022-06-08 13:40:50 公開日:2022-06-07
# Deep Neural Patchworks: 大きなセグメンテーションタスクによるコーディング

Deep Neural Patchworks: Coping with Large Segmentation Tasks ( http://arxiv.org/abs/2206.03210v1 )

ライセンス: Link先を確認
Marco Reisert, Maximilian Russe, Samer Elsheikh, Elias Kellner, Henrik Skibbe(参考訳) 畳み込みニューラルネットワークは任意の画像セグメンテーションタスクを解決する方法である。 しかし、画像が大きい場合、メモリ要求は利用可能なリソース、特に一般的なGPUを上回ることが多い。 特に3D画像が一般的である生体医用画像では、問題は明らかである。 この制限を解決する典型的なアプローチは、画像を小さなイメージパッチに分割することで、タスクを小さなサブタスクに分割することである。 もう一つのアプローチは、2D画像セクションを別々に検討し、その問題を2Dで解くことである。 現在の画像パッチや選択した2d画像セクションには重要なグローバル情報が存在しない場合もあります。 本稿では、グローバルコンテキストとメモリ制限の間のジレンマを解決するパッチベースのネットワークの階層的およびネスト的積み重ねに基づくセグメンテーションフレームワークであるDeep Neural Patchworks(DNP)を提案する。

Convolutional neural networks are the way to solve arbitrary image segmentation tasks. However, when images are large, memory demands often exceed the available resources, in particular on a common GPU. Especially in biomedical imaging, where 3D images are common, the problems are apparent. A typical approach to solve this limitation is to break the task into smaller subtasks by dividing images into smaller image patches. Another approach, if applicable, is to look at the 2D image sections separately, and to solve the problem in 2D. Often, the loss of global context makes such approaches less effective; important global information might not be present in the current image patch, or the selected 2D image section. Here, we propose Deep Neural Patchworks (DNP), a segmentation framework that is based on hierarchical and nested stacking of patch-based networks that solves the dilemma between global context and memory limitations.
翻訳日:2022-06-08 13:40:32 公開日:2022-06-07
# $\mathrm{N}$Dにおける長距離依存のための汎用CNN

Towards a General Purpose CNN for Long Range Dependencies in $\mathrm{N}$D ( http://arxiv.org/abs/2206.03398v1 )

ライセンス: Link先を確認
David W. Romero, David M. Knigge, Albert Gu, Erik J. Bekkers, Efstratios Gavves, Jakub M. Tomczak, Mark Hoogendoorn(参考訳) 畳み込みニューラルネットワーク(CNN)の使用は、機械学習フレームワークの効率的かつ効率的な結果をもたらす、望ましいモデル特性の幅により、ディープラーニングで広く利用されている。 しかし、性能の高いCNNアーキテクチャは、入力長、解像度、拡張性といった考慮事項を取り入れるために、特定のタスクに合わせる必要がある。 本研究では、連続畳み込みニューラルネットワーク(CCNN)による問題固有のCNNアーキテクチャの必要性を克服する。これは連続畳み込みカーネルを備えた単一のCNNアーキテクチャで、任意の解像度、次元、長さのデータを、構造的な変更なしにタスクに使用できる。 連続畳み込みカーネルは、各レイヤの長距離依存性をモデル化し、現在のcnnアーキテクチャに必要なダウンサンプリング層とタスク依存の深さの必要性を取り除く。 我々は、シーケンシャル (1$\mathrm{d}$) とビジュアルデータ (2$\mathrm{d}$) の幅広いタスクに同じccnnを適用することにより、我々のアプローチの汎用性を示す。 私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。

The use of Convolutional Neural Networks (CNNs) is widespread in Deep Learning due to a range of desirable model properties which result in an efficient and effective machine learning framework. However, performant CNN architectures must be tailored to specific tasks in order to incorporate considerations such as the input length, resolution, and dimentionality. In this work, we overcome the need for problem-specific CNN architectures with our Continuous Convolutional Neural Network (CCNN): a single CNN architecture equipped with continuous convolutional kernels that can be used for tasks on data of arbitrary resolution, dimensionality and length without structural changes. Continuous convolutional kernels model long range dependencies at every layer, and remove the need for downsampling layers and task-dependent depths needed in current CNN architectures. We show the generality of our approach by applying the same CCNN to a wide set of tasks on sequential (1$\mathrm{D}$) and visual data (2$\mathrm{D}$). Our CCNN performs competitively and often outperforms the current state-of-the-art across all tasks considered.
翻訳日:2022-06-08 13:40:16 公開日:2022-06-07
# 映像・言語学習のための単一フレームバイアスの解明

Revealing Single Frame Bias for Video-and-Language Learning ( http://arxiv.org/abs/2206.03428v1 )

ライセンス: Link先を確認
Jie Lei, Tamara L. Berg, Mohit Bansal(参考訳) 効果的なビデオと言語モデルを直感的にトレーニングするには、モデル入力として複数のフレームが必要である。 しかし、複数のフレームを使うことが下流のタスクに有益かどうかは不明であり、パフォーマンス向上に価値があるかどうかは、より多くのフレームを使用することによって生じる計算コストとメモリコストを大幅に増加させる。 本研究では,ビデオ・言語学習のための単一フレームモデルについて検討する。 テキスト・ツー・ビデオ検索やビデオ質問応答を含む多種多様なタスクにおいて,大規模事前学習と推論時の適切なフレームアンサンブル戦略により,時間的情報を考慮しない単一フレーム学習モデルは,訓練に複数のフレームを使用する既存手法よりも優れた性能が得られることを示す。 この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを示している。 そこで本稿では,ビデオ・言語モデルのより包括的な評価を可能にするために,時間的モデリングを奨励する既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。 私たちのコードはhttps://github.com/jayleicn/singularityで利用可能です。

Training an effective video-and-language model intuitively requires multiple frames as model inputs. However, it is unclear whether using multiple frames is beneficial to downstream tasks, and if yes, whether the performance gain is worth the drastically-increased computation and memory costs resulting from using more frames. In this work, we explore single-frame models for video-and-language learning. On a diverse set of video-and-language tasks (including text-to-video retrieval and video question answering), we show the surprising result that, with large-scale pre-training and a proper frame ensemble strategy at inference time, a single-frame trained model that does not consider temporal information can achieve better performance than existing methods that use multiple frames for training. This result reveals the existence of a strong "static appearance bias" in popular video-and-language datasets. Therefore, to allow for a more comprehensive evaluation of video-and-language models, we propose two new retrieval tasks based on existing fine-grained action recognition datasets that encourage temporal modeling. Our code is available at https://github.com/jayleicn/singularity
翻訳日:2022-06-08 13:13:09 公開日:2022-06-07
# 単語埋め込みにおけるジェンダーバイアス:周波数・構文・意味論の包括的分析

Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency, Syntax, and Semantics ( http://arxiv.org/abs/2206.03390v1 )

ライセンス: Link先を確認
Aylin Caliskan, Pimparkar Parth Ajay, Tessa Charlesworth, Robert Wolfe, Mahzarin R. Banaji(参考訳) 言語コーパスの統計的規則性は、よく知られた社会的バイアスを単語埋め込みに符号化する。 ここでは,インターネットコーポラ(glove 2014 fasttext 2017)でトレーニングされた静的英語単語埋め込みにおけるグループベースバイアスの包括的分析を行うために,性別に着目した。 単一カテゴリー単語埋め込みアソシエーションテストを用いて、(1)男性と女性に関連付けられた単語の頻度の差を示す性別バイアスの広さを実証する。 (b)性別関連語における語尾タグ (c)性関連語における意味カテゴリー、及び (d)性関連語における有能性,覚醒性,支配性 まず、単語頻度の観点では、語彙の中で最も頻繁な単語1,000のうち、77%が女性よりも男性に関連があり、英語圏の日常言語における男性的デフォルトの直接的な証拠であることがわかった。 第二に、男性関連語のトップは動詞(例えば、戦い、力過剰)、女性関連語のトップは形容詞と副詞(例えば、感情的に与える)である。 埋め込みにおけるジェンダーバイアスは、スペッチの部分にも浸透する。 第3に、セマンティックカテゴリ:ボトムアップ、各性別に関連する上位1000単語のクラスタ分析。 男性関連の概念のトップは、ビッグテック、エンジニアリング、宗教、スポーツ、暴力の分野である。対照的に、女性関連の概念のトップは、女性固有のスラーや性的コンテンツ、外観やキッチン用語など、役割に重点を置いていない。 第4に、単語のヴァレンス、覚醒、および約2万語近い語彙からの優位の人間の評価を用いて、男性関連語は覚醒と支配において高く、女性関連語はヴァレンスにおいて高いことが分かる。

The statistical regularities in language corpora encode well-known social biases into word embeddings. Here, we focus on gender to provide a comprehensive analysis of group-based biases in widely-used static English word embeddings trained on internet corpora (GloVe 2014, fastText 2017). Using the Single-Category Word Embedding Association Test, we demonstrate the widespread prevalence of gender biases that also show differences in: (1) frequencies of words associated with men versus women; (b) part-of-speech tags in gender-associated words; (c) semantic categories in gender-associated words; and (d) valence, arousal, and dominance in gender-associated words. First, in terms of word frequency: we find that, of the 1,000 most frequent words in the vocabulary, 77% are more associated with men than women, providing direct evidence of a masculine default in the everyday language of the English-speaking world. Second, turning to parts-of-speech: the top male-associated words are typically verbs (e.g., fight, overpower) while the top female-associated words are typically adjectives and adverbs (e.g., giving, emotionally). Gender biases in embeddings also permeate parts-of-speech. Third, for semantic categories: bottom-up, cluster analyses of the top 1,000 words associated with each gender. The top male-associated concepts include roles and domains of big tech, engineering, religion, sports, and violence; in contrast, the top female-associated concepts are less focused on roles, including, instead, female-specific slurs and sexual content, as well as appearance and kitchen terms. Fourth, using human ratings of word valence, arousal, and dominance from a ~20,000 word lexicon, we find that male-associated words are higher on arousal and dominance, while female-associated words are higher on valence.
翻訳日:2022-06-08 13:12:26 公開日:2022-06-07
# (参考訳) 3次元手のポーズ推定のための効率的なアノテーションと学習:調査

Efficient Annotation and Learning for 3D Hand Pose Estimation: A Survey ( http://arxiv.org/abs/2206.02257v2 )

ライセンス: CC BY 4.0
Takehiko Ohkawa and Ryosuke Furuta and Yoichi Sato(参考訳) 本研究では,効率的なアノテーションと学習の観点から3次元手形推定の包括的解析を行う。 特に,アノテーションデータに制限のある3次元手形アノテーションと学習手法に対する最近のアプローチについて検討した。 3Dハンドポーズ推定では、3Dハンドポーズアノテーションの収集は、ビデオ理解、AR/VR、ロボット工学などの手ポーズ推定器とその応用を開発するための重要なステップである。 しかし,3d情報へのアクセスや咬合が困難であるなど,注釈付き3d手ポーズの取得は煩雑である。 アノテーション問題に対する最近の取り組みを解明し,マニュアル,合成モデルベース,ハンドセンサーベース,計算手法に分類したアノテーション手法について検討した。 これらのアノテーションは,必ずしも大規模に利用できないため,自己教師付き事前学習,半教師付き学習,ドメイン適応といった,十分なアノテートデータを持たない3Dハンドポーズの学習方法を検討した。 これらの効率的なアノテーションと学習の分析に基づいて、この分野の限界と将来的な方向性をさらに議論する。

In this survey, we present comprehensive analysis of 3D hand pose estimation from the perspective of efficient annotation and learning. In particular, we study recent approaches for 3D hand pose annotation and learning methods with limited annotated data. In 3D hand pose estimation, collecting 3D hand pose annotation is a key step in developing hand pose estimators and their applications, such as video understanding, AR/VR, and robotics. However, acquiring annotated 3D hand poses is cumbersome, e.g., due to the difficulty of accessing 3D information and occlusion. Motivated by elucidating how recent works address the annotation issue, we investigated annotation methods classified as manual, synthetic-model-based, hand-sensor-based, and computational approaches. Since these annotation methods are not always available on a large scale, we examined methods of learning 3D hand poses when we do not have enough annotated data, namely self-supervised pre-training, semi-supervised learning, and domain adaptation. Based on the analysis of these efficient annotation and learning, we further discuss limitations and possible future directions of this field.
翻訳日:2022-06-08 12:53:05 公開日:2022-06-07
# (参考訳) 高次元二元マルコフガウス混合モデルの平均推定

Mean Estimation in High-Dimensional Binary Markov Gaussian Mixture Models ( http://arxiv.org/abs/2206.02455v2 )

ライセンス: CC BY 4.0
Yihan Zhang, Nir Weinberger(参考訳) データ中のメモリ間の相互作用, サンプルサイズ, 寸法, および統計的推測における信号強度を照らす2値隠れマルコフモデルに対する高次元平均推定問題を考える。 このモデルでは、推定子は$d$次元パラメータベクトル$\theta_{*}\in\mathbb{R}^{d}$の$n$サンプルを観察し、ランダムサイン$S_i$$1\le i\le n$で乗算し、等方的な標準ガウスノイズによって劣化する。 符号の列 $\{S_{i}\}_{i\in[n]}\in\{-1,1\}^{n}$ は、フリップ確率 $\delta\in[0,1/2]$ の定常同質マルコフ鎖から引き出される。 このモデルは、$\delta=0$と$\delta=1/2$のガウス混合モデルという2つのよく研究されたモデルを円滑に補足する。 推定者が$\delta$を知っていれば、$\|\theta_{*}\|,\delta,d,n$ の関数として、最小限の最適(対数係数まで)推定誤差率を確立する。 次に、$\delta$を推定する場合には、$\theta_{*}$の(おそらく不正確な)知識を仮定する上限を与える。 この境界は、$\theta_{*}$が正確に知られている定数であるときに厳密であることが証明される。 これらの結果は$\theta_{*}$と$\delta$ unknown a prioriと推定されるアルゴリズムに結合され、そのエラーに関する理論的保証が記述される。

We consider a high-dimensional mean estimation problem over a binary hidden Markov model, which illuminates the interplay between memory in data, sample size, dimension, and signal strength in statistical inference. In this model, an estimator observes $n$ samples of a $d$-dimensional parameter vector $\theta_{*}\in\mathbb{R}^{d}$, multiplied by a random sign $ S_i $ ($1\le i\le n$), and corrupted by isotropic standard Gaussian noise. The sequence of signs $\{S_{i}\}_{i\in[n]}\in\{-1,1\}^{n}$ is drawn from a stationary homogeneous Markov chain with flip probability $\delta\in[0,1/2]$. As $\delta$ varies, this model smoothly interpolates two well-studied models: the Gaussian Location Model for which $\delta=0$ and the Gaussian Mixture Model for which $\delta=1/2$. Assuming that the estimator knows $\delta$, we establish a nearly minimax optimal (up to logarithmic factors) estimation error rate, as a function of $\|\theta_{*}\|,\delta,d,n$. We then provide an upper bound to the case of estimating $\delta$, assuming a (possibly inaccurate) knowledge of $\theta_{*}$. The bound is proved to be tight when $\theta_{*}$ is an accurately known constant. These results are then combined to an algorithm which estimates $\theta_{*}$ with $\delta$ unknown a priori, and theoretical guarantees on its error are stated.
翻訳日:2022-06-08 12:38:32 公開日:2022-06-07
# (参考訳) UTTS:条件付き乱数変分自動エンコーダを用いた教師なしTS

UTTS: Unsupervised TTS with Conditional Disentangled Sequential Variational Auto-encoder ( http://arxiv.org/abs/2206.02512v2 )

ライセンス: CC BY 4.0
Jiachen Lian and Chunlei Zhang and Gopala Krishna Anumanchipalli and Dong Yu(参考訳) 本稿では,TTS音響モデリング(AM)のためのテキストオーディオペアを必要としない,教師なし音声合成(UTTS)フレームワークを提案する。 UTTSは、アンタングル表現学習の観点から開発された多話者音声合成器である。 このフレームワークは話者の持続時間モデル、音色特徴(identity)、tts推論のためのコンテンツの柔軟な選択を提供する。 近年の自己教師型音声表現学習の進歩と,システム開発のための音声合成フロントエンド技術を活用している。 具体的には,入力テキストを音素列にマッピングするレキシコンを用いて,フレームレベル強制アライメント(fa)に話者依存の持続時間モデルで拡張する。 次に,faを教師なしアライメント(ua)に変換するアライメントマッピングモジュールを開発する。 最後に、自己教師型TTS AMとして機能する条件分散逐次変分自動符号化器(C-DSVAE)は、予測されたUAとターゲットスピーカを埋め込み、メルスペクトルを生成し、最終的にニューラルボコーダで波形に変換する。 ペアttsコーパスを用いずに音声合成を実現する方法を示す。 実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性の音声を合成できることが示されている。

In this paper, we propose a novel unsupervised text-to-speech (UTTS) framework which does not require text-audio pairs for the TTS acoustic modeling (AM). UTTS is a multi-speaker speech synthesizer developed from the perspective of disentangled speech representation learning. The framework offers a flexible choice of a speaker's duration model, timbre feature (identity) and content for TTS inference. We leverage recent advancements in self-supervised speech representation learning as well as speech synthesis front-end techniques for the system development. Specifically, we utilize a lexicon to map input text to the phoneme sequence, which is expanded to the frame-level forced alignment (FA) with a speaker-dependent duration model. Then, we develop an alignment mapping module that converts the FA to the unsupervised alignment (UA). Finally, a Conditional Disentangled Sequential Variational Auto-encoder (C-DSVAE), serving as the self-supervised TTS AM, takes the predicted UA and a target speaker embedding to generate the mel spectrogram, which is ultimately converted to waveform with a neural vocoder. We show how our method enables speech synthesis without using a paired TTS corpus. Experiments demonstrate that UTTS can synthesize speech of high naturalness and intelligibility measured by human and objective evaluations.
翻訳日:2022-06-08 12:36:47 公開日:2022-06-07
# (参考訳) UAV誘導計画のための説明可能な深層強化学習に基づくロバスト攻撃検出

Robust Adversarial Attacks Detection based on Explainable Deep Reinforcement Learning For UAV Guidance and Planning ( http://arxiv.org/abs/2206.02670v2 )

ライセンス: CC BY 4.0
Thomas Hickling, Nabil Aouf and Phillippa Spencer(参考訳) 公の場で活動する無人航空機(uav)エージェントに対する敵対的な攻撃の危険性が高まっている。 AIベースのテクニックを採用し、さらに具体的には、これらのUAVを制御し、ガイドするためのディープラーニング(DL)アプローチを採用することは、パフォーマンスの観点からは有益であるが、これらのテクニックの安全性と、エージェントが混乱するにつれて衝突が起こる可能性のある敵攻撃に対する脆弱性に対する懸念をさらに高めることができる。 本稿では,これらのdlスキームを保護する効率的な検出器を構築するための,dlメソッドの説明可能性に基づく革新的なアプローチを提案する。 エージェントは、ガイダンスと計画のためのDeep Reinforcement Learning(DRL)スキームを採用している。 人工電位場(APF)を利用する優先経験再生(PER)DRLスキームを用いて、DDPG(Deep Deterministic Policy Gradient)を用いて、トレーニング時間と障害物回避性能を改善する。 敵の攻撃はFGSM(Fast Gradient Sign Method)とBIM(Basic Iterative Method)アルゴリズムによって発生し、障害物コース完了率を80\%から35\%に下げる。 UAVの説明可能なDRLベース計画と障害や敵攻撃を含むガイダンスのための現実的合成環境を構築した。 2つの攻撃検知器が提案されている。 1つは、畳み込みニューラルネットワーク(CNN)アーキテクチャを採用し、80%の精度で検出する。 第2検出器はLong Short Term Memory (LSTM) ネットワークに基づいて開発され、CNNベースの検出器と比較して計算時間をはるかに速くして91\%の精度を達成する。

The danger of adversarial attacks to unprotected Uncrewed Aerial Vehicle (UAV) agents operating in public is growing. Adopting AI-based techniques and more specifically Deep Learning (DL) approaches to control and guide these UAVs can be beneficial in terms of performance but add more concerns regarding the safety of those techniques and their vulnerability against adversarial attacks causing the chances of collisions going up as the agent becomes confused. This paper proposes an innovative approach based on the explainability of DL methods to build an efficient detector that will protect these DL schemes and thus the UAVs adopting them from potential attacks. The agent is adopting a Deep Reinforcement Learning (DRL) scheme for guidance and planning. It is formed and trained with a Deep Deterministic Policy Gradient (DDPG) with Prioritised Experience Replay (PER) DRL scheme that utilises Artificial Potential Field (APF) to improve training times and obstacle avoidance performance. The adversarial attacks are generated by Fast Gradient Sign Method (FGSM) and Basic Iterative Method (BIM) algorithms and reduced obstacle course completion rates from 80\% to 35\%. A Realistic Synthetic environment for UAV explainable DRL based planning and guidance including obstacles and adversarial attacks is built. Two adversarial attack detectors are proposed. The first one adopts a Convolutional Neural Network (CNN) architecture and achieves an accuracy in detection of 80\%. The second detector is developed based on a Long Short Term Memory (LSTM) network and achieves an accuracy of 91\% with much faster computing times when compared to the CNN based detector.
翻訳日:2022-06-08 12:18:53 公開日:2022-06-07
# (参考訳) 医用画像における連続注意のための凸最適化層の二重分解

Dual Decomposition of Convex Optimization Layers for Consistent Attention in Medical Images ( http://arxiv.org/abs/2206.02761v2 )

ライセンス: CC BY 4.0
Tom Ron, Michal Weiler-Sagie, Tamir Hazan(参考訳) 医学における機械学習モデルの統合における重要な関心事は、推論を解釈する能力である。 一般的な説明可能性法は自然画像認識において良好な結果を示しているが、医用画像解析では、多くの手法が部分的かつ騒がしい説明を提供する。 近年,注意喚起機構は,その予測性能と解釈可能な品質の両方において有意な結果を示している。 注意の基本的な特徴は、モデルの予測に寄与する入力の突出部を活用することである。 そこで本研究では,注目重量分布の説明的価値に着目した。 凸最適化を用いた畳み込み層間の一貫した解釈を行う多層アテンション機構を提案する。 注意確率分布を再パラメータ化することにより,層間の一貫性制約を分解するために双対性を適用する。 さらに,目的を最適化して双対証人の学習を推奨するので,実装では標準バックプロパゲーションを用いるので,高い効率性が期待できる。 提案手法は,予測性能を保ちながら,弱い注釈付き医用画像データを活用し,モデルの予測に完全かつ忠実な説明を提供する。

A key concern in integrating machine learning models in medicine is the ability to interpret their reasoning. Popular explainability methods have demonstrated satisfactory results in natural image recognition, yet in medical image analysis, many of these approaches provide partial and noisy explanations. Recently, attention mechanisms have shown compelling results both in their predictive performance and in their interpretable qualities. A fundamental trait of attention is that it leverages salient parts of the input which contribute to the model's prediction. To this end, our work focuses on the explanatory value of attention weight distributions. We propose a multi-layer attention mechanism that enforces consistent interpretations between attended convolutional layers using convex optimization. We apply duality to decompose the consistency constraints between the layers by reparameterizing their attention probability distributions. We further suggest learning the dual witness by optimizing with respect to our objective; thus, our implementation uses standard back-propagation, hence it is highly efficient. While preserving predictive performance, our proposed method leverages weakly annotated medical imaging data and provides complete and faithful explanations to the model's prediction.
翻訳日:2022-06-08 11:59:32 公開日:2022-06-07
# 可変レート階層CPCは音声における音響単位の発見につながる

Variable-rate hierarchical CPC leads to acoustic unit discovery in speech ( http://arxiv.org/abs/2206.02211v2 )

ライセンス: Link先を確認
Santiago Cuervo and Adrian {\L}a\'ncucki and Ricard Marxer and Pawe{\l} Rychlikowski and Jan Chorowski(参考訳) ディープラーニングの成功は、低レベルの表現で定義された高レベル表現を学習することで、データの階層構造を捉える能力から来ている。 本稿では,複数レベルのコントラスト予測符号化(CPC)を適用し,音声の階層的表現の自己教師型学習について検討する。 2つのCPCモデルの積み重ねだけではシングルレベルのアーキテクチャよりも大きな改善が得られない。 そこで本研究では,低レベルCPCモジュールの出力を非一様化して高レベルCPCモジュールの損失を直接最小化するモデルを提案する。 後者は、集中した負のサンプリングと予測対象の量子化によって連続する高水準表現の不一致を強制することにより、その表現における分離可能性と離散性の先行を強制するようにも設計されている。 音声信号の構造に関する説明は、単レベルCPCの特徴により改善され、下流の音声認識タスクによって測定された学習された表現の絡み合いが向上すると同時に、音声境界によく似た信号の有意義なセグメンテーションをもたらす。

The success of deep learning comes from its ability to capture the hierarchical structure of data by learning high-level representations defined in terms of low-level ones. In this paper we explore self-supervised learning of hierarchical representations of speech by applying multiple levels of Contrastive Predictive Coding (CPC). We observe that simply stacking two CPC models does not yield significant improvements over single-level architectures. Inspired by the fact that speech is often described as a sequence of discrete units unevenly distributed in time, we propose a model in which the output of a low-level CPC module is non-uniformly downsampled to directly minimize the loss of a high-level CPC module. The latter is designed to also enforce a prior of separability and discreteness in its representations by enforcing dissimilarity of successive high-level representations through focused negative sampling, and by quantization of the prediction targets. Accounting for the structure of the speech signal improves upon single-level CPC features and enhances the disentanglement of the learned representations, as measured by downstream speech recognition tasks, while resulting in a meaningful segmentation of the signal that closely resembles phone boundaries.
翻訳日:2022-06-08 11:34:56 公開日:2022-06-07
# 言語モデルの改良にむけて

On the Advance of Making Language Models Better Reasoners ( http://arxiv.org/abs/2206.02336v2 )

ライセンス: Link先を確認
Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou, Weizhu Chen(参考訳) GPT-3 や PaLM のような大規模言語モデルは、数発の学習で顕著な性能を示した。 しかし、彼らは算術ベンチマークGSM8Kのような推論タスクに苦戦している。 近年の進歩は言語モデルを意図的に導き、最終回答を出す前に一連の推論ステップを生成し、GSM8Kベンチマークを17.9%から58.1%に向上させることに成功した。 本稿では,その推論能力をさらに高めるために,新しい手法である多様性(推論ステップにおける逆検証)を提案する。 DiVeRSeはまず、推論パスの多様性を高めるために異なるプロンプトを探索する。 第二に、DiVeRSeは、より良い回答と悪い回答を区別する検証器を導入し、より重み付けされた投票を行う。 最後に、多様さは、すべてのステップ全体よりも、各ステップの正しさを検証します。 最新の言語モデルであるcode-davinci-002 を用いて広範な実験を行い、DiVeRSe が8つの推論ベンチマーク(例えば GSM8K 74.4% から 83.2% )のうち6つの最先端のパフォーマンスを達成できることを示し、540B のパラメータで PaLM モデルを上回った。

Large language models such as GPT-3 and PaLM have shown remarkable performance in few-shot learning. However, they still struggle with reasoning tasks such as the arithmetic benchmark GSM8K. Recent advances deliberately guide the language model to generate a chain of reasoning steps before producing the final answer, successfully boosting the GSM8K benchmark from 17.9% to 58.1% in terms of problem solving rate. In this paper, we propose a new approach, DiVeRSe (Diverse Verifier on Reasoning Step), to further advance their reasoning capability. DiVeRSe first explores different prompts to enhance the diversity in reasoning paths. Second, DiVeRSe introduces a verifier to distinguish good answers from bad answers for a better weighted voting. Finally, DiVeRSe verifies the correctness of each single step rather than all the steps in a whole. We conduct extensive experiments using the latest language model code-davinci-002 and demonstrate that DiVeRSe can achieve new state-of-the-art performance on six out of eight reasoning benchmarks (e.g., GSM8K 74.4% to 83.2%), outperforming the PaLM model with 540B parameters.
翻訳日:2022-06-08 11:34:36 公開日:2022-06-07
# スパイクゲーティングフロー:オンラインジェスチャー認識のための階層構造に基づくスパイクニューラルネットワーク

The Spike Gating Flow: A Hierarchical Structure Based Spiking Neural Network for Online Gesture Recognition ( http://arxiv.org/abs/2206.01910v2 )

ライセンス: Link先を確認
Zihao Zhao, Yanhong Wang, Qiaosha Zou, Tie Xu, Fangbo Tao, Jiansong Zhang, Xiaoan Wang, C.-J. Richard Shi, Junwen Luo and Yuan Xie(参考訳) アクション認識は、ロボットビジョンや自動車といった新興産業分野におけるゲームチェンジャーになる可能性があるため、人工知能にとってエキサイティングな研究手段である。 しかし、現在のディープラーニングは、計算コストと非効率的な学習のために、そのようなアプリケーションにとって大きな課題に直面している。 そこで我々は,spyking gating flow (sgf) という,オンライン行動学習のための新しい脳インスパイトスパイキングニューラルネットワーク (snn) システムを開発した。 開発システムは複数のSGFユニットから構成され、階層的に組み立てられる。 1つのSGFユニットは、特徴抽出層、イベント駆動層、ヒストグラムベースのトレーニング層という3つの層を含む。 開発したシステム機能を示すために,標準的な動的視覚センサ(DVS)ジェスチャー分類をベンチマークとして採用する。 その結果,Deep Learning (DL) に匹敵する87.5%の精度を達成できるが,より少ないトレーニング/推論データ数比1.5:1で達成できることが示唆された。 そして、学習プロセス中に1つのトレーニングエポックしか必要ありません。 一方、我々の知る限りでは、これは非バックプロパゲーションアルゴリズムに基づくSNNの中で最も正確である。 最後に,開発したネットワークの数少ない学習パラダイムを結論づける。 1)階層構造に基づくネットワーク設計は,人間の事前知識を含む。 2)コンテンツに基づくグローバルな動的特徴検出のためのSNN。

Action recognition is an exciting research avenue for artificial intelligence since it may be a game changer in the emerging industrial fields such as robotic visions and automobiles. However, current deep learning faces major challenges for such applications because of the huge computational cost and the inefficient learning. Hence, we develop a novel brain-inspired Spiking Neural Network (SNN) based system titled Spiking Gating Flow (SGF) for online action learning. The developed system consists of multiple SGF units which assembled in a hierarchical manner. A single SGF unit involves three layers: a feature extraction layer, an event-driven layer and a histogram-based training layer. To demonstrate the developed system capabilities, we employ a standard Dynamic Vision Sensor (DVS) gesture classification as a benchmark. The results indicate that we can achieve 87.5% accuracy which is comparable with Deep Learning (DL), but at smaller training/inference data number ratio 1.5:1. And only a single training epoch is required during the learning process. Meanwhile, to the best of our knowledge, this is the highest accuracy among the non-backpropagation algorithm based SNNs. At last, we conclude the few-shot learning paradigm of the developed network: 1) a hierarchical structure-based network design involves human prior knowledge; 2) SNNs for content based global dynamic feature detection.
翻訳日:2022-06-08 11:34:14 公開日:2022-06-07
# モデルフリー深部RLを用いたモデルベースRLの適応ロールアウト長

Adaptive Rollout Length for Model-Based RL Using Model-Free Deep RL ( http://arxiv.org/abs/2206.02380v2 )

ライセンス: Link先を確認
Abhinav Bhatia, Philip S. Thomas, Shlomo Zilberstein(参考訳) モデルベース強化学習は、将来の相互作用を予測するために環境の中間モデルを学ぶことによって、モデルフリー強化学習と比較して、環境との相互作用が少ないことから最適なポリシーを学ぶことを約束する。 一連の相互作用を予測するとき、予測水平線を制限するロールアウト長は、予測の精度が実際の経験から遠く離れた領域で減少するため、臨界ハイパーパラメータである。 その結果、ロールアウト期間が長いため、長期的には全体的に悪い方針が学習される。 したがって、ハイパーパラメータは品質と効率のトレードオフを提供する。 本研究では,モデルの精度やインタラクションの残りの予算といった学習プロセスからのフィードバックに基づいて,ハイパーパラメータを動的に適応させることにより,環境相互作用の固定予算を与えられたモデルベース強化学習で学習した最終方針を最適化するメタレベル逐次決定問題として,ロールアウト長の調整を行う。 我々はメタレベル決定問題の解法としてモデルフリーの深層強化学習を用い、この手法がよく知られた2つの強化学習環境における共通のヒューリスティックベースラインより優れていることを示す。

Model-based reinforcement learning promises to learn an optimal policy from fewer interactions with the environment compared to model-free reinforcement learning by learning an intermediate model of the environment in order to predict future interactions. When predicting a sequence of interactions, the rollout length, which limits the prediction horizon, is a critical hyperparameter as accuracy of the predictions diminishes in the regions that are further away from real experience. As a result, with a longer rollout length, an overall worse policy is learned in the long run. Thus, the hyperparameter provides a trade-off between quality and efficiency. In this work, we frame the problem of tuning the rollout length as a meta-level sequential decision-making problem that optimizes the final policy learned by model-based reinforcement learning given a fixed budget of environment interactions by adapting the hyperparameter dynamically based on feedback from the learning process, such as accuracy of the model and the remaining budget of interactions. We use model-free deep reinforcement learning to solve the meta-level decision problem and demonstrate that our approach outperforms common heuristic baselines on two well-known reinforcement learning environments.
翻訳日:2022-06-08 11:33:55 公開日:2022-06-07
# 個人的確率勾配変化に対するインスタンスごとのプライバシ会計

Per-Instance Privacy Accounting for Differentially Private Stochastic Gradient Descent ( http://arxiv.org/abs/2206.02617v2 )

ライセンス: Link先を確認
Da Yu, Gautam Kamath, Janardhan Kulkarni, Tie-Yan Liu, Jian Yin, Huishuai Zhang(参考訳) differentially private stochasticgradient descent (dp-sgd) は、最近のプライベートディープラーニングにおけるワークホースアルゴリズムである。 データセット内のすべてのデータポイントに対して、単一のプライバシ保証を提供する。 DP-SGDの実行時の個々の事例に対するインスタンスごとのプライバシー保証を効率的に計算するアルゴリズムを提案する。 私たちはアルゴリズムを使って、複数のデータセットにわたるインスタンスごとのプライバシー損失を調査します。 ほとんどの例は、最悪の場合よりも強力なプライバシー保証を享受している。 さらに、例における損失とプライバシの損失がよく相関していることが分かりました。 これは、モデルユーティリティの観点で守られているグループは、プライバシーの損失の観点から同時に守られないことを意味する。 例えば、CIFAR-10では、最大損失(Cat)を持つクラスの平均$\epsilon$は、最低損失(Ship)を持つクラスのそれよりも32%高い。 メンバーシップ推論攻撃も実施しており、これは異なる経験的プライバシーリスクを反映している。

Differentially private stochastic gradient descent (DP-SGD) is the workhorse algorithm for recent advances in private deep learning. It provides a single privacy guarantee to all datapoints in the dataset. We propose an efficient algorithm to compute per-instance privacy guarantees for individual examples when running DP-SGD. We use our algorithm to investigate per-instance privacy losses across a number of datasets. We find that most examples enjoy stronger privacy guarantees than the worst-case bounds. We further discover that the loss and the privacy loss on an example are well-correlated. This implies groups that are underserved in terms of model utility are simultaneously underserved in terms of privacy loss. For example, on CIFAR-10, the average $\epsilon$ of the class with the highest loss (Cat) is 32% higher than that of the class with the lowest loss (Ship). We also run membership inference attacks to show this reflects disparate empirical privacy risks.
翻訳日:2022-06-08 11:33:34 公開日:2022-06-07
# norppa : ペラージュパターンアグリゲーションによる新規リングシール再同定

NORPPA: NOvel Ringed seal re-identification by Pelage Pattern Aggregation ( http://arxiv.org/abs/2206.02498v2 )

ライセンス: Link先を確認
Ekaterina Nepovinnykh, Ilia Chelak, Tuomas Eerola, Heikki K\"alvi\"ainen(参考訳) 本研究は,シマヤの環状アザラシの再同定法を提案する。 カメラトラップとクラウドソーシングによる大容量画像へのアクセスは、動物の監視と保護のための新しい可能性を提供し、特に画像から個々の動物を再同定する際、分析のための自動手法を要求する。 提案手法は,サイマアリングシールの永久的かつ独特なペラージュパターンとコンテンツベースの画像検索技術を用いて,ペラージュパターンアグリゲーション(norppa)による新たなリングシール再同定法を提案する。 まず、クエリイメージを前処理し、各シールインスタンスをセグメント化する。 次に、U-netエンコーダ-デコーダ法を用いてシールのペレージパターンを抽出する。 その後、cnnベースのアフィン不変特徴をフィッシャーベクトルに埋め込み、集約する。 最後に、フィッシャーベクトル間のコサイン距離は、既知の個人のデータベースから最適なマッチングを見つけるために使用される。 我々は,新たな挑戦的サイマーリングアザラシ再同定データセットに対する様々な修正実験を行った。 提案手法は,代替手法との比較により,データセット上で最適な再同定精度が得られることを示す。

We propose a method for Saimaa ringed seal (Pusa hispida saimensis) re-identification. Access to large image volumes through camera trapping and crowdsourcing provides novel possibilities for animal monitoring and conservation and calls for automatic methods for analysis, in particular, when re-identifying individual animals from the images. The proposed method NOvel Ringed seal re-identification by Pelage Pattern Aggregation (NORPPA) utilizes the permanent and unique pelage pattern of Saimaa ringed seals and content-based image retrieval techniques. First, the query image is preprocessed, and each seal instance is segmented. Next, the seal's pelage pattern is extracted using a U-net encoder-decoder based method. Then, CNN-based affine invariant features are embedded and aggregated into Fisher Vectors. Finally, the cosine distance between the Fisher Vectors is used to find the best match from a database of known individuals. We perform extensive experiments of various modifications of the method on a new challenging Saimaa ringed seals re-identification dataset. The proposed method is shown to produce the best re-identification accuracy on our dataset in comparisons with alternative approaches.
翻訳日:2022-06-08 11:31:18 公開日:2022-06-07
# sealid:saimaa ringed seal再識別データセット

SealID: Saimaa ringed seal re-identification dataset ( http://arxiv.org/abs/2206.02260v2 )

ライセンス: Link先を確認
Ekaterina Nepovinnykh, Tuomas Eerola, Vincent Biard, Piia Mutka, Marja Niemi, Heikki K\"alvi\"ainen, Mervi Kunnasranta(参考訳) 野生生物カメラトラップとクラウドソースの画像素材は、絶滅危惧種の監視に新たな可能性をもたらす。 しかし、これらの手法が生み出す膨大な画像ボリュームは、研究者が手動で分析を行う自動システムを呼び出すような処理を通すのに圧倒的です。 もっとも注目を集めた分析タスクは個体の再同定であり、例えば動物の移動を研究したり、個体数を推定したりすることができる。 サイマア環アザラシ(フィンランド語:pusa hispida saimensis)はフィンランドのサイマア湖でのみ見られる絶滅危惧種であり、現存する数少ない淡水性アザラシの1つである。 帯状アザラシは、個々の個人に固有の永続的なペラージュパターンを持ち、個人の識別に使用することができる。 リングパターンとペラージュの他の部分との外観やコントラストが変化し、アザラシの変形性がさらに悪化し、サイマア環アザラシの再識別作業は非常に困難となり、最先端の再識別方法を評価するための優れたベンチマークを提供する。 そこで本研究では,サイマーリングシール画像(SealID)データセット(N=57)を研究目的で公開する。 本稿では,データセットについて述べるとともに,再同定手法の評価プロトコルを提案し,HotSpotterとNORPPAの2つのベースライン手法の結果について述べる。 SealIDデータセットが公開されている。

Wildlife camera traps and crowd-sourced image material provide novel possibilities to monitor endangered animal species. However, massive image volumes that these methods produce are overwhelming for researchers to go through manually which calls for automatic systems to perform the analysis. The analysis task that has gained the most attention is the re-identification of individuals, as it allows, for example, to study animal migration or to estimate the population size. The Saimaa ringed seal (Pusa hispida saimensis) is an endangered subspecies only found in the Lake Saimaa, Finland, and is one of the few existing freshwater seal species. Ringed seals have permanent pelage patterns that are unique to each individual which can be used for the identification of individuals. Large variation in poses further exacerbated by the deformable nature of seals together with varying appearance and low contrast between the ring pattern and the rest of the pelage makes the Saimaa ringed seal re-identification task very challenging, providing a good benchmark to evaluate state-of-the-art re-identification methods. Therefore, we make our Saimaa ringed seal image (SealID) dataset (N=57) publicly available for research purposes. In this paper, the dataset is described, the evaluation protocol for re-identification methods is proposed, and the results for two baseline methods HotSpotter and NORPPA are provided. The SealID dataset has been made publicly available.
翻訳日:2022-06-08 11:30:59 公開日:2022-06-07