このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220209となっている論文です。

PDF登録状況(公開日: 20220209)

TitleAuthorsAbstract論文公表日・翻訳日
# GEOM:プロパティ予測と分子生成のためのエネルギーアノテート分子構造

GEOM: Energy-annotated molecular conformations for property prediction and molecular generation ( http://arxiv.org/abs/2006.05531v4 )

ライセンス: Link先を確認
Simon Axelrod, Rafael Gomez-Bombarelli(参考訳) 機械学習(ml)は多くの分子設計タスクで従来のアプローチを上回っている。 MLモデルは通常、2Dケミカルグラフや1つの3D構造から分子特性を予測するが、どちらの表現も分子にアクセスできる3Dコンフォメータの集合を考慮していない。 コンバータアンサンブルを入力として使用することで特性予測を改善することができるが、正確なコンバータと実験データを含むグラフを含む大規模データセットは存在しない。 ここでは,高度サンプリングと半経験的密度汎関数理論(dft)を用いて,45万以上の分子に対して3700万の分子コンフォメーションを生成する。 Geometric Ensemble Of Molecules (GEOM)データセットには、QM9の133,000種と、生物物理学、生理学、物理化学に関する実験データを含む317,000種が含まれている。 BACE-1阻害データを持つ1,511種のアンサンブルは、暗黙の水溶媒中で高品質なDFT自由エネルギーでラベル付けされ、534個のアンサンブルはさらにDFTで最適化されている。 GEOMは、コンフォーマーアンサンブルから特性を予測するモデルや、3Dコンフォーメーションをサンプリングする生成モデルの開発を支援する。

Machine learning (ML) outperforms traditional approaches in many molecular design tasks. ML models usually predict molecular properties from a 2D chemical graph or a single 3D structure, but neither of these representations accounts for the ensemble of 3D conformers that are accessible to a molecule. Property prediction could be improved by using conformer ensembles as input, but there is no large-scale dataset that contains graphs annotated with accurate conformers and experimental data. Here we use advanced sampling and semi-empirical density functional theory (DFT) to generate 37 million molecular conformations for over 450,000 molecules. The Geometric Ensemble Of Molecules (GEOM) dataset contains conformers for 133,000 species from QM9, and 317,000 species with experimental data related to biophysics, physiology, and physical chemistry. Ensembles of 1,511 species with BACE-1 inhibition data are also labeled with high-quality DFT free energies in an implicit water solvent, and 534 ensembles are further optimized with DFT. GEOM will assist in the development of models that predict properties from conformer ensembles, and generative models that sample 3D conformations.
翻訳日:2022-11-23 15:47:35 公開日:2022-02-09
# 層状深層ネットワークは閉じた重みを持つ

Deep Layer-wise Networks Have Closed-Form Weights ( http://arxiv.org/abs/2006.08539v6 )

ライセンス: Link先を確認
Chieh Wu, Aria Masoomi, Arthur Gretton, Jennifer Dy(参考訳) 現在、脳がバックプロパゲーション(BP)を行う可能性について神経科学コミュニティ内で議論がある。 脳をよりよく模倣するために、ネットワーク$\textit{one layer at a time}$を"シングルフォワードパス"のみでトレーニングすることは、BPをバイパスする代替として提案されている。 我々は,2つの優れた質問に答えることで,階層型ネットワークの研究を継続する。 まず、$\textit{彼らはクローズドフォームソリューションを持っていますか? 次に、なぜレイヤーを追加するのをやめるタイミングを知っていますか? この研究は、カーネルのMean Embeddingがネットワーク全体の最適性を達成し、ネットワークを分類するために非常に望ましいカーネルへと収束させるクローズドフォームウェイトであることを証明している。

There is currently a debate within the neuroscience community over the likelihood of the brain performing backpropagation (BP). To better mimic the brain, training a network $\textit{one layer at a time}$ with only a "single forward pass" has been proposed as an alternative to bypass BP; we refer to these networks as "layer-wise" networks. We continue the work on layer-wise networks by answering two outstanding questions. First, $\textit{do they have a closed-form solution?}$ Second, $\textit{how do we know when to stop adding more layers?}$ This work proves that the kernel Mean Embedding is the closed-form weight that achieves the network global optimum while driving these networks to converge towards a highly desirable kernel for classification; we call it the $\textit{Neural Indicator Kernel}$.
翻訳日:2022-11-21 03:15:22 公開日:2022-02-09
# フィサラムに触発されたマルチコモディティフローダイナミクス

Physarum-Inspired Multi-Commodity Flow Dynamics ( http://arxiv.org/abs/2009.01498v5 )

ライセンス: Link先を確認
Vincenzo Bonifaci and Enrico Facca and Frederic Folz and Andreas Karrenbauer and Pavel Kolev and Kurt Mehlhorn and Giovanna Morigi and Golnoosh Shahkarami and Quentin Vermande(参考訳) 湿式実験では、スライム型Physarum polycephalumが最短経路問題の解法と効率的なネットワークの設計能力を示した。 最短経路問題に対しては、スライムの進化に関する数学的モデルが利用可能であり、コンピュータ実験や数学的解析を通じて、最も短い経路問題を解くことが示されている。 本稿では,ネットワーク設計問題に対するダイナミクスを紹介する。 マルチ商品フロー問題を効率的に支援するネットワーク構築問題として,ネットワーク設計を定式化する。 計算機シミュレーションのダイナミクスを解析的に検討する。 シミュレーションは、ダイナミクスが効率的でエレガントなネットワークを構築することができることを示している。 理論的には、ネットワークのコストとネットワークを経由する要求をルーティングするコストを組み合わせることで、ダイナミクスが目標を最小化することを示している。 また、最適解の代替的特徴付けも与える。

In wet-lab experiments, the slime mold Physarum polycephalum has demonstrated its ability to solve shortest path problems and to design efficient networks. For the shortest path problem, a mathematical model for the evolution of the slime is available and it has been shown in computer experiments and through mathematical analysis that the dynamics solves the shortest path problem. In this paper, we introduce a dynamics for the network design problem. We formulate network design as the problem of constructing a network that efficiently supports a multi-commodity flow problem. We investigate the dynamics in computer simulations and analytically. The simulations show that the dynamics is able to construct efficient and elegant networks. In the theoretical part we show that the dynamics minimizes an objective combining the cost of the network and the cost of routing the demands through the network. We also give alternative characterization of the optimum solution.
翻訳日:2022-10-22 07:34:42 公開日:2022-02-09
# MR画像におけるアンダーサンプル取得の可能性

Sampling possible reconstructions of undersampled acquisitions in MR imaging ( http://arxiv.org/abs/2010.00042v3 )

ライセンス: Link先を確認
Kerem C. Tezcan, Neerav Karani, Christian F. Baumgartner, Ender Konukoglu(参考訳) MR取得中にk空間をアンサンプすることは時間を節約するが、結果として不適切な逆転問題が発生し、可能な限り無限の画像集合が得られる。 伝統的に、これは、選択された正規化や事前に従って、このソリューションセットから1つの「ベスト」イメージを検索することで、再構成問題として取り組まれる。 しかし、このアプローチは他の解の可能性を見逃し、従って反転過程の不確実性を無視する。 本稿では,逆転過程における不確かさを捉えるために,取得モデルと選択した条件下で可能な複数の画像を返却する手法を提案する。 この目的のために、我々は低次元の潜伏空間を導入し、k空間における取得データから得られた潜伏ベクトルの後方分布をモデル化し、潜伏空間をサンプリングして対応する画像を得る。 潜在モデルには変分オートエンコーダ,サンプリングにはメトロポリス調整ランジュバンアルゴリズムを用いる。 我々は,Human Connectome Projectと社内で計測されたマルチコイル画像の2つのデータセットを用いて,本手法の評価を行った。 5つの方法と比較する。 提案手法は,現実的な構造変化を示しながら,測定したk空間データに適合する画像を生成することを示す。 さらに, 比較手法と対照的に, 提案手法は期待どおりアンサンプされた位相符号化方向における不確実性が高い。 キーワード:磁気共鳴画像再構成、不確実性推定、逆問題、サンプリング、MCMC、ディープラーニング、教師なし学習。

Undersampling the k-space during MR acquisitions saves time, however results in an ill-posed inversion problem, leading to an infinite set of images as possible solutions. Traditionally, this is tackled as a reconstruction problem by searching for a single "best" image out of this solution set according to some chosen regularization or prior. This approach, however, misses the possibility of other solutions and hence ignores the uncertainty in the inversion process. In this paper, we propose a method that instead returns multiple images which are possible under the acquisition model and the chosen prior to capture the uncertainty in the inversion process. To this end, we introduce a low dimensional latent space and model the posterior distribution of the latent vectors given the acquisition data in k-space, from which we can sample in the latent space and obtain the corresponding images. We use a variational autoencoder for the latent model and the Metropolis adjusted Langevin algorithm for the sampling. We evaluate our method on two datasets; with images from the Human Connectome Project and in-house measured multi-coil images. We compare to five alternative methods. Results indicate that the proposed method produces images that match the measured k-space data better than the alternatives, while showing realistic structural variability. Furthermore, in contrast to the compared methods, the proposed method yields higher uncertainty in the undersampled phase encoding direction, as expected. Keywords: Magnetic Resonance image reconstruction, uncertainty estimation, inverse problems, sampling, MCMC, deep learning, unsupervised learning.
翻訳日:2022-10-12 23:17:20 公開日:2022-02-09
# 心臓血管疾患のパーソナライズド・パステスト : 判別的要約統計学習を用いた近似ベイズ計算

Personalized pathology test for Cardio-vascular disease: Approximate Bayesian computation with discriminative summary statistics learning ( http://arxiv.org/abs/2010.06465v2 )

ライセンス: Link先を確認
Ritabrata Dutta, Karim Zouaoui-Boudjeltia, Christos Kotsalos, Alexandre Rousseau, Daniel Ribeiro de Sousa, Jean-Marc Desmet, Alain Van Meerhaeghe, Antonietta Mira, Bastien Chopard(参考訳) 心臓・脳血管疾患(CVD)は我々の社会で大きな問題となっている。 しかし,近年の研究では,血小板活性化の異なる段階や血小板相互作用に関与する分子動力学を考慮せず,個体間変異を考慮できないため,cvdを検出できる病態試験は効果がないことが示された。 本稿では,様々なタイプの患者を最大に識別する統計量を用いた近似ベイズ計算を用いて,生物的に有意なモデルパラメータを推定するための確率的血小板沈着モデルと推論手法を提案する。 健常者および異なる患者タイプで収集されたデータから推定されたパラメーターは、特定の生物学的パラメータを特定するのに役立つ。 この研究は、CVDの検出と治療のためのパーソナライズされた病理検査の先例のない機会を開く。

Cardio/cerebrovascular diseases (CVD) have become one of the major health issue in our societies. But recent studies show that the present pathology tests to detect CVD are ineffectual as they do not consider different stages of platelet activation or the molecular dynamics involved in platelet interactions and are incapable to consider inter-individual variability. Here we propose a stochastic platelet deposition model and an inferential scheme to estimate the biologically meaningful model parameters using approximate Bayesian computation with a summary statistic that maximally discriminates between different types of patients. Inferred parameters from data collected on healthy volunteers and different patient types help us to identify specific biological parameters and hence biological reasoning behind the dysfunction for each type of patients. This work opens up an unprecedented opportunity of personalized pathology test for CVD detection and medical treatment.
翻訳日:2022-10-08 00:40:46 公開日:2022-02-09
# SelfVoxeLO:Voxel-based Deep Neural Networksを用いた自己教師型LiDARオドメトリー

SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural Networks ( http://arxiv.org/abs/2010.09343v3 )

ライセンス: Link先を確認
Yan Xu, Zhaoyang Huang, Kwan-Yee Lin, Xinge Zhu, Jianping Shi, Hujun Bao, Guofeng Zhang, Hongsheng Li(参考訳) 近年の学習に基づくLiDARオドメトリー法は,その競争力を実証している。 しかし、ほとんどの方法はまだ2つの重大な課題に直面している。 1) LiDARデータの2次元投影表現は、点雲から3次元構造を効果的に符号化することはできない。 2) 大量のラベル付きデータのトレーニングの必要性は,これらの手法の適用範囲を制限する。 本稿では,この2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。 具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。 ネットワークを自己教師型学習に適合させるため,LiDAR点雲の固有特性を利用する新たな損失関数を設計する。 また、損失関数に不確実性認識機構を組み込んで、移動物体/ノイズの干渉を緩和する。 我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。 提案手法は,KITTIデータセットの翻訳・回転誤差を27%/32%向上させ,Apollo-SouthBayデータセットでも良好に動作することを示す。 学習データを含むことにより,教師付き手法に匹敵する性能を向上させることができる。

Recent learning-based LiDAR odometry methods have demonstrated their competitiveness. However, most methods still face two substantial challenges: 1) the 2D projection representation of LiDAR data cannot effectively encode 3D structures from the point clouds; 2) the needs for a large amount of labeled data for training limit the application scope of these methods. In this paper, we propose a self-supervised LiDAR odometry method, dubbed SelfVoxeLO, to tackle these two difficulties. Specifically, we propose a 3D convolution network to process the raw LiDAR data directly, which extracts features that better encode the 3D geometric patterns. To suit our network to self-supervised learning, we design several novel loss functions that utilize the inherent properties of LiDAR point clouds. Moreover, an uncertainty-aware mechanism is incorporated in the loss functions to alleviate the interference of moving objects/noises. We evaluate our method's performances on two large-scale datasets, i.e., KITTI and Apollo-SouthBay. Our method outperforms state-of-the-art unsupervised methods by 27%/32% in terms of translational/rotational errors on the KITTI dataset and also performs well on the Apollo-SouthBay dataset. By including more unlabelled training data, our method can further improve performance comparable to the supervised methods.
翻訳日:2022-10-05 22:51:00 公開日:2022-02-09
# (参考訳) Harmony Searchアルゴリズムに基づくクラウドコンピューティングにおけるIoTデータの重複コピーの割り当て

Allocating Duplicate Copies for IoT Data in Cloud Computing Based on Harmony Search Algorithm ( http://arxiv.org/abs/2202.13880v1 )

ライセンス: CC BY 4.0
Younes Jahandideh, A. Mirzaei(参考訳) モノのインターネット(IoT)は現在、大量のデータを生成しており、クラウドコンピューティングはIoTデータ管理の効率的なソリューションとして導入されています。 クラウドリソース管理者は通常、IoTデータの信頼性を保証するためにレプリケーション戦略を採用する。 このメカニズムはデータアクセス時間を著しく短縮することができ、明らかにデータのレプリカがデータストレージコストを増大させる。 さらに、ミニクラウドのレプリカ割り当てと複製のソートのためにミニクラウドを選択するプロセスはnp-hard問題であると考えられる。 そこで本稿では,クラウドコンピューティング環境におけるIoTデータにレプリカを割り当てることにより,データアクセスコストの低減を図るために,調和探索(HS)アルゴリズムに基づくアプローチを提案する。 HSアルゴリズムは、クラウドコンピューティング環境でデータレプリケーションを行う最適な場所を決定するために提案手法に採用された。 実装結果によると,提案手法は他の手法よりも優れており,データアクセス時間や遅延,エネルギー消費を大幅に低減することができた。

The Internet of things (IoT) generates a plethora of data nowadays, and cloud computing has been introduced as an efficient solution to IoT data management. A cloud resource administrator usually adopts the replication strategy to guarantee the reliability of IoT data. This mechanism can significantly reduce data access time, and evidently, more replicas of data increase the data storage cost. Furthermore, the process of selecting mini clouds for replica allocation and sorting replicas in mini clouds is considered an NP-hard problem. Therefore, this paper proposes an approach based on the harmony search (HS) algorithm to allocate replicas to the IoT data in the cloud computing environment in order to mitigate the data access cost. The HS algorithm was employed in the proposed approach to determine the best location for data replication in the cloud computing environment. According to the implementation results, the proposed approach outperformed the other methods and managed to significantly decrease data access time and delay as well as energy consumption.
翻訳日:2022-03-06 15:36:00 公開日:2022-02-09
# (参考訳) スポーツにおける血液ドーピング検出の改善のためのaiアプローチ

AI-based approach for improving the detection of blood doping in sports ( http://arxiv.org/abs/2203.00001v1 )

ライセンス: CC BY 4.0
Maxx Richard Rahman, Jacob Bejder, Thomas Christian Bonne, Andreas Breenfeldt Andersen, Jes\'us Rodr\'iguez Huertas, Reid Aikin, Nikolai Baastrup Nordsborg and Wolfgang Maa{\ss}(参考訳) 世界中のスポーツ関係者は、選手が試合のパフォーマンスを改善するために行う不公平な慣行のために、驚くべき課題に直面しています。 ホルモンをベースとした薬物の摂取や血液の輸血により、その強度とトレーニングの結果が増加する。 しかし、これらの症例の検出の現在の直接検査には、コスト要因や医療専門家の可用性などによって制限されている実験室ベースの方法が含まれる。 これにより、間接的なテストを探します。 医療における人工知能への関心が高まる中、意思決定を改善するために血液パラメータに基づくアルゴリズムを提案することが重要である。 本稿では,血液試料中のドーピング物質rhEPOの存在を識別するための統計的および機械学習に基づくアプローチを提案する。

Sports officials around the world are facing incredible challenges due to the unfair means of practices performed by the athletes to improve their performance in the game. It includes the intake of hormonal based drugs or transfusion of blood to increase their strength and the result of their training. However, the current direct test of detection of these cases includes the laboratory-based method, which is limited because of the cost factors, availability of medical experts, etc. This leads us to seek for indirect tests. With the growing interest of Artificial Intelligence in healthcare, it is important to propose an algorithm based on blood parameters to improve decision making. In this paper, we proposed a statistical and machine learning-based approach to identify the presence of doping substance rhEPO in blood samples.
翻訳日:2022-03-06 15:26:24 公開日:2022-02-09
# バッテリー電気自動車の嗜好の理解と変遷

Understanding and Shifting Preferences for Battery Electric Vehicles ( http://arxiv.org/abs/2202.08963v1 )

ライセンス: Link先を確認
Nikos Arechiga, Francine Chen, Rumen Iliev, Emily Sumner, Scott Carter, Alex Filipowicz, Nayeli Bravo, Monica Van, Kate Glazko, Kalani Murakami, Laurent Denoue, Candice Hogan, Katharine Sieck, Charlene Wu, Kent Lyons(参考訳) 個人に対するパーソナライズされた介入を特定することは重要なタスクです。 近年の研究では、個々の消費者の人口統計学的背景を考慮しない介入は、実際には、電気自動車に対する反対を強める逆効果を生み出すことが示されている。 本研究では,個人の人口統計に基づく介入を個人化する方法に着目し,消費者の嗜好をバッテリー電気自動車(bev)にシフトさせる。 好みを変えるための介入を提案するモデルを構築する際の制約の1つは、それぞれの介入が後の介入の有効性に影響を与えることである。 これに対し、多くの被験者はそれぞれの介入の有効性を評価する必要がある。 そこで本稿では,バリアやモチベータなど,BEV導入に影響を与えるパーソナライズされた要因を特定することを提案する。 本稿では,これらの要因を予測し,最も頻繁な要因を常に予測するよりも性能がよいことを示す。 次に、最も効果的な介入を学習し、各アプローチに必要な科目数を比較する強化学習(RL)モデルを提案する。

Identifying personalized interventions for an individual is an important task. Recent work has shown that interventions that do not consider the demographic background of individual consumers can, in fact, produce the reverse effect, strengthening opposition to electric vehicles. In this work, we focus on methods for personalizing interventions based on an individual's demographics to shift the preferences of consumers to be more positive towards Battery Electric Vehicles (BEVs). One of the constraints in building models to suggest interventions for shifting preferences is that each intervention can influence the effectiveness of later interventions. This, in turn, requires many subjects to evaluate effectiveness of each possible intervention. To address this, we propose to identify personalized factors influencing BEV adoption, such as barriers and motivators. We present a method for predicting these factors and show that the performance is better than always predicting the most frequent factors. We then present a Reinforcement Learning (RL) model that learns the most effective interventions, and compare the number of subjects required for each approach.
翻訳日:2022-02-27 17:38:50 公開日:2022-02-09
# 在庫目録の高性能自動分類と帰属

High-performance automatic categorization and attribution of inventory catalogs ( http://arxiv.org/abs/2202.08965v1 )

ライセンス: Link先を確認
Anton Kolonin(参考訳) 自動テキスト分類のための機械学習技術を適用し,在庫目録データ属性の問題に適用し,精度と性能のトレードオフに対処する最適解を選択する。

Techniques of machine learning for automatic text categorization are applied and adapted for the problem of inventory catalog data attribution, with different approaches explored and optimal solution addressing the tradeoff between accuracy and performance is selected.
翻訳日:2022-02-27 17:38:15 公開日:2022-02-09
# (参考訳) スナップショット圧縮イメージングのための数学的クックブック

Mathematical Cookbook for Snapshot Compressive Imaging ( http://arxiv.org/abs/2202.07437v1 )

ライセンス: CC BY 4.0
Yaping Zhao(参考訳) 著者は、Snapshot Compressive Imaging (SCI)で、美しくエレガントでユーザーフレンドリーな数学のクックブックを提供する予定だ。 現在、クックブックは、SCIの正規化に基づく最適化アルゴリズムを用いて、導入と従来の最適化で構成されている。 最新リリースは強く推奨されている! その他の質問、提案、コメントに対しては、著者にメールを自由に送れる。

The author intends to provide you with a beautiful, elegant, user-friendly cookbook for mathematics in Snapshot Compressive Imaging (SCI). Currently, the cookbook is composed of introduction and conventional optimization, using regularization-based optimization algorithms for SCI. The latest releases are strongly recommended! For any other questions, suggestions, or comments, feel free to email the author.
翻訳日:2022-02-20 16:35:54 公開日:2022-02-09
# エネルギー効率の良い音声モデルのためのニューラルアーキテクチャ探索

Neural Architecture Search for Energy Efficient Always-on Audio Models ( http://arxiv.org/abs/2202.05397v1 )

ライセンス: Link先を確認
Daniel T. Speckhard, Karolis Misiunas, Sagi Perel, Tenghui Zhu, Simon Carlile, Malcolm Slaney(参考訳) 常時オンオーディオ分類のためのモバイルおよびエッジコンピューティングデバイスは、エネルギー効率のよいニューラルネットワークアーキテクチャを必要とする。 精度,エネルギー効率,メモリ使用量などを最適化するニューラルアーキテクチャサーチ(NAS)を提案する。 検索はブラックボックス最適化サービスのVizierで実行される。 本稿では,粒子群を用いたベイジアン探索と正規化進化探索の両方を用いた探索戦略を提案し,計算負荷を軽減するために早期停止を用いる。 検索は、MobileNetV1/V2実装と同様の精度でAudioSetに基づく音声イベント分類データセットのアーキテクチャを返すが、推論あたりのエネルギーは桁違い少なく、メモリフットプリントもはるかに小さい。

Mobile and edge computing devices for always-on audio classification require energy-efficient neural network architectures. We present a neural architecture search (NAS) that optimizes accuracy, energy efficiency and memory usage. The search is run on Vizier, a black-box optimization service. We present a search strategy that uses both Bayesian and regularized evolutionary search with particle swarms, and employs early-stopping to reduce the computational burden. The search returns architectures for a sound-event classification dataset based upon AudioSet with similar accuracy to MobileNetV1/V2 implementations but with an order of magnitude less energy per inference and a much smaller memory footprint.
翻訳日:2022-02-14 16:35:25 公開日:2022-02-09
# フィードフォワードReLUネットワークの解の理論的探索

Theoretical Exploration of Solutions of Feedforward ReLU networks ( http://arxiv.org/abs/2202.01919v3 )

ライセンス: Link先を確認
Changcun Huang(参考訳) 本稿では,フィードフォワードReLUネットワークのメカニズムを,基本ルールを用いて一括線形関数の解を探索することによって解釈することを目的とする。 構築されたソリューションは、エンジニアリングのネットワークアーキテクチャを説明するのに十分普遍的であるべきです。 そのため、理論物理学の方法論を借用して理論を発展させる。 幾何学的背景下では、三層ネットワークと深層ネットワークの両方の解が提示され、解の普遍性はいくつかの方法で保証される。マルチアウトプットのパラメータ共有機構、各レイヤの機能、深層の利用、パラメータの冗長性など、ネットワークアーキテクチャの各コンポーネントを明確に直感的に解釈する。 畳み込みネットワークの最後の3層のサブネットワーク、多層フィードフォワードネットワーク、オートエンコーダのデコーダの3つの典型的なネットワークアーキテクチャについて説明する。 本稿では, フィードフォワードReLUネットワークの理論の基盤として, さらなる研究が期待されている。

This paper aims to interpret the mechanism of feedforward ReLU networks by exploring their solutions for piecewise linear functions through basic rules. The constructed solutions should be universal enough to explain the network architectures of engineering. In order for that, we borrow the methodology of theoretical physics to develop the theories. Some of the consequences of our theories include: Under geometric backgrounds, the solutions of both three-layer networks and deep-layer networks are presented, and the solution universality is ensured by several ways; We give clear and intuitive interpretations of each component of network architectures, such as the parameter-sharing mechanism for multi-output, the function of each layer, the advantage of deep layers, the redundancy of parameters, and so on. We explain three typical network architectures: the subnetwork of last three layers of convolutional networks, multi-layer feedforward networks, and the decoder of autoencoders. This paper is expected to provide a basic foundation of theories of feedforward ReLU networks for further investigations.
翻訳日:2022-02-13 14:54:16 公開日:2022-02-09
# OPP-Miner:順序保存型シーケンシャルパターンマイニング

OPP-Miner: Order-preserving sequential pattern mining ( http://arxiv.org/abs/2202.03140v2 )

ライセンス: Link先を確認
Youxi Wu, Qian Hu, Yan Li, Lei Guo, Xingquan Zhu, Xindong Wu(参考訳) 時系列 (time series) は、時系列の計測値の集合である。 時系列からパターンを発見することは、ストック分析、疾患検出、天気予報など、多くの領域で有用である。 パターンを発見するために、既存の手法は、しばしば時系列データを名目/記号形式などの別の形式に変換し、次元性を減らす。 さらに,既存の手法は時系列値間の順序関係を主に無視する。 そこで本稿では,順序保存マッチングに着想を得て,時系列データの順序関係に基づくパターンを表現する順序保存シーケンシャルパターン(opp)マイニング手法を提案する。 このような表現の固有の利点は、時系列データの下の値の相対順序で時系列のトレンドを表現することができることである。 時系列の頻繁な傾向を得るため、同じ傾向(同じ相対順序のサブシーケンス)のパターンをマイニングするOPP-Minerアルゴリズムを提案する。 OPP-Minerは、フィルタと検証戦略を用いてサポートを計算し、パターン融合戦略を用いて候補パターンを生成する。 結果集合を圧縮するために,最大 OPP の探索も検討した。 実験では、OPP-Minerは効率的でスケーラブルであるだけでなく、時系列で類似したサブシーケンスを発見することもできる。 また,本研究のケーススタディでは,危機的傾向を同定し,クラスタリング性能を向上させることで,covid-19流行の分析に高い有用性を示す。

A time series is a collection of measurements in chronological order. Discovering patterns from time series is useful in many domains, such as stock analysis, disease detection, and weather forecast. To discover patterns, existing methods often convert time series data into another form, such as nominal/symbolic format, to reduce dimensionality, which inevitably deviates the data values. Moreover, existing methods mainly neglect the order relationships between time series values. To tackle these issues, inspired by order-preserving matching, this paper proposes an Order-Preserving sequential Pattern (OPP) mining method, which represents patterns based on the order relationships of the time series data. An inherent advantage of such representation is that the trend of a time series can be represented by the relative order of the values underneath the time series data. To obtain frequent trends in time series, we propose the OPP-Miner algorithm to mine patterns with the same trend (sub-sequences with the same relative order). OPP-Miner employs the filtration and verification strategies to calculate the support and uses pattern fusion strategy to generate candidate patterns. To compress the result set, we also study finding the maximal OPPs. Experiments validate that OPP-Miner is not only efficient and scalable but can also discover similar sub-sequences in time series. In addition, case studies show that our algorithms have high utility in analyzing the COVID-19 epidemic by identifying critical trends and improve the clustering performance.
翻訳日:2022-02-13 14:53:18 公開日:2022-02-09
# (参考訳) アフィニティ・プロパゲーション・クラスタリング法のマクロ・メソ・マイクロレベルの交通事故クラスタ取得への応用

Application of the Affinity Propagation Clustering Technique to obtain traffic accident clusters at macro, meso, and micro levels ( http://arxiv.org/abs/2202.05175v1 )

ライセンス: CC BY 4.0
Fagner Sutel de Moura, Christine Tessele Nodari(参考訳) 事故発生場所を特定する上で,事故グループ化は重要なステップである。 異なる事故分類モードのうち、クラスタリング手法は、宇宙における事故の異なる分布を発見するのに優れた性能を示す。 本研究は,空間内のデータポイント分布の類似性と類似性の基準に基づいて事故をグループ化するアフィニティ伝播クラスタリング(apc)手法を提案する。 APCは、インスタンス間の類似度行列からイベントの分布をよりリアルに表現する。 その結果、代表データサンプルが得られた場合、類似性の選好パラメータがモデルを校正し、所望の特性に応じてクラスタを生成するために必要な性能を提供することがわかった。 さらに、連続パラメータとしての選好パラメータがモデルの収束の校正と制御を容易にすることを示し、より少ない労力でクラスタリングパターンの発見と結果のより深い制御を可能にした。

Accident grouping is a crucial step in identifying accident-prone locations. Among the different accident grouping modes, clustering methods present excellent performance for discovering different distributions of accidents in space. This work introduces the Affinity Propagation Clustering (APC) approach for grouping traffic accidents based on criteria of similarity and dissimilarity between distributions of data points in space. The APC provides more realistic representations of the distribution of events from similarity matrices between instances. The results showed that when representative data samples obtain, the preference parameter of similarity provides the necessary performance to calibrate the model and generate clusters according to the desired characteristics. In addition, the study demonstrates that the preference parameter as a continuous parameter facilitates the calibration and control of the model's convergence, allowing the discovery of clustering patterns with less effort and greater control of the results
翻訳日:2022-02-13 12:56:30 公開日:2022-02-09
# (参考訳) エッジマップを用いたマルチモーダル脳画像登録

Multi-modal unsupervised brain image registration using edge maps ( http://arxiv.org/abs/2202.04647v1 )

ライセンス: CC BY 4.0
Vasiliki Sideri-Lampretsa, Georgios Kaissis, Daniel Rueckert(参考訳) Diffomorphic deformable multi-modal image registrationは、異なるモダリティによって取得された画像を同じ座標空間に持ち込むと同時に、変換のトポロジーと可逆性を維持することを目的とした課題である。 最近の研究は、従来の反復登録法よりも計算効率が優れながら、競争力のある登録精度を達成することが示されているため、このタスクのためのディープラーニングアプローチの活用に重点を置いている。 本研究では,画像の勾配等級から得られる補助情報,すなわち訓練中の画像エッジから得られる補助情報を利用する,単純で効果的な教師なし深層学習に基づくマルチモーダル画像登録手法を提案する。 この背景にある直観は、強い勾配を持つ画像位置は、幾何学的制約として機能できる高い情報値の場所である組織の遷移を意味すると仮定されている。 タスクはセグメンテーションマップを使用してトレーニングを実行するのと似ているが、エッジマップはより簡単に取得でき、アノテーションを必要としない。 我々は,マルチモーダル(T1wからT2w)磁気共鳴(MR)脳画像の多モーダル登録を支援する3つの損失関数を用いて,異なる被験者の脳画像の登録状況において,我々のアプローチを評価する。

Diffeomorphic deformable multi-modal image registration is a challenging task which aims to bring images acquired by different modalities to the same coordinate space and at the same time to preserve the topology and the invertibility of the transformation. Recent research has focused on leveraging deep learning approaches for this task as these have been shown to achieve competitive registration accuracy while being computationally more efficient than traditional iterative registration methods. In this work, we propose a simple yet effective unsupervised deep learning-based {\em multi-modal} image registration approach that benefits from auxiliary information coming from the gradient magnitude of the image, i.e. the image edges, during the training. The intuition behind this is that image locations with a strong gradient are assumed to denote a transition of tissues, which are locations of high information value able to act as a geometry constraint. The task is similar to using segmentation maps to drive the training, but the edge maps are easier and faster to acquire and do not require annotations. We evaluate our approach in the context of registering multi-modal (T1w to T2w) magnetic resonance (MR) brain images of different subjects using three different loss functions that are said to assist multi-modal registration, showing that in all cases the auxiliary information leads to better results without compromising the runtime.
翻訳日:2022-02-13 12:40:45 公開日:2022-02-09
# (参考訳) FCM-DNN : Fuzzy C-Means clustering modelによる冠動脈疾患の診断

FCM-DNN: diagnosing coronary artery disease by deep accuracy Fuzzy C-Means clustering model ( http://arxiv.org/abs/2202.04645v1 )

ライセンス: CC BY-SA 4.0
Javad Hassannataj Joloudari, Hamid Saadatfar, Mohammad GhasemiGol, Roohallah Alizadehsani, Zahra Alizadeh Sani, Fereshteh Hasanzadeh, Edris Hassannataj, Danial Sharifrazi, Zulkefli Mansor(参考訳) 心臓血管疾患は中高年者において最も困難な疾患の1つであり、死亡率が高い。 冠動脈疾患 (cad) は一般的な心血管疾患として知られている。 CAD診断のための標準的な臨床ツールは血管造影である。 主な課題は危険な副作用と血管造影のコストである。 今日、人工知能に基づく手法の開発は、病気の診断にとって貴重な成果である。 そこで本研究では, 心磁気共鳴画像(CMRI)データセット上でCADを診断するために, ニューラルネットワーク(NN), ディープニューラルネットワーク(DNN), ファジィC平均クラスタリングと深部ニューラルネットワーク(FCM-DNN)を組み合わせた人工知能手法を開発した。 オリジナルのデータセットは2つの異なるアプローチで使われている。 まず、ラベル付きデータセットをNNとDNNに適用し、NNとDNNモデルを作成する。 次に、ラベルを除去し、ラベルなしデータセットをFCMメソッドを介してクラスタ化し、クラスタ化されたデータセットをDNNに送ってFCM-DNNモデルを作成する。 第2のクラスタリング及びモデリングを活用することにより、トレーニングプロセスが改善され、精度が向上する。 その結果、提案したFCM-DNNモデルは、92.18%および99.63%の精度に達するNNモデルと比較して、10倍のクロスバリデーション技術により、健康な被験者に5つのクラスタ、5つのクラスタを指定し、99.91%の精度で最高の性能を達成する。 我々の知る限り、人工知能を用いたCMRIデータセットにおけるCAD診断のための研究は行われていない。 その結果,提案したFCM-DNNモデルが科学・研究センターに有効であることが確認された。

Cardiovascular disease is one of the most challenging diseases in middle-aged and older people, which causes high mortality. Coronary artery disease (CAD) is known as a common cardiovascular disease. A standard clinical tool for diagnosing CAD is angiography. The main challenges are dangerous side effects and high angiography costs. Today, the development of artificial intelligence-based methods is a valuable achievement for diagnosing disease. Hence, in this paper, artificial intelligence methods such as neural network (NN), deep neural network (DNN), and Fuzzy C-Means clustering combined with deep neural network (FCM-DNN) are developed for diagnosing CAD on a cardiac magnetic resonance imaging (CMRI) dataset. The original dataset is used in two different approaches. First, the labeled dataset is applied to the NN and DNN to create the NN and DNN models. Second, the labels are removed, and the unlabeled dataset is clustered via the FCM method, and then, the clustered dataset is fed to the DNN to create the FCM-DNN model. By utilizing the second clustering and modeling, the training process is improved, and consequently, the accuracy is increased. As a result, the proposed FCM-DNN model achieves the best performance with a 99.91% accuracy specifying 10 clusters, i.e., 5 clusters for healthy subjects and 5 clusters for sick subjects, through the 10-fold cross-validation technique compared to the NN and DNN models reaching the accuracies of 92.18% and 99.63%, respectively. To the best of our knowledge, no study has been conducted for CAD diagnosis on the CMRI dataset using artificial intelligence methods. The results confirm that the proposed FCM-DNN model can be helpful for scientific and research centers.
翻訳日:2022-02-13 12:30:00 公開日:2022-02-09
# (参考訳) バッキンガムpiを用いた次元整合学習

Dimensionally Consistent Learning with Buckingham Pi ( http://arxiv.org/abs/2202.04643v1 )

ライセンス: CC BY 4.0
Joseph Bakarji, Jared Callaham, Steven L. Brunton, J. Nathan Kutz(参考訳) 制御方程式が存在しない場合、次元解析は物理系における洞察を抽出し対称性を見つけるためのロバストな手法である。 測定変数とパラメータが与えられたとき、バッキンガムのpi定理は解空間にまたがる無次元群の集合を見つける手順を与えるが、この集合は一意ではない。 そこで本稿では, 使用可能な測定データの対称性と自己相似構造を用いて, 最適適合度に応じて, このデータを低次元空間に最も分解する無次元群を探索する手法を提案する。 バッキンガム・パイの定理を制約とする3つのデータ駆動手法を開発した。 (i)非パラメトリック入出力整合関数による制約付き最適化問題。 (ii)入力パラメータ空間を第1層の低次元に投影するディープラーニングアルゴリズム(buckinet)と、 (iii)非線形力学のスパース同定(sindy)に基づく手法で、係数が力学をパラメータ化する無次元方程式を探索する。 本稿では, 回転フープ上のビーズ, 層境界層, レイリー・ブエナード対流の3つの問題に対して, これらの手法の精度, 堅牢性, 計算複雑性について検討する。

In the absence of governing equations, dimensional analysis is a robust technique for extracting insights and finding symmetries in physical systems. Given measurement variables and parameters, the Buckingham Pi theorem provides a procedure for finding a set of dimensionless groups that spans the solution space, although this set is not unique. We propose an automated approach using the symmetric and self-similar structure of available measurement data to discover the dimensionless groups that best collapse this data to a lower dimensional space according to an optimal fit. We develop three data-driven techniques that use the Buckingham Pi theorem as a constraint: (i) a constrained optimization problem with a non-parametric input-output fitting function, (ii) a deep learning algorithm (BuckiNet) that projects the input parameter space to a lower dimension in the first layer, and (iii) a technique based on sparse identification of nonlinear dynamics (SINDy) to discover dimensionless equations whose coefficients parameterize the dynamics. We explore the accuracy, robustness and computational complexity of these methods as applied to three example problems: a bead on a rotating hoop, a laminar boundary layer, and Rayleigh-B\'enard convection.
翻訳日:2022-02-12 11:04:02 公開日:2022-02-09
# (参考訳) 潰瘍性大腸炎重症度推定のためのクラス距離重み付きクロスエントロピー損失

Class Distance Weighted Cross-Entropy Loss for Ulcerative Colitis Severity Estimation ( http://arxiv.org/abs/2202.05167v1 )

ライセンス: CC BY 4.0
Gorkem Polat, Ilkay Ergenc, Haluk Tarik Kani, Yesim Ozen Alahdab, Ozlen Atug, Alptekin Temizel(参考訳) 潰瘍性大腸炎の内視鏡的重症度評価には,内視鏡的マヨスコアと潰瘍性大腸炎重症度指標が一般的である。 それらは病気の活動に関連してスコアを割り当てることに基づいており、それはレベルの中でランク付けされ、順序回帰問題となる。 一方で、ほとんどの研究では、順序回帰問題に最適ではないカテゴリ間クロスエントロピー損失関数を用いて、ディープラーニングモデルをトレーニングしている。 本研究では,授業の順序を尊重するクラス距離重み付きクロスエントロピー(CDW-CE)と呼ばれる新しい損失関数を提案する。 実験により、CDW-CEは従来のカテゴリー横断エントロピーと CORN フレームワークよりも優れており、これは順序回帰問題のために設計されている。 さらに、CDW-CEは出力層の変更を一切必要とせず、クラスのアクティベーションマップの可視化技術と互換性がある。

Endoscopic Mayo score and Ulcerative Colitis Endoscopic Index of Severity are commonly used scoring systems for the assessment of endoscopic severity of ulcerative colitis. They are based on assigning a score in relation to the disease activity, which creates a rank among the levels, making it an ordinal regression problem. On the other hand, most studies use categorical cross-entropy loss function, which is not optimal for the ordinal regression problem, to train the deep learning models. In this study, we propose a novel loss function called class distance weighted cross-entropy (CDW-CE) that respects the order of the classes and takes the distance of the classes into account in calculation of cost. Experimental evaluations show that CDW-CE outperforms the conventional categorical cross-entropy and CORN framework, which is designed for the ordinal regression problems. In addition, CDW-CE does not require any modifications at the output layer and is compatible with the class activation map visualization techniques.
翻訳日:2022-02-12 10:29:21 公開日:2022-02-09
# (参考訳) オフラインスキル発見のためのベイズ非パラメトリック

Bayesian Nonparametrics for Offline Skill Discovery ( http://arxiv.org/abs/2202.04675v1 )

ライセンス: CC BY 4.0
Valentin Villecroze, Harry J. Braviner, Panteha Naderian, Chris J. Maddison, Gabriel Loaiza-Ganem(参考訳) 強化学習におけるスキルまたは低レベルポリシーは、学習をスピードアップし複雑な振る舞いを可能にする時間的に拡張された行動である。 オフライン強化学習と模倣学習における最近の研究は、一連の専門家の軌道からスキル発見のためのいくつかの手法を提案している。 これらの手法は有望であるが、発見するスキルのkは、常に固定ハイパーパラメータであり、環境に関する事前の知識を必要とするか、それを調整するために追加のパラメータ検索が必要である。 まず,変動推論と連続緩和の進歩を活用した,オフラインオプション学習手法(特定のスキルフレームワーク)を提案する。 次に、ベイズ非パラメトリックスとオフラインスキル発見の間の未検討の接続を強調し、モデルの非パラメトリックバージョンを取得する方法を示す。 このバージョンは、動的に変化するオプション数を持つ注意深く構造化された後付けによって扱いやすくなり、kを指定する必要がなくなります。また、我々の非パラメトリック拡張が他のスキルフレームワークにどのように適用できるかを示し、我々の手法が様々な環境にわたって最先端のオフラインスキル学習アルゴリズムを上回ることができることを実証的に示します。 私たちのコードはhttps://github.com/layer6ai-labs/BNPO で利用可能です。

Skills or low-level policies in reinforcement learning are temporally extended actions that can speed up learning and enable complex behaviours. Recent work in offline reinforcement learning and imitation learning has proposed several techniques for skill discovery from a set of expert trajectories. While these methods are promising, the number K of skills to discover is always a fixed hyperparameter, which requires either prior knowledge about the environment or an additional parameter search to tune it. We first propose a method for offline learning of options (a particular skill framework) exploiting advances in variational inference and continuous relaxations. We then highlight an unexplored connection between Bayesian nonparametrics and offline skill discovery, and show how to obtain a nonparametric version of our model. This version is tractable thanks to a carefully structured approximate posterior with a dynamically-changing number of options, removing the need to specify K. We also show how our nonparametric extension can be applied in other skill frameworks, and empirically demonstrate that our method can outperform state-of-the-art offline skill learning algorithms across a variety of environments. Our code is available at https://github.com/layer6ai-labs/BNPO .
翻訳日:2022-02-12 10:16:34 公開日:2022-02-09
# (参考訳) 不確実性下における非線形スペクトル次元の低減

Non-Linear Spectral Dimensionality Reduction Under Uncertainty ( http://arxiv.org/abs/2202.04678v1 )

ライセンス: CC BY 4.0
Firas Laakom, Jenni Raitoharju, Nikolaos Passalis, Alexandros Iosifidis, and Moncef Gabbouj(参考訳) 本稿では,不確実性下での非線形次元減少の問題について,理論的およびアルゴリズム的観点から考察する。 実世界のデータは通常、不確実性やアーティファクトの測定を含むため、提案フレームワークの入力空間は、各サンプルに関連する不確実性をモデル化するための確率分布からなる。 我々は、不確実性情報を活用し、KPCA、MDA/KMFAといった従来のアプローチを直接拡張して、元のデータの代わりに確率分布を入力として受け取る、NGEUと呼ばれる新しい次元減少フレームワークを提案する。 提案したNGEUの定式化は,大域的な閉形式解を示し,Radecherの複雑性に基づいて,基礎となる不確実性がフレームワークの一般化能力に理論的にどのように影響するかを分析する。 異なるデータセットに対する実験結果から,提案手法の有効性が示された。

In this paper, we consider the problem of non-linear dimensionality reduction under uncertainty, both from a theoretical and algorithmic perspectives. Since real-world data usually contain measurements with uncertainties and artifacts, the input space in the proposed framework consists of probability distributions to model the uncertainties associated with each sample. We propose a new dimensionality reduction framework, called NGEU, which leverages uncertainty information and directly extends several traditional approaches, e.g., KPCA, MDA/KMFA, to receive as inputs the probability distributions instead of the original data. We show that the proposed NGEU formulation exhibits a global closed-form solution, and we analyze, based on the Rademacher complexity, how the underlying uncertainties theoretically affect the generalization ability of the framework. Empirical results on different datasets show the effectiveness of the proposed framework.
翻訳日:2022-02-12 09:53:00 公開日:2022-02-09
# (参考訳) ジョイント変分多チャネル多相セグメンテーションフレームワーク

A Joint Variational Multichannel Multiphase Segmentation Framework ( http://arxiv.org/abs/2202.04680v1 )

ライセンス: CC BY 4.0
Nadja Gruber, Johannes Schwab, Sebastien Court, Elke Gizewski, Markus Haltmeier(参考訳) 本稿では,chan-vese能動輪郭モデルに基づく多チャンネル多相画像分割のための変分画像分割フレームワークを提案する。 本手法のコアは,複数の画像の情報を組み合わせたマルチチャネルエネルギー関数を最小化することにより,セグメント化を符号化する変数uを見つけることである。 入力の分解は、マルチチャネルフィルタリングか、あるいは、複数のチャネルで構成されている通常の自然RGBまたは医療画像を用いて行う。 その後、各チャネルの関数を同時に最小化する。 本モデルでは,シャンブル・ポック法のような最適化手法により効率的に解けるような仮定を満たす。 提案したエネルギー関数が大域最小化器を持つことを証明し,ノイズ入力に対する安定性と収束性を示す。 実験結果から,提案手法は単一・複数チャネルのセグメンテーション作業において良好に機能し,自然画像やテクスチャ画像,医用画像などの様々な画像のセグメンテーションに利用することができることがわかった。

In this paper, we propose a variational image segmentation framework for multichannel multiphase image segmentation based on the Chan-Vese active contour model. The core of our method lies in finding a variable u encoding the segmentation, by minimizing a multichannel energy functional that combines the information of multiple images. We create a decomposition of the input, either by multichannel filtering, or simply by using plain natural RGB, or medical images, which already consist of several channels. Subsequently we minimize the proposed functional for each of the channels simultaneously. Our model meets the necessary assumptions such that it can be solved efficiently by optimization techniques like the Chambolle-Pock method. We prove that the proposed energy functional has global minimizers, and show its stability and convergence with respect to noisy inputs. Experimental results show that the proposed method performs well in single- and multichannel segmentation tasks, and can be employed to the segmentation of various types of images, such as natural and texture images as well as medical images.
翻訳日:2022-02-12 09:30:32 公開日:2022-02-09
# (参考訳) スムースオンライン学習は統計学習と同じくらい簡単

Smoothed Online Learning is as Easy as Statistical Learning ( http://arxiv.org/abs/2202.04690v1 )

ライセンス: CC BY 4.0
Adam Block, Yuval Dagan, Noah Golowich, and Alexander Rakhlin(参考訳) 現代の学習理論の多くは、データが独立して到達する古典的な \emph{offline} 設定と、逆向きにデータが到着する \emph{online} 設定の2つのレジームに分かれている。 前者モデルは計算的かつ統計的に抽出可能であることが多いが、後者は分布的な仮定を必要としない。 両世界のベストを達成するために、以前の研究は、各サンプルが反対に選択された分布から引き出される滑らかなオンライン設定を提案した。 ホライズンパラメータと滑らか性パラメータの両方にほぼ最適に依存する非パラメトリック関数クラスを学習するミニマックスの後悔に厳密な境界を与える。 さらに、この設定で最初のoracle効率のよいノンレグレットアルゴリズムも提供します。 特に,水平方向への最適な依存を後悔が達成するオラクル効率な不適切なアルゴリズムと,分類設定において最適な水平方向依存を有する1ラウンド当たりのオラクルコールのみを必要とする適切なアルゴリズムを提案する。 どちらのアルゴリズムも、ミニマックスレートよりも逆数の滑らかさパラメータに指数関数的に依存する。 そして、oracle効率の高い上限を多項式因子までマッチさせるような、任意の適切な学習アルゴリズムのoracle複雑性の下限を証明し、滑らかなオンライン学習における統計計算的ギャップの存在を実証する。 最後に,関数クラスが古典的な設定で学習可能な場合,コンテキストがスムーズな方法で到達した場合に,文脈的バンディットに対するオラクル効率のよい非回帰アルゴリズムが存在することを示すために,文脈的バンディット設定に適用する。

Much of modern learning theory has been split between two regimes: the classical \emph{offline} setting, where data arrive independently, and the \emph{online} setting, where data arrive adversarially. While the former model is often both computationally and statistically tractable, the latter requires no distributional assumptions. In an attempt to achieve the best of both worlds, previous work proposed the smooth online setting where each sample is drawn from an adversarially chosen distribution, which is smooth, i.e., it has a bounded density with respect to a fixed dominating measure. We provide tight bounds on the minimax regret of learning a nonparametric function class, with nearly optimal dependence on both the horizon and smoothness parameters. Furthermore, we provide the first oracle-efficient, no-regret algorithms in this setting. In particular, we propose an oracle-efficient improper algorithm whose regret achieves optimal dependence on the horizon and a proper algorithm requiring only a single oracle call per round whose regret has the optimal horizon dependence in the classification setting and is sublinear in general. Both algorithms have exponentially worse dependence on the smoothness parameter of the adversary than the minimax rate. We then prove a lower bound on the oracle complexity of any proper learning algorithm, which matches the oracle-efficient upper bounds up to a polynomial factor, thus demonstrating the existence of a statistical-computational gap in smooth online learning. Finally, we apply our results to the contextual bandit setting to show that if a function class is learnable in the classical setting, then there is an oracle-efficient, no-regret algorithm for contextual bandits in the case that contexts arrive in a smooth manner.
翻訳日:2022-02-12 08:59:53 公開日:2022-02-09
# (参考訳) パンデミック対策支援のためのアクセシビリティとエクイティ向上のためのワクチン配布サイトの導入

Deploying Vaccine Distribution Sites for Improved Accessibility and Equity to Support Pandemic Response ( http://arxiv.org/abs/2202.04705v1 )

ライセンス: CC BY 4.0
George Li and Ann Li and Madhav Marathe and Aravind Srinivasan and Leonidas Tsepenekas and Anil Vullikanti(参考訳) 新型コロナウイルス(COVID-19)への対応として、多くの国がSARS-CoV-2の拡散を遅らせるため、社会的距離を義務付け、大規模なグループ集会を禁止している。 これらの社会的介入とワクチンは、SARS CoV-2の拡散を抑える最善の方法である。 ワクチンのアクセシビリティを高めるために、バージニアのような州は全国にワクチンを配布するために移動型ワクチン接種センターを設置している。 これらのサイトをどこに配置するかを選択すると、アクセシビリティとエクイティの2つの重要な要素が考慮される。 我々はこれらの因子を捕捉する組合せ問題を定式化し、これら2つの側面を理論的に保証した効率的なアルゴリズムを開発する。 さらに,本問題の本質的な難易度について検討し,強い難易度を示す。 最後に,実世界のデータを用いて計算実験を行い,本手法の有効性を示す。

In response to COVID-19, many countries have mandated social distancing and banned large group gatherings in order to slow down the spread of SARS-CoV-2. These social interventions along with vaccines remain the best way forward to reduce the spread of SARS CoV-2. In order to increase vaccine accessibility, states such as Virginia have deployed mobile vaccination centers to distribute vaccines across the state. When choosing where to place these sites, there are two important factors to take into account: accessibility and equity. We formulate a combinatorial problem that captures these factors and then develop efficient algorithms with theoretical guarantees on both of these aspects. Furthermore, we study the inherent hardness of the problem, and demonstrate strong impossibility results. Finally, we run computational experiments on real-world data to show the efficacy of our methods.
翻訳日:2022-02-12 08:58:34 公開日:2022-02-09
# (参考訳) 転校qラーニング

Transferred Q-learning ( http://arxiv.org/abs/2202.04709v1 )

ライセンス: CC BY 4.0
Elynn Y. Chen, Michael I. Jordan, Sai Li(参考訳) 我々は、目標強化学習(RL)タスクのサンプルと、異なるが関連するRLタスクのソースサンプルを用いて、知識伝達を伴うQ$ラーニングを検討する。 オフラインソーススタディを用いて,バッチとオンラインの両方でq$-learningを行う転送学習アルゴリズムを提案する。 提案したQ$-learningアルゴリズムは、教師あり学習のための転写学習(TL)として通常の水平情報収集に加えて、RLタスクの複数のステップに沿って垂直情報カスケードが可能な新しい再ターゲットステップを含む。 我々は、オフラインRL転送における$Q$関数推定の収束の速さと、ある類似性仮定の下でのオフライン-オンラインRL転送における低い後悔境界を示すことにより、RLタスクにおけるTLの最初の理論的正当性を確立する。 合成データと実データの両方から得られた実証的証拠を提示し,提案アルゴリズムと理論的結果を裏付ける。

We consider $Q$-learning with knowledge transfer, using samples from a target reinforcement learning (RL) task as well as source samples from different but related RL tasks. We propose transfer learning algorithms for both batch and online $Q$-learning with offline source studies. The proposed transferred $Q$-learning algorithm contains a novel re-targeting step that enables vertical information-cascading along multiple steps in an RL task, besides the usual horizontal information-gathering as transfer learning (TL) for supervised learning. We establish the first theoretical justifications of TL in RL tasks by showing a faster rate of convergence of the $Q$ function estimation in the offline RL transfer, and a lower regret bound in the offline-to-online RL transfer under certain similarity assumptions. Empirical evidences from both synthetic and real datasets are presented to back up the proposed algorithm and our theoretical results.
翻訳日:2022-02-12 08:42:26 公開日:2022-02-09
# (参考訳) PINs: マルチスケールニューラル表現のためのプログレッシブ・インシシシット・ネットワーク

PINs: Progressive Implicit Networks for Multi-Scale Neural Representations ( http://arxiv.org/abs/2202.04713v1 )

ライセンス: CC BY 4.0
Zoe Landgraf, Alexander Sorkine Hornung, Ricardo Silveira Cabral(参考訳) 多層パーセプトロン(MLP)は、入力の高次元投影と組み合わせることで、効果的なシーンエンコーダであることが証明されている。 しかし、周波数スペクトルの広いシーンは依然として課題であり、位置符号化のための高周波の選択は低構造領域にノイズをもたらすが、低周波数は詳細領域の適合性の悪い結果をもたらす。 そこで本研究では,周波数符号化のインクリメンタルなセットに階層型MLP構造を露出させる,プログレッシブな位置符号化を提案する。 本モデルでは,周波数帯域幅の広いシーンを正確に再構成し,プログレッシブレベルでのシーン表現を学習する。 アーキテクチャはモジュラーであり、各レベルは連続的な暗黙の表現を符号化し、それぞれの解像度で個別に利用することができる。 複数の2次元および3次元データセットでの実験では、ベースラインと比較して再構成精度、表現能力、トレーニング速度が改善された。

Multi-layer perceptrons (MLP) have proven to be effective scene encoders when combined with higher-dimensional projections of the input, commonly referred to as \textit{positional encoding}. However, scenes with a wide frequency spectrum remain a challenge: choosing high frequencies for positional encoding introduces noise in low structure areas, while low frequencies result in poor fitting of detailed regions. To address this, we propose a progressive positional encoding, exposing a hierarchical MLP structure to incremental sets of frequency encodings. Our model accurately reconstructs scenes with wide frequency bands and learns a scene representation at progressive level of detail \textit{without explicit per-level supervision}. The architecture is modular: each level encodes a continuous implicit representation that can be leveraged separately for its respective resolution, meaning a smaller network for coarser reconstructions. Experiments on several 2D and 3D datasets show improvements in reconstruction accuracy, representational capacity and training speed compared to baselines.
翻訳日:2022-02-12 08:17:48 公開日:2022-02-09
# (参考訳) tamilemo: タミルのためのきめ細かい感情検出データセット

TamilEmo: Finegrained Emotion Detection Dataset for Tamil ( http://arxiv.org/abs/2202.04725v1 )

ライセンス: CC BY 4.0
Charangan Vasantharajan, Sean Benhur, Prasanna Kumar Kumarasen, Rahul Ponnusamy, Sathiyaraj Thangasamy, Ruba Priyadharshini, Thenmozhi Durairaj, Kanchana Sivanraju, Anbukkarasi Sampath, Bharathi Raja Chakravarthi and John Phillip McCrae(参考訳) テキスト入力からの感情分析は自然言語処理において困難かつ興味深い課題であると考えられている。 しかし、低リソース言語(すなわちタミル語)のデータセットが不足しているため、この領域で高水準の研究を行うことは困難である。 そこで,このラベル付きデータセット(42k以上のタミル・youtubeコメントを手作業でアノテートした最大のデータセットで,31の感情を含むラベル付き)を感情認識に導入する。 このデータセットの目標は、タミルの複数の下流タスクにおける感情検出を改善することである。 また、感情の3つの異なるグループ分け(3クラス、7クラス、31クラス)を作成し、グループ分けの各カテゴリでモデルの性能を評価した。 我々のMURILベースモデルは、3クラスグループデータセット全体で0.60マクロ平均F1スコアを達成した。 7級と31級の群では、ランダムフォレストモデルはそれぞれ0.42と0.29のマクロ平均F1スコアでよく機能した。

Emotional Analysis from textual input has been considered both a challenging and interesting task in Natural Language Processing. However, due to the lack of datasets in low-resource languages (i.e. Tamil), it is difficult to conduct research of high standard in this area. Therefore we introduce this labelled dataset (a largest manually annotated dataset of more than 42k Tamil YouTube comments, labelled for 31 emotions including neutral) for emotion recognition. The goal of this dataset is to improve emotion detection in multiple downstream tasks in Tamil. We have also created three different groupings of our emotions (3-class, 7-class and 31-class) and evaluated the model's performance on each category of the grouping. Our MURIL-base model has achieved a 0.60 macro average F1-score across our 3-class group dataset. With 7-class and 31-class groups, the Random Forest model performed well with a macro average F1-scores of 0.42 and 0.29 respectively.
翻訳日:2022-02-12 08:15:54 公開日:2022-02-09
# (参考訳) 大規模言語モデルを用いた人間類似性判断の予測

Predicting Human Similarity Judgments Using Large Language Models ( http://arxiv.org/abs/2202.04728v1 )

ライセンス: CC BY 4.0
Raja Marjieh, Ilia Sucholutsky, Theodore R. Sumers, Nori Jacoby, Thomas L. Griffiths(参考訳) 類似性判断は、心理学、神経科学、機械学習に応用され、精神表現にアクセスするための確立された方法を提供する。 しかし、類似性判定の収集は、自然主義的なデータセットでは違法にコストがかかり、比較の数は刺激の数で2倍に増加する。 この問題に対処する一つの方法は、類似性を予測するためによりアクセスしやすいプロキシに依存する近似手順を構築することである。 本稿では,最近の言語モデルとオンラインリクルートの進歩を活かし,テキスト記述に基づく人間の類似性判断を予測するための効率的なドメイン一般手順を提案する。 直感的には、類似した刺激は類似した記述を誘発し、記述類似性を用いてペアワイズ類似性判定を予測できる。 重要なことに、要求される説明の数は刺激の数とともに直線的にしか増加せず、必要なデータを大幅に削減する。 本手法は, 自然画像の6つのデータセットを用いて検証し, 視覚情報に基づく従来の手法より優れていることを示す。

Similarity judgments provide a well-established method for accessing mental representations, with applications in psychology, neuroscience and machine learning. However, collecting similarity judgments can be prohibitively expensive for naturalistic datasets as the number of comparisons grows quadratically in the number of stimuli. One way to tackle this problem is to construct approximation procedures that rely on more accessible proxies for predicting similarity. Here we leverage recent advances in language models and online recruitment, proposing an efficient domain-general procedure for predicting human similarity judgments based on text descriptions. Intuitively, similar stimuli are likely to evoke similar descriptions, allowing us to use description similarity to predict pairwise similarity judgments. Crucially, the number of descriptions required grows only linearly with the number of stimuli, drastically reducing the amount of data required. We test this procedure on six datasets of naturalistic images and show that our models outperform previous approaches based on visual information.
翻訳日:2022-02-12 08:03:39 公開日:2022-02-09
# (参考訳) FedQAS:フェデレーション学習によるプライバシ対応機械読解

FedQAS: Privacy-aware machine reading comprehension with federated learning ( http://arxiv.org/abs/2202.04742v1 )

ライセンス: CC BY 4.0
Addi Ait-Mlouk, Sadi Alawadi, Salman Toor, Andreas Hellander(参考訳) テキストデータの機械読解(MRC)は自然言語理解において重要な課題である。 これは複雑なNLP問題であり、SQuAD(Stanford Question Answering Dataset)とCoQA(Conversational Question Answering)のリリースによって、多くの研究が進められている。 テキストを「理解」する方法をコンピュータに教え、深層学習を用いてその疑問に答えられるようにする試みであると考えられている。 しかし、このNLPタスクには、これまでプライベートテキストデータと知識共有に関する大規模なトレーニングが欠落している。 したがって、FedQASは、大規模なプライベートデータを活用することができるプライバシ保護マシン読取システムであり、これらのデータセットを中央にプールする必要がない。 提案手法はトランスフォーマーモデルと連合学習技術を組み合わせたものである。 このシステムはFEDnフレームワークを使用して開発され、概念実証アライアンスイニシアチブとしてデプロイされる。 FedQASは柔軟で言語に依存しないため、ローカルモデルトレーニングの直感的な参加と実行を可能にしている。 さらに,システムのアーキテクチャと実装について述べるとともに,squadデータセットに基づくリファレンス評価を提供し,データプライバシの問題を克服し,連合学習環境でのアライアンスメンバ間の知識共有を可能にする方法を示す。

Machine reading comprehension (MRC) of text data is one important task in Natural Language Understanding. It is a complex NLP problem with a lot of ongoing research fueled by the release of the Stanford Question Answering Dataset (SQuAD) and Conversational Question Answering (CoQA). It is considered to be an effort to teach computers how to "understand" a text, and then to be able to answer questions about it using deep learning. However, until now large-scale training on private text data and knowledge sharing has been missing for this NLP task. Hence, we present FedQAS, a privacy-preserving machine reading system capable of leveraging large-scale private data without the need to pool those datasets in a central location. The proposed approach combines transformer models and federated learning technologies. The system is developed using the FEDn framework and deployed as a proof-of-concept alliance initiative. FedQAS is flexible, language-agnostic, and allows intuitive participation and execution of local model training. In addition, we present the architecture and implementation of the system, as well as provide a reference evaluation based on the SQUAD dataset, to showcase how it overcomes data privacy issues and enables knowledge sharing between alliance members in a Federated learning setting.
翻訳日:2022-02-12 07:53:14 公開日:2022-02-09
# (参考訳) MMD後ブートストラップを用いたシミュレータモデルに対するロバストベイズ推定

Robust Bayesian Inference for Simulator-based Models via the MMD Posterior Bootstrap ( http://arxiv.org/abs/2202.04744v1 )

ライセンス: CC BY 4.0
Charita Dellaporta, Jeremias Knoblauch, Theodoros Damoulas, Fran\c{c}ois-Xavier Briol(参考訳) シミュレータに基づくモデルは、確率が難解であるが合成データのシミュレーションが可能であるモデルである。 それらはしばしば複雑な実世界の現象を記述するために使われ、実際では誤記されることがある。 残念ながら、シミュレーターに対する既存のベイズ的アプローチは、それらの場合、性能が良くないことが知られている。 本稿では,後方ブートストラップと最大平均偏差推定器を用いた新しいアルゴリズムを提案する。 これにより、強い堅牢性を持つ高並列性ベイズ推論アルゴリズムが導かれる。 これは、一般化境界と、我々の後部の頻繁な一貫性と堅牢性の証明を含む詳細な理論的研究によって実証される。 このアプローチは、g-and-kディストリビューションやtoggle-switchモデルなど、さまざまな例で評価される。

Simulator-based models are models for which the likelihood is intractable but simulation of synthetic data is possible. They are often used to describe complex real-world phenomena, and as such can often be misspecified in practice. Unfortunately, existing Bayesian approaches for simulators are known to perform poorly in those cases. In this paper, we propose a novel algorithm based on the posterior bootstrap and maximum mean discrepancy estimators. This leads to a highly-parallelisable Bayesian inference algorithm with strong robustness properties. This is demonstrated through an in-depth theoretical study which includes generalisation bounds and proofs of frequentist consistency and robustness of our posterior. The approach is then assessed on a range of examples including a g-and-k distribution and a toggle-switch model.
翻訳日:2022-02-12 07:35:28 公開日:2022-02-09
# (参考訳) 「これは偽物だ!誤って共有する」:偽ニュース拡散者の意図を評価する

"This is Fake! Shared it by Mistake": Assessing the Intent of Fake News Spreaders ( http://arxiv.org/abs/2202.04752v1 )

ライセンス: CC BY 4.0
Xinyi Zhou, Kai Shu, Vir V. Phoha, Huan Liu, Reza Zafarani(参考訳) 個人は偽ニュースに誤解され、偽ニュースを知らずに無意識に広めることができる。 この現象は頻繁に観測されているが、研究されていない。 本研究の目的は偽ニュース拡散者の意図を評価することである。 意図的拡散と意図的拡散を区別するために,意図的拡散の心理的説明について検討した。 そこで,本稿では,偽ニュース拡散者の意図を評価するインフルエンスグラフを提案する。 我々の広範な実験は、評価された意図が意図的および意図的でない偽ニュースの拡散を著しく区別できることを示している。 さらに、推定意図は、偽ニュースを検出する現在の技術を大幅に改善することができる。 私たちの知る限りでは、これは偽ニュース拡散における個人の意図をモデル化する最初の仕事です。

Individuals can be misled by fake news and spread it unintentionally without knowing it is false. This phenomenon has been frequently observed but has not been investigated. Our aim in this work is to assess the intent of fake news spreaders. To distinguish between intentional versus unintentional spreading, we study the psychological explanations of unintentional spreading. With this foundation, we then propose an influence graph, using which we assess the intent of fake news spreaders. Our extensive experiments show that the assessed intent can help significantly differentiate between intentional and unintentional fake news spreaders. Furthermore, the estimated intent can significantly improve the current techniques that detect fake news. To our best knowledge, this is the first work to model individuals' intent in fake news spreading.
翻訳日:2022-02-12 06:49:21 公開日:2022-02-09
# (参考訳) 認知制御を用いた連続学習のニューラルネットワークモデル

A Neural Network Model of Continual Learning with Cognitive Control ( http://arxiv.org/abs/2202.04773v1 )

ライセンス: CC BY 4.0
Jacob Russin, Maryam Zolfaghar, Seongmin A. Park, Erie Boorman, Randall C. O'Reilly(参考訳) ニューラルネットワークは、破滅的な忘れから連続的な学習環境に苦しむ:トライアルがブロックされると、新しい学習は以前のブロックからの学習を上書きできる。 人間はこれらの環境で効果的に学習し、場合によってはブロックの利点も示し、脳がこの問題を克服するためのメカニズムを含んでいることを示唆する。 本稿では,先行研究に基づいて,認知制御機構を備えたニューラルネットワークが,試行が中止された場合の破滅的な忘れ方を示さないことを示す。 また、制御信号にアクティブな保守のバイアスがある場合、インターリーブによるブロックの利点を示し、メンテナンスと制御の強さのトレードオフを示唆する。 ネットワークによって学習されたマップライクな表現の分析は、これらのメカニズムに関する追加の洞察を提供した。 我々の研究は、ニューラルネットワークにおける継続的な学習を支援する認知制御の可能性を強調し、人間の観察したブロックの利点を説明する。

Neural networks struggle in continual learning settings from catastrophic forgetting: when trials are blocked, new learning can overwrite the learning from previous blocks. Humans learn effectively in these settings, in some cases even showing an advantage of blocking, suggesting the brain contains mechanisms to overcome this problem. Here, we build on previous work and show that neural networks equipped with a mechanism for cognitive control do not exhibit catastrophic forgetting when trials are blocked. We further show an advantage of blocking over interleaving when there is a bias for active maintenance in the control signal, implying a tradeoff between maintenance and the strength of control. Analyses of map-like representations learned by the networks provided additional insights into these mechanisms. Our work highlights the potential of cognitive control to aid continual learning in neural networks, and offers an explanation for the advantage of blocking that has been observed in humans.
翻訳日:2022-02-12 06:14:50 公開日:2022-02-09
# 閉ループ型デファーラルパイプラインの設計

Designing Closed Human-in-the-loop Deferral Pipelines ( http://arxiv.org/abs/2202.04718v1 )

ライセンス: Link先を確認
Vijay Keswani, Matthew Lease, Krishnaram Kenthapadi(参考訳) ハイブリッドなヒューマンマシン推論フレームワークでは、分類器は人間の意思決定者に不確実性のあるケースを推論することができる。 このような分類器とdeferralモデルの同時トレーニングは、訓練中に真のクラスラベルを得るためのオラクルへのアクセスを前提としていたが、実際にはそのようなオラクルは存在しないことが多い。 それとは対照的に、deferralで使用される同じ誤りのある人間の意思決定者がトレーニングラベルを提供する、"閉じた"意思決定パイプラインを考える。 不完全で偏見のある人の専門家ラベルは、どのようにして公正で正確な推論フレームワークをトレーニングできるのだろうか? 我々の重要な洞察は、弱い事前情報を利用することによって、専門家と一致して、結果として生じる遅延フレームワークの公平さと正確性を保証することができるということです。 本手法の有効性は理論解析と2つの課題の評価の両方によって示される。

In hybrid human-machine deferral frameworks, a classifier can defer uncertain cases to human decision-makers (who are often themselves fallible). Prior work on simultaneous training of such classifier and deferral models has typically assumed access to an oracle during training to obtain true class labels for training samples, but in practice there often is no such oracle. In contrast, we consider a "closed" decision-making pipeline in which the same fallible human decision-makers used in deferral also provide training labels. How can imperfect and biased human expert labels be used to train a fair and accurate deferral framework? Our key insight is that by exploiting weak prior information, we can match experts to input examples to ensure fairness and accuracy of the resulting deferral framework, even when imperfect and biased experts are used in place of ground truth labels. The efficacy of our approach is shown both by theoretical analysis and by evaluation on two tasks.
翻訳日:2022-02-11 17:04:35 公開日:2022-02-09
# Adaptive Regret Guaranteesを用いたオンライン凸最適化のための新しいプロジェクションフリーアルゴリズム

New Projection-free Algorithms for Online Convex Optimization with Adaptive Regret Guarantees ( http://arxiv.org/abs/2202.04721v1 )

ライセンス: Link先を確認
Dan Garber, Ben Kretzu(参考訳) 我々は、オンライン凸最適化(OCO)のための新しい効率的な \textit{projection-free} アルゴリズムを提案する。 ほとんどの最先端のプロジェクションフリーアルゴリズムは \textit{follow-the-leader} フレームワークに基づいているが、我々のアルゴリズムは根本的に異なり、いわゆる \textit{infeasible projections} を計算するための新しい効率的なアプローチによる \textit{onlinegradient descent} アルゴリズムに基づいている。 結果として、自然に \textit{adaptive regret} 保証、すなわち w.r.t を持つ後悔境界、すなわち、シーケンスの任意の部分インターバルを与える最初のプロジェクションフリーアルゴリズムを得る。 具体的には、実現可能な集合に対する線形最適化オラクル(LOO)の可用性を$T$のシーケンスで仮定すると、我々のアルゴリズムは、LOOへの$O(T^{3/4})$適応的後悔と$O(T^{3/4})$適応的期待的後悔を保証する。 これらの境界は、現在の LOO ベースの射影自由 OCO の後悔境界と一致し、これは \textit{not adapt} である。 また、分離オラクルを通して実現可能な集合にアクセス可能な新しい自然設定も検討する。 我々は,全体$O(T)$を分離オラクルに呼び出し,$O(\sqrt{T})$適応的後悔と$O(T^{3/4})$適応的期待的後悔をそれぞれ全情報および盗賊設定に対して保証するアルゴリズムを提案する。

We present new efficient \textit{projection-free} algorithms for online convex optimization (OCO), where by projection-free we refer to algorithms that avoid computing orthogonal projections onto the feasible set, and instead relay on different and potentially much more efficient oracles. While most state-of-the-art projection-free algorithms are based on the \textit{follow-the-leader} framework, our algorithms are fundamentally different and are based on the \textit{online gradient descent} algorithm with a novel and efficient approach to computing so-called \textit{infeasible projections}. As a consequence, we obtain the first projection-free algorithms which naturally yield \textit{adaptive regret} guarantees, i.e., regret bounds that hold w.r.t. any sub-interval of the sequence. Concretely, when assuming the availability of a linear optimization oracle (LOO) for the feasible set, on a sequence of length $T$, our algorithms guarantee $O(T^{3/4})$ adaptive regret and $O(T^{3/4})$ adaptive expected regret, for the full-information and bandit settings, respectively, using only $O(T)$ calls to the LOO. These bounds match the current state-of-the-art regret bounds for LOO-based projection-free OCO, which are \textit{not adaptive}. We also consider a new natural setting in which the feasible set is accessible through a separation oracle. We present algorithms which, using overall $O(T)$ calls to the separation oracle, guarantee $O(\sqrt{T})$ adaptive regret and $O(T^{3/4})$ adaptive expected regret for the full-information and bandit settings, respectively.
翻訳日:2022-02-11 17:02:31 公開日:2022-02-09
# 非線形力学予測システムのための最適貯水池コンピュータ

Optimal reservoir computers for forecasting systems of nonlinear dynamics ( http://arxiv.org/abs/2202.05159v1 )

ライセンス: Link先を確認
Pauliina K\"arkk\"ainen and Riku Linna(参考訳) 非線形力学系の予測と解析は多くの応用において重要である。 本稿では,このタスクに適した手法として注目されている機械学習技術である貯水池計算の特性と最適化について検討する。 貯水池にベイズ最適化を体系的に適用することにより,低接続の貯水池はノイズレス・ロレンツとウィルソン・コーワン系を結合した予測において,高接続性よりも優れた性能を示す。 また, 予期せぬ非連結ノード(RUN)の貯水池が, リンクネットワークトポロジの貯水池よりも優れていることを示す。 ノイズの存在下では、連結ノードの貯留層はRUNよりもわずかに良いだけである。 これまでに報告した結果とは対照的に,リンク型貯水池のトポロジーはシステム予測の性能に意味がない。 そこで本研究では,動的システム予測のための最適貯水池コンピュータ(RC)の設計手順について述べる。 この研究は、脳波やMEG信号などの非線形力学系で測定された信号のリアルタイム予測に適用可能な計算効率の高いRCの方法である。

Prediction and analysis of systems of nonlinear dynamics is crucial in many applications. Here, we study characteristics and optimization of reservoir computing, a machine learning technique that has gained attention as a suitable method for this task. By systematically applying Bayesian optimization on reservoirs we show that reservoirs of low connectivity perform better than or as well as those of high connectivity in forecasting noiseless Lorenz and coupled Wilson-Cowan systems. We also show that, unexpectedly, computationally effective reservoirs of unconnected nodes (RUN) outperform reservoirs of linked network topologies in predicting these systems. In the presence of noise, reservoirs of linked nodes perform only slightly better than RUNs. In contrast to previously reported results, we find that the topology of linked reservoirs has no significance in the performance of system prediction. Based on our findings, we give a procedure for designing optimal reservoir computers (RC) for forecasting dynamical systems. This work paves way for computationally effective RCs applicable to real-time prediction of signals measured on systems of nonlinear dynamics such as EEG or MEG signals measured on a brain.
翻訳日:2022-02-11 17:00:20 公開日:2022-02-09
# SHAS:エンドツーエンド音声翻訳のための最適セグメンテーションへのアプローチ

SHAS: Approaching optimal Segmentation for End-to-End Speech Translation ( http://arxiv.org/abs/2202.04774v1 )

ライセンス: Link先を確認
Ioannis Tsiamas, Gerard I. G\'allego, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) 音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。 音声翻訳データセットは、実際のシナリオでは利用できない音声の手動セグメンテーションを提供し、既存のセグメンテーション手法は推論時の翻訳品質を著しく低下させる。 そこで本研究では,手話音声コーパスから最適な音声セグメンテーションを効果的に学習する手法であるsupervised hybrid audio segmentation (shas)を提案する。 まず,事前学習したwav2vec 2.0の音声表現を用いて,セグメント化に含まれるフレームを識別するように分類器を訓練する。 最適分割点は、すべてのセグメントが予め決められた長さ以下になるまで、最小確率のフレームで徐々に分割する確率的分割・探索アルゴリズムによって見出される。 MuST-C と mTEDx の実験により,本手法で生成したセグメントの翻訳が5つの言語対における手動セグメンテーションの品質に近づくことを示した。 すなわち、SHASは手動セグメンテーションのBLEUスコアの95-98%を保持しており、既存の最良のメソッドの87-93%である。 本手法は異なる領域に拡張可能であり,未認識言語で高いゼロショット性能を実現する。

Speech translation models are unable to directly process long audios, like TED talks, which have to be split into shorter segments. Speech translation datasets provide manual segmentations of the audios, which are not available in real-world scenarios, and existing segmentation methods usually significantly reduce translation quality at inference time. To bridge the gap between the manual segmentation of training and the automatic one at inference, we propose Supervised Hybrid Audio Segmentation (SHAS), a method that can effectively learn the optimal segmentation from any manually segmented speech corpus. First, we train a classifier to identify the included frames in a segmentation, using speech representations from a pre-trained wav2vec 2.0. The optimal splitting points are then found by a probabilistic Divide-and-Conquer algorithm that progressively splits at the frame of lowest probability until all segments are below a pre-specified length. Experiments on MuST-C and mTEDx show that the translation of the segments produced by our method approaches the quality of the manual segmentation on 5 languages pairs. Namely, SHAS retains 95-98% of the manual segmentation's BLEU score, compared to the 87-93% of the best existing methods. Our method is additionally generalizable to different domains and achieves high zero-shot performance in unseen languages.
翻訳日:2022-02-11 16:21:52 公開日:2022-02-09
# 顕微鏡映像における細胞追跡のためのグラフニューラルネットワーク

Graph Neural Network for Cell Tracking in Microscopy Videos ( http://arxiv.org/abs/2202.04731v1 )

ライセンス: Link先を確認
Tal Ben-Haim, Tammy Riklin-Raviv(参考訳) 本稿では,高出力顕微鏡ビデオにおける細胞追跡のための新しいグラフニューラルネットワーク(GNN)を提案する。 タイムラプスシーケンス全体を,ノードとその関連がエッジによって表現される直接グラフとしてモデル化することにより,グラフ内の最大経路を探すことで,セルトラジェクトリの集合全体を抽出する。 これは、エンドツーエンドのディープラーニングフレームワークに組み込まれたいくつかの重要な貢献によって達成される。 ディープメトリック学習アルゴリズムを用いて、異なる生体細胞のインスタンスを区別する細胞特徴ベクトルを抽出し、同じセルインスタンスを組み立てる。 ノードとエッジの特徴ベクトルを相互に更新できる新しいGNNブロック型を導入し、基礎となるメッセージパッシングプロセスを容易にする。 メッセージパッシングの概念は、gnnブロックの数によって範囲が決定されるが、ノードとエッジ間の情報の‘フロー’を連続するフレームで隣人よりもかなり後ろに置くことができるため、基本的な重要性がある。 最後にエッジ分類問題を解き、同定されたアクティブエッジを用いて、セルのトラックと系統木を構築する。 提案手法の強みを,異なる細胞タイプの2次元および3次元データセット,撮像装置,実験条件に適用することによって示す。 私たちのフレームワークは現在の最先端の手法よりも優れています。

We present a novel graph neural network (GNN) approach for cell tracking in high-throughput microscopy videos. By modeling the entire time-lapse sequence as a direct graph where cell instances are represented by its nodes and their associations by its edges, we extract the entire set of cell trajectories by looking for the maximal paths in the graph. This is accomplished by several key contributions incorporated into an end-to-end deep learning framework. We exploit a deep metric learning algorithm to extract cell feature vectors that distinguish between instances of different biological cells and assemble same cell instances. We introduce a new GNN block type which enables a mutual update of node and edge feature vectors, thus facilitating the underlying message passing process. The message passing concept, whose extent is determined by the number of GNN blocks, is of fundamental importance as it enables the `flow' of information between nodes and edges much behind their neighbors in consecutive frames. Finally, we solve an edge classification problem and use the identified active edges to construct the cells' tracks and lineage trees. We demonstrate the strengths of the proposed cell tracking approach by applying it to 2D and 3D datasets of different cell types, imaging setups, and experimental conditions. We show that our framework outperforms most of the current state-of-the-art methods.
翻訳日:2022-02-11 15:58:48 公開日:2022-02-09
# データ不足下の危機領域における微調整分割モデルのサンプリング戦略

Sampling Strategy for Fine-Tuning Segmentation Models to Crisis Area under Scarcity of Data ( http://arxiv.org/abs/2202.04766v1 )

ライセンス: Link先を確認
Adrianna Janik and Kris Sankaran(参考訳) 人道的危機対応任務におけるリモートセンシングの使用は確立されており、繰り返し関連することが証明されている。 問題の1つは、金のアノテーションの取得であり、コストと時間を要するため、危機によって影響を受ける新しい地域へのモデル調整はほぼ不可能である。 時間が重要であり、リソースは限られており、環境は常に変化しており、モデルは進化し、新しい状況に適応するための柔軟な方法を提供する必要があります。 私たちが答えたいのは、サンプルの優先順位付けが、注釈付きデータ不足下での他の古典的なサンプリング方法と比較して、微調整のより良い結果をもたらすかどうかである。 本稿では,予測iouスコアのような推定モデルとサンプル特性に基づいて,微調整時のデータ収集を誘導する手法を提案する。 サンプル優先度を計算するための式を2つ提案する。 我々のアプローチは、解釈可能性、表現学習、アクティブラーニングのテクニックをブレンドする。 我々は,人道的応用におけるリモートセンシングのコアユースケースの1つを構築するリモートセンシングアプリケーションにおいて,セマンティックセグメンテーション(U-Net)の深層学習モデルに適用した。 予備的な結果は、データ条件の不足下でセマンティックセグメンテーションモデルをチューニングするためのサンプルの優先順位付けに有用であることを示す。

The use of remote sensing in humanitarian crisis response missions is well-established and has proven relevant repeatedly. One of the problems is obtaining gold annotations as it is costly and time consuming which makes it almost impossible to fine-tune models to new regions affected by the crisis. Where time is critical, resources are limited and environment is constantly changing, models has to evolve and provide flexible ways to adapt to a new situation. The question that we want to answer is if prioritization of samples provide better results in fine-tuning vs other classical sampling methods under annotated data scarcity? We propose a method to guide data collection during fine-tuning, based on estimated model and sample properties, like predicted IOU score. We propose two formulas for calculating sample priority. Our approach blends techniques from interpretability, representation learning and active learning. We have applied our method to a deep learning model for semantic segmentation, U-Net, in a remote sensing application of building detection - one of the core use cases of remote sensing in humanitarian applications. Preliminary results shows utility in prioritization of samples for tuning semantic segmentation models under scarcity of data condition.
翻訳日:2022-02-11 15:58:07 公開日:2022-02-09
# StackGPのシンボリック回帰タスクにおけるアクティブ学習によるパフォーマンス向上

Active Learning Improves Performance on Symbolic RegressionTasks in StackGP ( http://arxiv.org/abs/2202.04708v1 )

ライセンス: Link先を確認
Nathan Haut, Wolfgang Banzhaf, Bill Punch(参考訳) 本稿では,stackgpを用いた記号回帰のアクティブ学習手法を提案する。 このアプローチは、stackgpがモデル化するための少数のデータポイントから始まる。 モデルを改善するために、新しいポイントがモデルアンサンブルで測定された予測の不確実性を最大化するデータポイントを漸進的に追加する。 シンボリック回帰はより大きなデータセットで再実行される。 このサイクルは、システムが終了基準を満たすまで続く。 我々はFeynman AIベンチマークを用いて,少ないデータポイントを用いて適切なモデルを見つけるための手法の能力を検証した。 このアプローチは、可能な限り少ないデータポイントを使用して、ドメインの専門知識やデータ変換を使わずに、100個のファインマン方程式の72個の再発見に成功した。

In this paper we introduce an active learning method for symbolic regression using StackGP. The approach begins with a small number of data points for StackGP to model. To improve the model the system incrementally adds a data point such that the new point maximizes prediction uncertainty as measured by the model ensemble. Symbolic regression is re-run with the larger data set. This cycle continues until the system satisfies a termination criterion. We use the Feynman AI benchmark set of equations to examine the ability of our method to find appropriate models using fewer data points. The approach was found to successfully rediscover 72 of the 100 Feynman equations using as few data points as possible, and without use of domain expertise or data translation.
翻訳日:2022-02-11 15:54:28 公開日:2022-02-09
# 統計的推論と対話的可視化を用いた学習表現の概念の発見

Discovering Concepts in Learned Representations using Statistical Inference and Interactive Visualization ( http://arxiv.org/abs/2202.04753v1 )

ライセンス: Link先を確認
Adrianna Janik and Kris Sankaran(参考訳) 概念発見は、非深層学習の専門家とモデルエンドユーザーの間のギャップを埋めるために重要である解釈可能性文学におけるオープンな問題の1つである。 現在の定式化の中で、概念はそれらを学習表現空間の方向として定義する。 この定義により、特定の概念が興味あるクラスの分類決定に大きな影響を及ぼすかどうかを評価することができる。 しかし、表現空間は高次元でナビゲートが難しいため、関連する概念を見つけるのは面倒である。 現在のアプローチには、手作りの概念データセットと、それを潜在空間方向に変換することが含まれており、代わりに、潜在空間をクラスタリングすることでプロセスを自動化することができる。 本研究では,複数の仮説テストに基づく意味ある概念のユーザ発見と,インタラクティブな可視化に関する2つのアプローチを提案する。 シミュレーション実験と実データへのデモビジュアルインターフェースを通じて,これらのアプローチの価値と限界について検討する。 全体として、これらの手法は、ユーザーが事前に定義した記述を持たない設定で、プロセスを完全に自動化することなく、関連する概念を発見するための有望な戦略を提供する。

Concept discovery is one of the open problems in the interpretability literature that is important for bridging the gap between non-deep learning experts and model end-users. Among current formulations, concepts defines them by as a direction in a learned representation space. This definition makes it possible to evaluate whether a particular concept significantly influences classification decisions for classes of interest. However, finding relevant concepts is tedious, as representation spaces are high-dimensional and hard to navigate. Current approaches include hand-crafting concept datasets and then converting them to latent space directions; alternatively, the process can be automated by clustering the latent space. In this study, we offer another two approaches to guide user discovery of meaningful concepts, one based on multiple hypothesis testing, and another on interactive visualization. We explore the potential value and limitations of these approaches through simulation experiments and an demo visual interface to real data. Overall, we find that these techniques offer a promising strategy for discovering relevant concepts in settings where users do not have predefined descriptions of them, but without completely automating the process.
翻訳日:2022-02-11 15:20:39 公開日:2022-02-09
# 対称ネットワークの主成分分析のための結合CP分解

A Coupled CP Decomposition for Principal Components Analysis of Symmetric Networks ( http://arxiv.org/abs/2202.04719v1 )

ライセンス: Link先を確認
Michael Weylandt and George Michailidis(参考訳) 多くのアプリケーションドメインでは、ネットワークデータのシーケンスを観察する。例えば、ソーシャルメディアプラットフォームにおけるユーザインタラクションの繰り返し測定、時間経過による金融相関ネットワーク、あるいは脳接続のマルチサブジェクト研究などである。 このようなデータを解析する方法の1つは、ネットワークを3階配列またはテンソルに積み重ねることである。 半対称テンソルの新たな分解法に基づいて,シーケンスネットワークデータに対する主成分分析(PCA)フレームワークを提案する。 提案した「結合CP」分解の効率的な計算アルゴリズムを導出し, 対数項までの行列の場合と同じ速度のスパイク共分散モデルを用いて, 提案手法の近似一貫性を確立する。 本フレームワークは,従来のPCAの強みの多くを継承し,主観的ネットワークの特定,意味のある変化点や外れ値の分離,および最も多様なエッジの「可変性ネットワーク」の特徴化など,広範囲の教師なし学習タスクに適している。 最後に, シミュレーションデータおよび政治学・金融経済学の事例について提案の有効性を示す。 主な一貫性の確立に使用される証明技術は驚くほど直線的であり、他の様々な行列やテンソル分解問題で使われる可能性がある。

In a number of application domains, one observes a sequence of network data; for example, repeated measurements between users interactions in social media platforms, financial correlation networks over time, or across subjects, as in multi-subject studies of brain connectivity. One way to analyze such data is by stacking networks into a third-order array or tensor. We propose a principal components analysis (PCA) framework for sequence network data, based on a novel decomposition for semi-symmetric tensors. We derive efficient algorithms for computing our proposed "Coupled CP" decomposition and establish estimation consistency of our approach under an analogue of the spiked covariance model with rates the same as the matrix case up to a logarithmic term. Our framework inherits many of the strengths of classical PCA and is suitable for a wide range of unsupervised learning tasks, including identifying principal networks, isolating meaningful changepoints or outliers across observations, and for characterizing the "variability network" of the most varying edges. Finally, we demonstrate the effectiveness of our proposal on simulated data and on examples from political science and financial economics. The proof techniques used to establish our main consistency results are surprisingly straight-forward and may find use in a variety of other matrix and tensor decomposition problems.
翻訳日:2022-02-11 15:17:56 公開日:2022-02-09
# 最小選択原理によるオンライン学習と輸送

Online Learning to Transport via the Minimal Selection Principle ( http://arxiv.org/abs/2202.04732v1 )

ライセンス: Link先を確認
Wenxuan Guo, YoonHaeng Hur, Tengyuan Liang, Christopher Ryan(参考訳) 操作研究におけるロバストな動的資源配分を動機として、決定変数が確率測度であるオンライン学習輸送(OLT)問題(無限次元オブジェクト)を研究する。 オンライン学習,最適移動,偏微分方程式間の関係を最小選択原理(minimum selection principle)という洞察を通じて導き,ambrosio et al. (2005) によるwassersteingradient flow set で研究した。 これにより、標準オンライン学習フレームワークを無限次元設定にシームレスに拡張できます。 我々は,この枠組みに基づいて最小選択探索法(MSoE)と呼ばれる新しい手法を導出し,平均場近似と離散化手法を用いてORT問題を解く。 変位凸設定において、我々のアプローチを裏付ける主要な理論的メッセージは、(最小選択原理を介して)時間とともに輸送コストを最小化し、最適累積後悔上限を保証することである。 アルゴリズム側では,MSoEアルゴリズムは変位凸設定を超えて適用され,動的資源割り当てに共通する非凸設定と実際に関係する最適輸送の数学的理論が成立する。

Motivated by robust dynamic resource allocation in operations research, we study the Online Learning to Transport (OLT) problem where the decision variable is a probability measure, an infinite-dimensional object. We draw connections between online learning, optimal transport, and partial differential equations through an insight called the minimal selection principle, originally studied in the Wasserstein gradient flow setting by Ambrosio et al. (2005). This allows us to extend the standard online learning framework to the infinite-dimensional setting seamlessly. Based on our framework, we derive a novel method called the minimal selection or exploration (MSoE) algorithm to solve OLT problems using mean-field approximation and discretization techniques. In the displacement convex setting, the main theoretical message underpinning our approach is that minimizing transport cost over time (via the minimal selection principle) ensures optimal cumulative regret upper bounds. On the algorithmic side, our MSoE algorithm applies beyond the displacement convex setting, making the mathematical theory of optimal transport practically relevant to non-convex settings common in dynamic resource allocation.
翻訳日:2022-02-11 15:17:33 公開日:2022-02-09
# 深層学習とオプティカルフローを用いた臨床作業負荷と患者活動の推定

Estimation of Clinical Workload and Patient Activity using Deep Learning and Optical Flow ( http://arxiv.org/abs/2202.04748v1 )

ライセンス: Link先を確認
Thanh Nguyen-Duc, Peter Y Chan, Andrew Tay, David Chen, John Tan Nguyen, Jessica Lyall and Maria De Freitas(参考訳) 熱画像を用いた非接触モニタリングは、新型コロナウイルス(COVID-19)パンデミック中の発熱や感染を検出するため、病院で患者の劣化を監視するためにますます提案されている。 本報告では, 患者の動きを推定し, 同様の技術的セットアップを用いて臨床作業負荷を観察する新しい手法を提案し, オープンソースの物体検出アルゴリズム(yolov4)と光学フローを組み合わせた。 患者の運動推定は患者の興奮と鎮静を近似し, 作業者の動作は介護者の作業負荷のサーロゲートとして用いた。 集中治療室で録画された患者の映像から32000フレーム以上を臨床労働者が記録した臨床動揺スコアと比較した。

Contactless monitoring using thermal imaging has become increasingly proposed to monitor patient deterioration in hospital, most recently to detect fevers and infections during the COVID-19 pandemic. In this letter, we propose a novel method to estimate patient motion and observe clinical workload using a similar technical setup but combined with open source object detection algorithms (YOLOv4) and optical flow. Patient motion estimation was used to approximate patient agitation and sedation, while worker motion was used as a surrogate for caregiver workload. Performance was illustrated by comparing over 32000 frames from videos of patients recorded in an Intensive Care Unit, to clinical agitation scores recorded by clinical workers.
翻訳日:2022-02-11 15:14:50 公開日:2022-02-09
# 多レベル深層畳み込みエンコーダ・デコーダネットワークを用いた解析的RBCのセマンティックセグメンテーション

Semantic Segmentation of Anaemic RBCs Using Multilevel Deep Convolutional Encoder-Decoder Network ( http://arxiv.org/abs/2202.04650v1 )

ライセンス: Link先を確認
Muhammad Shahzad, Arif Iqbal Umar, Syed Hamad Shirazi, Israr Ahmed Shaikh(参考訳) 血液画像のピクセルレベル分析は、血液疾患、特に貧血の診断において重要な役割を果たす。 これらの分析は主に、形状、大きさ、正確なピクセル数などの形態的変形の正確な診断に依存している。 従来のセグメンテーションでは、ピクセルレベルの分析では実現不可能なインスタンスやオブジェクトベースのアプローチが採用されている。 畳み込みニューラルネットワーク(cnn)モデルは、深層学習領域における赤血球のセマンティックセグメンテーションのための詳細なピクセルレベルの情報を含む大きなデータセットを必要とした。 本研究では,マルチレベル深層畳み込みエンコーダ・デコーダネットワークと,2つの最先端の健康データと嫌気性rbcデータセットを提案する。 提案したマルチレベルCNNモデルでは,ある層から抽出した画素レベルの意味情報を次の層に渡して関連する特徴を選択する。 この現象は、形態学的解析とともに、健康および貧血-RBC元素のピクセルレベルを正確にカウントするのに役立つ。 実験目的で、我々は最先端のRBCデータセットであるHealthy-RBCとAnaemic-RBCsデータセットを2つ提案した。 各データセットには、1000の画像、地上の真実マスク、関連性、完全血球数(CBC)、パフォーマンス評価のための形態学レポートが含まれている。 提案手法は,IoU,個別トレーニング,検証,テスト精度,グローバルアキュラシーを05倍のトレーニング手順で検出し,地中真理マスクを用いたクロスマッチ解析を用いて評価した。 このモデルは、Healthy-RBCデータセットで0.9856、0.9760、0.9720、Anaemic-RBCデータセットで0.9736、0.9696、0.9591のトレーニング、検証、テストの精度を得た。 提案したモデルのIoUとBFScoreはそれぞれ0.9311、0.9138、0.9032、0.8978である。

Pixel-level analysis of blood images plays a pivotal role in diagnosing blood-related diseases, especially Anaemia. These analyses mainly rely on an accurate diagnosis of morphological deformities like shape, size, and precise pixel counting. In traditional segmentation approaches, instance or object-based approaches have been adopted that are not feasible for pixel-level analysis. The convolutional neural network (CNN) model required a large dataset with detailed pixel-level information for the semantic segmentation of red blood cells in the deep learning domain. In current research work, we address these problems by proposing a multi-level deep convolutional encoder-decoder network along with two state-of-the-art healthy and Anaemic-RBC datasets. The proposed multi-level CNN model preserved pixel-level semantic information extracted in one layer and then passed to the next layer to choose relevant features. This phenomenon helps to precise pixel-level counting of healthy and anaemic-RBC elements along with morphological analysis. For experimental purposes, we proposed two state-of-the-art RBC datasets, i.e., Healthy-RBCs and Anaemic-RBCs dataset. Each dataset contains 1000 images, ground truth masks, relevant, complete blood count (CBC), and morphology reports for performance evaluation. The proposed model results were evaluated using crossmatch analysis with ground truth mask by finding IoU, individual training, validation, testing accuracies, and global accuracies using a 05-fold training procedure. This model got training, validation, and testing accuracies as 0.9856, 0.9760, and 0.9720 on the Healthy-RBC dataset and 0.9736, 0.9696, and 0.9591 on an Anaemic-RBC dataset. The IoU and BFScore of the proposed model were 0.9311, 0.9138, and 0.9032, 0.8978 on healthy and anaemic datasets, respectively.
翻訳日:2022-02-11 14:48:39 公開日:2022-02-09
# 人間はワンショットで学ぶことはできるのか?

Can Humans Do Less-Than-One-Shot Learning? ( http://arxiv.org/abs/2202.04670v1 )

ライセンス: Link先を確認
Maya Malaviya, Ilia Sucholutsky, Kerem Oktar, Thomas L. Griffiths(参考訳) 少量のデータから学習できることは、人間の知性にとって重要な特徴だが、いかにして小さいのか? 本稿では,従来よりも多くのカテゴリを学べるかどうか(つまり,人間が「一発のショット」を学べるのか?)を問う,極めてデータ量の多い環境での分類を検証できる新しい実験パラダイムを提案する。 このパラダイムを用いて行った実験は、人々がそのような設定で学習できることを明らかにし、基礎となるメカニズムについていくつかの洞察を提供する。 まず、非常に小さなデータから高次元の特徴空間を正確に推測し、表現することができる。 第二に、関係する空間を推測すると、人々はプロトタイプベースの分類(例題に基づく分類とは対照的)の形式を使って分類的推論を行う。 最後に、機械学習可能な応答パターンは、人々がこの種のデータスカース問題に対処するために効率的な帰納バイアスを持つ可能性があることを示している。

Being able to learn from small amounts of data is a key characteristic of human intelligence, but exactly {\em how} small? In this paper, we introduce a novel experimental paradigm that allows us to examine classification in an extremely data-scarce setting, asking whether humans can learn more categories than they have exemplars (i.e., can humans do "less-than-one shot" learning?). An experiment conducted using this paradigm reveals that people are capable of learning in such settings, and provides several insights into underlying mechanisms. First, people can accurately infer and represent high-dimensional feature spaces from very little data. Second, having inferred the relevant spaces, people use a form of prototype-based categorization (as opposed to exemplar-based) to make categorical inferences. Finally, systematic, machine-learnable patterns in responses indicate that people may have efficient inductive biases for dealing with this class of data-scarce problems.
翻訳日:2022-02-11 14:48:03 公開日:2022-02-09
# 粒状化:構造的に粗末な宝くじをめざして

Coarsening the Granularity: Towards Structurally Sparse Lottery Tickets ( http://arxiv.org/abs/2202.04736v1 )

ライセンス: Link先を確認
Tianlong Chen, Xuxi Chen, Xiaolong Ma, Yanzhi Wang, Zhangyang Wang(参考訳) 宝くじ仮説(lth: lottery ticket hypothesis)は、密集したモデルに非常にスパースなサブネットワーク(すなわち勝利のチケット)が含まれており、完全な正確性に合うように訓練できることを示した。 多くのエキサイティングな努力がなされているにもかかわらず、勝利のチケットはイテレーティブ・マグニチュード・プルーニング(IMP)によって見出され、その結果、プルーニングされたサブネットは非構造化の空間しか持たない。 このギャップは、非常に不規則なスパースパターンがハードウェア上で加速することが難しいため、実際に勝つチケットの魅力を制限する。 一方,unstructured pruning for unstructured pruning in impによる構造的pruningの直接置換は,より厳しい性能を損なう。 本稿では,構造的にばらばらな入賞券を効果的に発見できる最初のポジティブな結果を示す。 中心となる考え方は、各ラウンド(非構造化)impの後に「後処理技術」を付加し、構造的スパーシティの形成を強制することである。 具体的には、まず「再充填」した要素を重要と見なされるいくつかのチャネルに戻すと、非ゼロ要素を「再グループ化」して、柔軟なグループ的な構造パターンを作ります。 我々の特定チャネルおよびグループ単位の構造サブネットが、既存のハードウェアで容易にサポートされ、宝くじに勝つ。 複数のネットワークバックボーンにまたがる多様なデータセットで実施された大規模な実験は、我々の提案を一貫して検証し、LTHのハードウェアアクセラレーションの障害が取り除かれたことを示す。 具体的には、構造的な当選チケットは{64.93%, 64.84%, 64.84%} 実行時間の節約が {36% ~ 80%, 74%, 58%} となり、{cifar, tiny-imagenet, imagenet} と同等の精度を保っている。 コードはhttps://github.com/VITA-Group/Structure-LTHで公開されている。

The lottery ticket hypothesis (LTH) has shown that dense models contain highly sparse subnetworks (i.e., winning tickets) that can be trained in isolation to match full accuracy. Despite many exciting efforts being made, there is one "commonsense" seldomly challenged: a winning ticket is found by iterative magnitude pruning (IMP) and hence the resultant pruned subnetworks have only unstructured sparsity. That gap limits the appeal of winning tickets in practice, since the highly irregular sparse patterns are challenging to accelerate on hardware. Meanwhile, directly substituting structured pruning for unstructured pruning in IMP damages performance more severely and is usually unable to locate winning tickets. In this paper, we demonstrate the first positive result that a structurally sparse winning ticket can be effectively found in general. The core idea is to append "post-processing techniques" after each round of (unstructured) IMP, to enforce the formation of structural sparsity. Specifically, we first "re-fill" pruned elements back in some channels deemed to be important, and then "re-group" non-zero elements to create flexible group-wise structural patterns. Both our identified channel- and group-wise structural subnetworks win the lottery, with substantial inference speedups readily supported by existing hardware. Extensive experiments, conducted on diverse datasets across multiple network backbones, consistently validate our proposal, showing that the hardware acceleration roadblock of LTH is now removed. Specifically, the structural winning tickets obtain up to {64.93%, 64.84%, 64.84%} running time savings at {36% ~ 80%, 74%, 58%} sparsity on {CIFAR, Tiny-ImageNet, ImageNet}, while maintaining comparable accuracy. Codes are available in https://github.com/VITA-Group/Structure-LTH.
翻訳日:2022-02-11 14:42:58 公開日:2022-02-09
# ブラックボックス型問題における高次元不確かさ定量化のための教師なし学習法の検討

A survey of unsupervised learning methods for high-dimensional uncertainty quantification in black-box-type problems ( http://arxiv.org/abs/2202.04648v1 )

ライセンス: Link先を確認
Katiana Kontolati, Dimitrios Loukrezis, Dimitrios D. Giovanis, Lohit Vandanapu, Michael D. Shields(参考訳) 複素偏微分方程式(PDE)上の不確実性量子化(UQ)の代理モデルを構成することは、本質的に高次元の$\mathcal{O}(10^{\ge 2})$確率的な入力(例えば、条件、境界条件、初期条件)が大きな課題を引き起こす。 次元の呪いは、構造情報と有意義な性質を保持しながら、入力を低次元部分空間にエンコードする前処理ツールとして使われる、適切な教師なし学習技術で対処できる。 本研究では, 線形および非線形, スペクトル, ブラインドソース分離, 凸および非凸法を含む13次元縮小法について検討し, 得られた埋め込みを用いて多項式カオス展開 (pce) による関心量のマッピングを構築する。 一般に提案されたアプローチを多様体 pce (m-pce) と呼び、そこでは多様体は解析された次元減少法のいずれかから生じる潜在空間に対応する。 ガウス的および非ガウス的ランダム場としてモデル化された様々な複雑性の高次元確率入力を持つ3つの物理系(ブラックボックスとして扱われる)の数値実験を行い、入力データの本質的次元性の影響について検討する。 我々は、教師なし学習手法の利点と限界の両方を実証し、最近提案された高価なディープニューラルネットワークベースのサロゲートを含む文献で提案された代替アルゴリズムと比較して、適切なm-PCEモデルがコスト効率の良いアプローチを提供すると結論付けた。

Constructing surrogate models for uncertainty quantification (UQ) on complex partial differential equations (PDEs) having inherently high-dimensional $\mathcal{O}(10^{\ge 2})$ stochastic inputs (e.g., forcing terms, boundary conditions, initial conditions) poses tremendous challenges. The curse of dimensionality can be addressed with suitable unsupervised learning techniques used as a pre-processing tool to encode inputs onto lower-dimensional subspaces while retaining its structural information and meaningful properties. In this work, we review and investigate thirteen dimension reduction methods including linear and nonlinear, spectral, blind source separation, convex and non-convex methods and utilize the resulting embeddings to construct a mapping to quantities of interest via polynomial chaos expansions (PCE). We refer to the general proposed approach as manifold PCE (m-PCE), where manifold corresponds to the latent space resulting from any of the studied dimension reduction methods. To investigate the capabilities and limitations of these methods we conduct numerical tests for three physics-based systems (treated as black-boxes) having high-dimensional stochastic inputs of varying complexity modeled as both Gaussian and non-Gaussian random fields to investigate the effect of the intrinsic dimensionality of input data. We demonstrate both the advantages and limitations of the unsupervised learning methods and we conclude that a suitable m-PCE model provides a cost-effective approach compared to alternative algorithms proposed in the literature, including recently proposed expensive deep neural network-based surrogates and can be readily applied for high-dimensional UQ in stochastic PDEs.
翻訳日:2022-02-11 14:39:38 公開日:2022-02-09
# 不均一無線ネットワーク上での動的分散モデルトレーニングのための並列逐次学習

Parallel Successive Learning for Dynamic Distributed Model Training over Heterogeneous Wireless Networks ( http://arxiv.org/abs/2202.02947v2 )

ライセンス: Link先を確認
Seyyedali Hosseinalipour, Su Wang, Nicolo Michelusi, Vaneet Aggarwal, Christopher G. Brinton, David J. Love, Mung Chiang(参考訳) フェデレートラーニング(FedL)は,一連の無線デバイス上で,反復的なローカルアップデート(デバイス)とグローバルアグリゲーション(サーバ)を通じて,モデルトレーニングを分散する一般的なテクニックとして登場した。 本稿では,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発する。 i)デバイス間通信(D2D)を介してデバイス間の分散協調を可能にするネットワーク。 (ii-a)学習:pslは、デバイスで異なるミニバッチサイズを持つ確率的勾配降下イテレーションの異種数を考慮し、(ii-b)データ:pslはデータの到着と出発を伴う動的環境を想定し、ローカルデータセットの分布は時間とともに進化し、モデル/コンセプトドリフトの新しいメトリックを介してキャプチャされる。 (ii-c) デバイス: PSLは計算能力と通信能力の異なるデバイスを考える。 (iii)近接、デバイス同士の距離とアクセスポイントが異なる。 pslは、資源効率の改善のためにそれらの間にアイドルタイムでグローバルアグリゲーションが実行され、データ分散とモデル分散と局所モデル凝縮をfederに組み込む現実的なシナリオを考察している。 我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。 次に、ネットワーク対応動的モデルトラッキングを提案し、モデル学習とリソース効率のトレードオフを最適化し、NPハードなシグナミカルプログラミング問題を示す。 最後に, 一般最適化解法を提案することで, この問題を解決した。 数値計算により,グローバルアグリゲーション,モデル/コンセプションドリフト,D2D協調構成の間におけるアイドル時間間の相互依存性が明らかになった。

Federated learning (FedL) has emerged as a popular technique for distributing model training over a set of wireless devices, via iterative local updates (at devices) and global aggregations (at the server). In this paper, we develop parallel successive learning (PSL), which expands the FedL architecture along three dimensions: (i) Network, allowing decentralized cooperation among the devices via device-to-device (D2D) communications. (ii) Heterogeneity, interpreted at three levels: (ii-a) Learning: PSL considers heterogeneous number of stochastic gradient descent iterations with different mini-batch sizes at the devices; (ii-b) Data: PSL presumes a dynamic environment with data arrival and departure, where the distributions of local datasets evolve over time, captured via a new metric for model/concept drift. (ii-c) Device: PSL considers devices with different computation and communication capabilities. (iii) Proximity, where devices have different distances to each other and the access point. PSL considers the realistic scenario where global aggregations are conducted with idle times in-between them for resource efficiency improvements, and incorporates data dispersion and model dispersion with local model condensation into FedL. Our analysis sheds light on the notion of cold vs. warmed up models, and model inertia in distributed machine learning. We then propose network-aware dynamic model tracking to optimize the model learning vs. resource efficiency tradeoff, which we show is an NP-hard signomial programming problem. We finally solve this problem through proposing a general optimization solver. Our numerical results reveal new findings on the interdependencies between the idle times in-between the global aggregations, model/concept drift, and D2D cooperation configuration.
翻訳日:2022-02-11 13:01:36 公開日:2022-02-09
# (参考訳) 最適な変分オートエンコーダを用いた共変量不変表現学習

Covariate-informed Representation Learning with Samplewise Optimal Identifiable Variational Autoencoders ( http://arxiv.org/abs/2202.04206v1 )

ライセンス: CC BY 4.0
Young-geun Kim, Ying Liu, Xuexin Wei(参考訳) 最近提案された変分オートエンコーダ (iVAE, Khemakhem et al. (2020)) フレームワークは、データの潜在独立成分を学習するための有望なアプローチを提供する。 識別性は魅力的だが、iVAEの目的関数はエンコーダとデコーダの逆関係を強制しない。 逆関係がなければ、iVAEのエンコーダからの表現は観察を再構成することができない。 この制限を克服するため,共変量インフォームド識別型VAE(CI-iVAE)という新しいアプローチを開発した。 従来のiVAE実装と異なり,本手法は観測のみに条件付き潜伏変数の後方分布を著しく活用する。 その際、目的関数は逆関係を強制し、学習された表現はより多くの観測情報を含む。 さらに、CI-iVAEは元のiVAEの目的関数をより大きなクラスに拡張し、その中の最適な関数を見つけることで、データに適合する。 理論的には、この手法は元のiVAEよりも厳密な証拠(ELBO)を持つ。 本稿では, 各種合成データセットの特徴, 2つのベンチマーク画像データセット(EMNISTとFashion MNIST), および青年期精神保健研究のための大規模脳画像データセットをより確実に学習できることを実証する。

Recently proposed identifiable variational autoencoder (iVAE, Khemakhem et al. (2020)) framework provides a promising approach for learning latent independent components of the data. Although the identifiability is appealing, the objective function of iVAE does not enforce the inverse relation between encoders and decoders. Without the inverse relation, representations from the encoder in iVAE may not reconstruct observations,i.e., representations lose information in observations. To overcome this limitation, we develop a new approach, covariate-informed identifiable VAE (CI-iVAE). Different from previous iVAE implementations, our method critically leverages the posterior distribution of latent variables conditioned only on observations. In doing so, the objective function enforces the inverse relation, and learned representation contains more information of observations. Furthermore, CI-iVAE extends the original iVAE objective function to a larger class and finds the optimal one among them, thus providing a better fit to the data. Theoretically, our method has tighter evidence lower bounds (ELBOs) than the original iVAE. We demonstrate that our approach can more reliably learn features of various synthetic datasets, two benchmark image datasets (EMNIST and Fashion MNIST), and a large-scale brain imaging dataset for adolescent mental health research.
翻訳日:2022-02-11 02:37:08 公開日:2022-02-09
# (参考訳) 因果推論手法の評価

Evaluating Causal Inference Methods ( http://arxiv.org/abs/2202.04208v1 )

ライセンス: CC BY 4.0
Harsh Parikh, Carlos Varjao, Louise Xu, Eric Tchetgen Tchetgen(参考訳) 因果推論を描く基本的な課題は、反事実的結果がいかなる単位に対しても完全には観察されないことである。 さらに、観察研究では、治療の割り当てが合理化されそうである。 確率スコア法、確率スコア法、二重頑健な方法など、前処理の共変量による未定条件下での因果推論のための統計手法が数多く出現している。 応用研究者にとって残念なことに、最適に普遍的に実行できる‘one-size-fits-all’因果法は存在しない。 実際、因果的手法は主に手作りシミュレーションデータに基づいて定量的に評価される。 このようなデータ生成手順は、通常、現実のスタイル化されたモデルであるため、限られた価値しか持たない。 それらはトラクタビリティをシンプルにし、現実世界のデータの複雑さを欠いている。 応用研究者にとって、手元のデータに対してどのようにメソッドが機能するかを理解することは重要である。 本研究は,因果推論手法を検証するために,深い生成モデルに基づくフレームワークであるcredenceを導入する。 フレームワークの新規性は、観測されたサンプルの実験的分布に固定された合成データを生成する能力に由来するため、後者とは事実上区別できない。 このアプローチにより、ユーザーは因果効果の形式と大きさの基底真理とバイアスを共変量の関数として定義することができる。 そこで, シミュレーションデータセットを用いて, 観測試料と類似したデータに適用した場合に, 種々の因果推定手法の有効性を評価する。 本研究では,Credenceの因果推定手法の相対的性能を,広範囲なシミュレーション研究と,LalondeとProject STARによる2つの実世界のデータ応用で正確に評価する能力を示す。

The fundamental challenge of drawing causal inference is that counterfactual outcomes are not fully observed for any unit. Furthermore, in observational studies, treatment assignment is likely to be confounded. Many statistical methods have emerged for causal inference under unconfoundedness conditions given pre-treatment covariates, including propensity score-based methods, prognostic score-based methods, and doubly robust methods. Unfortunately for applied researchers, there is no `one-size-fits-all' causal method that can perform optimally universally. In practice, causal methods are primarily evaluated quantitatively on handcrafted simulated data. Such data-generative procedures can be of limited value because they are typically stylized models of reality. They are simplified for tractability and lack the complexities of real-world data. For applied researchers, it is critical to understand how well a method performs for the data at hand. Our work introduces a deep generative model-based framework, Credence, to validate causal inference methods. The framework's novelty stems from its ability to generate synthetic data anchored at the empirical distribution for the observed sample, and therefore virtually indistinguishable from the latter. The approach allows the user to specify ground truth for the form and magnitude of causal effects and confounding bias as functions of covariates. Thus simulated data sets are used to evaluate the potential performance of various causal estimation methods when applied to data similar to the observed sample. We demonstrate Credence's ability to accurately assess the relative performance of causal estimation techniques in an extensive simulation study and two real-world data applications from Lalonde and Project STAR studies.
翻訳日:2022-02-11 02:04:55 公開日:2022-02-09
# (参考訳) 不平衡・雑音データを用いた故障検出と診断 : 回転機械用ハイブリッドフレームワーク

Fault Detection and Diagnosis with Imbalanced and Noisy Data: A Hybrid Framework for Rotating Machinery ( http://arxiv.org/abs/2202.04212v1 )

ライセンス: CC BY 4.0
Masoud Jalayer, Amin Kaboli, Carlotta Orsenigo, Carlo Vercellis(参考訳) 回転機械製造システムの保守コスト低減には, 故障診断が重要な役割を担っている。 障害検出と診断の多くの実際の応用において、データは不均衡になりがちであり、ある障害クラスのサンプルの数は通常のデータサンプルよりもはるかに少ない。 同時に、産業環境では、加速度計は高いレベルの破壊的な信号に遭遇し、収集されたサンプルはノイズが大きいことが判明した。 その結果、従来のフォールト検出および診断(fdd)フレームワークの多くは、現実の状況に対処する場合の分類性能が低くなる。 この問題に対処するために,(1)未表現の入力サンプル量を増やす生成アルゴリズムの実装,(2)不均衡でノイズの多いデータから学ぶのに強力な分類器の雇用,(3)特徴抽出とデータ拡張を含む効率的なデータ前処理の開発,の3つの主要な解決策が文献に提案されている。 本稿では, 上記3つの成分を併用して, 不均衡状態に対する効果的な信号ベースFDDシステムを実現するハイブリッドフレームワークを提案する。 具体的には、最初にフーリエ変換とウェーブレット変換を用いて故障の特徴を抽出し、信号を完全に利用する。 次にwassersteingenerative adversarial networks(wgan)を使用して合成サンプルを生成し、希少な障害クラスを投入し、トレーニングセットを強化する。 さらに、高い性能を達成するために、畳み込み長短期記憶(CLSTM)と重み付き極学習機械(WELM)を組み合わせた新しい組み合わせを提案する。 開発したフレームワークの有効性を検証するために,不均衡と騒音度が異なるデータセットの設定を行った。 比較結果は、GAN-CLSTM-ELMが他の最先端のFDDフレームワークよりも優れていることを示している。

Fault diagnosis plays an essential role in reducing the maintenance costs of rotating machinery manufacturing systems. In many real applications of fault detection and diagnosis, data tend to be imbalanced, meaning that the number of samples for some fault classes is much less than the normal data samples. At the same time, in an industrial condition, accelerometers encounter high levels of disruptive signals and the collected samples turn out to be heavily noisy. As a consequence, many traditional Fault Detection and Diagnosis (FDD) frameworks get poor classification performances when dealing with real-world circumstances. Three main solutions have been proposed in the literature to cope with this problem: (1) the implementation of generative algorithms to increase the amount of under-represented input samples, (2) the employment of a classifier being powerful to learn from imbalanced and noisy data, (3) the development of an efficient data pre-processing including feature extraction and data augmentation. This paper proposes a hybrid framework which uses the three aforementioned components to achieve an effective signal-based FDD system for imbalanced conditions. Specifically, it first extracts the fault features, using Fourier and wavelet transforms to make full use of the signals. Then, it employs Wasserstein Generative Adversarial Networks (WGAN) to generate synthetic samples to populate the rare fault class and enhance the training set. Moreover, to achieve a higher performance a novel combination of Convolutional Long Short-term Memory (CLSTM) and Weighted Extreme Learning Machine (WELM) is proposed. To verify the effectiveness of the developed framework, different datasets settings on different imbalance severities and noise degrees were used. The comparative results demonstrate that in different scenarios GAN-CLSTM-ELM outperforms the other state-of-the-art FDD frameworks.
翻訳日:2022-02-11 01:46:19 公開日:2022-02-09
# (参考訳) マネージャ対マシン: アルゴリズムはクレジットレーティングで人間の直感を再現するか?

Managers versus Machines: Do Algorithms Replicate Human Intuition in Credit Ratings? ( http://arxiv.org/abs/2202.04218v1 )

ライセンス: CC BY 4.0
Matthew Harding and Gabriel F. R. Vasconcelos(参考訳) 我々は、大規模な米国商業銀行による商業ローンのリスクを評価する銀行経営者の行動を再現できるかどうかを機械学習技術を用いて調査する。 典型的な銀行はリスクを評価するために既にアルゴリズム的なスコアカードプロセスに依存しているが、銀行のマネージャーは直観と経験に基づいて他の全体的要因を考慮するためにリスクスコアの調整においてかなりの緯度を与えられる。 銀行管理者の行動を再現できる機械学習アルゴリズムを見つけることが可能であることを示す。 アルゴリズムへの入力は、一般的な融資審査プロセスの一部として、銀行のマネージャーが利用できる標準的な財務情報とソフト情報の組み合わせから成り立っている。 また,調整プロセスにおける著しい不均一性の存在を,マネージャと産業間の差異にさかのぼることができることを示す。 本研究は、バンキングに対する機械学習に基づく分析手法の有効性と、金融分野における高スキル雇用への潜在的な課題を浮き彫りにする。

We use machine learning techniques to investigate whether it is possible to replicate the behavior of bank managers who assess the risk of commercial loans made by a large commercial US bank. Even though a typical bank already relies on an algorithmic scorecard process to evaluate risk, bank managers are given significant latitude in adjusting the risk score in order to account for other holistic factors based on their intuition and experience. We show that it is possible to find machine learning algorithms that can replicate the behavior of the bank managers. The input to the algorithms consists of a combination of standard financials and soft information available to bank managers as part of the typical loan review process. We also document the presence of significant heterogeneity in the adjustment process that can be traced to differences across managers and industries. Our results highlight the effectiveness of machine learning based analytic approaches to banking and the potential challenges to high-skill jobs in the financial sector.
翻訳日:2022-02-11 01:24:26 公開日:2022-02-09
# (参考訳) インテリジェントな自律的交差点管理

Intelligent Autonomous Intersection Management ( http://arxiv.org/abs/2202.04224v1 )

ライセンス: CC BY 4.0
Udesh Gunarathna, Shanika Karunasekara, Renata Borovica-Gajic, Egemen Tanin(参考訳) コネクテッド自動運転車は、従来の交通信号制御に代わる自動運転交差点管理を実現する。 自律交差点管理は、交差点を通過する衝突のない通行のために交差点に到着する車両の時間と速度の調整を必要とする。 計算複雑性のため、この問題は交差点付近の車両到着時刻が事前に分かっている場合にのみ研究されており、これらの解がリアルタイム展開に適用可能であることを制限している。 リアルタイムの自律的交通交差点管理問題を解決するために,マルチエージェントアーキテクチャとマルチディスカウントQ-ラーニングを用いた新しいRLアルゴリズムを提案する。 マルチディスカウントQ-ラーニングでは,衝突のない速度制御に不可欠な短期目標と長期目標を両立させることにより,マルコフ決定プロセスの簡易かつ効果的な解法を導入する。 実験結果から,rlベースのマルチエージェントソリューションは,交差点通過時の移動時間を最小化することで,最適に近い性能を効率的に達成できることがわかった。

Connected Autonomous Vehicles will make autonomous intersection management a reality replacing traditional traffic signal control. Autonomous intersection management requires time and speed adjustment of vehicles arriving at an intersection for collision-free passing through the intersection. Due to its computational complexity, this problem has been studied only when vehicle arrival times towards the vicinity of the intersection are known beforehand, which limits the applicability of these solutions for real-time deployment. To solve the real-time autonomous traffic intersection management problem, we propose a reinforcement learning (RL) based multiagent architecture and a novel RL algorithm coined multi-discount Q-learning. In multi-discount Q-learning, we introduce a simple yet effective way to solve a Markov Decision Process by preserving both short-term and long-term goals, which is crucial for collision-free speed control. Our empirical results show that our RL-based multiagent solution can achieve near-optimal performance efficiently when minimizing the travel time through an intersection.
翻訳日:2022-02-11 01:23:29 公開日:2022-02-09
# (参考訳) CFDのサブ精度誤差を補正するディープニューラルネットワーク

Deep Neural Networks to Correct Sub-Precision Errors in CFD ( http://arxiv.org/abs/2202.04233v1 )

ライセンス: CC BY 4.0
Akash Haridas, Nagabhushana Rao Vadlamani, Yuki Minamoto(参考訳) 数値シミュレーションにおける情報の損失は、離散偏微分方程式を解きながら様々な情報源から生じる。 特に、精度関連の誤差は、16ビット浮動小数点演算によるシミュレーションが等価な64ビットシミュレーションと比較される場合、利子数に蓄積される。 ここでは、高精度計算よりもはるかに少ないリソースを必要とする。 最近提案された機械学習(ML)技術は,空間的離散化による誤りの修正に成功している。 本研究では,これらの手法を拡張し,計算流体力学(CFD)シミュレーションを低数値精度で高速化する。 まず,コルモゴロフ強制乱流試験における精度関連誤差の定量化を行った。 その後,畳み込みニューラルネットワークと完全微分可能な数値解法を用いて16ビット演算を行い,密結合型ML-CFDハイブリッド解法を学習する。 16ビットの解法と比較して, ML-CFDハイブリッド解法は, 速度場の誤差蓄積を低減し, 高周波数での運動エネルギースペクトルを改善するのに有効であることを示す。

Loss of information in numerical simulations can arise from various sources while solving discretized partial differential equations. In particular, precision-related errors can accumulate in the quantities of interest when the simulations are performed using low-precision 16-bit floating-point arithmetic compared to an equivalent 64-bit simulation. Here, low-precision computation requires much lower resources than high-precision computation. Several machine learning (ML) techniques proposed recently have been successful in correcting the errors arising from spatial discretization. In this work, we extend these techniques to improve Computational Fluid Dynamics (CFD) simulations performed using low numerical precision. We first quantify the precision related errors accumulated in a Kolmogorov forced turbulence test case. Subsequently, we employ a Convolutional Neural Network together with a fully differentiable numerical solver performing 16-bit arithmetic to learn a tightly-coupled ML-CFD hybrid solver. Compared to the 16-bit solver, we demonstrate the efficacy of the ML-CFD hybrid solver towards reducing the error accumulation in the velocity field and improving the kinetic energy spectrum at higher frequencies.
翻訳日:2022-02-11 01:06:42 公開日:2022-02-09
# (参考訳) 需要応答のためのデータ駆動型オンラインインタラクティブ入札戦略

Data-Driven Online Interactive Bidding Strategy for Demand Response ( http://arxiv.org/abs/2202.04236v1 )

ライセンス: CC BY 4.0
Kuan-Cheng Lee, Hong-Tzer Yang, and Wenjun Tang(参考訳) 需要対応(dr)は、将来のグリッドにおける重要なエネルギー資源の1つであり、ピークシェービングのサービスを提供し、短い応答期間と低コストで再生可能エネルギー利用の効率を向上させる。 自動DR、インセンティブDR、緊急DR、需要入札など、さまざまなカテゴリーのDRが確立されている。 しかし、住宅・商業消費者のユーティリティモデルの無意識が現実的な問題となっていることから、電力市場に関わる需要入札アグリゲータに関する研究はごく初期段階にある。 この問題に関して、入札価格と入札金額は、市場と参加者による不確実性を考慮して、2つの必要な決定変数である。 本稿では,スマートメータのデータと機能を用いて,入札と購入の戦略を同時に決定する。 過去の入札経験を学習することで決定を最適化するために,2エージェントの深い決定論的政策勾配法を開発した。 オンライン学習は、トレンドトレースと自己適応を保証するために、日々の最新の入札体験をさらに活用する。 2つの環境シミュレータを用いてモデルの堅牢性を検証する。 その結果、多様な状況に直面した場合、提案モデルは入札ルールをオフライン/オンライン学習し、適切な入札を行うことによって最適な利益を得ることができる。

Demand response (DR), as one of the important energy resources in the future's grid, provides the services of peak shaving, enhancing the efficiency of renewable energy utilization with a short response period, and low cost. Various categories of DR are established, e.g. automated DR, incentive DR, emergency DR, and demand bidding. However, with the practical issue of the unawareness of residential and commercial consumers' utility models, the researches about demand bidding aggregator involved in the electricity market are just at the beginning stage. For this issue, the bidding price and bidding quantity are two required decision variables while considering the uncertainties due to the market and participants. In this paper, we determine the bidding and purchasing strategy simultaneously employing the smart meter data and functions. A two-agent deep deterministic policy gradient method is developed to optimize the decisions through learning historical bidding experiences. The online learning further utilizes the daily newest bidding experience attained to ensure trend tracing and self-adaptation. Two environment simulators are adopted for testifying the robustness of the model. The results prove that when facing diverse situations the proposed model can earn the optimal profit via off/online learning the bidding rules and robustly making the proper bid.
翻訳日:2022-02-11 00:57:10 公開日:2022-02-09
# (参考訳) マルチスケール時空間アプローチによるスモールホルダー灌水検出法

A multiscale spatiotemporal approach for smallholder irrigation detection ( http://arxiv.org/abs/2202.04239v1 )

ライセンス: CC BY 4.0
Terence Conlon, Christopher Small, Vijay Modi(参考訳) 本稿では,植生の多元的衛星画像を利用した灌水検出手法を提案する際に,限定的な土壌標識を補足し,関心領域における分類器の適用性を確保する手法を提案する。 MODIS 250m Enhanced Vegetation Index (EVI) の時空間的分析は, 地域規模の植生現象を特徴付け, 農業における補助的ラベル収集を誘導する連続表現学マップの基盤を提供する。 その後、10mSentinel-2画像で観察された乾季の緑化と老化サイクルを使用して、スモールホルダー灌水の自動検出のための分類器群を訓練する。 モデルロバスト性を改善するための戦略として、トレーニングサンプルをランダムにシフトするデータ拡張法や、保持されていない対象領域で最高のパフォーマンスを示す分類器タイプの評価がある。 この手法はエチオピアのハイランズであるtigrayとamharaの2州で小規模の灌水を検出するのに応用されている。 その結果,トランスフォーマーをベースとしたニューラルネットワークアーキテクチャは,非保持領域において最も堅牢な予測性能を実現し,その後にCatBoostランダムフォレストモデルが近づいた。 埋蔵地調査ラベルが保持されている以上、トランスフォーマーベースのモデルでは、非灌水サンプルの96.7%、灌水サンプルの95.9%の精度が達成されている。 導入されたラベル補足法によって独立に収集された標本群より大きい範囲において、非灌流ラベルと灌流ラベルはそれぞれ98.3%と95.5%の精度で予測される。 検出モデルは、TigrayとAmharaの上に展開され、作物の回転パターンと年々灌水された地域の変化を明らかにする。 2020年から2021年にかけて、これら2つの州の灌水面積は約40%減少したと予測されている。

In presenting an irrigation detection methodology that leverages multiscale satellite imagery of vegetation abundance, this paper introduces a process to supplement limited ground-collected labels and ensure classifier applicability in an area of interest. Spatiotemporal analysis of MODIS 250m Enhanced Vegetation Index (EVI) timeseries characterizes native vegetation phenologies at regional scale to provide the basis for a continuous phenology map that guides supplementary label collection over irrigated and non-irrigated agriculture. Subsequently, validated dry season greening and senescence cycles observed in 10m Sentinel-2 imagery are used to train a suite of classifiers for automated detection of potential smallholder irrigation. Strategies to improve model robustness are demonstrated, including a method of data augmentation that randomly shifts training samples; and an assessment of classifier types that produce the best performance in withheld target regions. The methodology is applied to detect smallholder irrigation in two states in the Ethiopian highlands, Tigray and Amhara. Results show that a transformer-based neural network architecture allows for the most robust prediction performance in withheld regions, followed closely by a CatBoost random forest model. Over withheld ground-collection survey labels, the transformer-based model achieves 96.7% accuracy over non-irrigated samples and 95.9% accuracy over irrigated samples. Over a larger set of samples independently collected via the introduced method of label supplementation, non-irrigated and irrigated labels are predicted with 98.3% and 95.5% accuracy, respectively. The detection model is then deployed over Tigray and Amhara, revealing crop rotation patterns and year-over-year irrigated area change. Predictions suggest that irrigated area in these two states has decreased by approximately 40% from 2020 to 2021.
翻訳日:2022-02-11 00:56:16 公開日:2022-02-09
# (参考訳) 不確実性スケール距離をもつアクティブラーニングのための欲望コアセット構成の改善

Improving greedy core-set configurations for active learning with uncertainty-scaled distances ( http://arxiv.org/abs/2202.04251v1 )

ライセンス: CC BY 4.0
Yuchen Li, Frank Rudzicz(参考訳) 我々は,CIFAR10/100およびSVHN画像分類において,不確実性の要因と低信頼度構成の探索により,コアセットアルゴリズムの知覚距離を拡大し,サンプル効率を著しく向上させた。 我々は,モデルの不確かさと誤分類の関係を前提に,コアセット損失の収束における確率的二次速度アップによる改善の理由を説明する。

We scale perceived distances of the core-set algorithm by a factor of uncertainty and search for low-confidence configurations, finding significant improvements in sample efficiency across CIFAR10/100 and SVHN image classification, especially in larger acquisition sizes. We show the necessity of our modifications and explain how the improvement is due to a probabilistic quadratic speed-up in the convergence of core-set loss, under assumptions about the relationship of model uncertainty and misclassification.
翻訳日:2022-02-11 00:54:56 公開日:2022-02-09
# (参考訳) GiraffeDet:オブジェクト検出のためのヘビーネックパラダイム

GiraffeDet: A Heavy-Neck Paradigm for Object Detection ( http://arxiv.org/abs/2202.04256v1 )

ライセンス: CC BY 4.0
Yiqi Jiang, Zhiyu Tan, Junyan Wang, Xiuyu Sun, Ming Lin, Hao Li(参考訳) 従来のオブジェクト検出フレームワークでは、画像認識モデルから継承されたバックボーン本体が深い潜伏特徴を抽出し、ネックモジュールがこれらの潜伏特徴を融合して異なるスケールで情報をキャプチャする。 物体検出の解像度は画像認識よりもはるかに大きいため、バックボーンの計算コストが総推論コストを支配することがしばしばある。 このヘビーバックボーン設計パラダイムは、画像認識モデルをエンドツーエンドのオブジェクト検出に最適化された設計ではなく、オブジェクト検出に転送する歴史的レガシーに起因する。 そこで本研究では,そのようなパラダイムが,オブジェクト検出の準最適モデルにつながることを示す。 そこで本研究では,高速物体検出のためのキリン様ネットワークであるGiraffeDetを提案する。 GiraffeDetは、非常に軽量なバックボーンと非常に深くて大きなネックモジュールを使用し、異なる空間スケール間の密な情報交換と、異なる遅延セマンティクスのレベルを同時に促進する。 この設計パラダイムにより、検出器はネットワークの初期段階でも、高レベル意味情報と低レベル空間情報を同時に優先的に処理することができ、検出タスクにおいてより効果的になる。 複数の人気オブジェクト検出ベンチマークの数値評価により、GiraffeDetはリソース制約の幅広い範囲にわたって、従来のSOTAモデルよりも一貫して優れていることが示されている。

In conventional object detection frameworks, a backbone body inherited from image recognition models extracts deep latent features and then a neck module fuses these latent features to capture information at different scales. As the resolution in object detection is much larger than in image recognition, the computational cost of the backbone often dominates the total inference cost. This heavy-backbone design paradigm is mostly due to the historical legacy when transferring image recognition models to object detection rather than an end-to-end optimized design for object detection. In this work, we show that such paradigm indeed leads to sub-optimal object detection models. To this end, we propose a novel heavy-neck paradigm, GiraffeDet, a giraffe-like network for efficient object detection. The GiraffeDet uses an extremely lightweight backbone and a very deep and large neck module which encourages dense information exchange among different spatial scales as well as different levels of latent semantics simultaneously. This design paradigm allows detectors to process the high-level semantic information and low-level spatial information at the same priority even in the early stage of the network, making it more effective in detection tasks. Numerical evaluations on multiple popular object detection benchmarks show that GiraffeDet consistently outperforms previous SOTA models across a wide spectrum of resource constraints.
翻訳日:2022-02-11 00:39:58 公開日:2022-02-09
# (参考訳) icassp 2022多チャンネル多人数会議転写チャレンジのためのvolcspeechシステム

The volcspeech system for the icassp 2022 multi-channel multi-party meeting transcription challenge ( http://arxiv.org/abs/2202.04261v1 )

ライセンス: CC BY 4.0
Chen Shen, Yi Liu, Wenzhi Fan, Bin Wang, Shixue Wen, Yao Tian, Jun Zhang, Jingsheng Yang, Zejun Ma(参考訳) 本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。 トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムに重なり合う音声を扱うためのいくつかのアプローチを提案する。 話者ダイアリゼーションの精度を向上させるために、フロントエンドのデバーベレーションとDOA推定を用いる。 複数チャネルの組み合わせと重複検出を適用し、話者誤りを低減させる。 異なるシステムの結果を融合させるために、修正されたDOVER-Lapも提案されている。 Evalセットで5.79%、Testセットで7.23%の最終DERを達成しました。 トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。 複数話者重複音声認識には直列化出力訓練が適用される。 本稿では,マルチチャネル音声をモデル化し,モデルエンドツーエンドをトレーニングするためのニューラルネットワークフロントエンドモジュールを提案する。 マルチチャネルマルチスピーカE2Eシステムにおけるオーバーフィッティングを軽減するために,様々なデータ拡張手法が用いられている。 トランスフォーマー言語モデル融合は、よりよい性能を達成するために開発されている。 最後のCERはEvalセットで19.2%、Testセットで20.8%である。

This paper describes our submission to ICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challenge. For Track 1, we propose several approaches to empower the clustering-based speaker diarization system to handle overlapped speech. Front-end dereverberation and the direction-of-arrival (DOA) estimation are used to improve the accuracy of speaker diarization. Multi-channel combination and overlap detection are applied to reduce the missed speaker error. A modified DOVER-Lap is also proposed to fuse the results of different systems. We achieve the final DER of 5.79% on the Eval set and 7.23% on the Test set. For Track 2, we develop our system using the Conformer model in a joint CTC-attention architecture. Serialized output training is adopted to multi-speaker overlapped speech recognition. We propose a neural front-end module to model multi-channel audio and train the model end-to-end. Various data augmentation methods are utilized to mitigate over-fitting in the multi-channel multi-speaker E2E system. Transformer language model fusion is developed to achieve better performance. The final CER is 19.2% on the Eval set and 20.8% on the Test set.
翻訳日:2022-02-11 00:08:00 公開日:2022-02-09
# (参考訳) 制約付き確率的多レベル合成最適化のための投影なしアルゴリズム

A Projection-free Algorithm for Constrained Stochastic Multi-level Composition Optimization ( http://arxiv.org/abs/2202.04296v1 )

ライセンス: CC BY 4.0
Tesi Xiao, Krishnakumar Balasubramanian, Saeed Ghadimi(参考訳) 本稿では,目的関数が$t$関数のネスト合成であり,制約集合が閉凸集合であるような,滑らかな確率的多レベル合成最適化のための投影自由条件勾配型アルゴリズムを提案する。 本アルゴリズムは,特定の標準的不偏性および第二モーメントの仮定を満たす確率的一階オラクルを通して,関数とその勾配の雑音評価へのアクセスを仮定する。 確率的一階オラクルへの呼び出し数と、提案アルゴリズムが要求する線形最小化オラクルが、$\epsilon$-stationary Solutionを得るために、それぞれ$\mathcal{O}_T(\epsilon^{-2})$と$\mathcal{O}_T(\epsilon^{-3})$と$\mathcal{O}_T(\epsilon^{-3})$の順に、$\mathcal{O}_T$が$T$の定数を隠蔽することを示す。 特に、これらの複雑性の依存は、$\epsilon$ と $T$ 上の有界であり、一方を変更することは他方の有界の依存に影響を与えない。 さらに, このアルゴリズムはパラメータフリーであり, 確率的条件付き勾配型アルゴリズムの解析における一般的な手法とは異なり, ミニバッチの順序が収束する必要はない。

We propose a projection-free conditional gradient-type algorithm for smooth stochastic multi-level composition optimization, where the objective function is a nested composition of $T$ functions and the constraint set is a closed convex set. Our algorithm assumes access to noisy evaluations of the functions and their gradients, through a stochastic first-order oracle satisfying certain standard unbiasedness and second moment assumptions. We show that the number of calls to the stochastic first-order oracle and the linear-minimization oracle required by the proposed algorithm, to obtain an $\epsilon$-stationary solution, are of order $\mathcal{O}_T(\epsilon^{-2})$ and $\mathcal{O}_T(\epsilon^{-3})$ respectively, where $\mathcal{O}_T$ hides constants in $T$. Notably, the dependence of these complexity bounds on $\epsilon$ and $T$ are separate in the sense that changing one does not impact the dependence of the bounds on the other. Moreover, our algorithm is parameter-free and does not require any (increasing) order of mini-batches to converge unlike the common practice in the analysis of stochastic conditional gradient-type algorithms.
翻訳日:2022-02-10 23:56:12 公開日:2022-02-09
# (参考訳) 深層学習によるログベース異常検出:どこまで遠いのか?

Log-based Anomaly Detection with Deep Learning: How Far Are We? ( http://arxiv.org/abs/2202.04301v1 )

ライセンス: CC BY 4.0
Van Hoang Le and Hongyu Zhang(参考訳) ソフトウェア集約システムはトラブルシューティングのためにログを生成する。 近年,ログデータに基づいてシステム異常を自動的に検出する深層学習モデルが多数提案されている。 これらのモデルは通常、非常に高い検出精度を主張する。 例えば、ほとんどのモデルでは、一般的なhdfsデータセットで0.9以上のf-measureを報告している。 本稿では,4つの公開ログデータセット上でシステム異常を検出するための5つの最先端ディープラーニングモデルについて,ログに基づく異常検出の問題点を深く解析する。 実験では,トレーニングデータ選択,データグループ化,クラス分散,データノイズ,早期検出能力など,モデル評価のいくつかの側面に注目した。 以上の結果から,これらすべての側面が評価に重大な影響を及ぼし,研究対象のモデルが必ずしもうまく動作しないことがわかった。 ログベースの異常検出の問題はまだ解決されていない。 また,今後の研究の可能性も示唆した。

Software-intensive systems produce logs for troubleshooting purposes. Recently, many deep learning models have been proposed to automatically detect system anomalies based on log data. These models typically claim very high detection accuracy. For example, most models report an F-measure greater than 0.9 on the commonly-used HDFS dataset. To achieve a profound understanding of how far we are from solving the problem of log-based anomaly detection, in this paper, we conduct an in-depth analysis of five state-of-the-art deep learning-based models for detecting system anomalies on four public log datasets. Our experiments focus on several aspects of model evaluation, including training data selection, data grouping, class distribution, data noise, and early detection ability. Our results point out that all these aspects have significant impact on the evaluation, and that all the studied models do not always work well. The problem of log-based anomaly detection has not been solved yet. Based on our findings, we also suggest possible future work.
翻訳日:2022-02-10 23:20:51 公開日:2022-02-09
# (参考訳) tinym$^2$net: 小型デバイスのためのフレキシブルシステムアルゴリズム共設計マルチモーダル学習フレームワーク

TinyM$^2$Net: A Flexible System Algorithm Co-designed Multimodal Learning Framework for Tiny Devices ( http://arxiv.org/abs/2202.04303v1 )

ライセンス: CC BY 4.0
Hasib-Al Rashid, Pretom Roy Ovi, Aryya Gangopadhyay, Tinoosh Mohsenin(参考訳) AI(Artificial Intelligence)の出現により、リソースに制約のある小さなデバイスにAIアルゴリズムを実装することで、IoTのアプリケーションドメインを拡大する新たな注目を集めている。 マルチモーダル学習は,画像と音声の両方のイベント分類における印象的な性能のため,最近,その分類タスクで非常に人気がある。 本稿では,資源制約型小型デバイスのためのフレキシブルシステムアルゴリズムによるマルチモーダル学習フレームワークであるtinym$^2$netを提案する。 このフレームワークは、マルチモーダルオーディオ記録からのcovid-19検出と、マルチモーダルイメージとオーディオからのバトルフィールドオブジェクト検出の2つの異なるケーススタディで評価されるように設計されている。 モデルを圧縮して小さなデバイスに実装するために、ネットワークアーキテクチャの最適化と混合精度の量子化を行った(8ビットと4ビットの混合)。 TinyM$^2$Netは、小さなマルチモーダル学習モデルでさえ、任意の非モーダルフレームワークよりも分類性能を向上させることができることを示している。 最も圧縮されたTinyM$^2$Net は 88.4% の COVID-19 検出精度 (ユニモーダルベースモデルより14.5% 改善) と96.8\% の戦場物体検出精度 (3.9% 改善)を達成している。 最後に、我々はraspberry pi 4上で小さな^2$netモデルをテストし、リソースが制約された小さなデバイスにデプロイされたときにどのように機能するかを確認します。

With the emergence of Artificial Intelligence (AI), new attention has been given to implement AI algorithms on resource constrained tiny devices to expand the application domain of IoT. Multimodal Learning has recently become very popular with the classification task due to its impressive performance for both image and audio event classification. This paper presents TinyM$^2$Net -- a flexible system algorithm co-designed multimodal learning framework for resource constrained tiny devices. The framework was designed to be evaluated on two different case-studies: COVID-19 detection from multimodal audio recordings and battle field object detection from multimodal images and audios. In order to compress the model to implement on tiny devices, substantial network architecture optimization and mixed precision quantization were performed (mixed 8-bit and 4-bit). TinyM$^2$Net shows that even a tiny multimodal learning model can improve the classification performance than that of any unimodal frameworks. The most compressed TinyM$^2$Net achieves 88.4% COVID-19 detection accuracy (14.5% improvement from unimodal base model) and 96.8\% battle field object detection accuracy (3.9% improvement from unimodal base model). Finally, we test our TinyM$^2$Net models on a Raspberry Pi 4 to see how they perform when deployed to a resource constrained tiny device.
翻訳日:2022-02-10 23:00:06 公開日:2022-02-09
# (参考訳) オープンドメイン問合せシステムは視覚的知識問合せに答えられるか?

Can Open Domain Question Answering Systems Answer Visual Knowledge Questions? ( http://arxiv.org/abs/2202.04306v1 )

ライセンス: CC BY 4.0
Jiawen Zhang, Abhijit Mishra, Avinesh P.V.S, Siddharth Patwardhan and Sachin Agarwal(参考訳) 外部知識ビジュアル質問回答(OKVQA)のタスクは、外部知識を用いて画像や画像に関する自然言語質問に答える自動システムを必要とする。 画像中のエンティティを参照する難解な参照句を含む多くの視覚的質問は、"非接地的"な質問として書き直され、既存のテキストベースの質問応答システムによって答えられる。 これにより、視覚的質問応答のための既存のテキストベースのOpen Domain Question Answering (QA) システムの再利用が可能になる。 本研究では,既存のシステムを再利用する潜在的データ効率のアプローチを提案する。 (a)画像解析 (b)質問の書き直し、及び (c)このような視覚的質問に回答するテキストベースの質問。 その画像(視覚的質問)に関する画像と疑問が与えられた場合、事前に訓練されたオブジェクトとシーン分類器を用いて、まず画像に存在するエンティティを抽出する。 これらの検出されたエンティティを使用して、視覚的な質問をオープンドメインQAシステムで答えられるように書き換えることができる。 本研究では,(1)マスキングとリライトのためのBERTを用いた教師なし手法,(2)適応的リライトと強化学習技術を組み合わせてQAシステムからの暗黙的なフィードバックを利用する弱教師付き手法について検討する。 我々は、利用可能なOKVQAデータセットで戦略を検証し、トレーニングデータの10%しか使用せず、最先端のモデルとの競合性能を得る。

The task of Outside Knowledge Visual Question Answering (OKVQA) requires an automatic system to answer natural language questions about pictures and images using external knowledge. We observe that many visual questions, which contain deictic referential phrases referring to entities in the image, can be rewritten as "non-grounded" questions and can be answered by existing text-based question answering systems. This allows for the reuse of existing text-based Open Domain Question Answering (QA) Systems for visual question answering. In this work, we propose a potentially data-efficient approach that reuses existing systems for (a) image analysis, (b) question rewriting, and (c) text-based question answering to answer such visual questions. Given an image and a question pertaining to that image (a visual question), we first extract the entities present in the image using pre-trained object and scene classifiers. Using these detected entities, the visual questions can be rewritten so as to be answerable by open domain QA systems. We explore two rewriting strategies: (1) an unsupervised method using BERT for masking and rewriting, and (2) a weakly supervised approach that combines adaptive rewriting and reinforcement learning techniques to use the implicit feedback from the QA system. We test our strategies on the publicly available OKVQA dataset and obtain a competitive performance with state-of-the-art models while using only 10% of the training data.
翻訳日:2022-02-10 22:47:37 公開日:2022-02-09
# (参考訳) ARIBA:フェデレートラーニングにおけるバックドア攻撃の精度とロバスト同定を目指して

ARIBA: Towards Accurate and Robust Identification of Backdoor Attacks in Federated Learning ( http://arxiv.org/abs/2202.04311v1 )

ライセンス: CC BY 4.0
Yuxi Mi, Jihong Guan and Shuigeng Zhou(参考訳) フェデレーション学習の分散性とプライバシ保護特性は、毒殺攻撃、特にバックドア攻撃の脅威になりがちである。 本稿では,フェデレート学習におけるバックドア攻撃を正確かつ確実に識別する新しい手法ARIBAを提案する。 実験により,cnn層のフィルタによってバックドア攻撃が識別可能であることを観察した。 この結果に基づき,事前処理されたフィルタを評価するために教師なし異常検出を行い,クライアント毎の異常スコアを算出した。 そして、最も疑わしい顧客を、異常なスコアで特定します。 ARIBA法は, モデル性能を劣化させることなく, 複数の攻撃に対して効果的かつ堅牢に防御可能であることを示す。

The distributed nature and privacy-preserving characteristics of federated learning make it prone to the threat of poisoning attacks, especially backdoor attacks, where the adversary implants backdoors to misguide the model on certain attacker-chosen sub-tasks. In this paper, we present a novel method ARIBA to accurately and robustly identify backdoor attacks in federated learning. By empirical study, we observe that backdoor attacks are discernible by the filters of CNN layers. Based on this finding, we employ unsupervised anomaly detection to evaluate the pre-processed filters and calculate an anomaly score for each client. We then identify the most suspicious clients according to their anomaly scores. Extensive experiments are conducted, which show that our method ARIBA can effectively and robustly defend against multiple state-of-the-art attacks without degrading model performance.
翻訳日:2022-02-10 22:35:13 公開日:2022-02-09
# (参考訳) pNLP-Mixer: 言語のための効率的なオールMLPアーキテクチャ

pNLP-Mixer: an Efficient all-MLP Architecture for Language ( http://arxiv.org/abs/2202.04350v1 )

ライセンス: CC BY 4.0
Francesco Fusco, Damian Pascual, Peter Staar(参考訳) 大きな事前学習された言語モデルは自然言語処理(nlp)の状況を大きく変えた。 現在では、アノテーションの数も限られていても、多様なnlpタスクに取り組むためのgo-toフレームワークを表しています。 しかし、これらのモデルを実運用で使用する場合、クラウドでもエッジでも、メモリフットプリントや推論コストのため、依然として課題である。 代替として、効率の良いNLPに関する最近の研究は、小さな重量効率のモデルが、わずかなコストで競争性能に達することを示した。 本稿では,MLP-Mixerアーキテクチャに基づく組込み自由モデルであるpNLP-Mixerを紹介する。 MTOPとMultiATISという2つの多言語意味解析データセットを用いて,本モデルの評価を行った。 MTOPでは、pNLP-Mixerは38倍のパラメータを持つmBERTのパフォーマンスとほぼ一致し、3倍のパラメータを持つ小さなモデル(pQRNN)の最先端性能よりも優れています。 長いシーケンス分類タスク(Hyperpartisan)では、100倍以上のパラメータを持つRoBERTaを事前訓練することなく、pNLP-Mixerを使用できます。

Large pre-trained language models drastically changed the natural language processing(NLP) landscape. Nowadays, they represent the go-to framework to tackle diverse NLP tasks, even with a limited number of annotations. However, using those models in production, either in the cloud or at the edge, remains a challenge due to the memory footprint and/or inference costs. As an alternative, recent work on efficient NLP has shown that small weight-efficient models can reach competitive performance at a fraction of the costs. Here, we introduce pNLP-Mixer, an embbedding-free model based on the MLP-Mixer architecture that achieves high weight-efficiency thanks to a novel linguistically informed projection layer. We evaluate our model on two multi-lingual semantic parsing datasets, MTOP and multiATIS. On MTOP our pNLP-Mixer almost matches the performance of mBERT, which has 38 times more parameters, and outperforms the state-of-the-art of tiny models (pQRNN) with 3 times fewer parameters. On a long-sequence classification task (Hyperpartisan) our pNLP-Mixer without pretraining outperforms RoBERTa, which has 100 times more parameters, demonstrating the potential of this architecture.
翻訳日:2022-02-10 22:22:20 公開日:2022-02-09
# (参考訳) 一般化戦略分類とアライメントインセンティブの事例

Generalized Strategic Classification and the Case of Aligned Incentives ( http://arxiv.org/abs/2202.04357v1 )

ライセンス: CC BY 4.0
Sagi Levanon and Nir Rosenfeld(参考訳) 述語機械学習モデルは、企業や機関、組織が人間の選択に頻繁に使われている。 戦略的分類研究 自己関心のあるユーザが自身の機能を戦略的に修正して、望ましい予測結果を得ることができる設定で学習する。 しかし、重要な仕事の前提は、常に「好ましくない」とは「肯定的」という意味であり、これはいくつかのアプリケーション(例えば、ローン承認、大学入学、雇用など)に当てはまるが、ユーザーの興味がどんなものかというかなり狭い見方に還元される。 本研究では,戦略的ユーザ行動に対する説明について,より広い視点から議論し,汎用的戦略的分類の柔軟なモデルを提案し,検討する。 一般化されたモデルでは、現在のモデルの大半を仮定するが、他の新しい設定も含んでいる。 この協調的な設定のために,我々は詳細な分析を行い,効果的かつ効率的な実践的な学習手法を提案する。 既存の学習手法と比較し、その統計的および最適化の利点を示す。 完全に一般化したモデルに戻ると、結果とアプローチが最も一般的なケースにどのように拡張できるかを示します。 我々は、我々のアプローチの有用性を実証的に示す一連の実験で結論付けた。

Predicative machine learning models are frequently being used by companies, institutes and organizations to make choices about humans. Strategic classification studies learning in settings where self-interested users can strategically modify their features to obtain favorable predictive outcomes. A key working assumption, however, is that 'favorable' always means 'positive'; this may be appropriate in some applications (e.g., loan approval, university admissions and hiring), but reduces to a fairly narrow view what user interests can be. In this work we argue for a broader perspective on what accounts for strategic user behavior, and propose and study a flexible model of generalized strategic classification. Our generalized model subsumes most current models, but includes other novel settings; among these, we identify and target one intriguing sub-class of problems in which the interests of users and the system are aligned. For this cooperative setting, we provide an in-depth analysis, and propose a practical learning approach that is effective and efficient. We compare our approach to existing learning methods and show its statistical and optimization benefits. Returning to our fully generalized model, we show how our results and approach can extend to the most general case. We conclude with a set of experiments that empirically demonstrate the utility of our approach.
翻訳日:2022-02-10 22:04:36 公開日:2022-02-09
# (参考訳) 分類の新しい展望:不確かなタスクに限られた資源を最適に割り当てる

A new perspective on classification: optimally allocating limited resources to uncertain tasks ( http://arxiv.org/abs/2202.04369v1 )

ライセンス: CC BY 4.0
Toon Vanderschueren, Bart Baesens, Tim Verdonck, and Wouter Verbeke(参考訳) ビジネスにおける中心的な問題は、限られたリソースを利用可能な一連のタスクに最適に割り当てることであり、これらのタスクの支払いは本質的に不確実である。 例えば、クレジットカード詐欺検出では、銀行は不正捜査チームにほんの一部しか取引を割り当てることができない。 典型的には、このような問題は分類フレームワークを使って解決され、一連の特徴からタスクの結果を予測することに焦点が当てられる。 リソースは、最も成功する可能性が高いと予測されたタスクに割り当てられる。 しかし,タスクの不確実性に対処するために分類を使うことは,利用可能な能力を考慮していないため,本質的に最適ではない。 そこで我々はまず,この問題を代入問題の一種として捉えた。 次に, 限定的確率的能力が与えられた場合, 割当の期待利益を直接最適化することでランク付けを学習することにより, 新たな解を提案する。 これは、学習において一般的に使用されるメトリクスのクラスである、純割引累積ゲインの特定のインスタンスを最適化することで達成される。 実証的に,本手法は,様々な応用分野やデータセットの分類手法と比較して,高い期待利益と期待精度を達成できることを実証する。 これは統合アプローチの利点を示し、予測モデルを学ぶ際に利用可能なリソースを明確に考慮する。

A central problem in business concerns the optimal allocation of limited resources to a set of available tasks, where the payoff of these tasks is inherently uncertain. In credit card fraud detection, for instance, a bank can only assign a small subset of transactions to their fraud investigations team. Typically, such problems are solved using a classification framework, where the focus is on predicting task outcomes given a set of characteristics. Resources are then allocated to the tasks that are predicted to be the most likely to succeed. However, we argue that using classification to address task uncertainty is inherently suboptimal as it does not take into account the available capacity. Therefore, we first frame the problem as a type of assignment problem. Then, we present a novel solution using learning to rank by directly optimizing the assignment's expected profit given limited, stochastic capacity. This is achieved by optimizing a specific instance of the net discounted cumulative gain, a commonly used class of metrics in learning to rank. Empirically, we demonstrate that our new method achieves higher expected profit and expected precision compared to a classification approach for a wide variety of application areas and data sets. This illustrates the benefit of an integrated approach and of explicitly considering the available resources when learning a predictive model.
翻訳日:2022-02-10 21:19:38 公開日:2022-02-09
# (参考訳) 不規則畳み込みニューラルネットワークによる短期自転車共有需要予測の改善

Improving short-term bike sharing demand forecast through an irregular convolutional neural network ( http://arxiv.org/abs/2202.04376v1 )

ライセンス: CC BY 4.0
Xinyu Li, Yang Xu, Xiaohu Zhang, Wenzhong Shi, Yang Yue, Qingquan Li(参考訳) 自転車シェアリングシステム管理における重要な課題として,旅行需要の正確な予測は,利用者の満足度を向上させるために自転車の派遣・移転を容易にする。 近年,自転車利用予測を改善するために,ディープラーニングアルゴリズムが数多く導入されている。 典型的なプラクティスは、コンボリューショナル(CNN)とリカレントニューラルネットワーク(RNN)を統合して、歴史的旅行需要における空間的時間的依存を捉えることである。 典型的なcnnでは、畳み込み操作は「マトリックスフォーマット」都市を横断するカーネルを通して行われ、隣接する都市部で特徴を抽出する。 このプラクティスは、互いに近い領域が予測精度を向上させる有用な情報を提供できると仮定する。 しかし,環境特性の空間的変化や自転車活動に影響を及ぼす旅行行動を考えると,近隣地域の自転車利用は必ずしも類似しているとは限らない。 しかし、はるかに離れた領域は、時間的利用パターンにおいて比較的よく似ている。 本研究は,これら遠隔都市間における隠れた連携を利用するために,不規則畳み込み型長期記憶モデル(irconv+lstm)を提案し,短期自転車シェアリング需要予測を改善する。 このモデルは従来のcnnを不規則な畳み込みアーキテクチャで修正し、"semantic neighbors"間の依存関係を抽出する。 提案モデルは,シンガポールのドックレス自転車シェアリングシステムと,シカゴ,ワシントンD.C.,ニューヨーク,ロンドンにある4つのステーションベースシステムを含む5つの調査サイトでベンチマークモデルを用いて評価された。 IrConv+LSTMは5つの都市で他のベンチマークモデルよりも優れています。 このモデルは、自転車使用量やピーク期間の異なる地域でも優れた性能を発揮する。 その結果,都市における自転車シェアリングシステムの短期的な移動需要予測をさらに改善できることが示唆された。

As an important task for the management of bike sharing systems, accurate forecast of travel demand could facilitate dispatch and relocation of bicycles to improve user satisfaction. In recent years, many deep learning algorithms have been introduced to improve bicycle usage forecast. A typical practice is to integrate convolutional (CNN) and recurrent neural network (RNN) to capture spatial-temporal dependency in historical travel demand. For typical CNN, the convolution operation is conducted through a kernel that moves across a "matrix-format" city to extract features over spatially adjacent urban areas. This practice assumes that areas close to each other could provide useful information that improves prediction accuracy. However, bicycle usage in neighboring areas might not always be similar, given spatial variations in built environment characteristics and travel behavior that affect cycling activities. Yet, areas that are far apart can be relatively more similar in temporal usage patterns. To utilize the hidden linkage among these distant urban areas, the study proposes an irregular convolutional Long-Short Term Memory model (IrConv+LSTM) to improve short-term bike sharing demand forecast. The model modifies traditional CNN with irregular convolutional architecture to extract dependency among "semantic neighbors". The proposed model is evaluated with a set of benchmark models in five study sites, which include one dockless bike sharing system in Singapore, and four station-based systems in Chicago, Washington, D.C., New York, and London. We find that IrConv+LSTM outperforms other benchmark models in the five cities. The model also achieves superior performance in areas with varying levels of bicycle usage and during peak periods. The findings suggest that "thinking beyond spatial neighbors" can further improve short-term travel demand prediction of urban bike sharing systems.
翻訳日:2022-02-10 21:02:38 公開日:2022-02-09
# (参考訳) 生涯マルチエージェントパスフィンディングにおける経験の活用

Leveraging Experience in Lifelong Multi-Agent Pathfinding ( http://arxiv.org/abs/2202.04382v1 )

ライセンス: CC BY 4.0
Nitzan Madar, Kiril Solovey and Oren Salzman(参考訳) l-mapf(lifelong multi-agent path finding)では、エージェントのチームが、共有グラフ上でエージェントが訪問する複数の場所からなるタスクストリームを実行し、互いに衝突しないようにする。 L-MAPFは通常、ローリング・水平衝突分解(RHCR)アルゴリズムのように、各エージェントに割り当てられた1つのタスクで複数の連続的なMAPFクエリに分割することで取り組まれる。 したがって、あるクエリに対するソリューションは次のクエリに通知し、エージェントの開始位置とゴール位置に関して類似性をもたらし、あるクエリから次のクエリへの衝突をどのように解決する必要があるかを示す。 したがって、1つのMAPFクエリを解く経験は、次のMAPFクエリを高速化するために使用できる。 この直感にもかかわらず、現在のL-MAPFプランナーは連続するMAPFクエリをゼロから解決する。 本稿では,その構成するMAPFクエリの経験を生かしたexRHCRという,RHCRにインスパイアされた新しいアプローチを提案する。 特にexRHCRは、最先端MAPFソルバであるPBS(Preferity-Based Search)を新たに拡張している。 我々の拡張はexPBSと呼ばれ、以前のMAPFインスタンスでPBSが使用するエージェント間の優先順位で検索を温めることができます。 我々は、exRHCRがL-MAPFをRHCRよりも25%高速に解き、与えられた時間予算に対処できるエージェントの数を増やすことで、与えられたタスクストリームのスループットを最大で16%向上できることを示した。

In Lifelong Multi-Agent Path Finding (L-MAPF) a team of agents performs a stream of tasks consisting of multiple locations to be visited by the agents on a shared graph while avoiding collisions with one another. L-MAPF is typically tackled by partitioning it into multiple consecutive, and hence similar, "one-shot" MAPF queries with a single task assigned to each agent, as in the Rolling-Horizon Collision Resolution (RHCR) algorithm. Thus, a solution to one query informs the next query, which leads to similarity with respect to the agents' start and goal positions, and how collisions need to be resolved from one query to the next. Thus, experience from solving one MAPF query can potentially be used to speedup solving the next one. Despite this intuition, current L-MAPF planners solve consecutive MAPF queries from scratch. In this paper, we introduce a new RHCR-inspired approach called exRHCR, which exploits experience in its constituent MAPF queries. In particular, exRHCR employs a new extension of Priority-Based Search (PBS), a state-of-the-art MAPF solver. Our extension, called exPBS, allows to warm-start the search with the priorities between agents used by PBS in the previous MAPF instances. We demonstrate empirically that exRHCR solves L-MAPF up to 25% faster than RHCR, and allows to increase throughput for given task streams by as much as 3%-16% by increasing the number of agents we can cope with for a given time budget.
翻訳日:2022-02-10 20:38:12 公開日:2022-02-09
# (参考訳) 相対エントロピー規則化による経験的リスク最小化:最適性と感度分析

Empirical Risk Minimization with Relative Entropy Regularization: Optimality and Sensitivity Analysis ( http://arxiv.org/abs/2202.04385v1 )

ライセンス: CC BY 4.0
Samir M. Perlaza and Gaetan Bisson and I\~naki Esnaola and Alain Jean-Marie and Stefano Rini(参考訳) 相対エントロピー正則化 (ERM-RER) による経験的リスク最小化問題の最適性と感度について, 基準が確率測度ではなくシグマ有限測度である場合について検討した。 この一般化は、モデルの集合に対する事前知識の組み入れにおいて、より大きな柔軟性を実現する。 この設定では、ERM-RER問題の解によって引き起こされる正規化パラメータ、基準尺度、リスク関数、および経験的リスクの相互作用を特徴付ける。 この特徴付けは、任意に小さな経験的リスクを任意に高い確率で達成する正規化パラメータの存在に必要な十分な条件を与える。 ERM-RER問題の解からの偏差に対する期待される経験的リスクの感度について検討した。 感度は、期待される経験的リスクの上限と下限を提供するために使用される。 さらに, モデルとデータセット間のラウタム情報の平方根によって, 感度の期待値が最大で一定の値に上限づけられていることが示唆された。

The optimality and sensitivity of the empirical risk minimization problem with relative entropy regularization (ERM-RER) are investigated for the case in which the reference is a sigma-finite measure instead of a probability measure. This generalization allows for a larger degree of flexibility in the incorporation of prior knowledge over the set of models. In this setting, the interplay of the regularization parameter, the reference measure, the risk function, and the empirical risk induced by the solution of the ERM-RER problem is characterized. This characterization yields necessary and sufficient conditions for the existence of a regularization parameter that achieves an arbitrarily small empirical risk with arbitrarily high probability. The sensitivity of the expected empirical risk to deviations from the solution of the ERM-RER problem is studied. The sensitivity is then used to provide upper and lower bounds on the expected empirical risk. Moreover, it is shown that the expectation of the sensitivity is upper bounded, up to a constant factor, by the square root of the lautum information between the models and the datasets.
翻訳日:2022-02-10 20:19:59 公開日:2022-02-09
# (参考訳) ベイズニューラルネットワークのためのモデルアーキテクチャ適応

Model Architecture Adaption for Bayesian Neural Networks ( http://arxiv.org/abs/2202.04392v1 )

ライセンス: CC BY 4.0
Duo Wang, Yiren Zhao, Ilia Shumailov, Robert Mullins(参考訳) Bayesian Neural Networks (BNN) は、モデル予測の不確実性を定量化する数学的基盤を持つフレームワークを提供するが、トレーニングと推論の両方において計算コストが禁じられている。 本研究では,BNNを精度と不確実性の両方に最適化し,推論遅延を低減した新しいネットワークアーキテクチャ探索(NAS)を提案する。 分布内確率のみを最適化する標準NASとは異なり,提案手法は分布内データと分布外データの両方を用いて不確実性を探索する。 本手法は,ネットワーク内のベイズ層配置の正しい位置を探索することができる。 実験では, 最先端(深層アンサンブル)と比較して, 不確実な定量化能力と精度を示した。 さらに、検索されたモデルは、多くの一般的なbnnベースラインと比べてランタイムのほんの一部しか使用せず、mcdropoutとdeep ensembleと比較して、cifar10データセット上で推論ランタイムコストをそれぞれ2.98 \times$と2.92 \times$に削減した。

Bayesian Neural Networks (BNNs) offer a mathematically grounded framework to quantify the uncertainty of model predictions but come with a prohibitive computation cost for both training and inference. In this work, we show a novel network architecture search (NAS) that optimizes BNNs for both accuracy and uncertainty while having a reduced inference latency. Different from canonical NAS that optimizes solely for in-distribution likelihood, the proposed scheme searches for the uncertainty performance using both in- and out-of-distribution data. Our method is able to search for the correct placement of Bayesian layer(s) in a network. In our experiments, the searched models show comparable uncertainty quantification ability and accuracy compared to the state-of-the-art (deep ensemble). In addition, the searched models use only a fraction of the runtime compared to many popular BNN baselines, reducing the inference runtime cost by $2.98 \times$ and $2.92 \times$ respectively on the CIFAR10 dataset when compared to MCDropout and deep ensemble.
翻訳日:2022-02-10 20:07:48 公開日:2022-02-09
# (参考訳) ニューロイメージングデータ解析のための機械学習に基づく仮説駆動手法

A hypothesis-driven method based on machine learning for neuroimaging data analysis ( http://arxiv.org/abs/2202.04397v1 )

ライセンス: CC BY 4.0
JM Gorriz, R. Martin-Clemente, C.G. Puntonet, A. Ortiz, J. Ramirez and J. Suckling(参考訳) サンプルやアクティベーション状態の間の脳画像の空間的パターンを識別するための機械学習(MLE)アプローチの有用性と解釈について、未解決の疑問が残る。 過去数十年間、これらのアプローチは、グループ間推論のための特徴抽出と線形分類タスクへの操作を制限してきた。 この文脈では、統計的推論は画像ラベルをランダムに置換したり、オブジェクト間の変動を考慮したランダム効果モデルを用いて評価される。 これらの多変量MLEに基づく統計パイプラインは、仮説駆動法よりも活性化を検出するのに効果的であるが、数学的エレガンス、解釈の容易さ、ユビキタス一般線形モデル(GLM)の空間的局所性を失った。 近年,設計行列を2進表示行列として表現する場合,従来のglmの推定と不定分類タスクとの接続が実証されている。 本稿では、単変量 GLM と MLE \emph{regressions} の完全接続について検討する。 本研究の目的は, 線形支援ベクトル回帰(SVR)により得られるパラメータに基づいて, GLM を用いた高度統計テスト(SVR-iGLM)を導出することである。 その後、従来のGLMベンチマークに従って統計的重要性を評価するためにランダム場理論(RFT)が用いられる。 実験結果は,各モデル(主にGLMとSVR)から導出されるパラメータ推定が,事前定義された機能的タスクに大きく関係する,異なる設計推定結果をもたらすことを示す。 さらに、マルチサイトイニシアチブの実データを用いて、提案するmleに基づく推論は、統計的パワーと偽陽性の制御を示し、正規glmを上回っている。

There remains an open question about the usefulness and the interpretation of Machine learning (MLE) approaches for discrimination of spatial patterns of brain images between samples or activation states. In the last few decades, these approaches have limited their operation to feature extraction and linear classification tasks for between-group inference. In this context, statistical inference is assessed by randomly permuting image labels or by the use of random effect models that consider between-subject variability. These multivariate MLE-based statistical pipelines, whilst potentially more effective for detecting activations than hypotheses-driven methods, have lost their mathematical elegance, ease of interpretation, and spatial localization of the ubiquitous General linear Model (GLM). Recently, the estimation of the conventional GLM has been demonstrated to be connected to an univariate classification task when the design matrix is expressed as a binary indicator matrix. In this paper we explore the complete connection between the univariate GLM and MLE \emph{regressions}. To this purpose we derive a refined statistical test with the GLM based on the parameters obtained by a linear Support Vector Regression (SVR) in the \emph{inverse} problem (SVR-iGLM). Subsequently, random field theory (RFT) is employed for assessing statistical significance following a conventional GLM benchmark. Experimental results demonstrate how parameter estimations derived from each model (mainly GLM and SVR) result in different experimental design estimates that are significantly related to the predefined functional task. Moreover, using real data from a multisite initiative the proposed MLE-based inference demonstrates statistical power and the control of false positives, outperforming the regular GLM.
翻訳日:2022-02-10 19:52:37 公開日:2022-02-09
# (参考訳) 異論に同意する - 異論による多様性の転換可能性向上

Agree to Disagree: Diversity through Disagreement for Better Transferability ( http://arxiv.org/abs/2202.04414v1 )

ライセンス: CC BY 4.0
Matteo Pagliardini, Martin Jaggi, Fran\c{c}ois Fleuret, Sai Praneeth Karimireddy(参考訳) 勾配に基づく学習アルゴリズムは暗黙の単純さバイアスを持ち、学習手順によってサンプリングされる予測器の多様性を制限することができる。 この行動は、訓練されたモデルの伝達可能性を妨げる可能性がある (i)より単純でスプリアスな機能 -- トレーニングデータには存在するが、テストデータには欠如している -- の学習を好むこと、及び (ii)予測機能の小さなサブセットのみを活用すること。 このような効果は、テスト分布が列車分布と正確に一致しない場合、特に拡大される -out of distribution (ood) 一般化問題と見なされる。 しかし、トレーニングデータのみを考えると、ある特徴が刺激的であるか、転送可能であるかを評価することは必ずしも不可能である。 代わりに、さまざまな予測機能をキャプチャするモデルの集合を学習することを提唱します。 そこで本研究では,トレーニングデータに対するモデル間の合意を強制するD-BAT(Diversity-By-disAgreement Training)を提案する。 我々は,D-BATが一般化された不一致の概念から自然に現れることを示すとともに,提案手法がショートカット学習を緩和し,不確実性を高め,OOD検出を向上し,伝達性を向上させることを複数の実験で示す。

Gradient-based learning algorithms have an implicit simplicity bias which in effect can limit the diversity of predictors being sampled by the learning procedure. This behavior can hinder the transferability of trained models by (i) favoring the learning of simpler but spurious features -- present in the training data but absent from the test data -- and (ii) by only leveraging a small subset of predictive features. Such an effect is especially magnified when the test distribution does not exactly match the train distribution -- referred to as the Out of Distribution (OOD) generalization problem. However, given only the training data, it is not always possible to apriori assess if a given feature is spurious or transferable. Instead, we advocate for learning an ensemble of models which capture a diverse set of predictive features. Towards this, we propose a new algorithm D-BAT (Diversity-By-disAgreement Training), which enforces agreement among the models on the training data, but disagreement on the OOD data. We show how D-BAT naturally emerges from the notion of generalized discrepancy, as well as demonstrate in multiple experiments how the proposed method can mitigate shortcut-learning, enhance uncertainty and OOD detection, as well as improve transferability.
翻訳日:2022-02-10 19:37:50 公開日:2022-02-09
# (参考訳) マルチモーダル画像スタイル転送のための深い特徴回転

Deep Feature Rotation for Multimodal Image Style Transfer ( http://arxiv.org/abs/2202.04426v1 )

ライセンス: CC BY 4.0
Son Truong Nguyen, Nguyen Quang Tuyen, Nguyen Hong Phuc(参考訳) 近年、画像のスタイルをコンテンツターゲットに転送するスタイル転送は、多くの注目を集める研究領域となっている。 スタイル転送に関する広範な研究は、処理のスピードアップや高品質なスタイリッシュ画像の生成を目的としている。 ほとんどのアプローチはコンテンツとスタイルのイメージペアからのみ出力を生成するが、他のいくつかのアプローチでは複雑なアーキテクチャを使用し、一定の数の出力しか生成できない。 本稿では,多種多様な出力を生成するだけでなく,より複雑な方法に比べて効果的なスタイライゼーションを実現しつつ,多彩な特徴回転(dfr)と呼ばれるスタイル特徴の表現方法を提案する。 計算コストを過大に消費することなく,中間的な機能埋め込みを補完する多くの方法の代表的手法である。 また, 異なる回転重みで出力を可視化することで解析を行う。 私たちのコードはhttps://github.com/sonnguyen129/deep-feature-rotationで利用可能です。

Recently, style transfer is a research area that attracts a lot of attention, which transfers the style of an image onto a content target. Extensive research on style transfer has aimed at speeding up processing or generating high-quality stylized images. Most approaches only produce an output from a content and style image pair, while a few others use complex architectures and can only produce a certain number of outputs. In this paper, we propose a simple method for representing style features in many ways called Deep Feature Rotation (DFR), while not only producing diverse outputs but also still achieving effective stylization compared to more complex methods. Our approach is representative of the many ways of augmentation for intermediate feature embedding without consuming too much computational expense. We also analyze our method by visualizing output in different rotation weights. Our code is available at https://github.com/sonnguyen129/deep-feature-rotation.
翻訳日:2022-02-10 19:16:45 公開日:2022-02-09
# (参考訳) 都市景観における被写体誘導昼夜視定位

Object-Guided Day-Night Visual Localization in Urban Scenes ( http://arxiv.org/abs/2202.04445v1 )

ライセンス: CC BY 4.0
Assia Benbihi, C\'edric Pradalier, Ond\v{r}ej Chum(参考訳) 局所マッチングの新しい手法に基づくOGuL(Object-Guided Localization)を提案する。 局所的な特徴の直接マッチングは照明の著しい変化に敏感である。 対照的に、物体検出はしばしば照明条件の厳しい変化を生き延びる。 提案手法は,まず意味オブジェクトを検出し,画像間の対応を確立する。 対象対応は平面ホモグラフィの形で画像の局所的な粗いアラインメントを提供する。 これらの相同性は、局所的な特徴のマッチングのガイドとして用いられる。 標準的な都市ローカライゼーションデータセット(Aachen, Extended-CMU-Season, RobotCar-Season)の実験では、OGuLはSIFTと同じくらい単純な局所的特徴でローカライゼーション結果を著しく改善し、その性能は日々のローカライゼーションのために訓練された最先端のCNNベースの手法と競合する。

We introduce Object-Guided Localization (OGuL) based on a novel method of local-feature matching. Direct matching of local features is sensitive to significant changes in illumination. In contrast, object detection often survives severe changes in lighting conditions. The proposed method first detects semantic objects and establishes correspondences of those objects between images. Object correspondences provide local coarse alignment of the images in the form of a planar homography. These homographies are consequently used to guide the matching of local features. Experiments on standard urban localization datasets (Aachen, Extended-CMU-Season, RobotCar-Season) show that OGuL significantly improves localization results with as simple local features as SIFT, and its performance competes with the state-of-the-art CNN-based methods trained for day-to-night localization.
翻訳日:2022-02-10 19:08:24 公開日:2022-02-09
# (参考訳) メリットに基づくnlp技術の融合によるtwitterテキストからの水質の即時フィードバック

Merit-based Fusion of NLP Techniques for Instant Feedback on Water Quality from Twitter Text ( http://arxiv.org/abs/2202.04462v1 )

ライセンス: CC BY 4.0
Khubaib Ahmad, Muhammad Asif Ayub, Kashif Ahmad, Jebran Khan, Nasir Ahmad, Ala Al-Fuqaha(参考訳) 本稿は,フィードバックの即時源としてのソーシャルメディアの可能性を分析することによって,水質を評価できる重要な環境課題に焦点を当てる。 この研究の主な目的は、水色、匂い、味、関連する病気など、水質の異なる側面を記述した投稿に特に注意を向けて、水質に関連するソーシャルメディア投稿を自動分析して検索することである。 そこで本研究では,異なる事前処理,データ拡張,分類手法を取り入れた新しいフレームワークを提案する。 合計で3つの異なるニューラルネットワーク(NN)アーキテクチャ、すなわち (i)トランスフォーマー(bert)からの双方向エンコーダ表現 (II)ロバストに最適化されたBERT事前学習手法(XLM-RoBERTa)および (iii)カスタム長短期記憶モデル(lstm)は、メリットに基づく融合方式に採用されている。 モデルへのメリットに基づく重み付けについては、粒子群最適化(pso)、遺伝的アルゴリズム(ga)、ブルート力(bf)、ネルダーミード、パウエルの最適化法など、いくつかの最適化と探索手法を比較した。 また, BERTモデルを用いて, 最高F1スコア0.81を得る個別モデルの評価を行った。 メリットベースの融合では、BFがF1スコアスコアの0.852を達成して総合的に良い結果が得られる。 また,提案手法の大幅な改善が得られた既存手法との比較を行った。 このような比較的新しいトピックの厳密な分析は、将来の研究のベースラインになると考えています。

This paper focuses on an important environmental challenge; namely, water quality by analyzing the potential of social media as an immediate source of feedback. The main goal of the work is to automatically analyze and retrieve social media posts relevant to water quality with particular attention to posts describing different aspects of water quality, such as watercolor, smell, taste, and related illnesses. To this aim, we propose a novel framework incorporating different preprocessing, data augmentation, and classification techniques. In total, three different Neural Networks (NNs) architectures, namely (i) Bidirectional Encoder Representations from Transformers (BERT), (ii) Robustly Optimized BERT Pre-training Approach (XLM-RoBERTa), and (iii) custom Long short-term memory (LSTM) model, are employed in a merit-based fusion scheme. For merit-based weight assignment to the models, several optimization and search techniques are compared including a Particle Swarm Optimization (PSO), a Genetic Algorithm (GA), Brute Force (BF), Nelder-Mead, and Powell's optimization methods. We also provide an evaluation of the individual models where the highest F1-score of 0.81 is obtained with the BERT model. In merit-based fusion, overall better results are obtained with BF achieving an F1-score score of 0.852. We also provide comparison against existing methods, where a significant improvement for our proposed solutions is obtained. We believe such rigorous analysis of this relatively new topic will provide a baseline for future research.
翻訳日:2022-02-10 18:55:06 公開日:2022-02-09
# (参考訳) 複合語表現を用いた条件ドラム生成

Conditional Drums Generation using Compound Word Representations ( http://arxiv.org/abs/2202.04464v1 )

ライセンス: CC BY 4.0
Dimos Makris, Guo Zixun, Maximos Kaliakatsos-Papakostas, Dorien Herremans(参考訳) 自動作曲の分野は近年大きな進歩を遂げており、特にトランスフォーマーベースの建築が発明されている。 音楽を複数の複雑な依存関係を持つイベントのシーケンスと考えるディープラーニングモデルを使用する場合、適切なデータ表現の選択が不可欠である。 本稿では,逐次データのトークン化プロセスである複合語表現にインスパイアされた新しいデータ符号化方式を用いて,条件付きドラム生成の課題に取り組む。 そこで,両方向長短期メモリ(BiLSTM)エンコーダは条件パラメータ(トラックや音楽の属性など)の情報を受信し,トランスフォーマーベースのデコーダは相対的にグローバルな注意を払って生成したドラムシーケンスを生成するシーケンス・ツー・シーケンスアーキテクチャを提案する。 本手法の有効性をいくつかのベースラインと比較するために実験を行った。 定量的評価により,トレーニングコーパスに類似した統計分布と特性を有するドラムシーケンスを生成できることを示した。 これらの特徴にはシンコペーション、圧縮比、対称性などがある。 また, 聴取試験により, ドラム列の音質, 自然さ, コヒーレントさを, 伴奏の「グルーブ」で確認した。

The field of automatic music composition has seen great progress in recent years, specifically with the invention of transformer-based architectures. When using any deep learning model which considers music as a sequence of events with multiple complex dependencies, the selection of a proper data representation is crucial. In this paper, we tackle the task of conditional drums generation using a novel data encoding scheme inspired by the Compound Word representation, a tokenization process of sequential data. Therefore, we present a sequence-to-sequence architecture where a Bidirectional Long short-term memory (BiLSTM) Encoder receives information about the conditioning parameters (i.e., accompanying tracks and musical attributes), while a Transformer-based Decoder with relative global attention produces the generated drum sequences. We conducted experiments to thoroughly compare the effectiveness of our method to several baselines. Quantitative evaluation shows that our model is able to generate drums sequences that have similar statistical distributions and characteristics to the training corpus. These features include syncopation, compression ratio, and symmetry among others. We also verified, through a listening test, that generated drum sequences sound pleasant, natural and coherent while they "groove" with the given accompaniment.
翻訳日:2022-02-10 18:40:39 公開日:2022-02-09
# (参考訳) contextize me -- 強化学習におけるコンテキストのケース

Contextualize Me -- The Case for Context in Reinforcement Learning ( http://arxiv.org/abs/2202.04500v1 )

ライセンス: CC BY 4.0
Carolin Benjamins, Theresa Eimer, Frederik Schubert, Aditya Mohan, Andr\'e Biedenkapp, Bodo Rosenhahn, Frank Hutter, Marius Lindauer(参考訳) 強化学習(rl)はますます複雑な問題を解決する上で大きな一歩を踏み出したが、多くのアルゴリズムは環境のわずかな変化にも脆弱である。 文脈強化学習(cRL)は、このような変化を原則的にモデル化し、柔軟で正確で解釈可能なタスク仕様と生成を可能にする理論的枠組みを提供する。 したがって、cRL は RL の一般化を研究するための重要な形式化である。 この研究では、理論と実践におけるcRLの解法について論じる。 文脈マルコフ決定過程における理論的に最適な振る舞いは、明示的な文脈情報を必要とする。 さらに,学習中のコンテキスト情報を活用したコンテキストベースのタスク生成を実証的に検討し,状態調整型ポリシアーキテクチャであるcgateを提案する。 そこで本研究では,CARLのcRL拡張に基づく一般化のための最初のベンチマークライブラリを提案する。 要するに、コンテキストは重要です!

While Reinforcement Learning (RL) has made great strides towards solving increasingly complicated problems, many algorithms are still brittle to even slight changes in environments. Contextual Reinforcement Learning (cRL) provides a theoretical framework to model such changes in a principled manner, thereby enabling flexible, precise and interpretable task specification and generation. Thus, cRL is an important formalization for studying generalization in RL. In this work, we reason about solving cRL in theory and practice. We show that theoretically optimal behavior in contextual Markov Decision Processes requires explicit context information. In addition, we empirically explore context-based task generation, utilizing context information in training and propose cGate, our state-modulating policy architecture. To this end, we introduce the first benchmark library designed for generalization based on cRL extensions of popular benchmarks, CARL. In short: Context matters!
翻訳日:2022-02-10 18:27:16 公開日:2022-02-09
# (参考訳) 予測感度: 展開された分類器における反事実公平性の連続的監査

Prediction Sensitivity: Continual Audit of Counterfactual Fairness in Deployed Classifiers ( http://arxiv.org/abs/2202.04504v1 )

ライセンス: CC BY 4.0
Krystal Maughan, Ivoline C. Ngong, Joseph P. Near(参考訳) aiベースのシステムは私たちの生活の多くの領域にますます影響を与えています。 従来のグループフェアネスメトリクスは個人に対する差別を見逃す可能性があり、デプロイ後に適用するのが困難である。 counterfactual fairnessは、フェアネスの個別化された概念を記述しているが、デプロイ後の評価はさらに困難である。 本稿では,デプロイされた分類器における対実的公正性の連続的な監査手法である予測感度について述べる。 予測感度は、デプロイされたモデルによって行われたすべての予測に対して、この個人が別の人口層グループに属していた場合、この予測が異なるのか、という疑問に答えるのに役立つ。 予測感度は保護された状態と他の特徴の相関を利用しており、予測時に保護された状態情報を必要としない。 実証実験の結果,予測感度は反実的公正さの違反を検出するのに有効であることが示された。

As AI-based systems increasingly impact many areas of our lives, auditing these systems for fairness is an increasingly high-stakes problem. Traditional group fairness metrics can miss discrimination against individuals and are difficult to apply after deployment. Counterfactual fairness describes an individualized notion of fairness but is even more challenging to evaluate after deployment. We present prediction sensitivity, an approach for continual audit of counterfactual fairness in deployed classifiers. Prediction sensitivity helps answer the question: would this prediction have been different, if this individual had belonged to a different demographic group -- for every prediction made by the deployed model. Prediction sensitivity can leverage correlations between protected status and other features and does not require protected status information at prediction time. Our empirical results demonstrate that prediction sensitivity is effective for detecting violations of counterfactual fairness.
翻訳日:2022-02-10 17:54:25 公開日:2022-02-09
# (参考訳) 振幅ニューラルネットワークを用いたハドロンコライダーシミュレーションの最適化

Optimising hadronic collider simulations using amplitude neural networks ( http://arxiv.org/abs/2202.04506v1 )

ライセンス: CC BY 4.0
Ryan Moodie(参考訳) コライダー実験における高多重度散乱過程の精密現象論的研究は、重要な理論的課題であり、実験測定において重要な要素である。 機械学習技術は複雑な最終状態のシミュレーションを劇的に最適化する可能性がある。 ニューラルネットワークを用いて行列要素を近似し, グルーオン融合によるループ誘起二光子生成について検討した。 我々はNJet C++ライブラリからの1ループ振幅でニューラルネットワークモデルをトレーニングし、Sherpa Monte Carloイベントジェネレータとインターフェースして、現実的なハドロンコライダーシミュレーションで行列要素を提供する。 標準オブザーバブルをモデルで計算し,従来の手法と比較したところ,分布の整合性は良好であり,シミュレーション時間も30倍に短縮された。

Precision phenomenological studies of high-multiplicity scattering processes at collider experiments present a substantial theoretical challenge and are vitally important ingredients in experimental measurements. Machine learning technology has the potential to dramatically optimise simulations for complicated final states. We investigate the use of neural networks to approximate matrix elements, studying the case of loop-induced diphoton production through gluon fusion. We train neural network models on one-loop amplitudes from the NJet C++ library and interface them with the Sherpa Monte Carlo event generator to provide the matrix element within a realistic hadronic collider simulation. Computing some standard observables with the models and comparing to conventional techniques, we find excellent agreement in the distributions and a reduced total simulation time by a factor of thirty.
翻訳日:2022-02-10 17:38:42 公開日:2022-02-09
# (参考訳) 教師付き学習の無自由lunch定理

The no-free-lunch theorems of supervised learning ( http://arxiv.org/abs/2202.04513v1 )

ライセンス: CC BY 4.0
Tom F. Sterkenburg, Peter D. Gr\"unwald(参考訳) no-free-lunch定理は、あらゆる可能な機械学習アルゴリズムが正当性を欠いているという懐疑的な結論を促進する。 しかし、なぜ一部のアルゴリズムは他のアルゴリズムよりも優れているという学習理論が残されているのだろうか? 帰納の哲学と平行して、学習アルゴリズムは純粋にデータ駆動であるという概念を前提としている。 この概念では、全てのアルゴリズムは、正当性を求める固有の帰納バイアスを持つ必要がある。 私たちは、多くの標準学習アルゴリズムはむしろモデルに依存したものとして理解されるべきであると主張している。 ジェネリックアルゴリズム自体は、モデル相対的な正当化を与えることができる。

The no-free-lunch theorems promote a skeptical conclusion that all possible machine learning algorithms equally lack justification. But how could this leave room for a learning theory, that shows that some algorithms are better than others? Drawing parallels to the philosophy of induction, we point out that the no-free-lunch results presuppose a conception of learning algorithms as purely data-driven. On this conception, every algorithm must have an inherent inductive bias, that wants justification. We argue that many standard learning algorithms should rather be understood as model-dependent: in each application they also require for input a model, representing a bias. Generic algorithms themselves, they can be given a model-relative justification.
翻訳日:2022-02-10 17:30:51 公開日:2022-02-09
# (参考訳) エネルギー効率の良い音声強調のための多モードカノニカル関連グラフニューラルネットワーク

A Multimodal Canonical-Correlated Graph Neural Network for Energy-Efficient Speech Enhancement ( http://arxiv.org/abs/2202.04528v1 )

ライセンス: CC BY 4.0
Leandro Aparecido Passos, Jo\~ao Paulo Papa, Amir Hussain, Ahsan Adeel(参考訳) 本稿では、グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合することで、エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。 これは最先端のCCA-GNNの上に構築されており、同じ入力の強化ビューのペア間の相関を最大化し、非連結な特徴をデコレーションしながら代表埋め込みを学習することを目的としている。 従来のCCA-GNNの鍵となる考え方は、冗長な情報の取得を防止しつつ、拡張不変情報を破棄し、拡張不変情報を保存することである。 提案するAV CCA-GNNモデルは,マルチモーダル表現学習の難しさに対処するために設計されている。 具体的には,同一チャンネルの拡張ビューからの正準相関を最大化し,音声および視覚埋め込みによる正準相関を最大化することにより,文脈的なav音声処理を改善する。 さらに,ノードの近接近傍を計算しながら,特徴空間表現の代わりに先行フレーム列距離を考慮したノードの位置符号化を提案する。 これは、近隣の接続を通じて埋め込みに時間的情報を導入するのに役立つ。 ChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈における優れた特徴学習を強化し、最先端のCCA-GNNや多層パーセプトロンモデルと比較して、よりエネルギー効率の良い音声再構成を実現することが示された。 提案手法が将来の補助技術やエネルギー効率の高いマルチモーダルデバイスに活用される可能性を示した。

This paper proposes a novel multimodal self-supervised architecture for energy-efficient AV speech enhancement by integrating graph neural networks with canonical correlation analysis (CCA-GNN). This builds on a state-of-the-art CCA-GNN that aims to learn representative embeddings by maximizing the correlation between pairs of augmented views of the same input while decorrelating disconnected features. The key idea of the conventional CCA-GNN involves discarding augmentation-variant information and preserving augmentation-invariant information whilst preventing capturing of redundant information. Our proposed AV CCA-GNN model is designed to deal with the challenging multimodal representation learning context. Specifically, our model improves contextual AV speech processing by maximizing canonical correlation from augmented views of the same channel, as well as canonical correlation from audio and visual embeddings. In addition, we propose a positional encoding of the nodes that considers a prior-frame sequence distance instead of a feature-space representation while computing the node's nearest neighbors. This serves to introduce temporal information in the embeddings through the neighborhood's connectivity. Experiments conducted with the benchmark ChiME3 dataset show that our proposed prior frame-based AV CCA-GNN reinforces better feature learning in the temporal context, leading to more energy-efficient speech reconstruction compared to state-of-the-art CCA-GNN and multi-layer perceptron models. The results demonstrate the potential of our proposed approach for exploitation in future assistive technology and energy-efficient multimodal devices.
翻訳日:2022-02-10 17:29:47 公開日:2022-02-09
# (参考訳) nimble:骨と筋肉を備えた非剛性ハンドモデル

NIMBLE: A Non-rigid Hand Model with Bones and Muscles ( http://arxiv.org/abs/2202.04533v1 )

ライセンス: CC BY 4.0
Yuwei Li, Longwen Zhang, Zesong Qiu, Yingwenqi Jiang, Yuyao Zhang, Nianyi Li, Yuexin Ma, Lan Xu, Jingyi Yu(参考訳) 新興のメタバースアプリケーションは、人間の手の信頼性、正確性、フォトリアリスティックな複製を要求し、物理的な世界のように洗練された操作を行う。 本物の人間の手は、骨、筋肉、腱、皮膚の間の最も複雑な調整の1つだが、最先端の技術は、手の骨格のみをモデリングすることに集中している。 本稿では,鍵成分の欠如を含む新しいパラメトリックハンドモデルであるNIMBLEについて述べる。 まず,磁気共鳴イメージングハンド(mri-hand)データセットに筋肉,骨,皮膚をアノテートし,データセット内の個々のポーズと被験者にボリュームテンプレートハンドを登録した。 NIMBLEは、三角形のメッシュとして20の骨、四面体メッシュとして7つの筋肉群、皮膚メッシュからなる。 反復的な形状登録とパラメータ学習により、さらに形状ブレンド形状を生成し、ブレンド形状をポーズさせ、継手回帰器を製造する。 NIMBLEをモデリング、レンダリング、視覚的推論タスクに適用する。 内骨と筋肉を解剖学的および運動学的規則に合わせるように強制することにより、NIMBLEは前例のないリアリズムで新しいポーズに3Dの手をアニメーションすることができる。 肌の外観をモデル化するために, 高品質なテクスチャと正常な地図を取得し, しわや手のひら印字をモデル化するフォトメトリックハンドステージを構築した。 最後に、NIMBLEは、リッチデータを合成するか、推論ネットワークで直接微分可能な層として振る舞うことによって、学習ベースの手振りと形状の推定にも役立ちます。

Emerging Metaverse applications demand reliable, accurate, and photorealistic reproductions of human hands to perform sophisticated operations as if in the physical world. While real human hand represents one of the most intricate coordination between bones, muscle, tendon, and skin, state-of-the-art techniques unanimously focus on modeling only the skeleton of the hand. In this paper, we present NIMBLE, a novel parametric hand model that includes the missing key components, bringing 3D hand model to a new level of realism. We first annotate muscles, bones and skins on the recent Magnetic Resonance Imaging hand (MRI-Hand) dataset and then register a volumetric template hand onto individual poses and subjects within the dataset. NIMBLE consists of 20 bones as triangular meshes, 7 muscle groups as tetrahedral meshes, and a skin mesh. Via iterative shape registration and parameter learning, it further produces shape blend shapes, pose blend shapes, and a joint regressor. We demonstrate applying NIMBLE to modeling, rendering, and visual inference tasks. By enforcing the inner bones and muscles to match anatomic and kinematic rules, NIMBLE can animate 3D hands to new poses at unprecedented realism. To model the appearance of skin, we further construct a photometric HandStage to acquire high-quality textures and normal maps to model wrinkles and palm print. Finally, NIMBLE also benefits learning-based hand pose and shape estimation by either synthesizing rich data or acting directly as a differentiable layer in the inference network.
翻訳日:2022-02-10 17:21:48 公開日:2022-02-09
# (参考訳) 一般化田口法と対象ベクトルノルムによる多目的ロバストCNNシステムの最適過パラメータと構造設定

Optimal Hyperparameters and Structure Setting of Multi-Objective Robust CNN Systems via Generalized Taguchi Method and Objective Vector Norm ( http://arxiv.org/abs/2202.04567v1 )

ライセンス: CC BY 4.0
Sheng-Guo Wang and Shanshan Jiang (The University of North Carolina at Charlotte)(参考訳) 近年、機械学習(ml)、人工知能(ai)、畳み込みニューラルネットワーク(cnn)は、深層学習構造とcnnとaiシステムの品質と性能を決定する多数のハイパーパラメータを持つ幅広いアプリケーションで大きな進歩を遂げている。 これらのシステムには、多目的MLとAIパフォーマンスのニーズがある。 多目的ロバストな最適cnnシステムのための最適なハイパーパラメータと構造を見つけるための重要な要件がある。 本稿では,多目的頑健なCNNシステムの最適パラメータと構造を目的性能ベクトルノルムを用いて効果的に決定する汎用田口手法を提案する。 提案手法は,CIFAR-10データセットに対する元のResNetを用いたCNN分類システムに適用され,提案手法はCIFAR-10における元のResNetの最適精度を達成するのに極めて有効であることを示す。

Recently, Machine Learning (ML), Artificial Intelligence (AI), and Convolutional Neural Network (CNN) have made huge progress with broad applications, where their systems have deep learning structures and a large number of hyperparameters that determine the quality and performance of the CNNs and AI systems. These systems may have multi-objective ML and AI performance needs. There is a key requirement to find the optimal hyperparameters and structures for multi-objective robust optimal CNN systems. This paper proposes a generalized Taguchi approach to effectively determine the optimal hyperparameters and structure for the multi-objective robust optimal CNN systems via their objective performance vector norm. The proposed approach and methods are applied to a CNN classification system with the original ResNet for CIFAR-10 dataset as a demonstration and validation, which shows the proposed methods are highly effective to achieve an optimal accuracy rate of the original ResNet on CIFAR-10.
翻訳日:2022-02-10 16:55:39 公開日:2022-02-09
# (参考訳) 量子コンピュータにおけるノイズ指紋: 機械学習ソフトウェアツール

Noise fingerprints in quantum computers: Machine learning software tools ( http://arxiv.org/abs/2202.04581v1 )

ライセンス: CC BY 4.0
Stefano Martina, Stefano Gherardini, Lorenzo Buffoni, Filippo Caruso(参考訳) 本稿では,量子デバイスに影響を及ぼす量子ノイズ源の主な特徴(指紋)を量子コンピュータとして学習することを目的とした,量子古典的機械学習ソフトウェアの高レベル機能について述べる。 具体的には、ソフトウェアアーキテクチャは、同様の技術的仕様を持つ異なる量子デバイスにおけるノイズ指紋を(精度の99%以上)うまく分類するか、単一の量子マシンにおけるノイズ指紋の異なる時間依存性を分類するように設計されている。

In this paper we present the high-level functionalities of a quantum-classical machine learning software, whose purpose is to learn the main features (the fingerprint) of quantum noise sources affecting a quantum device, as a quantum computer. Specifically, the software architecture is designed to classify successfully (more than 99% of accuracy) the noise fingerprints in different quantum devices with similar technical specifications, or distinct time-dependences of a noise fingerprint in single quantum machines.
翻訳日:2022-02-10 16:44:58 公開日:2022-02-09
# 公正なパーソナライズ価格のための規制措置

Regulatory Instruments for Fair Personalized Pricing ( http://arxiv.org/abs/2202.04245v1 )

ライセンス: Link先を確認
Renzhe Xu, Xingxuan Zhang, Peng Cui, Bo Li, Zheyan Shen, Jiazheng Xu(参考訳) パーソナライズド価格(パーソナライズドプライス)は、特性や行動に基づいて個々の消費者に異なる価格を課金するビジネス戦略である。 近年,多くの産業で,高粒度消費者データの利用が増加し,一般的に普及している。 パーソナライズされた価格の差別的な性質は、市場効率と株式のバランスをとるための規制政策をどう設計するかという政策立案者や学者の間で熱い議論を引き起こしている。 本稿では、パーソナライズされた価格やその比率の範囲を抑えるための2つの音響政策指標を提案する。 規制制約下での利益を最大化するモノポリーの最適価格戦略と、消費者の余剰、生産者余剰、社会福祉への影響について検討する。 提案した制約が、一様、ロジスティック、指数分布などの共通需要分布の総剰余を犠牲にして、消費者余剰と生産余剰のバランスをとるのに役立つことを理論的に証明する。 シミュレーションと実世界のデータセットの両方の実験は、これらの理論結果の正しさを示している。 我々の発見と洞察は、デジタル時代における独占化ビジネスの規制政策設計に光を当てた。

Personalized pricing is a business strategy to charge different prices to individual consumers based on their characteristics and behaviors. It has become common practice in many industries nowadays due to the availability of a growing amount of high granular consumer data. The discriminatory nature of personalized pricing has triggered heated debates among policymakers and academics on how to design regulation policies to balance market efficiency and equity. In this paper, we propose two sound policy instruments, i.e., capping the range of the personalized prices or their ratios. We investigate the optimal pricing strategy of a profit-maximizing monopoly under both regulatory constraints and the impact of imposing them on consumer surplus, producer surplus, and social welfare. We theoretically prove that both proposed constraints can help balance consumer surplus and producer surplus at the expense of total surplus for common demand distributions, such as uniform, logistic, and exponential distributions. Experiments on both simulation and real-world datasets demonstrate the correctness of these theoretical results. Our findings and insights shed light on regulatory policy design for the increasingly monopolized business in the digital era.
翻訳日:2022-02-10 16:33:13 公開日:2022-02-09
# シナリオ支援型深層強化学習

Scenario-Assisted Deep Reinforcement Learning ( http://arxiv.org/abs/2202.04337v1 )

ライセンス: Link先を確認
Raz Yerushalmi, Guy Amir, Achiya Elyasaf, David Harel, Guy Katz and Assaf Marron(参考訳) 深層強化学習は非構造化データからエージェントを訓練するのに非常に有用である。 しかし、製造されたエージェントの不透明さのため、人間のエンジニアが要求するさまざまな要件に確実に準拠することは困難である。 本報告では,強化学習訓練プロセス(特に報奨計算)の強化手法を提案する。これにより,人間技術者が専門家の知識に直接貢献できるようになり,訓練中のエージェントが様々な制約を満たす可能性が高まる。 さらに,シナリオベースモデリングなどの高度なモデル工学手法を用いて,これらの制約を定式化する手法を提案する。 このブラックボックス学習ベースのツールと古典的なモデリングアプローチを組み合わせることで、効率的で効率的なシステムを生み出すことができるが、透明性と保守性も向上する。 提案手法は,インターネット混雑制御領域のケーススタディを用いて評価し,有望な結果を得た。

Deep reinforcement learning has proven remarkably useful in training agents from unstructured data. However, the opacity of the produced agents makes it difficult to ensure that they adhere to various requirements posed by human engineers. In this work-in-progress report, we propose a technique for enhancing the reinforcement learning training process (specifically, its reward calculation), in a way that allows human engineers to directly contribute their expert knowledge, making the agent under training more likely to comply with various relevant constraints. Moreover, our proposed approach allows formulating these constraints using advanced model engineering techniques, such as scenario-based modeling. This mix of black-box learning-based tools with classical modeling approaches could produce systems that are effective and efficient, but are also more transparent and maintainable. We evaluated our technique using a case-study from the domain of internet congestion control, obtaining promising results.
翻訳日:2022-02-10 16:32:52 公開日:2022-02-09
# 深部フィードフォワードニューラルネットワークにおける特徴抽出の局所幾何学的解釈

A Local Geometric Interpretation of Feature Extraction in Deep Feedforward Neural Networks ( http://arxiv.org/abs/2202.04632v1 )

ライセンス: Link先を確認
Md Kamran Chowdhury Shisher, Tasmeen Zaman Ornee, and Yin Sun(参考訳) 本稿では,高次元データからディープフィードフォワードニューラルネットワークがどのように低次元特徴を抽出するかを解釈するための局所幾何解析を提案する。 本研究では, 局所幾何学領域において, ニューラルネットワークの一層における最適重みと前層の最適特徴が, この層のベイズ作用によって決定される行列の低ランク近似を構成することを示す。 この結果は (i)ニューラルネットワークの出力層と隠れ層の両方を分析すること、及び (ii) 局所的に厳密に増加し、連続的に分化可能なニューロン活性化機能について。 2つの教師付き学習問題 — ニューラルネットワークに基づく最大度分類(ロジスティック回帰)と、ニューラルネットワークに基づく最小平均二乗推定(minimum mean square estimation)です。 これらの理論結果の実験的検証を今後の研究で実施する。

In this paper, we present a local geometric analysis to interpret how deep feedforward neural networks extract low-dimensional features from high-dimensional data. Our study shows that, in a local geometric region, the optimal weight in one layer of the neural network and the optimal feature generated by the previous layer comprise a low-rank approximation of a matrix that is determined by the Bayes action of this layer. This result holds (i) for analyzing both the output layer and the hidden layers of the neural network, and (ii) for neuron activation functions that are locally strictly increasing and continuously differentiable. We use two supervised learning problems to illustrate our results: neural network based maximum likelihood classification (i.e., logistic regression) and neural network based minimum mean square estimation. Experimental validation of these theoretical results will be conducted in our future work.
翻訳日:2022-02-10 16:32:38 公開日:2022-02-09
# 分離可能なミニマックスのシャーパレートとプリマル2次元外部勾配法による有限サム最適化

Sharper Rates for Separable Minimax and Finite Sum Optimization via Primal-Dual Extragradient Methods ( http://arxiv.org/abs/2202.04640v1 )

ライセンス: Link先を確認
Yujia Jin, Aaron Sidford, Kevin Tian(参考訳) 最適化問題の基本クラスを改良した高速化アルゴリズムを設計する。 我々のアルゴリズムは, [cst21] によって最近提唱された相対リプシッツネスによる素数-双次超勾配法の解析手法に基づいている。 1)分離可能なミニマックス最適化。 分離可能な minimax 最適化問題 $\min_x \max_y f について検討する。 (x)-g (y) + h(x, ここで、$f$ と $g$ は滑らかで強い凸パラメータ $(l^x, \mu^x)$, $(l^y, \mu^y)$ を持ち、$h$ は $(\lambda^{xx}, \lambda^{xy}, \lambda^{yy})$-blockwise 作用素ノルム有界ヘッセンである。 勾配クエリ複雑性 $\tilde{O}\left(\sqrt {\frac{L^{x}}{\mu^{x}}} + \sqrt {\frac{L^{y}}{\mu^{y}}} + \frac{\Lambda^{xx}}{\mu^{x}} + \frac{\Lambda^{xy}}{\sqrt{\mu^{x}\mu^{y}}} + \frac{\Lambda^{yy}}{\mu^{y}}\right)$ のアルゴリズムを提供する。 特に、二重線型カップリングを伴う凸凸凹ミニマックス問題(例えば、二次数)に対して、$\Lambda^{xx} = \Lambda^{yy} = 0$ は[ZHZ19] の下界と一致する。 2)有限和最適化。 有限和最適化問題 $\min_x \frac{1}{n}\sum_{i\in[n]} f_i について検討する。 (x)$、各$f_i$は$l_i$-smoothであり、全体の問題は$\mu$-strongly convexである。 勾配クエリ複雑性 $\tilde{O}\left(n + \sum_{i\in[n]} \sqrt {\frac{L_i}{n\mu}} \right)$ のアルゴリズムを提供する。 特に、滑らか性境界が$\{L_i\}_{i\in[n]}$が一様でないとき、加速されたSVRG[LMH15, FGKS15]とKatyusha[All17]を最大$\sqrt{n}$因子で改善する。 (3)ミニマックス有限和。 我々は,極小和最適化と有限和最適化のアルゴリズムを一般化し,極小和最適化問題の自然系を高速化速度で解き,両結果を対数係数にカプセル化する。

We design accelerated algorithms with improved rates for several fundamental classes of optimization problems. Our algorithms all build upon techniques related to the analysis of primal-dual extragradient methods via relative Lipschitzness proposed recently by [CST21]. (1) Separable minimax optimization. We study separable minimax optimization problems $\min_x \max_y f(x) - g(y) + h(x, y)$, where $f$ and $g$ have smoothness and strong convexity parameters $(L^x, \mu^x)$, $(L^y, \mu^y)$, and $h$ is convex-concave with a $(\Lambda^{xx}, \Lambda^{xy}, \Lambda^{yy})$-blockwise operator norm bounded Hessian. We provide an algorithm with gradient query complexity $\tilde{O}\left(\sqrt{\frac{L^{x}}{\mu^{x}}} + \sqrt{\frac{L^{y}}{\mu^{y}}} + \frac{\Lambda^{xx}}{\mu^{x}} + \frac{\Lambda^{xy}}{\sqrt{\mu^{x}\mu^{y}}} + \frac{\Lambda^{yy}}{\mu^{y}}\right)$. Notably, for convex-concave minimax problems with bilinear coupling (e.g.\ quadratics), where $\Lambda^{xx} = \Lambda^{yy} = 0$, our rate matches a lower bound of [ZHZ19]. (2) Finite sum optimization. We study finite sum optimization problems $\min_x \frac{1}{n}\sum_{i\in[n]} f_i(x)$, where each $f_i$ is $L_i$-smooth and the overall problem is $\mu$-strongly convex. We provide an algorithm with gradient query complexity $\tilde{O}\left(n + \sum_{i\in[n]} \sqrt{\frac{L_i}{n\mu}} \right)$. Notably, when the smoothness bounds $\{L_i\}_{i\in[n]}$ are non-uniform, our rate improves upon accelerated SVRG [LMH15, FGKS15] and Katyusha [All17] by up to a $\sqrt{n}$ factor. (3) Minimax finite sums. We generalize our algorithms for minimax and finite sum optimization to solve a natural family of minimax finite sum optimization problems at an accelerated rate, encapsulating both above results up to a logarithmic factor.
翻訳日:2022-02-10 16:32:23 公開日:2022-02-09
# (参考訳) ガウス過程駆動微分方程式の随伴型推論

Adjoint-aided inference of Gaussian process driven differential equations ( http://arxiv.org/abs/2202.04589v1 )

ライセンス: CC BY 4.0
Paterne Gahungu, Christopher W Lanyon, Mauricio A Alvarez, Engineer Bainomugisha, Michael Smith, and Richard D. Wilkinson(参考訳) 線形系は工学や科学において、特に微分方程式として起こる。 多くの場合、システムの強制関数は未知であり、他の未知のパラメータと同様に、システムのノイズの多い観測を用いて強制を推論することに関心がある。 微分方程式において、強制関数は独立変数(典型的には時間と空間)の未知の関数であり、ガウス過程(GP)としてモデル化することができる。 本稿では,gpsとしてモデル化された強制関数を,gpカーネルの切断基底展開を用いて効率的に推算するために,線形系の随伴が利用できることを示す。 我々は,mcmc法で必要となる計算量よりも大幅に少ない場合が多い場合において,切断gpに対する正確な共役ベイズ推論が達成できることを示す。 常微分方程式と偏微分方程式の両方の系へのアプローチを実証し, 合成データによる試験により, 基底展開法が基底ベクトルの極小数の真の強制をうまく近似していることを示す。 最後に、ベイズ最適化を用いて、カーネル長スケールなどの非線形モデルパラメータの点推定を推定する方法を示す。

Linear systems occur throughout engineering and the sciences, most notably as differential equations. In many cases the forcing function for the system is unknown, and interest lies in using noisy observations of the system to infer the forcing, as well as other unknown parameters. In differential equations, the forcing function is an unknown function of the independent variables (typically time and space), and can be modelled as a Gaussian process (GP). In this paper we show how the adjoint of a linear system can be used to efficiently infer forcing functions modelled as GPs, after using a truncated basis expansion of the GP kernel. We show how exact conjugate Bayesian inference for the truncated GP can be achieved, in many cases with substantially lower computation than would be required using MCMC methods. We demonstrate the approach on systems of both ordinary and partial differential equations, and by testing on synthetic data, show that the basis expansion approach approximates well the true forcing with a modest number of basis vectors. Finally, we show how to infer point estimates for the non-linear model parameters, such as the kernel length-scales, using Bayesian optimisation.
翻訳日:2022-02-10 16:28:35 公開日:2022-02-09
# 量子ニューラルネットワークを用いたパラメトリックt-Stochastic Neighbor埋め込み

Parametric t-Stochastic Neighbor Embedding With Quantum Neural Network ( http://arxiv.org/abs/2202.04238v1 )

ライセンス: Link先を確認
Yoshiaki Kawase, Kosuke Mitarai, Keisuke Fujii(参考訳) t-SNE(t-Stochastic Neighbor Embedding)は、古典的機械学習における非パラメトリックデータ可視化手法である。 これは高次元空間から低次元空間、特に二次元平面へデータをマッピングし、周囲の点間の関係や類似性を維持している。 t-sneでは、低次元データの初期位置をランダムに決定し、低次元データを移動してコスト関数を最小限にすることで可視化を行う。 パラメトリックt-SNEと呼ばれるその変種は、このマッピングにニューラルネットワークを使用する。 本稿では,低次元データ上の高次元量子データの特性を反映するために,パラメトリックt-SNEの量子ニューラルネットワークを提案する。 我々は高次元データの類似性を計算するためにユークリッド距離の代わりに忠実度に基づくメトリクスを使用する。 古典データ(irisデータセット)と量子データ(時間依存ハミルトニアンダイナミクス)の両方を分類タスクとして可視化する。 この方法では, 量子データセットの高次元ヒルベルト空間における表現を, 類似性を保ちながら低次元の量子データセットで表現できるので, 提案手法は, さらなる量子機械学習のための量子データ圧縮にも利用できる。

t-Stochastic Neighbor Embedding (t-SNE) is a non-parametric data visualization method in classical machine learning. It maps the data from the high-dimensional space into a low-dimensional space, especially a two-dimensional plane, while maintaining the relationship, or similarities, between the surrounding points. In t-SNE, the initial position of the low-dimensional data is randomly determined, and the visualization is achieved by moving the low-dimensional data to minimize a cost function. Its variant called parametric t-SNE uses neural networks for this mapping. In this paper, we propose to use quantum neural networks for parametric t-SNE to reflect the characteristics of high-dimensional quantum data on low-dimensional data. We use fidelity-based metrics instead of Euclidean distance in calculating high-dimensional data similarity. We visualize both classical (Iris dataset) and quantum (time-depending Hamiltonian dynamics) data for classification tasks. Since this method allows us to represent a quantum dataset in a higher dimensional Hilbert space by a quantum dataset in a lower dimension while keeping their similarity, the proposed method can also be used to compress quantum data for further quantum machine learning.
翻訳日:2022-02-10 16:11:27 公開日:2022-02-09
# 同時学習型キャッシング

Parsimonious Learning-Augmented Caching ( http://arxiv.org/abs/2202.04262v1 )

ライセンス: Link先を確認
Sungjin Im, Ravi Kumar, Aditya Petety, Manish Purohit(参考訳) 学習強化アルゴリズム — 従来のアルゴリズムが機械学習予測で拡張されている — は、最悪のケース分析を超えたフレームワークとして登場した。 全体的な目標は、予測が正確で、予測の正確さに関係なく、特定の最悪のケース保証を保持する場合に、ほぼ最適に実行されるアルゴリズムを設計することである。 このフレームワークはキャッシングなどのオンライン問題にうまく適用され、不確実性を軽減するために予測が使用できる。 本稿では,学習補助アルゴリズムが予測を同義に活用できるような設定を提案し,検討する。 学習・学習環境において広範囲に研究されているキャッシング問題について考察し, 予測のサブリニア数のみを用いて, 定量的に類似した結果が得られることを示した。

Learning-augmented algorithms -- in which, traditional algorithms are augmented with machine-learned predictions -- have emerged as a framework to go beyond worst-case analysis. The overarching goal is to design algorithms that perform near-optimally when the predictions are accurate yet retain certain worst-case guarantees irrespective of the accuracy of the predictions. This framework has been successfully applied to online problems such as caching where the predictions can be used to alleviate uncertainties. In this paper we introduce and study the setting in which the learning-augmented algorithm can utilize the predictions parsimoniously. We consider the caching problem -- which has been extensively studied in the learning-augmented setting -- and show that one can achieve quantitatively similar results but only using a sublinear number of predictions.
翻訳日:2022-02-10 16:11:09 公開日:2022-02-09
# MMLN:マルチモーダル診断のためのドメイン知識の活用

MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis ( http://arxiv.org/abs/2202.04266v1 )

ライセンス: Link先を確認
Haodi Zhang, Chenyu Xu, Peirou Liang, Ke Duan, Hao Ren, Weibin Cheng, Kaishun Wu(参考訳) 近年の研究では、深層学習モデルが診断予測などの医用イメージングタスクにおいて良好な性能を発揮することが示されている。 モデルの中では、胸部X線(CXR)画像や電子カルテ(EMR)など、さまざまな形式のデータを統合するマルチモーダリティ(multimodality)が流行している。 しかし、既存のほとんどの手法は、理論的なサポートがなく、異なるデータソース間の本質的な関係を無視するモデルフリーな方法でそれらを組み込んでいる。 そこで本研究では,肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。 ドメイン知識を組み込むことで、機械学習モデルはラベル付きデータへの依存を減らし、解釈性を向上させることができる。 本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。 最後に、肺疾患の限界確率を推定するために、テキストと画像データからなるマルチモーダル融合を設計する。 病院から収集した実世界のデータセットについて実験を行う。 その結果,提案手法は精度と解釈可能性の観点から,最先端のマルチモーダルベースラインよりも優れていた。

Recent studies show that deep learning models achieve good performance on medical imaging tasks such as diagnosis prediction. Among the models, multimodality has been an emerging trend, integrating different forms of data such as chest X-ray (CXR) images and electronic medical records (EMRs). However, most existing methods incorporate them in a model-free manner, which lacks theoretical support and ignores the intrinsic relations between different data sources. To address this problem, we propose a knowledge-driven and data-driven framework for lung disease diagnosis. By incorporating domain knowledge, machine learning models can reduce the dependence on labeled data and improve interpretability. We formulate diagnosis rules according to authoritative clinical medicine guidelines and learn the weights of rules from text data. Finally, a multimodal fusion consisting of text and image data is designed to infer the marginal probability of lung disease. We conduct experiments on a real-world dataset collected from a hospital. The results show that the proposed method outperforms the state-of-the-art multimodal baselines in terms of accuracy and interpretability.
翻訳日:2022-02-10 16:10:56 公開日:2022-02-09
# 確率勾配法のほぼ確実に収束速度について

On Almost Sure Convergence Rates of Stochastic Gradient Methods ( http://arxiv.org/abs/2202.04295v1 )

ライセンス: Link先を確認
Jun Liu and Ye Yuan(参考訳) 文献における確率勾配法における収束率解析の大多数は期待の収束に焦点をあてるが、軌跡的にはほぼ確実な収束は確率1に収束することを確実にするために明らかに重要である。 ここでは,確率勾配降下 (sgd), 確率重球 (shb) および確率的ネステロフ加速勾配 (snag) 法について, ほぼ確実に収束する収束率解析を行う。 強凸関数上のこれらの確率的勾配法で得られるほぼ確実に収束する確率は、その最適収束速度に任意に近いことを初めて示す。 非凸目的関数に対しては、二乗勾配ノルムの重み付き平均がほぼ確実にゼロに収束するだけでなく、アルゴリズムの最後の反復も示している。 さらに, 弱凸滑らかな関数に対する確率的勾配法について, 重み付き平均値に対する期待値の収束のみを提供する文献の既存の結果と対照的に, ほぼ確実に収束率解析を行う。

The vast majority of convergence rates analysis for stochastic gradient methods in the literature focus on convergence in expectation, whereas trajectory-wise almost sure convergence is clearly important to ensure that any instantiation of the stochastic algorithms would converge with probability one. Here we provide a unified almost sure convergence rates analysis for stochastic gradient descent (SGD), stochastic heavy-ball (SHB), and stochastic Nesterov's accelerated gradient (SNAG) methods. We show, for the first time, that the almost sure convergence rates obtained for these stochastic gradient methods on strongly convex functions, are arbitrarily close to their optimal convergence rates possible. For non-convex objective functions, we not only show that a weighted average of the squared gradient norms converges to zero almost surely, but also the last iterates of the algorithms. We further provide last-iterate almost sure convergence rates analysis for stochastic gradient methods on weakly convex smooth functions, in contrast with most existing results in the literature that only provide convergence in expectation for a weighted average of the iterates.
翻訳日:2022-02-10 16:10:40 公開日:2022-02-09
# 垂直的フェデレーション学習 - 挑戦,方法論,実験

Vertical Federated Learning: Challenges, Methodologies and Experiments ( http://arxiv.org/abs/2202.04309v1 )

ライセンス: Link先を確認
Kang Wei, Jun Li, Chuan Ma, Ming Ding, Sha Wei, Fan Wu, Guihai Chen, and Thilina Ranbaduge(参考訳) 近年,ユーザプライバシに対する懸念が高まりつつも,エンドユーザデバイスの計算能力とセンサ能力の進歩により,フェデレーション学習(FL)は有望な分散機械学習(ML)技術として出現している。 FLの特別なアーキテクチャとして、垂直FL(VFL)は、異なるクライアントからサブモデルを受け入れることでハイパーMLモデルを構築することができる。 これらのサブモデルは、異なる属性を持つ垂直分割データによってローカルに訓練される。 したがって、VFLの設計は従来のFLと根本的に異なるため、新しいユニークな研究課題が持ち上がった。 本稿では,vflの課題を効果的なソリューションで議論し,実生活データセットの実験を行い,これらの課題に光を当てる。 具体的には、まずVFLに関する一般的なフレームワークを提案し、VFLと従来のFLの主な違いを強調する。 次に,vflシステムに根ざした研究課題,すなわちセキュリティとプライバシのリスク,高価な計算と通信コスト,モデル分割による構造的損傷,システムの不均一性について論じる。 その後,上記の課題に対処するためのソリューションを開発し,提案手法の有効性を示すために広範な実験を行う。

Recently, federated learning (FL) has emerged as a promising distributed machine learning (ML) technology, owing to the advancing computational and sensing capacities of end-user devices, however with the increasing concerns on users' privacy. As a special architecture in FL, vertical FL (VFL) is capable of constructing a hyper ML model by embracing sub-models from different clients. These sub-models are trained locally by vertically partitioned data with distinct attributes. Therefore, the design of VFL is fundamentally different from that of conventional FL, raising new and unique research issues. In this paper, we aim to discuss key challenges in VFL with effective solutions, and conduct experiments on real-life datasets to shed light on these issues. Specifically, we first propose a general framework on VFL, and highlight the key differences between VFL and conventional FL. Then, we discuss research challenges rooted in VFL systems under four aspects, i.e., security and privacy risks, expensive computation and communication costs, possible structural damage caused by model splitting, and system heterogeneity. Afterwards, we develop solutions to addressing the aforementioned challenges, and conduct extensive experiments to showcase the effectiveness of our proposed solutions.
翻訳日:2022-02-10 16:10:19 公開日:2022-02-09
# 地理的ニューラルネットワーク重み付き回帰に基づく住宅価格評価モデル:中国深セン市を事例として

House Price Valuation Model Based on Geographically Neural Network Weighted Regression: The Case Study of Shenzhen, China ( http://arxiv.org/abs/2202.04358v1 )

ライセンス: Link先を確認
Zimo Wang, Yicheng Wang, Sensen Wu(参考訳) 不動産市場の空間的不均一性と相まって、いくつかの伝統的な研究は、住宅価格を推定するために地理重み付け回帰(GWR)を利用した。 しかし、カーネル関数は非線形であり、帯域幅を最適化するために複雑であり、予測能力も改善される可能性がある。 その結果、GNNWR(Geographical Neural Network Weighted Regression)と呼ばれる新しい手法が、ニューラルネットワークの助けを借りて不動産評価の精度を向上させるために応用された。 深セン住宅価格データセットに基づいて、この研究は、GWRが実現しにくい深セン不動産市場で異なる変種の重量分布を顕著に捉えている。 さらに,GNNWRの性能に着目し,その堅牢性と優越性を検証し,10倍のクロスバリデーションで実験プロセスを洗練し,適用範囲を自然と社会の地理空間データに拡張する。 これは住宅価格を評価するための実用的で厳しい方法であり、複雑な社会経済データセットにおけるGNNWRの有効性を実証する。

Confronted with the spatial heterogeneity of real estate market, some traditional research utilized Geographically Weighted Regression (GWR) to estimate the house price. However, its kernel function is non-linear, elusive, and complex to opt bandwidth, the predictive power could also be improved. Consequently, a novel technique, Geographical Neural Network Weighted Regression (GNNWR), has been applied to improve the accuracy of real estate appraisal with the help of neural networks. Based on Shenzhen house price dataset, this work conspicuously captures the weight distribution of different variants at Shenzhen real estate market, which GWR is difficult to materialize. Moreover, we focus on the performance of GNNWR, verify its robustness and superiority, refine the experiment process with 10-fold cross-validation, extend its application area from natural to socioeconomic geospatial data. It's a practical and trenchant way to assess house price, and we demonstrate the effectiveness of GNNWR on a complex socioeconomic dataset.
翻訳日:2022-02-10 16:09:59 公開日:2022-02-09
# 知覚不能バックドアトリガーによる連続学習者の誤記憶形成

False Memory Formation in Continual Learners Through Imperceptible Backdoor Trigger ( http://arxiv.org/abs/2202.04479v1 )

ライセンス: Link先を確認
Muhammad Umer, Robi Polikar(参考訳) 本稿では,連続学習モデルに提示される新たな情報を逐次学習することで,新たなセキュリティリスクがもたらされることを示す。知的敵は,トレーニング中にモデルに少量の誤情報を導入して,テスト時に特定のタスクやクラスを意図的に忘れ去らせることにより,そのタスクに関する"偽記憶"を発生させる。 我々は、MNISTの連続学習ベンチマークの変種を用いて、一般的な再生と正規化に基づく連続学習アプローチに「バックドア」攻撃サンプルを注入し、より困難なSVHNとCIFAR 10データセットを用いてモデルを制御する能力を示す。 攻撃モデルのバックドアパターンは、人間の目には影響を受けず、任意の時点で提供でき、関連する可能性のある1つのタスクのトレーニングデータにも追加でき、単一のタスクの全トレーニングデータセットのわずか1対%で達成できます。

In this brief, we show that sequentially learning new information presented to a continual (incremental) learning model introduces new security risks: an intelligent adversary can introduce small amount of misinformation to the model during training to cause deliberate forgetting of a specific task or class at test time, thus creating "false memory" about that task. We demonstrate such an adversary's ability to assume control of the model by injecting "backdoor" attack samples to commonly used generative replay and regularization based continual learning approaches using continual learning benchmark variants of MNIST, as well as the more challenging SVHN and CIFAR 10 datasets. Perhaps most damaging, we show this vulnerability to be very acute and exceptionally effective: the backdoor pattern in our attack model can be imperceptible to human eye, can be provided at any point in time, can be added into the training data of even a single possibly unrelated task and can be achieved with as few as just 1\% of total training dataset of a single task.
翻訳日:2022-02-10 16:09:38 公開日:2022-02-09
# Recurrent Spectral Network (RSN): 離散写像のアトラクションの流域を自動分類するために形成する

Recurrent Spectral Network (RSN): shaping the basin of attraction of a discrete map to reach automated classification ( http://arxiv.org/abs/2202.04497v1 )

ライセンス: Link先を確認
Lorenzo Chicchi, Duccio Fanelli, Lorenzo Giambagli, Lorenzo Buffoni, Timoteo Carletti(参考訳) 異なるカテゴリに属するアイテムを異なる漸近的アトラクタに向けて操るために、完全に訓練された力学系を利用する新しい分類戦略が導入された。 これらの後者は、処理ネットワーク全体にわたる線形進化を規定する演算子のスペクトル分解を利用して、モデルに組み込まれている。 非線形項は、トランジェントに作用し、離散力学系に初期条件として供給されるデータを分離し、異なるアトラクタの境界を形成する。 このネットワークは、シリアルデータセット処理のためにシーケンシャルにアクティベートできる複数のメモリカーネルを備えることができる。 我々の新しい分類手法であるRecurrent Spectral Network (RSN) は、画像処理訓練のための標準データセットと同様に、図形的な目的のために作成された単純なテストベッドモデルに挑戦することに成功した。

A novel strategy to automated classification is introduced which exploits a fully trained dynamical system to steer items belonging to different categories toward distinct asymptotic attractors. These latter are incorporated into the model by taking advantage of the spectral decomposition of the operator that rules the linear evolution across the processing network. Non-linear terms act for a transient and allow to disentangle the data supplied as initial condition to the discrete dynamical system, shaping the boundaries of different attractors. The network can be equipped with several memory kernels which can be sequentially activated for serial datasets handling. Our novel approach to classification, that we here term Recurrent Spectral Network (RSN), is successfully challenged against a simple test-bed model, created for illustrative purposes, as well as a standard dataset for image processing training.
翻訳日:2022-02-10 16:09:20 公開日:2022-02-09
# 物体検出タスクとしての軽量ジェットの再構成と同定

Lightweight Jet Reconstruction and Identification as an Object Detection Task ( http://arxiv.org/abs/2202.04499v1 )

ライセンス: Link先を確認
Adrian Alan Pol, Thea Aarrestad, Ekaterina Govorkova, Roi Halily, Anat Klempner, Tal Kopetz, Vladimir Loncar, Jennifer Ngadiuba, Maurizio Pierini, Olya Sirkin, Sioni Summers(参考訳) 我々は,CERN大型ハドロン衝突型加速器(LHC)で遭遇した端端から端までのジェットの識別と再構成作業に,深部畳み込みブロックに基づく物体検出技術を適用した。 LHCで発生し、カロリーメータとトラッカーセルからなる画像として表される衝突事象は、シングルショット検出ネットワークへの入力として与えられる。 PFJet-SSDと名付けられたこのアルゴリズムは、クラスタジェットへの同時ローカライゼーション、分類、回帰タスクを実行し、特徴を再構築する。 このオールインワンのフィードフォワードパスは、実行時間と従来のルールベースの手法による精度の向上という面で利点がある。 ネットワークのスリム化、均質量子化、および典型的なリアルタイム処理環境のメモリとレイテンシの制約を満たす最適化されたランタイムからさらに利益を得る。 8ビットおよび3進量子化を実験し、その精度と推論レイテンシを単一精度浮動小数点に対してベンチマークした。 3次ネットワークは、その完全精度の等価な性能と密に一致し、最先端のルールベースアルゴリズムより優れていることを示す。 最後に,様々なハードウェアプラットフォームにおける推論遅延を報告し,今後のアプリケーションについて考察する。

We apply object detection techniques based on deep convolutional blocks to end-to-end jet identification and reconstruction tasks encountered at the CERN Large Hadron Collider (LHC). Collision events produced at the LHC and represented as an image composed of calorimeter and tracker cells are given as an input to a Single Shot Detection network. The algorithm, named PFJet-SSD performs simultaneous localization, classification and regression tasks to cluster jets and reconstruct their features. This all-in-one single feed-forward pass gives advantages in terms of execution time and an improved accuracy w.r.t. traditional rule-based methods. A further gain is obtained from network slimming, homogeneous quantization, and optimized runtime for meeting memory and latency constraints of a typical real-time processing environment. We experiment with 8-bit and ternary quantization, benchmarking their accuracy and inference latency against a single-precision floating-point. We show that the ternary network closely matches the performance of its full-precision equivalent and outperforms the state-of-the-art rule-based algorithm. Finally, we report the inference latency on different hardware platforms and discuss future applications.
翻訳日:2022-02-10 16:09:03 公開日:2022-02-09
# 入力スパーシティ時間におけるテンソル製品行列のレバレッジスコアサンプリング

Leverage Score Sampling for Tensor Product Matrices in Input Sparsity Time ( http://arxiv.org/abs/2202.04515v1 )

ライセンス: Link先を確認
David P. Woodruff, Amir Zandieh(参考訳) ほぼ最適なサンプル数を用いて,$q$-foldカラムワイドテンソル積の$q$-foldカラムワイドテンソル積に対応するGram行列をスペクトル近似するための入力空間時間サンプリングアルゴリズムを提案し,ポリ$(q)$因子によるすべての既知手法を改善した。 さらに、次数-$q$多項式カーネルの特徴行列であるデータセットの$q$-foldセルフテンソル化に関する重要な特別な注意として、この方法のランタイムの主項はデータセットのサイズに比例し、$q$に依存しない。 以前のテクニックは、実行時にpoly$(q)$ Factorのスローダウンを発生させたり、最適以下のターゲット次元を持つために$q$への依存を排除したり、実行時のデータポイントの数に2次に依存する。 我々のサンプリング技術は、データセットの$X$に同時に適用できる$q$部分相関ランダムプロジェクションのコレクションに依存しており、これは、$X$のサイズに依存するが、同時に、それらの$q$-fold Kronecker製品は、カラム内の固定ベクトルのほぼ等距離として機能する。 サンプリング手法は,ガウスカーネルやニューラルタンジェントカーネルなど,多項式以外のカーネルに一般化されていることを示す。

We give an input sparsity time sampling algorithm for spectrally approximating the Gram matrix corresponding to the $q$-fold column-wise tensor product of $q$ matrices using a nearly optimal number of samples, improving upon all previously known methods by poly$(q)$ factors. Furthermore, for the important special care of the $q$-fold self-tensoring of a dataset, which is the feature matrix of the degree-$q$ polynomial kernel, the leading term of our method's runtime is proportional to the size of the dataset and has no dependence on $q$. Previous techniques either incur a poly$(q)$ factor slowdown in their runtime or remove the dependence on $q$ at the expense of having sub-optimal target dimension, and depend quadratically on the number of data-points in their runtime. Our sampling technique relies on a collection of $q$ partially correlated random projections which can be simultaneously applied to a dataset $X$ in total time that only depends on the size of $X$, and at the same time their $q$-fold Kronecker product acts as a near-isometry for any fixed vector in the column span of $X^{\otimes q}$. We show that our sampling methods generalize to other classes of kernels beyond polynomial, such as Gaussian and Neural Tangent kernels.
翻訳日:2022-02-10 16:08:20 公開日:2022-02-09
# 神経せん断拡散 : GNNにおける異所性および過スムージングのトポロジー的展望

Neural Sheaf Diffusion: A Topological Perspective on Heterophily and Oversmoothing in GNNs ( http://arxiv.org/abs/2202.04579v1 )

ライセンス: Link先を確認
Cristian Bodnar, Francesco Di Giovanni, Benjamin Paul Chamberlain, Pietro Li\`o, Michael M. Bronstein(参考訳) セルラーシーブはベクトル空間と線型写像をノードとエッジに割り当てることで「幾何学的」構造を持つ。 グラフニューラルネットワーク(GNN)は、自明な下層のグラフを暗黙的に仮定する。 この選択はグラフラプラス作用素の構造、関連する拡散方程式の性質、およびこの方程式を識別する畳み込みモデルの特徴に反映される。 本稿では, セルラーシーフ理論を用いて, グラフの基盤となる形状が, ヘテロ親水性環境におけるGNNの性能と過度な挙動と深く関連していることを示す。 ますます一般的な層階層の階層を考えることで,層拡散過程が無限の時間極限におけるクラスを線形に分離する能力がいかに拡大するかを考察する。 同時に, 層が非自明である場合, 離散パラメトリック拡散過程は, 漸近的挙動よりもgnnよりも制御性が高いことを証明した。 実践面では,層がデータからどのように学べるかを考察する。 得られた層拡散モデルには、古典的グラフ拡散方程式(および対応するGNNモデル)の極限に対処し、異種親和性のある状態が得られる多くの望ましい性質がある。 全体として、我々の研究は、GNNと代数的トポロジーの間の新たな接続を提供し、両方の分野に興味を持つだろう。

Cellular sheaves equip graphs with "geometrical" structure by assigning vector spaces and linear maps to nodes and edges. Graph Neural Networks (GNNs) implicitly assume a graph with a trivial underlying sheaf. This choice is reflected in the structure of the graph Laplacian operator, the properties of the associated diffusion equation, and the characteristics of the convolutional models that discretise this equation. In this paper, we use cellular sheaf theory to show that the underlying geometry of the graph is deeply linked with the performance of GNNs in heterophilic settings and their oversmoothing behaviour. By considering a hierarchy of increasingly general sheaves, we study how the ability of the sheaf diffusion process to achieve linear separation of the classes in the infinite time limit expands. At the same time, we prove that when the sheaf is non-trivial, discretised parametric diffusion processes have greater control than GNNs over their asymptotic behaviour. On the practical side, we study how sheaves can be learned from data. The resulting sheaf diffusion models have many desirable properties that address the limitations of classical graph diffusion equations (and corresponding GNN models) and obtain state-of-the-art results in heterophilic settings. Overall, our work provides new connections between GNNs and algebraic topology and would be of interest to both fields.
翻訳日:2022-02-10 16:07:53 公開日:2022-02-09
# IQCと共正乗算器によるリカレントニューラルネットワークの安定性解析

Stability Analysis of Recurrent Neural Networks by IQC with Copositive Mutipliers ( http://arxiv.org/abs/2202.04592v1 )

ライセンス: Link先を確認
Yoshio Ebihara and Hayato Waki and Victor Magron and Ngoc Hoang Anh Mai and Dimitri Peaucelle and Sophie Tarbouriech(参考訳) 本稿では,iqc(integral quadratic constraints)フレームワークを用いて,リカレントニューラルネットワーク(recurrent neural networks,rnns)の安定性解析を行う。 整流線形ユニット(ReLU)は一般にRNNの活性化関数として使用され、ReLUはその入力および出力信号に関する特定の非負性特性を持つ。 したがって、そのような非負性特性を扱う乗算器でIQCに基づく安定性条件を導出できれば有効である。 しかし、そのような非負性(線型)性質は、正の半定値円錐上で定義される既存の乗算器にはほとんど捉えられない。 この困難を回避するために、正の正の半定円錐を正の錐にゆるめ、非負性特性を捉えるために正の乗数を用いる。 IQCの枠組み内では、Zames-Falb乗数やポリトープ有界乗数などの既存の乗数とともに、コ陽性乗数(あるいはその内部近似)を用いることで、コ陽性乗数の導入がより良い(より保守的な)結果をもたらすことを直接的に保証できることを示す。 最後に, iqcに基づく安定条件と共陽性乗算器の有効性を数値例で示す。

This paper is concerned with the stability analysis of the recurrent neural networks (RNNs) by means of the integral quadratic constraint (IQC) framework. The rectified linear unit (ReLU) is typically employed as the activation function of the RNN, and the ReLU has specific nonnegativity properties regarding its input and output signals. Therefore, it is effective if we can derive IQC-based stability conditions with multipliers taking care of such nonnegativity properties. However, such nonnegativity (linear) properties are hardly captured by the existing multipliers defined on the positive semidefinite cone. To get around this difficulty, we loosen the standard positive semidefinite cone to the copositive cone, and employ copositive multipliers to capture the nonnegativity properties. We show that, within the framework of the IQC, we can employ copositive multipliers (or their inner approximation) together with existing multipliers such as Zames-Falb multipliers and polytopic bounding multipliers, and this directly enables us to ensure that the introduction of the copositive multipliers leads to better (no more conservative) results. We finally illustrate the effectiveness of the IQC-based stability conditions with the copositive multipliers by numerical examples.
翻訳日:2022-02-10 16:07:29 公開日:2022-02-09
# リアルタイムイベントベース海洋環境の追跡・検出

Real-Time Event-Based Tracking and Detection for Maritime Environments ( http://arxiv.org/abs/2202.04231v1 )

ライセンス: Link先を確認
Stephanie Aelmore, Richard C. Ordonez, Shibin Parameswaran, Justin Mauger(参考訳) イベントカメラは、レイテンシとデータの冗長性を緩和しながら、素早く動くオブジェクトをキャプチャできるため、オブジェクト追跡アプリケーションに最適である。 監視とオブジェクト検出のための既存のイベントベースのクラスタリングと特徴追跡アプローチは、ほとんどのケースでうまく機能するが、海洋環境では不足する。 海上船舶の検知・追跡の応用には,特徴を識別し,その特徴が船によって生成された可能性を示す信頼スコアを出力するプロセスが必要である。 しかし, 海洋環境は, 波動による事象の多数発生傾向, 計算処理の大部分の要求, 偽陽性検出など, 独特な課題を呈している。 冗長なイベントをフィルタリングし、各イベントクラスタの動きを分析することで、波によって生成されたような短命で不規則な特徴を無視しながら、船舶を特定し、追跡することができる。

Event cameras are ideal for object tracking applications due to their ability to capture fast-moving objects while mitigating latency and data redundancy. Existing event-based clustering and feature tracking approaches for surveillance and object detection work well in the majority of cases, but fall short in a maritime environment. Our application of maritime vessel detection and tracking requires a process that can identify features and output a confidence score representing the likelihood that the feature was produced by a vessel, which may trigger a subsequent alert or activate a classification system. However, the maritime environment presents unique challenges such as the tendency of waves to produce the majority of events, demanding the majority of computational processing and producing false positive detections. By filtering redundant events and analyzing the movement of each event cluster, we can identify and track vessels while ignoring shorter lived and erratic features such as those produced by waves.
翻訳日:2022-02-10 16:07:05 公開日:2022-02-09
# (参考訳) オートエンコーダのボトルネック表現における冗長性の低減

Reducing Redundancy in the Bottleneck Representation of the Autoencoders ( http://arxiv.org/abs/2202.04629v1 )

ライセンス: CC BY 4.0
Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis and Moncef Gabbouj(参考訳) オートエンコーダ(autoencoder)は教師なしニューラルネットワークの一種であり、次元の縮小、画像圧縮、画像のデノージングなど、さまざまなタスクの解決に使用できる。 AEには2つの目標があります。 (i)エンコーダを用いてネットワークトポロジーのボトルネック時に、元の入力を低次元空間に圧縮する。 (ii)デコーダを用いてボトルネックの表現から入力を再構成する。 エンコーダとデコーダは共に、歪みに基づく損失を最小限に抑え、モデルに、再構成と冗長性の低減に必要な入力データのバリエーションだけを暗黙的に保持させる。 本稿では,ボトルネック表現における特徴冗長性を明示する手法を提案する。 そこで本研究では,エンコーダがより多様でリッチな入力表現を学習させる標準的な再構成損失を補完する,ニューロンの対方向相関に基づく新たな損失項を提案する。 我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。 実験結果から,提案した損失は標準AE損失よりも常に優れた性能を示すことが示された。

Autoencoders are a type of unsupervised neural networks, which can be used to solve various tasks, e.g., dimensionality reduction, image compression, and image denoising. An AE has two goals: (i) compress the original input to a low-dimensional space at the bottleneck of the network topology using an encoder, (ii) reconstruct the input from the representation at the bottleneck using a decoder. Both encoder and decoder are optimized jointly by minimizing a distortion-based loss which implicitly forces the model to keep only those variations of input data that are required to reconstruct the and to reduce redundancies. In this paper, we propose a scheme to explicitly penalize feature redundancies in the bottleneck representation. To this end, we propose an additional loss term, based on the pair-wise correlation of the neurons, which complements the standard reconstruction loss forcing the encoder to learn a more diverse and richer representation of the input. We tested our approach across different tasks: dimensionality reduction using three different dataset, image compression using the MNIST dataset, and image denoising using fashion MNIST. The experimental results show that the proposed loss leads consistently to superior performance compared to the standard AE loss.
翻訳日:2022-02-10 16:04:22 公開日:2022-02-09
# (参考訳) 最適化における再現性:理論的枠組みと限界

Reproducibility in Optimization: Theoretical Framework and Limits ( http://arxiv.org/abs/2202.04598v1 )

ライセンス: CC BY 4.0
Kwangjun Ahn, Prateek Jain, Ziwei Ji, Satyen Kale, Praneeth Netrapalli, Gil I. Shamir(参考訳) 最適化における再現性に関する正式な研究を開始する。 ノイズやエラーが発生しやすい操作,例えば不完全あるいは確率的勾配計算や不完全初期化といった,最適化手順の再現性の定量的尺度を定義した。 次に、滑らか、非滑らか、強凸な目的関数などの凸最適化設定を解析し、各設定における再現性限界の厳密な境界を確立する。 我々の分析では、計算と再現性の間には根本的なトレードオフがあり、再現性を改善するためにはより多くの計算が必要である(そして十分)。

We initiate a formal study of reproducibility in optimization. We define a quantitative measure of reproducibility of optimization procedures in the face of noisy or error-prone operations such as inexact or stochastic gradient computations or inexact initialization. We then analyze several convex optimization settings of interest such as smooth, non-smooth, and strongly-convex objective functions and establish tight bounds on the limits of reproducibility in each setting. Our analysis reveals a fundamental trade-off between computation and reproducibility: more computation is necessary (and sufficient) for better reproducibility.
翻訳日:2022-02-10 15:44:47 公開日:2022-02-09
# ラベルノイズ対策のためのブートストラップ学習

Learning to Bootstrap for Combating Label Noise ( http://arxiv.org/abs/2202.04291v1 )

ライセンス: Link先を確認
Yuyin Zhou, Xianhang Li, Fengze Liu, Xuxi Chen, Lequan Yu, Cihang Xie, Matthew P. Lungren, Lei Xing(参考訳) ディープニューラルネットワークは、表現学習のための強力なツールだが、現実の多くのシナリオでよく見られるノイズの多いラベルに簡単に適合できる。 一般的に、騒々しい監視は、ラベルのバリエーション、敵によるラベルの破損などに起因する可能性がある。 このようなラベルノイズに対処するためには、トレーニングインスタンスにカスタマイズされた重みを適用して、破損した例がモデル学習に寄与しないようにするのが一般的なアプローチである。 しかし、そのような学習機構は、データ分布に関する重要な情報を消去し、従って準最適結果をもたらす可能性がある。 破損したインスタンスから有用な情報を活用するために、ネットワーク自身の予測(擬似ラベル)を組み込むことで、新たなトレーニングターゲットをオンザフライで再構築するブートストラップロスがある。 本稿では,インスタンスとラベルの同時重み付けを可能にする,より汎用的な学習可能な損失目標を提案する。 具体的には,実測ラベルと擬似ラベル間のサンプルごとの重み付けを動的に調整し,その重み付けをメタプロセスで効率的に決定する。 従来のインスタンス再重み付け手法と比較して,提案手法は暗黙のレバリングを同時に行うため,ほぼ余分なコストで大幅な改善が得られた。 広範な実験結果から,cifar-10,cifar-100,isic2019,wears 1mなど,複数の自然画像および医用画像ベンチマークデータセットにおける既存手法に対する我々のアプローチの強みが示された。 コードはhttps://github.com/yuyinzhou/L2Bで公開されている。

Deep neural networks are powerful tools for representation learning, but can easily overfit to noisy labels which are prevalent in many real-world scenarios. Generally, noisy supervision could stem from variation among labelers, label corruption by adversaries, etc. To combat such label noises, one popular line of approach is to apply customized weights to the training instances, so that the corrupted examples contribute less to the model learning. However, such learning mechanisms potentially erase important information about the data distribution and therefore yield suboptimal results. To leverage useful information from the corrupted instances, an alternative is the bootstrapping loss, which reconstructs new training targets on-the-fly by incorporating the network's own predictions (i.e., pseudo-labels). In this paper, we propose a more generic learnable loss objective which enables a joint reweighting of instances and labels at once. Specifically, our method dynamically adjusts the per-sample importance weight between the real observed labels and pseudo-labels, where the weights are efficiently determined in a meta process. Compared to the previous instance reweighting methods, our approach concurrently conducts implicit relabeling, and thereby yield substantial improvements with almost no extra cost. Extensive experimental results demonstrated the strengths of our approach over existing methods on multiple natural and medical image benchmark datasets, including CIFAR-10, CIFAR-100, ISIC2019 and Clothing 1M. The code is publicly available at https://github.com/yuyinzhou/L2B.
翻訳日:2022-02-10 15:43:29 公開日:2022-02-09
# 物体検出事前学習のための点レベル領域コントラスト

Point-Level Region Contrast for Object Detection Pre-Training ( http://arxiv.org/abs/2202.04639v1 )

ライセンス: Link先を確認
Yutong Bai, Xinlei Chen, Alexander Kirillov, Alan Yuille, Alexander C. Berg(参考訳) 本研究では,物体検出作業のための自己指導型事前学習手法である点レベル領域コントラストを提案する。 このアプローチは、検出における2つの重要な要因であるローカライゼーションと認識によって動機付けられる。 正確なローカライゼーションはピクセルレベルのモデルやポイントレベルのモデルを好むが、正しい認識は一般的にオブジェクトのより総合的で領域レベルのビューに依存する。 この視点を事前学習に取り入れることで,各領域の個別点対を直接抽出し,コントラスト学習を行う。 地域ごとの集約表現と比較して入力領域の品質の変化に対して,我々のアプローチはより堅牢であり,トレーニング中のオンライン知識蒸留による初期領域割り当てを暗黙的に改善することができる。 どちらの利点も、教師なし環境で遭遇する不完全な領域を扱う際に重要である。 実験により,複数のタスクやデータセットにまたがる物体の検出とセグメンテーションのための最先端の事前学習手法における点レベル領域のコントラストの改善が示された。 コードは利用可能になる。

In this work we present point-level region contrast, a self-supervised pre-training approach for the task of object detection. This approach is motivated by the two key factors in detection: localization and recognition. While accurate localization favors models that operate at the pixel- or point-level, correct recognition typically relies on a more holistic, region-level view of objects. Incorporating this perspective in pre-training, our approach performs contrastive learning by directly sampling individual point pairs from different regions. Compared to an aggregated representation per region, our approach is more robust to the change in input region quality, and further enables us to implicitly improve initial region assignments via online knowledge distillation during training. Both advantages are important when dealing with imperfect regions encountered in the unsupervised setting. Experiments show point-level region contrast improves on state-of-the-art pre-training methods for object detection and segmentation across multiple tasks and datasets, and we provide extensive ablation studies and visualizations to aid understanding. Code will be made available.
翻訳日:2022-02-10 15:43:04 公開日:2022-02-09
# 製品出荷の最適ボックスサイズ選択のための決定木フレームワーク

A decision-tree framework to select optimal box-sizes for product shipments ( http://arxiv.org/abs/2202.04277v1 )

ライセンス: Link先を確認
Karthik S. Gurumoorthy, Abhiraj Hinge(参考訳) パッケージ処理施設では、さまざまなサイズの箱を使って製品を出荷している。 箱の寸法が製品寸法よりもはるかに大きい不適切な大きさの箱は、無駄を発生させ、運送コストを不当に増加させる。 nドルの製品ごとに独自でカスタマイズされた箱を作るのは不可能であるため、eコマース企業と直面する基本的な問題は次のとおりである。 本稿では,箱ごとの製品1個を2段階に分けた単価出荷のソリューションを提案する。 (i)各クラスタが特定のサイズの変種で出荷される製品群に対応する長さ、幅、高さの3ドル次元空間におけるクラスタリング問題に還元し、 (ii)これらの$k$クラスタと対応するボックス次元を得るために、計算複雑性が低い効率的なフォワードバックワード決定木ベースのクラスタリング手法をn$と$k$で提示する。 アルゴリズムには複数の構成部品があり、それぞれが高品質なクラスタリングソリューションを実現するために特別に設計されている。 提案手法は,現在のソリューションを捨てることなく,段階的にクラスタを生成するため,後方通過を早期に停止するか,あるいは1回のイテレーションで実行するのと同じくらい,サイズ変種の追加や削除は簡単である。 提案するボックスディメンションを用いて,amazonが1ヶ月間に輸送した単数出荷をシミュレーションし,本手法の有効性を検証した。 既存の箱の寸法を変更して、新しいサイズの変更を加えなくても、出荷量で4.4\%$の削減を達成し、使用されていない空気量スペースを2.2\%$に削減しました。 出荷量と空気量の減少は、さらに4ドル追加の箱を導入すると、10.3\%$と6.1\%$へと大幅に改善された。

In package-handling facilities, boxes of varying sizes are used to ship products. Improperly sized boxes with box dimensions much larger than the product dimensions create wastage and unduly increase the shipping costs. Since it is infeasible to make unique, tailor-made boxes for each of the $N$ products, the fundamental question that confronts e-commerce companies is: How many $K << N$ cuboidal boxes need to manufactured and what should be their dimensions? In this paper, we propose a solution for the single-count shipment containing one product per box in two steps: (i) reduce it to a clustering problem in the $3$ dimensional space of length, width and height where each cluster corresponds to the group of products that will be shipped in a particular size variant, and (ii) present an efficient forward-backward decision tree based clustering method with low computational complexity on $N$ and $K$ to obtain these $K$ clusters and corresponding box dimensions. Our algorithm has multiple constituent parts, each specifically designed to achieve a high-quality clustering solution. As our method generates clusters in an incremental fashion without discarding the present solution, adding or deleting a size variant is as simple as stopping the backward pass early or executing it for one more iteration. We tested the efficacy of our approach by simulating actual single-count shipments that were transported during a month by Amazon using the proposed box dimensions. Even by just modifying the existing box dimensions and not adding a new size variant, we achieved a reduction of $4.4\%$ in the shipment volume, contributing to the decrease in non-utilized, air volume space by $2.2\%$. The reduction in shipment volume and air volume improved significantly to $10.3\%$ and $6.1\%$ when we introduced $4$ additional boxes.
翻訳日:2022-02-10 15:42:18 公開日:2022-02-09
# バンディットフィードバックを用いた最適クラスタリング

Optimal Clustering with Bandit Feedback ( http://arxiv.org/abs/2202.04294v1 )

ライセンス: Link先を確認
Junwen Yang, Zixin Zhong, Vincent Y. F. Tan(参考訳) 本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。 一組の腕(またはアイテム)は、未知の様々なグループに分割することができる。 各グループ内では、各腕に関連付けられた観測は、同じ平均ベクトルを持つ同じ分布に従う。 それぞれの時間ステップで、エージェントは腕をクエリまたはプルし、関連する分布から独立した観察を得る。 その後のプルは、前回取得したサンプルだけでなく、前回のものにも依存する。 エージェントのタスクは、最小数のアームプルと、所定の定数$\delta$を超えないエラーの確率で、腕の基本的な分割を明らかにすることである。 提案する問題は、ウイルスの変異のクラスタリングからオンライン市場セグメンテーションまで、数多くの応用を見出した。 本稿では,本課題に期待されるサンプル複雑性について,インスタンス依存情報理論下限を示し,計算効率と漸近的最適アルゴリズム,すなわちbandit online clustering (boc) を設計する。 このアルゴリズムは適応逐次テストのための新しい停止規則を含み、npハード重み付きクラスタリング問題をサブルーチンとして正確に解決する必要性を回避している。 合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は漸近的に下界と一致し、非適応ベースラインアルゴリズムを著しく上回ることを示す。

This paper considers the problem of online clustering with bandit feedback. A set of arms (or items) can be partitioned into various groups that are unknown. Within each group, the observations associated to each of the arms follow the same distribution with the same mean vector. At each time step, the agent queries or pulls an arm and obtains an independent observation from the distribution it is associated to. Subsequent pulls depend on previous ones as well as the previously obtained samples. The agent's task is to uncover the underlying partition of the arms with the least number of arm pulls and with a probability of error not exceeding a prescribed constant $\delta$. The problem proposed finds numerous applications from clustering of variants of viruses to online market segmentation. We present an instance-dependent information-theoretic lower bound on the expected sample complexity for this task, and design a computationally efficient and asymptotically optimal algorithm, namely Bandit Online Clustering (BOC). The algorithm includes a novel stopping rule for adaptive sequential testing that circumvents the need to exactly solve any NP-hard weighted clustering problem as its subroutines. We show through extensive simulations on synthetic and real-world datasets that BOC's performance matches the lower bound asymptotically, and significantly outperforms a non-adaptive baseline algorithm.
翻訳日:2022-02-10 15:40:05 公開日:2022-02-09
# 時間外挿における勾配降下の暗黙的バイアスについて

On the Implicit Bias of Gradient Descent for Temporal Extrapolation ( http://arxiv.org/abs/2202.04302v1 )

ライセンス: Link先を確認
Edo Cohen-Karlik, Avichai Ben David, Nadav Cohen and Amir Globerson(参考訳) リカレントニューラルネットワーク(RNN)を使用する一般的なプラクティスは、トレーニングで見られるものよりも長いシーケンスにモデルを適用することだ。 この「抽出」使用法は、列車とテストの分布が同一であると仮定して保証が提供される従来の統計学習装置から逸脱する。 ここでは、rnnがいつ外挿可能かを理解し、データ生成分布がメモリレスな単純なケースに注目した。 まず、無限のトレーニングデータであっても、完全に補間する(つまり、トレーニングデータに適合する)RNNモデルが存在するが、より長いシーケンスに外挿しないことを示す。 次に、勾配降下がトレーニングに使用される場合、学習は初期化の仮定の下で完全な外挿に収束することを示す。 本研究は,勾配降下の暗黙的バイアスに関する最近の研究を補完するものであり,時間的予測モデル学習における外挿において重要な役割を担っている。

Common practice when using recurrent neural networks (RNNs) is to apply a model to sequences longer than those seen in training. This "extrapolating" usage deviates from the traditional statistical learning setup where guarantees are provided under the assumption that train and test distributions are identical. Here we set out to understand when RNNs can extrapolate, focusing on a simple case where the data generating distribution is memoryless. We first show that even with infinite training data, there exist RNN models that interpolate perfectly (i.e., they fit the training data) yet extrapolate poorly to longer sequences. We then show that if gradient descent is used for training, learning will converge to perfect extrapolation under certain assumption on initialization. Our results complement recent studies on the implicit bias of gradient descent, showing that it plays a key role in extrapolation when learning temporal prediction models.
翻訳日:2022-02-10 15:39:45 公開日:2022-02-09
# 状態のみ分布マッチングによる模倣学習

Imitation Learning by State-Only Distribution Matching ( http://arxiv.org/abs/2202.04332v1 )

ライセンス: Link先を確認
Damian Boborzi, Christoph-Nikolas Straehle, Jens S. Buchner, Lars Mikelsons(参考訳) 観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。 エージェントの方針は、タスクを実行する専門家を観察して訓練される。 多くの状態限定の模倣学習アプローチは、敵対的模倣学習に基づいているが、主な欠点は、敵対的訓練はしばしば不安定であり、信頼できる収束推定器が欠けていることである。 真の環境報酬が不明で、最高のパフォーマンスモデルの選択に使用できない場合、実際のポリシーパフォーマンスが悪くなる可能性がある。 本稿では,非会話的観察学習手法と,解釈可能な収束と性能指標を提案する。 我々の訓練目的は、非敵対的な方法で最適化可能な政策と専門家状態遷移軌跡間のKLD(Kulback-Leibler divergence)を最小化する。 このような手法は、学習された密度モデルが最適化を導くとき、ロバスト性の向上を示す。 さらに,環境の前方および後方のダイナミクスを推定する付加密度モデルを用いて,修正報酬に基づいて,kld最小化をソフトアクタ批判対象として書き換えることで,サンプル効率をさらに向上させる。 最後に,本手法がよく知られた連続制御環境において有効であることを示すとともに,近年の学習・観測手法と比較して信頼性の高い性能評価を行う。

Imitation Learning from observation describes policy learning in a similar way to human learning. An agent's policy is trained by observing an expert performing a task. While many state-only imitation learning approaches are based on adversarial imitation learning, one main drawback is that adversarial training is often unstable and lacks a reliable convergence estimator. If the true environment reward is unknown and cannot be used to select the best-performing model, this can result in bad real-world policy performance. We propose a non-adversarial learning-from-observations approach, together with an interpretable convergence and performance metric. Our training objective minimizes the Kulback-Leibler divergence (KLD) between the policy and expert state transition trajectories which can be optimized in a non-adversarial fashion. Such methods demonstrate improved robustness when learned density models guide the optimization. We further improve the sample efficiency by rewriting the KLD minimization as the Soft Actor Critic objective based on a modified reward using additional density models that estimate the environment's forward and backward dynamics. Finally, we evaluate the effectiveness of our approach on well-known continuous control environments and show state-of-the-art performance while having a reliable performance estimator compared to several recent learning-from-observation methods.
翻訳日:2022-02-10 15:39:27 公開日:2022-02-09
# 非ロバストネットワークへの勾配収束法

Gradient Methods Provably Converge to Non-Robust Networks ( http://arxiv.org/abs/2202.04347v1 )

ライセンス: Link先を確認
Gal Vardi, Gilad Yehudai, Ohad Shamir(参考訳) 膨大な研究にもかかわらず、なぜニューラルネットワークが敵の例の影響を受けやすいのかは不明だ。 本研究では,学習用データセットを正しく分類するロバストなネットワークが存在する場合でも,勾配流を訓練した深さ2$のreluネットワークが非ロバスト(小さな敵である$\ell_2$-perturbation)であることを保証する。 おそらく驚くべきことに、マージン最大化に対するよく知られた暗黙の偏見は、最大マージン問題のKKT条件を満たす全てのネットワークが非ロバストであることを証明することによって、非ロバストネットワークに対する偏見を引き起こす。

Despite a great deal of research, it is still unclear why neural networks are so susceptible to adversarial examples. In this work, we identify natural settings where depth-$2$ ReLU networks trained with gradient flow are provably non-robust (susceptible to small adversarial $\ell_2$-perturbations), even when robust networks that classify the training dataset correctly exist. Perhaps surprisingly, we show that the well-known implicit bias towards margin maximization induces bias towards non-robust networks, by proving that every network which satisfies the KKT conditions of the max-margin problem is non-robust.
翻訳日:2022-02-10 15:39:08 公開日:2022-02-09
# MBCT:個々の不確実性校正のための木に基づく特徴認識バインディング

MBCT: Tree-Based Feature-Aware Binning for Individual Uncertainty Calibration ( http://arxiv.org/abs/2202.04348v1 )

ライセンス: Link先を確認
Siguang Huang, Yunli Wang, Lili Mou, Huayue Zhang, Han Zhu, Chuan Yu, Bo Zheng(参考訳) ほとんどの機械学習分類器は分類精度のみを気にするが、特定の応用(医学診断、気象予測、計算広告など)では、校正推定と呼ばれる真の確率を予測するためにモデルを必要とする。 従来の研究では、予測器の出力を処理後、ビンニングやスケーリング法などの校正値を得るためのいくつかの校正法を開発した。 スケーリングと比較して、バイナリ法は分布のない理論的保証を持ち、キャリブレーションのためのバイナリ法を好む動機がある。 しかし、既存のバイナリメソッドにはいくつかの欠点がある。 (a)ビンニング方式は、元の予測値のみを考慮し、キャリブレーション性能を制限し、 (b) ビンニングアプローチは非個別であり、ビン内の複数のサンプルを同じ値にマッピングするので、順序に敏感なアプリケーションには適さない。 本稿では,Multiple Boosting Calibration Trees (MBCT) と呼ばれる特徴認識型バイナリフレームワークと,上記の問題に対処するための多視点キャリブレーション損失を提案する。 mbctは特徴のツリー構造によってバイナリスキームを最適化し,木ノードに線形関数を適用し,個々のキャリブレーションを実現する。 MBCTは非単調であり,学習可能なビンニング方式と個々のキャリブレーションにより順序精度を向上させる可能性がある。 異なる分野の3つのデータセットについて総合的な実験を行う。 その結果,本手法はキャリブレーション誤差と順序精度の両方で競合するモデルよりも優れていることがわかった。 また、シミュレーション実験を行い、提案したマルチビューキャリブレーション損失がキャリブレーション誤差のモデル化においてより良い指標であることを正当化する。

Most machine learning classifiers only concern classification accuracy, while certain applications (such as medical diagnosis, meteorological forecasting, and computation advertising) require the model to predict the true probability, known as a calibrated estimate. In previous work, researchers have developed several calibration methods to post-process the outputs of a predictor to obtain calibrated values, such as binning and scaling methods. Compared with scaling, binning methods are shown to have distribution-free theoretical guarantees, which motivates us to prefer binning methods for calibration. However, we notice that existing binning methods have several drawbacks: (a) the binning scheme only considers the original prediction values, thus limiting the calibration performance; and (b) the binning approach is non-individual, mapping multiple samples in a bin to the same value, and thus is not suitable for order-sensitive applications. In this paper, we propose a feature-aware binning framework, called Multiple Boosting Calibration Trees (MBCT), along with a multi-view calibration loss to tackle the above issues. Our MBCT optimizes the binning scheme by the tree structures of features, and adopts a linear function in a tree node to achieve individual calibration. Our MBCT is non-monotonic, and has the potential to improve order accuracy, due to its learnable binning scheme and the individual calibration. We conduct comprehensive experiments on three datasets in different fields. Results show that our method outperforms all competing models in terms of both calibration error and order accuracy. We also conduct simulation experiments, justifying that the proposed multi-view calibration loss is a better metric in modeling calibration error.
翻訳日:2022-02-10 15:38:56 公開日:2022-02-09
# 限定スペクトルデータの説明可能な予測モデル

Explainable Predictive Modeling for Limited Spectral Data ( http://arxiv.org/abs/2202.04527v1 )

ライセンス: Link先を確認
Frantishek Akulich, Hadis Anahideh, Manaf Sheyyab, Dhananjay Ambre(参考訳) 限定的な観察を持つ高次元ラベル付きデータの特徴選択は、ドメインエキスパートにとって強力な予測モデリングをアクセスしやすく、スケーラブルで、解釈可能なものにするために重要である。 物質と電磁放射の相互作用を記録する分光データは、特に1つのサンプルに多くの情報を保持している。 このような高次元データの取得は複雑な作業であるため、最適な分析ツールを用いて必要な情報を抽出することが重要である。 本稿では,高次元および限られたスペクトルデータの予測結果を解釈するために,最もよく用いられる特徴選択手法について検討し,最近の説明可能なAI技術を適用した。 予測結果の解釈は、mlモデルのドメイン知識への透明性と忠実性を保証するため、ドメインエキスパートにとって有益です。 機器分解能の限界により、分光データの重要な領域をピンポイントすることで、分光計装置の小型化によるデータ収集プロセスを最適化する経路が生成される。 デバイスのサイズと電力の削減とそれゆえコストの削減は、そのようなセンサーから予測システム全体の実世界展開の要件である。 我々は,3つの異なるシナリオを具体的に設計し,mlモデルの評価が,開発手法のリアルタイム実行にロバストであることを確認し,最終結果に対するノイズ源の隠れた影響を明らかにする。

Feature selection of high-dimensional labeled data with limited observations is critical for making powerful predictive modeling accessible, scalable, and interpretable for domain experts. Spectroscopy data, which records the interaction between matter and electromagnetic radiation, particularly holds a lot of information in a single sample. Since acquiring such high-dimensional data is a complex task, it is crucial to exploit the best analytical tools to extract necessary information. In this paper, we investigate the most commonly used feature selection techniques and introduce applying recent explainable AI techniques to interpret the prediction outcomes of high-dimensional and limited spectral data. Interpretation of the prediction outcome is beneficial for the domain experts as it ensures the transparency and faithfulness of the ML models to the domain knowledge. Due to the instrument resolution limitations, pinpointing important regions of the spectroscopy data creates a pathway to optimize the data collection process through the miniaturization of the spectrometer device. Reducing the device size and power and therefore cost is a requirement for the real-world deployment of such a sensor-to-prediction system as a whole. We specifically design three different scenarios to ensure that the evaluation of ML models is robust for the real-time practice of the developed methodologies and to uncover the hidden effect of noise sources on the final outcome.
翻訳日:2022-02-10 15:38:25 公開日:2022-02-09
# 多重校正一様収束境界の探索

An Exploration of Multicalibration Uniform Convergence Bounds ( http://arxiv.org/abs/2202.04530v1 )

ライセンス: Link先を確認
Harrison Rosenberg, Robi Bhattacharjee, Kassem Fawaz, and Somesh Jha(参考訳) 最近の研究では、公平な機械学習に必要なサンプルの複雑さが研究されている。 そのようなサンプルの複雑性境界の最も進んだ部分は、与えられた予測クラスに対する多重校正均一収束を解析することによって展開される。 本稿では、経験的リスク最小化(ERM)学習のためのサンプル複雑度を再パラメータ化することにより、多重校正誤差の一様収束境界を求めるフレームワークを提案する。 このフレームワークから,マルチキャリブレーションエラーは,分類器アーキテクチャや基礎となるデータ分散に依存することを実証する。 異なる分類器群に対するマルチキャリブレーション誤差の挙動を実験的に検討する。 この評価結果と多重校正誤差濃度境界との比較を行った。 本研究は,アルゴリズム的公平性とマルチキャリブレーション誤差収束限界の両方について,さらなる視点を提供する。 ERMサンプルの複雑性境界の頻度を考慮すると、機械学習の実践者は、無数の分類器アーキテクチャに対する多重校正誤差の収束挙動を容易に理解することができる。

Recent works have investigated the sample complexity necessary for fair machine learning. The most advanced of such sample complexity bounds are developed by analyzing multicalibration uniform convergence for a given predictor class. We present a framework which yields multicalibration error uniform convergence bounds by reparametrizing sample complexities for Empirical Risk Minimization (ERM) learning. From this framework, we demonstrate that multicalibration error exhibits dependence on the classifier architecture as well as the underlying data distribution. We perform an experimental evaluation to investigate the behavior of multicalibration error for different families of classifiers. We compare the results of this evaluation to multicalibration error concentration bounds. Our investigation provides additional perspective on both algorithmic fairness and multicalibration error convergence bounds. Given the prevalence of ERM sample complexity bounds, our proposed framework enables machine learning practitioners to easily understand the convergence behavior of multicalibration error for a myriad of classifier architectures.
翻訳日:2022-02-10 15:38:03 公開日:2022-02-09
# マルチモーダル類似検索のためのアンカーグラフ構造融合ハッシュ

Anchor Graph Structure Fusion Hashing for Cross-Modal Similarity Search ( http://arxiv.org/abs/2202.04327v1 )

ライセンス: Link先を確認
Lu Wang, Jie Yang, Masoumeh Zareapoor, Zhonglong Zheng(参考訳) 1)既存のCMHメソッドのほとんどは、グラフをモデルデータ分散の入力として取ります。 これらの手法は,多変量間のグラフ構造の相関を考慮せず,(2)既存cmh法は多変量データ間の融合親和性を考慮せず,(3)既存cmh法は離散制約を緩和して最適化目的を解決し,検索性能を著しく低下させる。 上記の制限を解決するために,新しいアンカーグラフ構造融合ハッシュ(AGSFH)を提案する。 AGSFHは、アダマール積と複数のモードの異なるアンカーグラフからアンカーグラフ構造融合行列を構築し、基礎となるデータ構造の幾何学的性質を完全に活用することができる。 アンカーグラフ構造融合行列に基づいて、agsfhは内在的アンカーグラフを直接学習し、内在的アンカーグラフの構造を適応的に調整し、内在的グラフの成分数がクラスタの数と正確に等しいようにしようとする。 さらに、agsfhはアンカー融合アフィニティを共通の二元ハミング空間に保存する。 さらに、離散最適化フレームワークは、統一バイナリコードを学ぶために設計されている。 3つの公開社会データセットの広範な実験結果がagsfhの優位を示している。

Cross-modal hashing still has some challenges needed to address: (1) most existing CMH methods take graphs as input to model data distribution. These methods omit to consider the correlation of graph structure among multiple modalities; (2) most existing CMH methods ignores considering the fusion affinity among multi-modalities data; (3) most existing CMH methods relax the discrete constraints to solve the optimization objective, significantly degrading the retrieval performance. To solve the above limitations, we propose a novel Anchor Graph Structure Fusion Hashing (AGSFH). AGSFH constructs the anchor graph structure fusion matrix from different anchor graphs of multiple modalities with the Hadamard product, which can fully exploit the geometric property of underlying data structure. Based on the anchor graph structure fusion matrix, AGSFH attempts to directly learn an intrinsic anchor graph, where the structure of the intrinsic anchor graph is adaptively tuned so that the number of components of the intrinsic graph is exactly equal to the number of clusters. Besides, AGSFH preserves the anchor fusion affinity into the common binary Hamming space. Furthermore, a discrete optimization framework is designed to learn the unified binary codes. Extensive experimental results on three public social datasets demonstrate the superiority of AGSFH.
翻訳日:2022-02-10 15:35:54 公開日:2022-02-09
# (参考訳) 深い階層モデルとハミルトンモンテカルロによるデータインプットと取得の欠如

Missing Data Imputation and Acquisition with Deep Hierarchical Models and Hamiltonian Monte Carlo ( http://arxiv.org/abs/2202.04599v1 )

ライセンス: CC BY 4.0
Ignacio Peis, Chao Ma and Jos\'e Miguel Hern\'andez-Lobato(参考訳) 変分オートエンコーダ(vaes: variational autoencoder)は、最近、不均一なデータや異常値の特定に非常に成功している。 しかし、この特定のアプリケーション領域内では、既存のVAE法は、潜伏変数の1つの層と厳密なガウス後方近似を用いることで制限される。 これらの制約に対処するため,ハミルトニアンモンテカルロを用いた混合型不完全データのための階層型vaeモデルhh-vaemを提案する。 実験の結果,HH-VAEMはデータ計算の欠如,教師付き学習,特徴の欠如による外乱識別といったタスクにおいて,既存のベースラインよりも優れていた。 最後に,HH-VAEMで特徴を抽出する際の情報ゲインを効率的に計算するためのサンプリングベース手法を提案する。 実験の結果,このサンプリングベースアプローチはガウス近似に基づく代替法よりも優れていることがわかった。

Variational Autoencoders (VAEs) have recently been highly successful at imputing and acquiring heterogeneous missing data and identifying outliers. However, within this specific application domain, existing VAE methods are restricted by using only one layer of latent variables and strictly Gaussian posterior approximations. To address these limitations, we present HH-VAEM, a Hierarchical VAE model for mixed-type incomplete data that uses Hamiltonian Monte Carlo with automatic hyper-parameter tuning for improved approximate inference. Our experiments show that HH-VAEM outperforms existing baselines in the tasks of missing data imputation, supervised learning and outlier identification with missing features. Finally, we also present a sampling-based approach for efficiently computing the information gain when missing features are to be acquired with HH-VAEM. Our experiments show that this sampling-based approach is superior to alternatives based on Gaussian approximations.
翻訳日:2022-02-10 15:33:42 公開日:2022-02-09
# 構成的対人ロバスト性に向けて:複合意味摂動に対する対人訓練の一般化

Towards Compositional Adversarial Robustness: Generalizing Adversarial Training to Composite Semantic Perturbations ( http://arxiv.org/abs/2202.04235v1 )

ライセンス: Link先を確認
Yun-Yun Tsai, Lei Hsiung, Pin-Yu Chen, Tsung-Yi Ho(参考訳) $\ell_{p}$-norm のような単一の摂動型の敵対的例に対するモデルロバスト性は広く研究されているが、複数の意味摂動とそれらの構成を含むより現実的なシナリオへの一般化はほとんど未定である。 本稿では,まず,複合逆例を生成する新しい手法を提案する。 本手法は,コンポーネントワイズプロジェクション勾配降下と自動アタックオーダースケジューリングを利用することにより,最適なアタック構成を求めることができる。 次に、モデルのロバスト性が$\ell_{p}$-normから、色相、彩度、輝度、コントラスト、回転の組み合わせといった複合意味的摂動に拡張されるように拡張するために、 \textbf{generalized adversarial training} (\textbf{gat})を提案する。 ImageNetとCIFAR-10データセットの結果は、GATは単一の攻撃だけでなく、複数の攻撃の組み合わせに対しても堅牢であることを示している。 GATはまた、ベースライン $\ell_{\infty}$-norm の有界対向訓練アプローチをかなりの差で上回る。

Model robustness against adversarial examples of single perturbation type such as the $\ell_{p}$-norm has been widely studied, yet its generalization to more realistic scenarios involving multiple semantic perturbations and their composition remains largely unexplored. In this paper, we firstly propose a novel method for generating composite adversarial examples. By utilizing component-wise projected gradient descent and automatic attack-order scheduling, our method can find the optimal attack composition. We then propose \textbf{generalized adversarial training} (\textbf{GAT}) to extend model robustness from $\ell_{p}$-norm to composite semantic perturbations, such as the combination of Hue, Saturation, Brightness, Contrast, and Rotation. The results on ImageNet and CIFAR-10 datasets show that GAT can be robust not only to any single attack but also to any combination of multiple attacks. GAT also outperforms baseline $\ell_{\infty}$-norm bounded adversarial training approaches by a significant margin.
翻訳日:2022-02-10 15:11:54 公開日:2022-02-09
# 自己監督型ポイントクラウド表現学習に必要なコントラストによる蒸留

Distillation with Contrast is All You Need for Self-Supervised Point Cloud Representation Learning ( http://arxiv.org/abs/2202.04241v1 )

ライセンス: Link先を確認
Kexue Fu and Peng Gao and Renrui Zhang and Hongsheng Li and Yu Qiao and Manning Wang(参考訳) 本稿では,自己教師付きポイントクラウド表現学習のための単純で汎用的なフレームワークを提案する。 人間は2つのレベルの情報を抽出し、それらの関係を確立することで3D世界を理解する。 1つは対象の大域的形状であり、もう1つはその局所構造である。 しかし、ポイントクラウド表現学習における既存の研究は、特定のネットワークアーキテクチャを使わずに、グローバル形状とローカル-グローバル関係の両方を学ぶ方法を検討した。 人間がどのように世界を理解するかに触発されて、知識蒸留を利用して地球形状情報と地球形状と局所構造の関係を学習する。 同時に,コントラスト学習と知識蒸留を組み合わせることで,教師ネットワークをより良く更新する。 本手法は,線形分類および複数の下流タスクにおける最先端性能を実現する。 特に,我々のフレームワークと組み合わせた場合,既存のバックボーンに匹敵する結果が得られる3Dポイントクラウド特徴抽出用ViTの変種を開発し,アテンションマップの可視化により,グローバルな形状情報と複数の局所構造情報を組み合わせることで,我々のモデルがポイントクラウドを理解していることを示す。 私たちのコードはまもなくリリースされます。

In this paper, we propose a simple and general framework for self-supervised point cloud representation learning. Human beings understand the 3D world by extracting two levels of information and establishing the relationship between them. One is the global shape of an object, and the other is the local structures of it. However, few existing studies in point cloud representation learning explored how to learn both global shapes and local-to-global relationships without a specified network architecture. Inspired by how human beings understand the world, we utilize knowledge distillation to learn both global shape information and the relationship between global shape and local structures. At the same time, we combine contrastive learning with knowledge distillation to make the teacher network be better updated. Our method achieves the state-of-the-art performance on linear classification and multiple other downstream tasks. Especially, we develop a variant of ViT for 3D point cloud feature extraction, which also achieves comparable results with existing backbones when combined with our framework, and visualization of the attention maps show that our model does understand the point cloud by combining the global shape information and multiple local structural information, which is consistent with the inspiration of our representation learning method. Our code will be released soon.
翻訳日:2022-02-10 15:11:32 公開日:2022-02-09
# 身元確認用モーションアウェア変圧器

Motion-Aware Transformer For Occluded Person Re-identification ( http://arxiv.org/abs/2202.04243v1 )

ライセンス: Link先を確認
Mi Zhou, Hongye Liu, Zhekun Lv, Wei Hong, Xiai Chen(参考訳) 近年, 人身認証(Re-ID)は, 特に群集状況において, 人や障害物によってしばしば不明瞭化される, 困難な課題である。 本稿では,隠蔽者Re-IDを用いた自己教師型深層学習手法を提案する。 従来の研究とは異なり、さまざまな姿勢の写真から得られる動き情報は、主要な人間の身体成分を識別するのに役立ちます。 まず, 動き認識型トランスフォーマーエンコーダ・デコーダアーキテクチャを用いて, キーポイントのヒートマップと部分分割マップを得る。 次に、アフィン変換モジュールを使用して、キーポイント検出ブランチから動き情報を取得する。 すると、動作情報はセグメンテーションブランチをサポートし、洗練された人間の部分セグメンテーションマップを達成し、人体を合理的なグループに効果的に分割する。 最後に, 背景や咬合障害を回避し, 人体の異なる代表部位を識別する上で, 提案モデルの有効性を示す例もいくつかある。 本手法はoccluded, partial, holisticなど,いくつかの一般的なデータセットにおいて,最先端の結果を一貫して達成する。

Recently, occluded person re-identification(Re-ID) remains a challenging task that people are frequently obscured by other people or obstacles, especially in a crowd massing situation. In this paper, we propose a self-supervised deep learning method to improve the location performance for human parts through occluded person Re-ID. Unlike previous works, we find that motion information derived from the photos of various human postures can help identify major human body components. Firstly, a motion-aware transformer encoder-decoder architecture is designed to obtain keypoints heatmaps and part-segmentation maps. Secondly, an affine transformation module is utilized to acquire motion information from the keypoint detection branch. Then the motion information will support the segmentation branch to achieve refined human part segmentation maps, and effectively divide the human body into reasonable groups. Finally, several cases demonstrate the efficiency of the proposed model in distinguishing different representative parts of the human body, which can avoid the background and occlusion disturbs. Our method consistently achieves state-of-the-art results on several popular datasets, including occluded, partial, and holistic.
翻訳日:2022-02-10 15:11:10 公開日:2022-02-09
# モデル情報のない逆検出

Adversarial Detection without Model Information ( http://arxiv.org/abs/2202.04271v1 )

ライセンス: Link先を確認
Abhishek Moitra, Youngeun Kim, and Priyadarshini Panda(参考訳) 従来の最先端の敵検出作業の多くは、基盤となる脆弱性モデルがアクセス可能であることを前提としている。 モデルをトレーニングしたり、そのアウトプットを見ることができる。 しかし、モデル暗号化やモデル情報漏洩などの要因があるため、これは現実的な仮定ではない。 本研究では, 単純なエネルギー関数を用いて, 逆入力と自然入力を区別するモデル独立逆検出法を提案する。 我々は,自然および逆入力に対応するエネルギー分離を高めるために,逐次的な層回りのトレーニングを施した独立検出器を訓練する。 これにより,エネルギー分布に基づく逆検出を行う。 提案手法は, CIFAR10, CIFAR100, TinyImagenetデータセットに対して, 幅広い勾配, スコア, 判定に基づく攻撃に対して, 最先端検出性能(ROC-AUC > 0.9)を実現する。 従来の手法と比較して,本手法は10~100倍の演算数とパラメータを必要とする。 さらに,本検出手法は,異なるデータセットや敵攻撃にまたがって転送可能であることを示す。 再現性のため、補足材料にコードを提供します。

Most prior state-of-the-art adversarial detection works assume that the underlying vulnerable model is accessible, i,e., the model can be trained or its outputs are visible. However, this is not a practical assumption due to factors like model encryption, model information leakage and so on. In this work, we propose a model independent adversarial detection method using a simple energy function to distinguish between adversarial and natural inputs. We train a standalone detector independent of the underlying model, with sequential layer-wise training to increase the energy separation corresponding to natural and adversarial inputs. With this, we perform energy distribution-based adversarial detection. Our method achieves state-of-the-art detection performance (ROC-AUC > 0.9) across a wide range of gradient, score and decision-based adversarial attacks on CIFAR10, CIFAR100 and TinyImagenet datasets. Compared to prior approaches, our method requires ~10-100x less number of operations and parameters for adversarial detection. Further, we show that our detection method is transferable across different datasets and adversarial attacks. For reproducibility, we provide code in the supplementary material.
翻訳日:2022-02-10 15:10:50 公開日:2022-02-09
# (参考訳) 実現可能性と単一政策集中性を備えたオフライン強化学習

Offline Reinforcement Learning with Realizability and Single-policy Concentrability ( http://arxiv.org/abs/2202.04634v1 )

ライセンス: CC0 1.0
Wenhao Zhan, Baihe Huang, Audrey Huang, Nan Jiang, Jason D. Lee(参考訳) オフライン強化学習(rl)のためのサンプル効率保証は、しばしば関数クラス(ベルマン完全性など)とデータカバレッジ(例えば、オールポリシー集中性)の両方に強い仮定に依存している。 これらの仮定を緩和する最近の努力にもかかわらず、既存の研究は2つの要因のうちの1つだけを緩和することができ、他の要因に対する強い仮定はそのまま残されている。 重要なオープンな問題として、両方の因子の仮定が弱いサンプル効率のオフラインRLが達成できるだろうか? 本稿では,この疑問に肯定的に答える。 両変数(分散占有率)をオフラインデータに対する密度比関数を用いてモデル化する,MDPの原始双対定式化に基づく単純なアルゴリズムを解析する。 適切な正則化により、このアルゴリズムは、実現可能性と単一政治集中性だけで、多項式のサンプル複雑性を享受できることを示した。 また、オフラインRLに対する原始双対アルゴリズムの性質について、異なる仮定に基づく代替分析を行う。

Sample-efficiency guarantees for offline reinforcement learning (RL) often rely on strong assumptions on both the function classes (e.g., Bellman-completeness) and the data coverage (e.g., all-policy concentrability). Despite the recent efforts on relaxing these assumptions, existing works are only able to relax one of the two factors, leaving the strong assumption on the other factor intact. As an important open problem, can we achieve sample-efficient offline RL with weak assumptions on both factors? In this paper we answer the question in the positive. We analyze a simple algorithm based on the primal-dual formulation of MDPs, where the dual variables (discounted occupancy) are modeled using a density-ratio function against offline data. With proper regularization, we show that the algorithm enjoys polynomial sample complexity, under only realizability and single-policy concentrability. We also provide alternative analyses based on different assumptions to shed light on the nature of primal-dual algorithms for offline RL.
翻訳日:2022-02-10 15:10:09 公開日:2022-02-09
# オフラインデモからのガイダンスを用いたスパース報酬による強化学習

Reinforcement Learning with Sparse Rewards using Guidance from Offline Demonstration ( http://arxiv.org/abs/2202.04628v1 )

ライセンス: Link先を確認
Desik Rengarajan, Gargi Vaidya, Akshay Sarvesh, Dileep Kalathil, Srinivas Shakkottai(参考訳) 実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。 多くの場合、利用可能なものは直感的だがスパースな報酬関数で、タスクが部分的に完了したか完全に完了したかのみを示す。 しかし、綿密な設計、微粒なフィードバックの欠如は、既存のRLアルゴリズムが妥当な時間枠で許容できるポリシーを学習できないことを意味する。 これは、ポリシーが学習できる有用なフィードバックを得る前に実行しなければならない多くの探索アクションが原因です。 そこで本研究では,サブ最適動作ポリシーによって生成されたオフラインデモデータを利用して,オンラインrlを迅速かつ効率的に活用するアルゴリズムを開発することで,この課題を解決する。 提案アルゴリズムはLearning Online with Guidance Offline (LOGO)アルゴリズムと呼ばれ、オフラインのデモデータを用いてポリシー改善ステップと追加のポリシーガイダンスステップをマージする。 キーとなるアイデアは、オフラインデータを模倣しない、というガイダンスを得ることによって、ロゴは、サブオプティマイズである{policy}のやり方でポリシーを定めながら、さらに学習し、最適性に近づくことができる、ということである。 本稿では,本アルゴリズムの理論的解析を行い,各学習エピソードにおける性能改善の限界を低くする。 また、我々のアルゴリズムは、実状態観測の検閲されたバージョンのみを含む、さらに困難な不完全な観測設定にまで拡張する。 我々は,厳密な報酬と検閲された状態を持つ多数のベンチマーク環境において,最先端のアプローチよりもアルゴリズムの優れた性能を示す。 さらに,移動ロボットにロゴを実装して追跡や障害物回避を行い,優れた性能を示すことで,このアプローチの価値を実証する。

A major challenge in real-world reinforcement learning (RL) is the sparsity of reward feedback. Often, what is available is an intuitive but sparse reward function that only indicates whether the task is completed partially or fully. However, the lack of carefully designed, fine grain feedback implies that most existing RL algorithms fail to learn an acceptable policy in a reasonable time frame. This is because of the large number of exploration actions that the policy has to perform before it gets any useful feedback that it can learn from. In this work, we address this challenging problem by developing an algorithm that exploits the offline demonstration data generated by a sub-optimal behavior policy for faster and efficient online RL in such sparse reward settings. The proposed algorithm, which we call the Learning Online with Guidance Offline (LOGO) algorithm, merges a policy improvement step with an additional policy guidance step by using the offline demonstration data. The key idea is that by obtaining guidance from - not imitating - the offline data, LOGO orients its policy in the manner of the sub-optimal {policy}, while yet being able to learn beyond and approach optimality. We provide a theoretical analysis of our algorithm, and provide a lower bound on the performance improvement in each learning episode. We also extend our algorithm to the even more challenging incomplete observation setting, where the demonstration data contains only a censored version of the true state observation. We demonstrate the superior performance of our algorithm over state-of-the-art approaches on a number of benchmark environments with sparse rewards and censored state. Further, we demonstrate the value of our approach via implementing LOGO on a mobile robot for trajectory tracking and obstacle avoidance, where it shows excellent performance.
翻訳日:2022-02-10 15:08:43 公開日:2022-02-09
# シンクホーン不確かさ集合を用いたロバスト仮説テストへのデータ駆動アプローチ

A Data-Driven Approach to Robust Hypothesis Testing Using Sinkhorn Uncertainty Sets ( http://arxiv.org/abs/2202.04258v1 )

ライセンス: Link先を確認
Jie Wang and Yao Xie(参考訳) 本論文は、Jack Keil Wolf ISIT Student Paper Awardに授与される。 小さなサンプルシナリオの仮説テストは、事実上重要な問題である。 本稿では,実験的分布に着目した分布的不確実性集合上の最悪の場合をシンクホーン距離を用いて探索し,データ駆動方式でロバストな仮説検証問題を検討する。 wassersteinロバストテストと比較すると、より柔軟な検出器を提供するトレーニングサンプルを超えて、最も好ましくない分布がサポートされている。 提案手法の競合性能を検証するため,合成データと実データの両方について様々な数値実験を行った。

This paper is eligible for the Jack Keil Wolf ISIT Student Paper Award. Hypothesis testing for small-sample scenarios is a practically important problem. In this paper, we investigate the robust hypothesis testing problem in a data-driven manner, where we seek the worst-case detector over distributional uncertainty sets centered around the empirical distribution from samples using Sinkhorn distance. Compared with the Wasserstein robust test, the corresponding least favorable distributions are supported beyond the training samples, which provides a more flexible detector. Various numerical experiments are conducted on both synthetic and real datasets to validate the competitive performances of our proposed method.
翻訳日:2022-02-10 15:07:57 公開日:2022-02-09
# 多元性を持つ段階的ドメイン適応のためのコスト効率の高いフレームワーク

Cost-effective Framework for Gradual Domain Adaptation with Multifidelity ( http://arxiv.org/abs/2202.04359v1 )

ライセンス: Link先を確認
Shogo Sagawa and Hideitsu Hino(参考訳) ドメイン適応では、ソースとターゲットドメインの間に大きな距離がある場合、予測性能は低下する。 段階的なドメイン適応は、中間ドメインにアクセスでき、徐々にソースからターゲットドメインへ移行する、というような問題の解決策の1つである。 従来の研究では,中間領域のサンプル数は十分に多く,ラベル付きデータを必要としない自己学習が可能であった。 中間ドメインへのアクセスが制限されると、自己学習は失敗する。 実際に、中間ドメインにおけるサンプルのコストは様々であり、中間ドメインがターゲットドメインに近づくほど、中間ドメインからサンプルを取得するコストが高くなると考えるのは自然なことである。 コストと精度のトレードオフを解決するために,マルチフィデリティとアクティブドメイン適応を組み合わせたフレームワークを提案する。 提案手法の有効性は,人工データと実世界データの両方を用いた実験により評価した。 コードはhttps://github.com/ssgw320/gdamfで入手できる。

In domain adaptation, when there is a large distance between the source and target domains, the prediction performance will degrade. Gradual domain adaptation is one of the solutions to such an issue, assuming that we have access to intermediate domains, which shift gradually from the source to target domains. In previous works, it was assumed that the number of samples in the intermediate domains is sufficiently large; hence, self-training was possible without the need for labeled data. If access to an intermediate domain is restricted, self-training will fail. Practically, the cost of samples in intermediate domains will vary, and it is natural to consider that the closer an intermediate domain is to the target domain, the higher the cost of obtaining samples from the intermediate domain is. To solve the trade-off between cost and accuracy, we propose a framework that combines multifidelity and active domain adaptation. The effectiveness of the proposed method is evaluated by experiments with both artificial and real-world datasets. Codes are available at https://github.com/ssgw320/gdamf.
翻訳日:2022-02-10 15:07:47 公開日:2022-02-09
# マルコフデータを用いた確率最適化における混合時間適応

Adapting to Mixing Time in Stochastic Optimization with Markovian Data ( http://arxiv.org/abs/2202.04428v1 )

ライセンス: Link先を確認
Ron Dorfman, Kfir Y. Levy(参考訳) 我々は、データがマルコフ連鎖から引き出される確率的最適化問題を考える。 この設定の既存の方法は、実世界のアプリケーションでは通常未知の連鎖の混合時間を知ることに依存している。 混合時間に関する知識を必要としない最初の最適化手法を提案するが、凸問題に適用した場合に最適な漸近収束率が得られる。 さらに、我々のアプローチは次のように拡張できることを示す。 (i)マルコフデータを用いた非凸最適化における定常点の探索 (II) 時間差学習における混合時間への依存性が向上し, いずれの場合も, 混合時間には全く依存しない。 本手法は,適応学習法とともに,マルチレベルモンテカルロ勾配推定(MLMC)の新たな組み合わせに依存する。

We consider stochastic optimization problems where data is drawn from a Markov chain. Existing methods for this setting crucially rely on knowing the mixing time of the chain, which in real-world applications is usually unknown. We propose the first optimization method that does not require the knowledge of the mixing time, yet obtains the optimal asymptotic convergence rate when applied to convex problems. We further show that our approach can be extended to: (i) finding stationary points in non-convex optimization with Markovian data, and (ii) obtaining better dependence on the mixing time in temporal difference (TD) learning; in both cases, our method is completely oblivious to the mixing time. Our method relies on a novel combination of multi-level Monte Carlo (MLMC) gradient estimation together with an adaptive learning method.
翻訳日:2022-02-10 15:07:31 公開日:2022-02-09
# 半帯域フィードバックと有限予算をもつ非確率的組合せバンディットにおける最適アームの探索

Finding Optimal Arms in Non-stochastic Combinatorial Bandits with Semi-bandit Feedback and Finite Budget ( http://arxiv.org/abs/2202.04487v1 )

ライセンス: Link先を確認
Jasmin Brandt, Bj\"orn Haddenhorst, Viktor Bengs, Eyke H\"ullermeier(参考訳) 本稿では,有限サンプリング予算制約の下で,半帯域フィードバックによる組合せ帯域幅問題について考察する。 アームセットの選択がアクションであり、選択されたセットの各アームに対するフィードバックが受信される。 既存の研究とは異なり、この問題はサブセット依存のフィードバックを持つ非確率的な環境で研究され、すなわち、受信された半帯域フィードバックは、不利な敵によって生成され、また選択されたアームセットに依存する可能性がある。 さらに,数値ベースと選好ベースのケースの両方をカバーする一般的なフィードバックシナリオを検討し,学習者が探そうとする最適アームの認識可能な概念を保証するための健全な理論的枠組みを提案する。 提案手法は,攻撃的から保守的へのアーム除去戦略の全スペクトルをカバーするのに適した汎用アルゴリズムを提案する。 最適なアームを見つけるためのアルゴリズムの十分な予算に関する理論的疑問は、この問題シナリオに対する学習アルゴリズムの下位境界を導出することによって答え、補完される。

We consider the combinatorial bandits problem with semi-bandit feedback under finite sampling budget constraints, in which the learner can carry out its action only for a limited number of times specified by an overall budget. The action is to choose a set of arms, whereupon feedback for each arm in the chosen set is received. Unlike existing works, we study this problem in a non-stochastic setting with subset-dependent feedback, i.e., the semi-bandit feedback received could be generated by an oblivious adversary and also might depend on the chosen set of arms. In addition, we consider a general feedback scenario covering both the numerical-based as well as preference-based case and introduce a sound theoretical framework for this setting guaranteeing sensible notions of optimal arms, which a learner seeks to find. We suggest a generic algorithm suitable to cover the full spectrum of conceivable arm elimination strategies from aggressive to conservative. Theoretical questions about the sufficient and necessary budget of the algorithm to find the best arm are answered and complemented by deriving lower bounds for any learning algorithm for this problem scenario.
翻訳日:2022-02-10 15:07:20 公開日:2022-02-09
# 高次元非凸最適化問題における最適学習速度スケジュール

Optimal learning rate schedules in high-dimensional non-convex optimization problems ( http://arxiv.org/abs/2202.04509v1 )

ライセンス: Link先を確認
St\'ephane d'Ascoli, Maria Refinetti, Giulio Biroli(参考訳) 学習率のスケジュールは、スピードアップと最適化の改善にユビキタスに使用されている。 多くの異なるポリシーが実証的に導入され、凸設定のための理論的解析が開発されている。 しかし、現実的な多くの問題では、ロスランドスケープは高次元で非凸であり、その結果がほとんどない。 本稿では,この設定における学習率スケジューリングの役割について,学習率を$\eta(t)=t^{-\beta}$とすることで,Langevin最適化に着目した最初の分析的研究を行う。 まず、損失が$N$次元球面(N\rightarrow \infty$)上のガウスランダム関数であるようなモデルを考える。 サドルに収まることなく最適化をスピードアップするためには、一般に$\beta=1$が最適となる凸セットアップとは対照的に、$\beta<1$の減衰率を選択する必要がある。 次に、回復すべきシグナルを問題に追加します。 この設定では、ダイナミクスは2つのフェーズに分解される: \emph{exploration} フェーズは、ダイナミックスが風景の粗い部分を通過し、続いて信号が検出され、ダイナミクスが凸盆地に入る \emph{convergence} フェーズである。 この場合、探索段階では、非凸領域をできるだけ早く脱出するために大きな学習率を維持することが最適であり、その後、凸基準$\beta=1$を使って解に迅速に収束する。 最後に,本研究の結論が,ニューラルネットワークに関わる共通の回帰課題であることを示す。

Learning rate schedules are ubiquitously used to speed up and improve optimisation. Many different policies have been introduced on an empirical basis, and theoretical analyses have been developed for convex settings. However, in many realistic problems the loss-landscape is high-dimensional and non convex -- a case for which results are scarce. In this paper we present a first analytical study of the role of learning rate scheduling in this setting, focusing on Langevin optimization with a learning rate decaying as $\eta(t)=t^{-\beta}$. We begin by considering models where the loss is a Gaussian random function on the $N$-dimensional sphere ($N\rightarrow \infty$), featuring an extensive number of critical points. We find that to speed up optimization without getting stuck in saddles, one must choose a decay rate $\beta<1$, contrary to convex setups where $\beta=1$ is generally optimal. We then add to the problem a signal to be recovered. In this setting, the dynamics decompose into two phases: an \emph{exploration} phase where the dynamics navigates through rough parts of the landscape, followed by a \emph{convergence} phase where the signal is detected and the dynamics enter a convex basin. In this case, it is optimal to keep a large learning rate during the exploration phase to escape the non-convex region as quickly as possible, then use the convex criterion $\beta=1$ to converge rapidly to the solution. Finally, we demonstrate that our conclusions hold in a common regression task involving neural networks.
翻訳日:2022-02-10 15:07:02 公開日:2022-02-09
# 線形確率性モデルに基づく確率的文脈デュエル帯域

Stochastic Contextual Dueling Bandits under Linear Stochastic Transitivity Models ( http://arxiv.org/abs/2202.04593v1 )

ライセンス: Link先を確認
Viktor Bengs, Aadirupa Saha, Eyke H\"ullermeier(参考訳) コンテキスト情報を伴うデュエルバンディット問題における後悔の最小化タスクについて考察する。 逐次決定問題の各ラウンドにおいて、学習者は、互いに比較する2つの選択肢(アーム)の文脈依存的な選択を行い、ノイズの多い選好情報としてフィードバックを受け取る。 フィードバックプロセスは文脈化されたユーティリティ(colst)を持つ線形確率的推移モデルによって決定され、学習者のタスクは最善のアーム(最も潜在的なコンテキスト依存のユーティリティを持つ)をデュエルに含めることである。 提案する計算効率のよいアルゴリズムである$\texttt{CoLSTIM}$は,基盤となるCoLSTモデルのコンテキスト依存ユーティリティ推定を用いて,フィードバックプロセスの模倣に基づいて選択する。 それぞれのアームが$d$次元の特徴ベクトルに関連付けられている場合、$\texttt{CoLSTIM}$が$T$学習ラウンドの後に$\tilde O( \sqrt{dT})$を後悔することを示す。 さらに、既存の平均後悔分析を洗練させる弱い後悔に対する低い境界を示すことによって、$\texttt{CoLSTIM}$の最適性を確立する。 本実験は,CoLSTモデルの特殊事例に対する最先端アルゴリズムよりも優れていることを示す。

We consider the regret minimization task in a dueling bandits problem with context information. In every round of the sequential decision problem, the learner makes a context-dependent selection of two choice alternatives (arms) to be compared with each other and receives feedback in the form of noisy preference information. We assume that the feedback process is determined by a linear stochastic transitivity model with contextualized utilities (CoLST), and the learner's task is to include the best arm (with highest latent context-dependent utility) in the duel. We propose a computationally efficient algorithm, $\texttt{CoLSTIM}$, which makes its choice based on imitating the feedback process using perturbed context-dependent utility estimates of the underlying CoLST model. If each arm is associated with a $d$-dimensional feature vector, we show that $\texttt{CoLSTIM}$ achieves a regret of order $\tilde O( \sqrt{dT})$ after $T$ learning rounds. Additionally, we also establish the optimality of $\texttt{CoLSTIM}$ by showing a lower bound for the weak regret that refines the existing average regret analysis. Our experiments demonstrate its superiority over state-of-art algorithms for special cases of CoLST models.
翻訳日:2022-02-10 15:06:35 公開日:2022-02-09
# 事前学習とコントラスト学習による画像差分キャプション

Image Difference Captioning with Pre-training and Contrastive Learning ( http://arxiv.org/abs/2202.04298v1 )

ライセンス: Link先を確認
Linli Yao, Weiying Wang, Qin Jin(参考訳) 画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。 このタスクの主な課題は2つの側面にある。 1)より強固な視覚と言語連想を必要とする細かな視差 2) 限定的な教師付きデータにつながる手動アノテーションの高コスト化。 これらの課題に対処するため,我々は事前学習パラダイムに従う新しいモデリングフレームワークを提案する。 具体的には,視覚差とテキスト記述を細かなレベルで整列させるために,3つの自己教師付きタスクと対比学習戦略を設計する。 さらに,教師付きidcデータの制限を緩和するために,細粒度画像分類のためのデータなどの付加的なクロスタスク監視情報を活用するデータ拡張戦略を提案する。 CLEVR-ChangeとBirds-to-Wordsの2つのIDCベンチマークデータセットに対する大規模な実験は、提案したモデリングフレームワークの有効性を実証している。 コードとモデルはhttps://github.com/yaolinli/idcでリリースされる。

The Image Difference Captioning (IDC) task aims to describe the visual differences between two similar images with natural language. The major challenges of this task lie in two aspects: 1) fine-grained visual differences that require learning stronger vision and language association and 2) high-cost of manual annotations that leads to limited supervised data. To address these challenges, we propose a new modeling framework following the pre-training-finetuning paradigm. Specifically, we design three self-supervised tasks and contrastive learning strategies to align visual differences and text descriptions at a fine-grained level. Moreover, we propose a data expansion strategy to utilize extra cross-task supervision information, such as data for fine-grained image classification, to alleviate the limitation of available supervised IDC data. Extensive experiments on two IDC benchmark datasets, CLEVR-Change and Birds-to-Words, demonstrate the effectiveness of the proposed modeling framework. The codes and models will be released at https://github.com/yaolinli/IDC.
翻訳日:2022-02-10 15:05:32 公開日:2022-02-09
# オープン複合領域適応セマンティックセマンティックセグメンテーションのための振幅スペクトル変換

Amplitude Spectrum Transformation for Open Compound Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2202.04287v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Akshay Kulkarni, Suvaansh Bhambri, Varun Jampani, R. Venkatesh Babu(参考訳) open compound domain adaptation (ocda) は、単一のラベル付きソースドメインをマルチモーダルな未ラベルのターゲットデータの複合に対して考慮し、新しい未発見領域をより一般化する実用的な適応設定として登場した。 我々は、高密度中間層の特徴のドメイン関連因子とタスク関連因子の整合性の改善がOCDAを大いに役立つと仮定する。 先行技術は、空間CNN出力に対向領域判別器を用いて間接的にこれを試みている。 しかし, 深部CNN特徴のフーリエスペクトルから導出される潜在的特徴は, ドメイン識別とよりトラクタブルなマッピングを持つことがわかった。 そこで我々は,新しい特徴空間 Amplitude Spectrum Transformation (AST) を提案する。 適応中に2つの目的のためにASTオートエンコーダを使用します。 まず、慎重にマイニングされたソースターゲットインスタンスペアは、AST-latentを変更することで、特定のレイヤにおけるクロスドメイン機能スタイリング(AST-Sim)のシミュレーションを行う。 第二に、後層のASTは、潜伏状態を平均プロトタイプに固定することで、ドメイン内容の正規化(AST-Norm)を行う。 単純化した適応手法はクラスタリングフリーであるだけでなく,複雑な逆アライメントも含まない。 我々は,OCDAシーンセグメンテーションベンチマークにおいて,先行技術に対する先行性能を達成する。

Open compound domain adaptation (OCDA) has emerged as a practical adaptation setting which considers a single labeled source domain against a compound of multi-modal unlabeled target data in order to generalize better on novel unseen domains. We hypothesize that an improved disentanglement of domain-related and task-related factors of dense intermediate layer features can greatly aid OCDA. Prior-arts attempt this indirectly by employing adversarial domain discriminators on the spatial CNN output. However, we find that latent features derived from the Fourier-based amplitude spectrum of deep CNN features hold a more tractable mapping with domain discrimination. Motivated by this, we propose a novel feature space Amplitude Spectrum Transformation (AST). During adaptation, we employ the AST auto-encoder for two purposes. First, carefully mined source-target instance pairs undergo a simulation of cross-domain feature stylization (AST-Sim) at a particular layer by altering the AST-latent. Second, AST operating at a later layer is tasked to normalize (AST-Norm) the domain content by fixing its latent to a mean prototype. Our simplified adaptation technique is not only clustering-free but also free from complex adversarial alignment. We achieve leading performance against the prior arts on the OCDA scene segmentation benchmarks.
翻訳日:2022-02-10 15:05:17 公開日:2022-02-09
# 条件付き動作の中間

Conditional Motion In-betweening ( http://arxiv.org/abs/2202.04307v1 )

ライセンス: Link先を確認
Jihoon Kim, Taehyun Byun, Seungyoun Shin, Jungdam Won, Sungjoon Choi(参考訳) モーション・イン・インタータリング(mib)は、歩行中の周期的な足踏み運動のような運動の自然性を維持しながら、与えられた開始と目標ポーズの間の中間骨格運動を生成する過程である。 最先端MIB法は、スパースキー目的に与えられた可塑性運動を生成できるが、実用的な応用に必要な意味的文脈を満たす動きを生成するための制御性に欠けることが多い。 我々は、統一モデルを用いて、ポーズやセマンティックなMIBタスクを処理できる手法に焦点を当てる。 また, 滑らかな軌跡上の分布を定義することにより, ポーズ条件付き運動生成の質を向上させる動き増進法を提案する。 提案手法はポーズ予測誤差において既存のmib法を上回り,制御性も向上した。

Motion in-betweening (MIB) is a process of generating intermediate skeletal movement between the given start and target poses while preserving the naturalness of the motion, such as periodic footstep motion while walking. Although state-of-the-art MIB methods are capable of producing plausible motions given sparse key-poses, they often lack the controllability to generate motions satisfying the semantic contexts required in practical applications. We focus on the method that can handle pose or semantic conditioned MIB tasks using a unified model. We also present a motion augmentation method to improve the quality of pose-conditioned motion generation via defining a distribution over smooth trajectories. Our proposed method outperforms the existing state-of-the-art MIB method in pose prediction errors while providing additional controllability.
翻訳日:2022-02-10 15:04:37 公開日:2022-02-09
# 事前学習言語モデル表現の潜在空間クラスタリングによる話題発見

Topic Discovery via Latent Space Clustering of Pretrained Language Model Representations ( http://arxiv.org/abs/2202.04582v1 )

ライセンス: Link先を確認
Yu Meng, Yunyi Zhang, Jiaxin Huang, Yu Zhang, Jiawei Han(参考訳) トピックモデルはテキストコーパスからの自動トピック発見のための重要なツールである。 その効果にもかかわらず、トピックモデルは文書内の単語順序情報をモデル化できないこと、外部言語知識を組み込むことの難しさ、難解な後部を近似するための正確かつ効率的な推論方法の欠如など、いくつかの制限に悩まされている。 近年,プレトレーニング言語モデル (PLM) は,テキストの表現が優れているため,様々なタスクに驚くべき性能向上をもたらしている。 興味深いことに、トピックモデルに代わるものとしてトピック発見のためのplmをデプロイする標準的なアプローチは存在していない。 本稿では,トピック発見に PLM 表現を用いる際の課題を分析し,その上で PLM 埋め込みを基盤とした協調型潜在空間学習とクラスタリングフレームワークを提案する。 潜在空間では、トピックワードとドキュメントトピックの分布を共同でモデル化し、発見されたトピックを一貫性のある言葉で解釈し、文書の意義ある要約として機能させる。 提案モデルは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用し,概念的にはトピックモデルよりもシンプルである。 異なる領域における2つのベンチマークデータセットにおいて、我々のモデルは強力なトピックモデルよりも一貫性があり多様なトピックを生成し、自動評価と人的評価の両方に基づいて、より優れたトピック指向の文書表現を提供する。

Topic models have been the prominent tools for automatic topic discovery from text corpora. Despite their effectiveness, topic models suffer from several limitations including the inability of modeling word ordering information in documents, the difficulty of incorporating external linguistic knowledge, and the lack of both accurate and efficient inference methods for approximating the intractable posterior. Recently, pretrained language models (PLMs) have brought astonishing performance improvements to a wide variety of tasks due to their superior representations of text. Interestingly, there have not been standard approaches to deploy PLMs for topic discovery as better alternatives to topic models. In this paper, we begin by analyzing the challenges of using PLM representations for topic discovery, and then propose a joint latent space learning and clustering framework built upon PLM embeddings. In the latent space, topic-word and document-topic distributions are jointly modeled so that the discovered topics can be interpreted by coherent and distinctive terms and meanwhile serve as meaningful summaries of the documents. Our model effectively leverages the strong representation power and superb linguistic features brought by PLMs for topic discovery, and is conceptually simpler than topic models. On two benchmark datasets in different domains, our model generates significantly more coherent and diverse topics than strong topic models, and offers better topic-wise document representations, based on both automatic and human evaluations.
翻訳日:2022-02-10 15:04:20 公開日:2022-02-09
# Universal Hopfield Networks: シングルショット連想記憶モデルのための汎用フレームワーク

Universal Hopfield Networks: A General Framework for Single-Shot Associative Memory Models ( http://arxiv.org/abs/2202.04557v1 )

ライセンス: Link先を確認
Beren Millidge, Tommaso Salvatori, Yuhang Song, Thomas Lukasiewicz, Rafal Bogacz(参考訳) 論文では,連想記憶のニューラルネットワークモデルが多数提案されている。 その中には古典的なホップフィールドネットワーク(HN)、スパース分散メモリ(SDM)、最近では機械学習における自己注意と密接なリンクを持つ現代の連続ホップフィールドネットワーク(MCHN)などがある。 本稿では,このようなメモリネットワークの動作を,類似性,分離,投影という3つの操作の系列として理解するための汎用フレームワークを提案する。 これらのメモリモデルは、類似性と分離関数が異なる一般的なフレームワークのインスタンスとして導出します。 我々は、Krotov et al (2020) の数学的枠組みを拡張し、ニューロン間の二階相互作用しか持たないニューラルネットワーク力学を用いた一般連想記憶モデルを示し、その力学のリアプノフ関数である一般エネルギー関数を導出する。 最後に,本フレームワークを用いて,これらの連想メモリモデルに対して,ドット積類似度測定以外の様々な類似度関数を使用する能力について実証的に検討し,ユークリッドやマンハッタンの距離類似度測定値が多くのタスクにおいて実践的に著しく優れていることを示す。

A large number of neural network models of associative memory have been proposed in the literature. These include the classical Hopfield networks (HNs), sparse distributed memories (SDMs), and more recently the modern continuous Hopfield networks (MCHNs), which possesses close links with self-attention in machine learning. In this paper, we propose a general framework for understanding the operation of such memory networks as a sequence of three operations: similarity, separation, and projection. We derive all these memory models as instances of our general framework with differing similarity and separation functions. We extend the mathematical framework of Krotov et al (2020) to express general associative memory models using neural network dynamics with only second-order interactions between neurons, and derive a general energy function that is a Lyapunov function of the dynamics. Finally, using our framework, we empirically investigate the capacity of using different similarity functions for these associative memory models, beyond the dot product similarity measure, and demonstrate empirically that Euclidean or Manhattan distance similarity metrics perform substantially better in practice on many tasks, enabling a more robust retrieval and higher memory capacity than existing models.
翻訳日:2022-02-10 15:02:06 公開日:2022-02-09
# 2次情報を用いた統計モデルの計算複雑性の向上

Improving Computational Complexity in Statistical Models with Second-Order Information ( http://arxiv.org/abs/2202.04219v1 )

ライセンス: Link先を確認
Tongzheng Ren and Jiacheng Zhuo and Sujay Sanghavi and Nhat Ho(参考訳) 統計モデルが特異である場合、すなわち、真のパラメータのフィッシャー情報行列が縮退すると、固定されたステップサイズ勾配降下アルゴリズムは、実パラメータの周りの最終的な統計半径に収束するために、サンプルサイズ$n$の項で多項式数のステップを取る。 計算複雑性をさらに改善するため,最適化アルゴリズムの設計における2次情報の利用を検討する。 具体的には,統計モデルの経験的損失関数のヘッセン行列の最大固有値を用いて,ステップサイズをスケールした勾配降下アルゴリズムの変種であるパラメトリック統計モデルのパラメータ推定のための正規化勾配降下(NormGD)アルゴリズムについて検討する。 集団損失関数、すなわち$n$が無限大になるときの経験的損失関数の極限がすべての方向に均質であるとき、NormGD の反復は$n$の対数的な反復数の後、真のパラメータの周りの最終的な統計的半径に達することを示した。 したがって、固定次元$d$の場合、ノルムGDアルゴリズムは最終的な統計半径に達するために最適な計算複雑性$\mathcal{O}(n)$を達成する。 この計算複雑性は、幾らかの$\tau > 1$に対して$\mathcal{O}(n^{\tau})$の次数である固定ステップサイズ勾配勾配アルゴリズムよりも低く、同じ統計半径に達する。 一般化線形モデルと混合モデルという2つの統計モデルの下での一般理論を示し, 一般理論による予測を実験的に支持する。

It is known that when the statistical models are singular, i.e., the Fisher information matrix at the true parameter is degenerate, the fixed step-size gradient descent algorithm takes polynomial number of steps in terms of the sample size $n$ to converge to a final statistical radius around the true parameter, which can be unsatisfactory for the application. To further improve that computational complexity, we consider the utilization of the second-order information in the design of optimization algorithms. Specifically, we study the normalized gradient descent (NormGD) algorithm for solving parameter estimation in parametric statistical models, which is a variant of gradient descent algorithm whose step size is scaled by the maximum eigenvalue of the Hessian matrix of the empirical loss function of statistical models. When the population loss function, i.e., the limit of the empirical loss function when $n$ goes to infinity, is homogeneous in all directions, we demonstrate that the NormGD iterates reach a final statistical radius around the true parameter after a logarithmic number of iterations in terms of $n$. Therefore, for fixed dimension $d$, the NormGD algorithm achieves the optimal overall computational complexity $\mathcal{O}(n)$ to reach the final statistical radius. This computational complexity is cheaper than that of the fixed step-size gradient descent algorithm, which is of the order $\mathcal{O}(n^{\tau})$ for some $\tau > 1$, to reach the same statistical radius. We illustrate our general theory under two statistical models: generalized linear models and mixture models, and experimental results support our prediction with general theory.
翻訳日:2022-02-10 15:01:43 公開日:2022-02-09
# crat-pred: クリスタルグラフ畳み込みニューラルネットワークとマルチヘッドセルフアテンションによる車両軌道予測

CRAT-Pred: Vehicle Trajectory Prediction with Crystal Graph Convolutional Neural Networks and Multi-Head Self-Attention ( http://arxiv.org/abs/2202.04488v1 )

ライセンス: Link先を確認
Julian Schmidt, Julian Jordan, Franz Gritschneder, Klaus Dietmayer(参考訳) 周囲の車両の動きを予測することは、自律走行車にとって不可欠である。 現状の自動車予測モデルは地図情報に大きく依存している。 しかし実際には、この情報は必ずしも利用できない。 そこで我々は,地図情報に頼らずに,車両間の社会的相互作用を効果的にモデル化することを目的としたマルチモーダル・非ラスタライズ型軌道予測モデルcrat-predを提案する。 CRAT-Predは、物質科学の分野から生まれたグラフ畳み込み法を車両の予測に適用し、エッジの特徴を効率的に活用し、マルチヘッドの自己認識と組み合わせることができる。 他のマップフリーアプローチと比較して、モデルパラメータが著しく少ない状態で最先端のパフォーマンスを達成する。 それに加えて, 自己着脱機構が, 計測可能な相互作用スコアを表す重みを用いて, 車両間の社会的相互作用を学習できることを定量的に示す。 ソースコードは公開されている。

Predicting the motion of surrounding vehicles is essential for autonomous vehicles, as it governs their own motion plan. Current state-of-the-art vehicle prediction models heavily rely on map information. In reality, however, this information is not always available. We therefore propose CRAT-Pred, a multi-modal and non-rasterization-based trajectory prediction model, specifically designed to effectively model social interactions between vehicles, without relying on map information. CRAT-Pred applies a graph convolution method originating from the field of material science to vehicle prediction, allowing to efficiently leverage edge features, and combines it with multi-head self-attention. Compared to other map-free approaches, the model achieves state-of-the-art performance with a significantly lower number of model parameters. In addition to that, we quantitatively show that the self-attention mechanism is able to learn social interactions between vehicles, with the weights representing a measurable interaction score. The source code is publicly available.
翻訳日:2022-02-10 14:59:00 公開日:2022-02-09
# ニューラルネットワークを用いた腹腔鏡映像の終端ブラインド品質評価

End-to-End Blind Quality Assessment for Laparoscopic Videos using Neural Networks ( http://arxiv.org/abs/2202.04517v1 )

ライセンス: Link先を確認
Zohaib Amjad Khan, Azeddine Beghdadi, Mounir Kaaniche, Faouzi Alaya Cheikh and Osama Gharbi(参考訳) 映像品質評価は医用画像の文脈において重要な意味を持つ課題である。 例えば、腹腔鏡下手術では、取得したビデオデータは、手術性能を阻害するだけでなく、手術ナビゲーションやロボット手術におけるその後のタスクの実行に影響を与える異なる種類の歪みに苦しむ。 そこで本稿では,歪み分類と品質予測のためのニューラルネットワークに基づくアプローチを提案する。 より正確には、Residual Network(ResNet)ベースのアプローチが、まず、同時ランキングと分類タスクのために開発されている。 次に、このアーキテクチャを拡張して、追加のFCNN(Fully Connected Neural Network)を用いて品質予測タスクに適合させる。 アーキテクチャ全体(resnetとfcnnモデル)をトレーニングするために、転送学習とエンドツーエンド学習アプローチを調査した。 腹腔鏡下ビデオ品質データベースを用いて実験を行った結果,従来法や深層学習法と比較して,提案手法の有効性が示された。

Video quality assessment is a challenging problem having a critical significance in the context of medical imaging. For instance, in laparoscopic surgery, the acquired video data suffers from different kinds of distortion that not only hinder surgery performance but also affect the execution of subsequent tasks in surgical navigation and robotic surgeries. For this reason, we propose in this paper neural network-based approaches for distortion classification as well as quality prediction. More precisely, a Residual Network (ResNet) based approach is firstly developed for simultaneous ranking and classification task. Then, this architecture is extended to make it appropriate for the quality prediction task by using an additional Fully Connected Neural Network (FCNN). To train the overall architecture (ResNet and FCNN models), transfer learning and end-to-end learning approaches are investigated. Experimental results, carried out on a new laparoscopic video quality database, have shown the efficiency of the proposed methods compared to recent conventional and deep learning based approaches.
翻訳日:2022-02-10 14:58:43 公開日:2022-02-09
# ニューラル画像圧縮における構造空間の探索

Exploring Structural Sparsity in Neural Image Compression ( http://arxiv.org/abs/2202.04595v1 )

ライセンス: Link先を確認
Shanzhi Yin, Fanyang Meng, Wen Tan, Chao Li, Youneng Bao, Yongsheng Liang, Wei Liu(参考訳) ニューラル画像圧縮は従来の手法(JPEG、BPG、WebPなど)に到達または性能が向上した。 しかし、カスケード畳み込み層を持つ洗練されたネットワーク構造は、実用的な配置に大量の計算負荷をもたらす。 本稿では,ニューラル画像圧縮ネットワークにおける構造的空間性について検討し,ハードウェア設計やアルゴリズムを使わずにリアルタイムな高速化を実現する。 本稿では,各畳み込みチャネルの重要性を判断し,訓練中にスパーシティを導入するための,簡易なプラグイン適応バイナリチャネルマスキング(abcm)を提案する。 推論の間、重要でないチャネルは、よりスリムなネットワークと少ない計算を得るために刈り取られる。 提案手法を,異なるエントロピーモデルを持つ3つのニューラル画像圧縮ネットワークに実装し,その有効性と一般化性を検証する。

Neural image compression have reached or out-performed traditional methods (such as JPEG, BPG, WebP). However,their sophisticated network structures with cascaded convolution layers bring heavy computational burden for practical deployment. In this paper, we explore the structural sparsity in neural image compression network to obtain real-time acceleration without any specialized hardware design or algorithm. We propose a simple plug-in adaptive binary channel masking(ABCM) to judge the importance of each convolution channel and introduce sparsity during training. During inference, the unimportant channels are pruned to obtain slimmer network and less computation. We implement our method into three neural image compression networks with different entropy models to verify its effectiveness and generalization, the experiment results show that up to 7x computation reduction and 3x acceleration can be achieved with negligible performance drop.
翻訳日:2022-02-10 14:58:28 公開日:2022-02-09
# Volkswagen Financial Services AGにおけるAIとデータ駆動モビリティ

A.I. and Data-Driven Mobility at Volkswagen Financial Services AG ( http://arxiv.org/abs/2202.04411v1 )

ライセンス: Link先を確認
Shayan Jawed, Mofassir ul Islam Arif, Ahmed Rashed, Kiran Madhusudhanan, Shereen Elsayed, Mohsan Jameel, Alexei Volk, Andre Hintsches, Marlies Kornfeld, Katrin Lange, Lars Schmidt-Thieme(参考訳) 機械学習は、市販のハードウェアの能力と急速に進歩する研究のために、産業アプリケーションに広く応用されている。 自動車リースサービスのマーケットリーダーであるフォルクスワーゲン・ファイナンシャル・サービス(VWFS)は、既存のプロプライエタリなデータと最新の研究を活用して、既存および新規のビジネスプロセスを強化することを目指している。 情報システムと機械学習ラボ(ISMLL)とVWFSのコラボレーションは、この目標を実現するのに役立ちます。 本稿では,VWFSにおける車両ライフサイクルにおけるデータ駆動型決定を可能にするレコメンデータシステム,オブジェクト検出,予測の分野における手法を提案する。

Machine learning is being widely adapted in industrial applications owing to the capabilities of commercially available hardware and rapidly advancing research. Volkswagen Financial Services (VWFS), as a market leader in vehicle leasing services, aims to leverage existing proprietary data and the latest research to enhance existing and derive new business processes. The collaboration between Information Systems and Machine Learning Lab (ISMLL) and VWFS serves to realize this goal. In this paper, we propose methods in the fields of recommender systems, object detection, and forecasting that enable data-driven decisions for the vehicle life-cycle at VWFS.
翻訳日:2022-02-10 14:58:10 公開日:2022-02-09
# revisiting qmix:gradient entropy regularizationによる識別的クレジット割り当て

Revisiting QMIX: Discriminative Credit Assignment by Gradient Entropy Regularization ( http://arxiv.org/abs/2202.04427v1 )

ライセンス: Link先を確認
Jian Zhao, Yue Zhang, Xunhan Hu, Weixun Wang, Wengang Zhou, Jianye Hao, Jiangcheng Zhu, Houqiang Li(参考訳) 協力的なマルチエージェントシステムでは、エージェントは共同で行動し、個々の報酬ではなくチーム報酬を受け取る。 個別の報酬信号がない場合、クレジット割り当て機構は、効果的な協力を達成するために、異なるエージェントの貢献を識別するために導入される。 近年、クレジット割り当てを実現するために価値分解パラダイムが広く採用され、qmixは最先端のソリューションとなっている。 本稿では2つの側面からQMIXを再考する。 まず、クレジット割当測定の新しい視点を提案し、QMIXがエージェントへのクレジット割当において限定的な差別性に苦しむことを示す。 第2に,qmixを用いた勾配エントロピー正規化法を提案する。 実験により,学習効率が比較的向上し,パフォーマンスが向上することを示した。

In cooperative multi-agent systems, agents jointly take actions and receive a team reward instead of individual rewards. In the absence of individual reward signals, credit assignment mechanisms are usually introduced to discriminate the contributions of different agents so as to achieve effective cooperation. Recently, the value decomposition paradigm has been widely adopted to realize credit assignment, and QMIX has become the state-of-the-art solution. In this paper, we revisit QMIX from two aspects. First, we propose a new perspective on credit assignment measurement and empirically show that QMIX suffers limited discriminability on the assignment of credits to agents. Second, we propose a gradient entropy regularization with QMIX to realize a discriminative credit assignment, thereby improving the overall performance. The experiments demonstrate that our approach can comparatively improve learning efficiency and achieve better performance.
翻訳日:2022-02-10 14:57:56 公開日:2022-02-09
# HTN計画と実行のためのタスク修飾器

Task Modifiers for HTN Planning and Acting ( http://arxiv.org/abs/2202.04611v1 )

ライセンス: Link先を確認
Weihang Yuan, Hector Munoz-Avila, Venkatsampath Raja Gogineni, Sravya Kondrakunta, Michael Cox, Lifang He(参考訳) エージェントが予期せぬイベントに応答して目的を変更する能力は、動的環境において望ましい。 この機能を階層型タスクネットワーク(HTN)計画に適用するために,タスクリストと状態を受け取り,新しいタスクリストを生成する関数であるタスク修飾子(Task modifiers)と呼ばれるパラダイムの拡張を提案する。 我々は、計画と実行がインターリーブされ、外因性イベントを扱う能力が不可欠である特定のタイプの問題に焦点を当てる。 提案手法の有効性を明らかにするため,従来のHTNドメインとは大きく異なるシミュレーションである2つの環境におけるタスク修飾器の実装性能を評価する。

The ability of an agent to change its objectives in response to unexpected events is desirable in dynamic environments. In order to provide this capability to hierarchical task network (HTN) planning, we propose an extension of the paradigm called task modifiers, which are functions that receive a task list and a state and produce a new task list. We focus on a particular type of problems in which planning and execution are interleaved and the ability to handle exogenous events is crucial. To determine the efficacy of this approach, we evaluate the performance of our task modifier implementation in two environments, one of which is a simulation that differs substantially from traditional HTN domains.
翻訳日:2022-02-10 14:57:41 公開日:2022-02-09
# (参考訳) 専門知識の情報統合による精密放射線治療とaiによる臨床意思決定の最適化

Precision Radiotherapy via Information Integration of Expert Human Knowledge and AI Recommendation to Optimize Clinical Decision Making ( http://arxiv.org/abs/2202.04565v1 )

ライセンス: CC BY 4.0
Wenbo Sun, Dipesh Niraula, Issam El Naqa, Randall K Ten Haken, Ivo D Dinov, Kyle Cuneo, Judy Jin(参考訳) 精密医療時代においては、治療効果を確保するために、患者固有の情報を多量に考慮し、計画された放射線線量を決定する必要がある精度放射線療法の必要性が高まっている。 既存の人工知能(AI)法は、この利用可能な情報の範囲内で放射線線量処方を推奨することができる。 しかし、医師の治療は、既知の制限や、AI推奨が医師の現在の知識を超えた場合のために、AIの推奨処方薬を完全には信頼できない可能性がある。 本稿では,専門知識をAIレコメンデーションと統合して臨床意思決定を最適化するための体系的手法を提案する。 この目標に向けて、ガウス過程(GP)モデルはディープニューラルネットワーク(DNN)と統合され、医師による治療結果の不確実性の定量化とAIレコメンデーションが、さらに臨床医師の教育とAIモデルのパフォーマンス向上のためのガイドラインとして使用される。 提案法は,非小細胞肺癌患者67ドルの放射線治療中に患者固有の情報と治療結果を収集し,振り返って解析する包括的データセットで実証された。

In the precision medicine era, there is a growing need for precision radiotherapy where the planned radiation dose needs to be optimally determined by considering a myriad of patient-specific information in order to ensure treatment efficacy. Existing artificial-intelligence (AI) methods can recommend radiation dose prescriptions within the scope of this available information. However, treating physicians may not fully entrust the AI's recommended prescriptions due to known limitations or when the AI recommendation may go beyond physicians' current knowledge. This paper lays out a systematic method to integrate expert human knowledge with AI recommendations for optimizing clinical decision making. Towards this goal, Gaussian process (GP) models are integrated with deep neural networks (DNNs) to quantify the uncertainty of the treatment outcomes given by physicians and AI recommendations, respectively, which are further used as a guideline to educate clinical physicians and improve AI models performance. The proposed method is demonstrated in a comprehensive dataset where patient-specific information and treatment outcomes are prospectively collected during radiotherapy of $67$ non-small cell lung cancer patients and retrospectively analyzed.
翻訳日:2022-02-10 14:55:31 公開日:2022-02-09
# 説明による特徴量に着目したロバスト畳み込みニューラルネットワークの学習

Learning Robust Convolutional Neural Networks with Relevant Feature Focusing via Explanations ( http://arxiv.org/abs/2202.04237v1 )

ライセンス: Link先を確認
Kazuki Adachi, Shin'ya Yamaguchi(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく既存の画像認識技術は、基本的にトレーニングとテストデータセットがi.d分布からサンプリングされていると仮定する。 しかし、この仮定は、入力画像におけるオブジェクトと背景の共起関係が変化するときに発生する分布シフトのため、現実世界では容易に破られる。 このような分散シフトの下で、cnnは、トレーニングデータからのバックグラウンドなどタスクに関係のない機能に注目し、テストデータの精度を低下させることを学ぶ。 この問題に対処するために、関連する特徴焦点(ReFF)を提案する。 ReFFはタスク関連機能を検出し、説明出力(Grad-CAMなど)を通じてCNNを正規化する。 ReFFはポストホックな説明モジュールで構成されているので、市販のCNNにも容易に適用できる。 さらに、ReFFはトレーニング中に正規化にのみ使用されるため、テスト時に追加の推論コストを必要としない。 我々は、ReFFで訓練されたCNNが対象タスクに関連する機能に注目し、ReFFがテスト時間精度を向上させることを示した。

Existing image recognition techniques based on convolutional neural networks (CNNs) basically assume that the training and test datasets are sampled from i.i.d distributions. However, this assumption is easily broken in the real world because of the distribution shift that occurs when the co-occurrence relations between objects and backgrounds in input images change. Under this type of distribution shift, CNNs learn to focus on features that are not task-relevant, such as backgrounds from the training data, and degrade their accuracy on the test data. To tackle this problem, we propose relevant feature focusing (ReFF). ReFF detects task-relevant features and regularizes CNNs via explanation outputs (e.g., Grad-CAM). Since ReFF is composed of post-hoc explanation modules, it can be easily applied to off-the-shelf CNNs. Furthermore, ReFF requires no additional inference cost at test time because it is only used for regularization while training. We demonstrate that CNNs trained with ReFF focus on features relevant to the target task and that ReFF improves the test-time accuracy.
翻訳日:2022-02-10 14:23:48 公開日:2022-02-09
# 知覚の内部シミュレーションによる意図した行動予測

Predicting the intended action using internal simulation of perception ( http://arxiv.org/abs/2202.04466v1 )

ライセンス: Link先を確認
Zahra Gharaee(参考訳) 本稿では,行動パターンベクトルで表される知覚状態の内部シミュレーションによって意図を予測するアーキテクチャを提案する。 この目的のために、アソシエーション自己組織型ニューラルネットワーク(A-SOM)を用いて、骨格に基づく人間の行動の認識とシミュレーションのための階層的認知アーキテクチャを構築する。 3次元動作の3つの異なるデータセットを用いて,動作認識と予測における提案アーキテクチャの能力を評価する。 本稿では,行動パターンベクトルで表される内的擬似知覚状態を適用することにより,全ての実験において認識タスクの性能が向上することを示す。 さらに、知覚の内部シミュレーションは、知覚入力へのアクセスが限られている問題や、連続する知覚シーケンスの将来の予測にも対処している。 システムの性能を自己組織化ニューラルネットワーク(SOM)を用いて類似のアーキテクチャで比較検討した。

This article proposes an architecture, which allows the prediction of intention by internally simulating perceptual states represented by action pattern vectors. To this end, associative self-organising neural networks (A-SOM) is utilised to build a hierarchical cognitive architecture for recognition and simulation of the skeleton based human actions. The abilities of the proposed architecture in recognising and predicting actions is evaluated in experiments using three different datasets of 3D actions. Based on the experiments of this article, applying internally simulated perceptual states represented by action pattern vectors improves the performance of the recognition task in all experiments. Furthermore, internal simulation of perception addresses the problem of having limited access to the sensory input, and also the future prediction of the consecutive perceptual sequences. The performance of the system is compared and discussed with similar architecture using self-organizing neural networks (SOM).
翻訳日:2022-02-10 14:23:32 公開日:2022-02-09
# 野生生物カメラトラッピングにおける距離推定と動物追跡

Distance Estimation and Animal Tracking for Wildlife Camera Trapping ( http://arxiv.org/abs/2202.04613v1 )

ライセンス: Link先を確認
Peter Johanns, Timm Haucke, Volker Steinhage(参考訳) 生物多様性の凍結は、例えば生物多様性の低下の原因と保存的介入の有効性を特定するために、動物の密度と豊富さの正確な推定を要求する。 この目的のために、カメラトラップと豊かさ推定法がしばしば用いられる。 カメラと観察された動物の間の必要な距離は、伝統的に、勤勉で完全に手動または半自動的なプロセスによって導かれる。 どちらのアプローチも参照画像素材を必要とするため、取得が難しく、既存のデータセットでは利用できない。 本研究では,単眼深度推定(mde)に基づいてカメラから動物間距離を完全自動推定する手法を提案する。 我々は、距離を推定するために最先端の相対的MDEと新しいアライメント手順を利用する。 トレーニング中に見つからない動物園シナリオデータセットに対するアプローチを評価する。 平均絶対距離推定誤差は0.9864メートルで精度90.3%、リコール63.8%であり、生物多様性研究者に求められる手作業を完全に排除した。 コードは利用可能になります。

The ongoing biodiversity crysis calls for accurate estimation of animal density and abundance to identify, for example, sources of biodiversity decline and effectiveness of conservation interventions. Camera traps together with abundance estimation methods are often employed for this purpose. The necessary distances between camera and observed animal are traditionally derived in a laborious, fully manual or semi-automatic process. Both approaches require reference image material, which is both difficult to acquire and not available for existing datasets. In this study, we propose a fully automatic approach to estimate camera-to-animal distances, based on monocular depth estimation (MDE), and without the need of reference image material. We leverage state-of-the-art relative MDE and a novel alignment procedure to estimate metric distances. We evaluate the approach on a zoo scenario dataset unseen during training. We achieve a mean absolute distance estimation error of only 0.9864 meters at a precision of 90.3% and recall of 63.8%, while completely eliminating the previously required manual effort for biodiversity researchers. The code will be made available.
翻訳日:2022-02-10 14:21:09 公開日:2022-02-09
# 言語モデルを用いた学習データ生成:ゼロショット言語理解に向けて

Generating Training Data with Language Models: Towards Zero-Shot Language Understanding ( http://arxiv.org/abs/2202.04538v1 )

ライセンス: Link先を確認
Yu Meng, Jiaxin Huang, Yu Zhang, Jiawei Han(参考訳) 事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを示している:一方向のPLM(例えば、GPT)は、優れたテキスト生成能力でよく知られており、双方向のPLM(例えば、BERT)は、自然言語理解(NLU)タスクにおいて顕著な選択である。 どちらのモデルも望まれる数発の学習性能を達成したが、ゼロショット学習の可能性は過小評価されている。 本稿では,nluタスクの完全なゼロショット学習に,両タイプのplmを用いる簡単な手法を提案する。一方向plmは,双方向plmを微調整するためのトレーニングデータとして使用される,プロンプトによるクラス条件付きテキストを生成する。 With quality training data selected based on the generation probability and regularization techniques (label smoothing and temporal ensembling) applied to the fine-tuning stage for better generalization and stability, our approach demonstrates strong performance across seven classification tasks of the GLUE benchmark (e.g., 72.3/73.8 on MNLI-m/mm and 92.8 on SST-2), significantly outperforming zero-shot prompting methods and achieving even comparable results to strong few-shot approaches using 32 training samples per class.

Pretrained language models (PLMs) have demonstrated remarkable performance in various natural language processing tasks: Unidirectional PLMs (e.g., GPT) are well known for their superior text generation capabilities; bidirectional PLMs (e.g., BERT) have been the prominent choice for natural language understanding (NLU) tasks. While both types of models have achieved promising few-shot learning performance, their potential for zero-shot learning has been underexplored. In this paper, we present a simple approach that uses both types of PLMs for fully zero-shot learning of NLU tasks without requiring any task-specific data: A unidirectional PLM generates class-conditioned texts guided by prompts, which are used as the training data for fine-tuning a bidirectional PLM. With quality training data selected based on the generation probability and regularization techniques (label smoothing and temporal ensembling) applied to the fine-tuning stage for better generalization and stability, our approach demonstrates strong performance across seven classification tasks of the GLUE benchmark (e.g., 72.3/73.8 on MNLI-m/mm and 92.8 on SST-2), significantly outperforming zero-shot prompting methods and achieving even comparable results to strong few-shot approaches using 32 training samples per class.
翻訳日:2022-02-10 14:20:52 公開日:2022-02-09
# 文法誘導記号回帰を用いたドメイン知識包摂に対する強化学習アプローチ

A Reinforcement Learning Approach to Domain-Knowledge Inclusion Using Grammar Guided Symbolic Regression ( http://arxiv.org/abs/2202.04367v1 )

ライセンス: Link先を確認
Laure Crochepierre (RTE, LORIA, ORPAILLEUR, UL), Lydia Boudjeloud-Assala (LORIA, ORPAILLEUR, UL), Vincent Barbesant (RTE)(参考訳) 近年、シンボル回帰は、潜在的に大きなデータ関係の解釈可能なシンボル表現を提供するために広く関心を集めている。 当初、遺伝的アルゴリズムに反し、記号回帰法は様々なDeep Learningベースの代替手段を含んでいる。 しかし、これらの手法は、ドメイン知識をほとんど含んでおらず、既知の方程式や単位のような変数間の物理的関係も考慮していないため、実世界のデータによく当てはまらない。 本稿では,文脈自由文法を強化作用空間として用いるドメイン知識で表現空間を制約する強化型文法誘導記号回帰法(rbg2-sr)を提案する。 我々は,問題の部分的に観察可能なマルコフ決定過程(pomdp)のモデル化を詳述し,最先端手法に対するアプローチをベンチマークする。 また,POMDPの状態定義を解析し,文法に基づく手法と非文法に基づく記号回帰法との比較を行う物理方程式探索ユースケースを提案する。 実験結果から,本手法はベンチマーク上の他の最先端手法と競合し,実世界のシナリオで文法ベースの手法を使うことに関心があることが示唆された。

In recent years, symbolic regression has been of wide interest to provide an interpretable symbolic representation of potentially large data relationships. Initially circled to genetic algorithms, symbolic regression methods now include a variety of Deep Learning based alternatives. However, these methods still do not generalize well to real-world data, mainly because they hardly include domain knowledge nor consider physical relationships between variables such as known equations and units. Regarding these issues, we propose a Reinforcement-Based Grammar-Guided Symbolic Regression (RBG2-SR) method that constrains the representational space with domain-knowledge using context-free grammar as reinforcement action space. We detail a Partially-Observable Markov Decision Process (POMDP) modeling of the problem and benchmark our approach against state-of-the-art methods. We also analyze the POMDP state definition and propose a physical equation search use case on which we compare our approach to grammar-based and non-grammarbased symbolic regression methods. The experiment results show that our method is competitive against other state-of-the-art methods on the benchmarks and offers the best error-complexity trade-off, highlighting the interest of using a grammar-based method in a real-world scenario.
翻訳日:2022-02-10 14:20:32 公開日:2022-02-09
# ゴール条件付き指導学習の再考とオフラインRLとの関係

Rethinking Goal-conditioned Supervised Learning and Its Connection to Offline RL ( http://arxiv.org/abs/2202.04478v1 )

ライセンス: Link先を確認
Rui Yang, Yiming Lu, Wenzhe Li, Hao Sun, Meng Fang, Yali Du, Xiu Li, Lei Han, Chongjie Zhang(参考訳) 現在の強化学習(RL)アルゴリズムよりも単純で安定性が高いことから,自己教師付き学習を用いた疎度な報酬による目標条件付きタスクの解決が期待できる。 Goal-Conditioned Supervised Learning (GCSL)と呼ばれる最近の研究は、自己生成した経験を反復的に再現し、新しい学習フレームワークを提供する。 本稿では,目標到達目標の低限界を最適化するGCSLの理論的特性を再検討し,新しいオフライン目標条件付きRLアルゴリズムとしてGCSLを拡張した。 提案手法はWGCSL (Weighted GCSL) と命名され,(1)目標達成のためのディスカウント重量,(2)目標条件の指数的優位重量,(3)最良アドバンテージ重量の3つの部分からなる高度な複合重量を導入する。 理論的には、wgcslは目標条件付きrl目標の等価な下限を最適化し、反復スキームによって単調に改善されたポリシーを生成することが証明されている。 モノトニックなプロパティはいかなる行動ポリシーも保持するので、WGCSLはオンラインとオフラインの両方の設定に適用できる。 オフラインの目標条件付きrl設定でアルゴリズムを評価するために,点領域とシミュレーションロボット領域を含むベンチマークを提供する。 紹介されたベンチマークでは、WGCSLがGCSLと既存の最先端のオフラインメソッドを、完全にオフラインのゴール条件設定で一貫して上回ることを示した。

Solving goal-conditioned tasks with sparse rewards using self-supervised learning is promising because of its simplicity and stability over current reinforcement learning (RL) algorithms. A recent work, called Goal-Conditioned Supervised Learning (GCSL), provides a new learning framework by iteratively relabeling and imitating self-generated experiences. In this paper, we revisit the theoretical property of GCSL -- optimizing a lower bound of the goal reaching objective, and extend GCSL as a novel offline goal-conditioned RL algorithm. The proposed method is named Weighted GCSL (WGCSL), in which we introduce an advanced compound weight consisting of three parts (1) discounted weight for goal relabeling, (2) goal-conditioned exponential advantage weight, and (3) best-advantage weight. Theoretically, WGCSL is proved to optimize an equivalent lower bound of the goal-conditioned RL objective and generates monotonically improved policies via an iterated scheme. The monotonic property holds for any behavior policies, and therefore WGCSL can be applied to both online and offline settings. To evaluate algorithms in the offline goal-conditioned RL setting, we provide a benchmark including a range of point and simulated robot domains. Experiments in the introduced benchmark demonstrate that WGCSL can consistently outperform GCSL and existing state-of-the-art offline methods in the fully offline goal-conditioned setting.
翻訳日:2022-02-10 14:20:09 公開日:2022-02-09
# 最適輸送によるdyadic fairnessの獲得

Obtaining Dyadic Fairness by Optimal Transport ( http://arxiv.org/abs/2202.04520v1 )

ライセンス: Link先を確認
Moyi Yang, Junjie Sheng, Xiangfeng Wang, Wenyan Liu, Bo Jin, Jun Wang, Hongyuan Zha(参考訳) フェアネスは機械学習モデルにおいて重要な指標とされている。 様々なタスクに対する公平さの獲得方法を研究する多くの仕事がある。 本稿では,dyadic fairness を用いて測定可能なリンク予測タスクに対するフェアネスの取得について検討する。 そこで本研究では,データ修復と最適輸送を両立させる前処理手法を提案する。 柔軟性と曖昧さを満たしたdyadic fairnessを得るため,dyadic repairingを最適輸送に基づいて条件分布アライメント問題に変換し,提案するアライメントとdyadic fairnessの関係に関する理論的結果を得る。 グラフリンク予測のために, 最適輸送に基づくダイアドフェアネスアルゴリズムを提案する。 提案アルゴリズムは,2つのベンチマークグラフデータセットの他の前処理手法と比較して,公平性を得る上で優れた結果を示す。

Fairness has been taken as a critical metric on machine learning models. Many works studying how to obtain fairness for different tasks emerge. This paper considers obtaining fairness for link prediction tasks, which can be measured by dyadic fairness. We aim to propose a pre-processing methodology to obtain dyadic fairness through data repairing and optimal transport. To obtain dyadic fairness with satisfying flexibility and unambiguity requirements, we transform the dyadic repairing to the conditional distribution alignment problem based on optimal transport and obtain theoretical results on the connection between the proposed alignment and dyadic fairness. The optimal transport-based dyadic fairness algorithm is proposed for graph link prediction. Our proposed algorithm shows superior results on obtaining fairness compared with the other pre-processing methods on two benchmark graph datasets.
翻訳日:2022-02-10 14:19:42 公開日:2022-02-09
# (参考訳) 決定木のためのバックトラックティーブレーキング:デオデータ予測器について

Backtrack Tie-Breaking for Decision Trees: A Note on Deodata Predictors ( http://arxiv.org/abs/2202.03865v2 )

ライセンス: CC BY 4.0
Cristian Alb(参考訳) 決定木において予測されたクラスまたは結果を選択するためのタイブレーキング手法を提案する。 この方法は、デオデータ予測器に使用される同様の手法の適応である。

A tie-breaking method is proposed for choosing the predicted class, or outcome, in a decision tree. The method is an adaptation of a similar technique used for deodata predictors.
翻訳日:2022-02-10 13:49:32 公開日:2022-02-09
# (参考訳) ゲノミクスにおける遺伝子発現データ解析のための計算学習法の包括的調査

Comprehensive survey of computational learning methods for analysis of gene expression data in genomics ( http://arxiv.org/abs/2202.02958v2 )

ライセンス: CC BY 4.0
Nikita Bhandari, Rahee Walambe, Ketan Kotecha, Satyajeet Khare(参考訳) 機械学習を含む計算分析手法は、ゲノム学や医学の分野に大きな影響を与えている。 マイクロアレイ技術やRNAシークエンシングなどの高スループット遺伝子発現解析手法は膨大な量のデータを生成する。 伝統的に、統計的手法は遺伝子発現データの比較分析に用いられる。 しかし、特徴遺伝子の分類と発見のためのより複雑な分析やサンプル観察には高度な計算手法が必要である。 本稿では,表現マイクロアレイデータの解析に用いられる各種統計・計算ツールについて概説する。 これらの手法は, 発現マイクロアレイデータの文脈で論じられているが, RNAシークエンシングや定量プロテオミクスデータセットの解析にも応用できる。 具体的には,不備値(遺伝子発現)の計算方法,特徴遺伝子のスケーリング,次元減少のための特徴の選択と抽出,表現データの学習と解析について論じる。 欠落する値の型と、通常そのインプテーションで使われるメソッドとアプローチについて論じる。 また、データ変換の手法や特徴スケーリングの手法についても論じる。 特徴選択や抽出に用いられる様々なアプローチも検討されている。 最後に、クラス比較、クラス予測、クラス発見を含む学習および分析方法とその評価パラメータについて詳述する。 以上の手法の利点と限界とともに,マイクロアレイ遺伝子発現データの生成プロセスについて述べる。 この詳細なレビューは、ユーザがデータの種類と期待される結果に基づいて適切な方法を選択するのに役立つと信じています。

Computational analysis methods including machine learning have a significant impact in the fields of genomics and medicine. High-throughput gene expression analysis methods such as microarray technology and RNA sequencing produce enormous amounts of data. Traditionally, statistical methods are used for comparative analysis of the gene expression data. However, more complex analysis for classification and discovery of feature genes or sample observations requires sophisticated computational approaches. In this review, we compile various statistical and computational tools used in analysis of expression microarray data. Even though, the methods are discussed in the context of expression microarray data, they can also be applied for the analysis of RNA sequencing or quantitative proteomics datasets. We specifically discuss methods for missing value (gene expression) imputation, feature gene scaling, selection and extraction of features for dimensionality reduction, and learning and analysis of expression data. We discuss the types of missing values and the methods and approaches usually employed in their imputation. We also discuss methods of data transformation and feature scaling viz. normalization and standardization. Various approaches used in feature selection and extraction are also reviewed. Lastly, learning and analysis methods including class comparison, class prediction, and class discovery along with their evaluation parameters are described in detail. We have described the process of generation of a microarray gene expression data along with advantages and limitations of the above-mentioned techniques. We believe that this detailed review will help the users to select appropriate methods based on the type of data and the expected outcome.
翻訳日:2022-02-10 13:47:46 公開日:2022-02-09
# (参考訳) モデルベース強化学習のための報酬評価サブタスク

Reward-Respecting Subtasks for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2202.03466v2 )

ライセンス: CC BY 4.0
Richard S. Sutton and Marlos C. Machado and G. Zacharias Holland and David Szepesvari and Finbarr Timbers and Brian Tanner and Adam White(参考訳) 人工知能の野心的な目標を達成するために、強化学習は、状態と時間に抽象的な世界のモデルによる計画を含む必要がある。 ディープラーニングは状態抽象化を進歩させたが、時間抽象化の理論はオプションフレームワークに基づいて広範囲に開発されてきたが、実際には計画にはほとんど使われていない。 この理由の1つは、オプションの空間が巨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。 オプションは通常、ボトルネック状態に到達する、または報酬以外の感覚信号を最大化するといった補助的なタスクを実行することで発見される。 各サブタスクは、オプションを生成するために解決され、オプションのモデルが学習され、計画プロセスで利用できる。 提案するサブタスクは,従来の問題に対する報酬を無視するのに対して,オプションが停止した時の状態の特徴に基づいて,元の報酬とボーナスを併用するサブタスクを提案する。 このような報酬評価サブタスクから得られるオプションやオプションモデルは、計画に有用である可能性が高く、既存の学習アルゴリズムを使用して、オンラインやオフポリシーで学ぶことができる。 サブタスクを尊重するリワードは、オプションの空間を強く制約し、オプション発見の問題に対する部分解を提供する。 最後に、一般的な値関数を用いて、値、ポリシー、オプション、モデルを学ぶアルゴリズムをどのように統合するかを示す。

To achieve the ambitious goals of artificial intelligence, reinforcement learning must include planning with a model of the world that is abstract in state and time. Deep learning has made progress in state abstraction, but, although the theory of time abstraction has been extensively developed based on the options framework, in practice options have rarely been used in planning. One reason for this is that the space of possible options is immense and the methods previously proposed for option discovery do not take into account how the option models will be used in planning. Options are typically discovered by posing subsidiary tasks such as reaching a bottleneck state, or maximizing a sensory signal other than the reward. Each subtask is solved to produce an option, and then a model of the option is learned and made available to the planning process. The subtasks proposed in most previous work ignore the reward on the original problem, whereas we propose subtasks that use the original reward plus a bonus based on a feature of the state at the time the option stops. We show that options and option models obtained from such reward-respecting subtasks are much more likely to be useful in planning and can be learned online and off-policy using existing learning algorithms. Reward respecting subtasks strongly constrain the space of options and thereby also provide a partial solution to the problem of option discovery. Finally, we show how the algorithms for learning values, policies, options, and models can be unified using general value functions.
翻訳日:2022-02-10 13:46:42 公開日:2022-02-09
# (参考訳) テキスト分類における対実的マルチトークンフェアネス

Counterfactual Multi-Token Fairness in Text Classification ( http://arxiv.org/abs/2202.03792v2 )

ライセンス: CC BY 4.0
Pranay Lohia(参考訳) 偽造トークンの生成は、一般的に短文で単一の文である1つのトークンだけを摂動することに限定されている。 これらのトークンは、しばしば多くの繊細な属性の1つに関連付けられる。 反事実が生成されると、任意の機密属性に対する機械学習分類モデルの不変性を達成するという目標が限定され、反事実公平性の定式化が狭まる。 本稿では,根の問題を解き,理解のためにより大きな領域を開くことで,これらの限界を克服する。 我々は、機密トークンとその対応する摂動トークンのリソースをキュレートし、年齢、性別、国籍への人種、障害、宗教といった伝統的に使用される機密属性を超えてサポートを拡張しました。 対実生成の概念は、あらゆる形式のテキストや文書に有効なマルチトークンサポートにまで拡張されている。 我々は,複数の機密トークンを摂動することで,偽造語を生成する方法を定義した。 この手法は、シングルトーケン方式よりも大幅な性能向上を示すために概念化され、複数のベンチマークデータセット上で検証されている。 カウンターファクト・ジェネレーションの賛同は、改良されたカウンターファクト・マルチトークン・フェアネスの実現に寄与する。

The counterfactual token generation has been limited to perturbing only a single token in texts that are generally short and single sentences. These tokens are often associated with one of many sensitive attributes. With limited counterfactuals generated, the goal to achieve invariant nature for machine learning classification models towards any sensitive attribute gets bounded, and the formulation of Counterfactual Fairness gets narrowed. In this paper, we overcome these limitations by solving root problems and opening bigger domains for understanding. We have curated a resource of sensitive tokens and their corresponding perturbation tokens, even extending the support beyond traditionally used sensitive attributes like Age, Gender, Race to Nationality, Disability, and Religion. The concept of Counterfactual Generation has been extended to multi-token support valid over all forms of texts and documents. We define the method of generating counterfactuals by perturbing multiple sensitive tokens as Counterfactual Multi-token Generation. The method has been conceptualized to showcase significant performance improvement over single-token methods and validated over multiple benchmark datasets. The emendation in counterfactual generation propagates in achieving improved Counterfactual Multi-token Fairness.
翻訳日:2022-02-10 13:27:17 公開日:2022-02-09
# (参考訳) graphdca -- 実グラフと合成グラフのノード分布比較のためのフレームワーク

GraphDCA -- a Framework for Node Distribution Comparison in Real and Synthetic Graphs ( http://arxiv.org/abs/2202.03884v2 )

ライセンス: CC BY 4.0
Ciwan Ceylan, Petra Poklukar, Hanna Hultin, Alexander Kravchenko, Anastasia Varava, Danica Kragic(参考訳) 2つのグラフを比較するとき、特にグラフ生成モデルを評価するためによく用いられるグローバルグラフ統計よりも、ノード構造の特徴の分布の方がより有益であると論じる。 そこで我々は,各ノード表現セットのアライメントに基づいて,グラフ間の類似性を評価するフレームワークGraphDCAを提案する。 これらの集合は、グラフデータに拡張したDCA(Delaunay Component Analysis)と呼ばれる、最近提案された表現空間の比較手法を用いて比較される。 本フレームワークを評価するために, 異なる構造パターンを示すグラフのベンチマークデータセットを作成し, 3つのノード構造特徴抽出器を用いて, 類似および異種局所構造を持つグラフを認識することを示す。 次に,3つの実世界のグラフデータセットを評価するためのフレームワークを適用し,段階的なエッジ摂動を用いて,グラフdcaがグローバル統計とは異なり徐々に類似度を減少させていくことを実証する。 最後に、グラフDCAを用いて2つの最先端グラフ生成モデル、NetGANとCellを評価し、これらのモデルが局所的な特徴を適切に再現するためにさらなる改善が必要であると結論づける。

We argue that when comparing two graphs, the distribution of node structural features is more informative than global graph statistics which are often used in practice, especially to evaluate graph generative models. Thus, we present GraphDCA - a framework for evaluating similarity between graphs based on the alignment of their respective node representation sets. The sets are compared using a recently proposed method for comparing representation spaces, called Delaunay Component Analysis (DCA), which we extend to graph data. To evaluate our framework, we generate a benchmark dataset of graphs exhibiting different structural patterns and show, using three node structure feature extractors, that GraphDCA recognizes graphs with both similar and dissimilar local structure. We then apply our framework to evaluate three publicly available real-world graph datasets and demonstrate, using gradual edge perturbations, that GraphDCA satisfyingly captures gradually decreasing similarity, unlike global statistics. Finally, we use GraphDCA to evaluate two state-of-the-art graph generative models, NetGAN and CELL, and conclude that further improvements are needed for these models to adequately reproduce local structural features.
翻訳日:2022-02-10 13:10:10 公開日:2022-02-09
# KENN: 時系列予測の知識を活用したディープニューラルネットワークの実現

KENN: Enhancing Deep Neural Networks by Leveraging Knowledge for Time Series Forecasting ( http://arxiv.org/abs/2202.03903v2 )

ライセンス: Link先を確認
Muhammad Ali Chattha, Ludger van Elst, Muhammad Imran Malik, Andreas Dengel, Sheraz Ahmed(参考訳) エンドツーエンドのデータ駆動機械学習手法は、実世界のアプリケーションでは実現できないことが多い、トレーニングデータの質と量という面では、しばしば余分な要件を持っています。 これは特に、災害予測、異常検出、需要予測などの問題が大量の履歴データを持っていない時系列領域において当てはまる。 さらに、トレーニングの過去の例に純粋に依存することは、実行時に非常に重要なドメインである知識を無視し、独自のアドバンテージを持つため、サブ最適である。 本稿では,知識とデータドメインの強みを両立させ,個々の弱点を緩和することを目的とした時系列予測のための知識融合アーキテクチャである知識強化ニューラルネットワーク(KENN)を提案する。 我々は、KENNがフレームワーク全体のデータ依存を減らすだけでなく、純粋に知識とデータ駆動ドメインによって生成されるものよりも優れた予測を生成することで、パフォーマンスを向上させることを示した。 また,kennと最先端予測手法を比較し,50%のデータをトレーニングした場合においても,kennが生成する予測が有意に優れていることを示した。

End-to-end data-driven machine learning methods often have exuberant requirements in terms of quality and quantity of training data which are often impractical to fulfill in real-world applications. This is specifically true in time series domain where problems like disaster prediction, anomaly detection, and demand prediction often do not have a large amount of historical data. Moreover, relying purely on past examples for training can be sub-optimal since in doing so we ignore one very important domain i.e knowledge, which has its own distinct advantages. In this paper, we propose a novel knowledge fusion architecture, Knowledge Enhanced Neural Network (KENN), for time series forecasting that specifically aims towards combining strengths of both knowledge and data domains while mitigating their individual weaknesses. We show that KENN not only reduces data dependency of the overall framework but also improves performance by producing predictions that are better than the ones produced by purely knowledge and data driven domains. We also compare KENN with state-of-the-art forecasting methods and show that predictions produced by KENN are significantly better even when trained on only 50\% of the data.
翻訳日:2022-02-10 12:46:07 公開日:2022-02-09
# エキスパート強化によるロバストハイブリッド学習

Robust Hybrid Learning With Expert Augmentation ( http://arxiv.org/abs/2202.03881v2 )

ライセンス: Link先を確認
Antoine Wehenkel, Jens Behrmann, Hsiang Hsu, Guillermo Sapiro, Gilles Louppe, J\"orn-Henrik Jacobsen(参考訳) ハイブリッドモデリングは、データから学んだ機械学習(ML)コンポーネントと組み合わせることで、専門家モデルの誤特定を減らす。 多くのMLアルゴリズムと同様に、ハイブリッドモデルの性能保証はトレーニング分布に限られている。 エキスパートモデルは通常、トレーニング領域外でも有効であるという知見を活用することで、‘textit{expert augmentation}’と呼ばれるハイブリッドデータ拡張戦略を導入することで、この制限を克服します。 ハイブリッドモデリングの確率論的形式化に基づき、専門家の強化が一般化を改善する理由を示す。 最後に, 常微分方程式および偏微分方程式によって記述される力学系をモデル化する一連の制御実験において, 拡張ハイブリッドモデルの実用的効果を検証する。

Hybrid modelling reduces the misspecification of expert models by combining them with machine learning (ML) components learned from data. Like for many ML algorithms, hybrid model performance guarantees are limited to the training distribution. Leveraging the insight that the expert model is usually valid even outside the training domain, we overcome this limitation by introducing a hybrid data augmentation strategy termed \textit{expert augmentation}. Based on a probabilistic formalization of hybrid modelling, we show why expert augmentation improves generalization. Finally, we validate the practical benefits of augmented hybrid models on a set of controlled experiments, modelling dynamical systems described by ordinary and partial differential equations.
翻訳日:2022-02-10 12:45:48 公開日:2022-02-09
# 固定重み付き単層ニューラルネットワークの近似誤差

Approximation error of single hidden layer neural networks with fixed weights ( http://arxiv.org/abs/2202.03289v2 )

ライセンス: Link先を確認
Vugar Ismailov(参考訳) 本稿では,2つの固定重みを持つ単一層ニューラルネットワークの近似誤差の明示的な式を提供する。

This paper provides an explicit formula for the approximation error of single hidden layer neural networks with two fixed weights.
翻訳日:2022-02-10 12:45:37 公開日:2022-02-09
# 文字統計を用いた種子単語の選択

Selecting Seed Words for Wordle using Character Statistics ( http://arxiv.org/abs/2202.03457v2 )

ライセンス: Link先を確認
Nisansa de Silva(参考訳) 単語推測ゲーム「wordle」は2022年1月に世界的な人気を博した。 ゲームの目的は6回以内に5文字の英語単語を推測することである。 各トライは、あるキャラクタがソリューションの一部であるかどうかを知らせる色を変えるタイルによってプレイヤーにヒントを与え、それがソリューションの一部である場合、それが正しい配置にあるかどうかを判断する。 毎日の単語を解決するための最善の出発語と最善の戦略を見つけるために、多くの試みがなされている。 本研究は,5文字単語の文字統計を用いて,最良3単語を決定する。

Wordle, a word guessing game rose to global popularity in the January of 2022. The goal of the game is to guess a five-letter English word within six tries. Each try provides the player with hints by means of colour changing tiles which inform whether or not a given character is part of the solution as well as, in cases where it is part of the solution, whether or not it is in the correct placement. Numerous attempts have been made to find the best starting word and best strategy to solve the daily wordle. This study uses character statistics of five-letter words to determine the best three starting words.
翻訳日:2022-02-10 12:45:34 公開日:2022-02-09
# 抽象要約に基づく微分可能なN-gram

Differentiable N-gram Objective on Abstractive Summarization ( http://arxiv.org/abs/2202.04003v2 )

ライセンス: Link先を確認
Yunqi Zhu and Wensheng Zhang and Mingjin Zhu(参考訳) ROUGEは、シーケンス・ツー・シーケンスタスクのn-gramに基づく標準的な自動評価指標であり、クロスエントロピー損失は、ユニグラムレベルで最適化されるニューラルネットワーク言語モデルの重要な目的である。 そこで我々は,n-gramの目標を微分可能とし,訓練基準と評価基準との相違を緩和する。 この目的は一致したサブシーケンスの確率的重みを最大化し、我々の研究の新規性は一致したサブシーケンスの目的重みを等しく保ち、基準系列におけるn-グラムの基底真理数によって一致したサブシーケンスの数を減少させない。 クロスエントロピー損失と提案する目標を共同で最適化し,抽象要約データセットcnn/dmとxsumに対して,適切なルージュスコアの強化を行い,代替n-gram目標を上回った。

ROUGE is a standard automatic evaluation metric based on n-grams for sequence-to-sequence tasks, while cross-entropy loss is an essential objective of neural network language model that optimizes at a unigram level. We present differentiable n-gram objectives, attempting to alleviate the discrepancy between training criterion and evaluating criterion. The objective maximizes the probabilistic weight of matched sub-sequences, and the novelty of our work is the objective weights the matched sub-sequences equally and does not ceil the number of matched sub-sequences by the ground truth count of n-grams in reference sequence. We jointly optimize cross-entropy loss and the proposed objective, providing decent ROUGE score enhancement over abstractive summarization dataset CNN/DM and XSum, outperforming alternative n-gram objectives.
翻訳日:2022-02-10 12:45:25 公開日:2022-02-09
# 自己組織化学習による複雑なデータの推論

Reasoning for Complex Data through Ensemble-based Self-Supervised Learning ( http://arxiv.org/abs/2202.03126v2 )

ライセンス: Link先を確認
Gabriel Bertocco, Ant\^onio The\'ofilo, Fernanda Andal\'o and Anderson Rocha(参考訳) 自己教師付き学習は、利用可能なラベル付きデータが少ないか全くない問題を扱う。 最近の研究は、基礎となるクラスが意味的に大きな違いがある場合、印象的な結果を示している。 このテクニックが繁栄する重要なデータセットの1つはimagenetであり、クラス内距離はクラス間距離よりもかなり低い。 しかし、これはいくつかの重要なタスクには当てはまり、クラスがより密接なセマンティクスを持つ場合、一般的な自己教師付き学習手法では識別的特徴を学習できないため、より堅牢な戦略が必要である。 そこで本研究では,異なるクラスからのサンプルが顕著に多様でない場合でも,ラベルなしデータからの学習を可能にする手法を提案する。 本研究では,異なる構成から派生したクラスタを組み合わせ,完全教師なしの方法でデータサンプルのより優れたグループ化を実現する,新しいアンサンブルベースのクラスタリング戦略を活用することで,この問題に対処する。 この戦略により、データセット毎に最適な設定を見つける必要がなくなることなく、異なる密度と高い可変性を持つクラスタが出現し、クラス内の不一致を低減できる。 また、サンプル間の距離を計算するために異なる畳み込みニューラルネットワークも検討する。 コンテキスト分析を行い,それらをグループ化し,補完的情報を取り込むことにより,これらの距離を洗練する。 私たちは、パイプラインを検証するための2つのアプリケーションについて検討しています。 これらは、クラスが意味的に互いに近く、トレーニングとテストセットが不一致のアイデンティティを持つことを考えると、難しいアプリケーションである。 提案手法は異なるモダリティにまたがって頑健であり,ラベル付けや人間の介入なしに完全に教師なしのソリューションで最先端の結果を上回っている。

Self-supervised learning deals with problems that have little or no available labeled data. Recent work has shown impressive results when underlying classes have significant semantic differences. One important dataset in which this technique thrives is ImageNet, as intra-class distances are substantially lower than inter-class distances. However, this is not the case for several critical tasks, and general self-supervised learning methods fail to learn discriminative features when classes have closer semantics, thus requiring more robust strategies. We propose a strategy to tackle this problem, and to enable learning from unlabeled data even when samples from different classes are not prominently diverse. We approach the problem by leveraging a novel ensemble-based clustering strategy where clusters derived from different configurations are combined to generate a better grouping for the data samples in a fully-unsupervised way. This strategy allows clusters with different densities and higher variability to emerge, which in turn reduces intra-class discrepancies, without requiring the burden of finding an optimal configuration per dataset. We also consider different Convolutional Neural Networks to compute distances between samples. We refine these distances by performing context analysis and group them to capture complementary information. We consider two applications to validate our pipeline: Person Re-Identification and Text Authorship Verification. These are challenging applications considering that classes are semantically close to each other and that training and test sets have disjoint identities. Our method is robust across different modalities and outperforms state-of-the-art results with a fully-unsupervised solution without any labeling or human intervention.
翻訳日:2022-02-10 12:45:07 公開日:2022-02-09
# PSSNet:大規模都市メッシュの平面感性セマンティックセグメンテーション

PSSNet: Planarity-sensible Semantic Segmentation of Large-scale Urban Meshes ( http://arxiv.org/abs/2202.03209v2 )

ライセンス: Link先を確認
Weixiao Gao, Liangliang Nan, Bas Boom, Hugo Ledoux(参考訳) テクスチャメッシュとして表現される3次元都市シーンを解釈する,新しいディープラーニングベースのフレームワークを提案する。 オブジェクト境界が一般的に平面領域の境界と一致するという観測に基づいて、我々のフレームワークは2つのステップでセマンティックセグメンテーションを実現します。 オーバーセグメンテーションステップは、都市景観の平面領域と非平面領域をキャプチャするメッシュセグメントの初期セットを生成する。 その後の分類ステップでは、ノードのセグメントの幾何学的および測光的特徴とエッジのマルチスケールな文脈的特徴をエンコードするグラフを構築する。 最終セマンティックセグメンテーションは、グラフ畳み込みネットワークを用いてセグメントを分類することによって得られる。 大規模セマンティクス都市メッシュベンチマークにおける実験と比較により,提案手法が境界品質と平均iouの点で最先端手法よりも優れていることが示された。 さらに、セマンティックセグメンテーション専用のメッシュオーバーセグメンテーション手法を評価するためのいくつかの新しいメトリクスを導入し、提案したオーバーセグメンテーションアプローチは、すべてのメトリクスで最先端のメソッドよりも優れています。 私たちのソースコードは、論文が受け入れられるとリリースされます。

We introduce a novel deep learning-based framework to interpret 3D urban scenes represented as textured meshes. Based on the observation that object boundaries typically align with the boundaries of planar regions, our framework achieves semantic segmentation in two steps: planarity-sensible over-segmentation followed by semantic classification. The over-segmentation step generates an initial set of mesh segments that capture the planar and non-planar regions of urban scenes. In the subsequent classification step, we construct a graph that encodes geometric and photometric features of the segments in its nodes and multi-scale contextual features in its edges. The final semantic segmentation is obtained by classifying the segments using a graph convolutional network. Experiments and comparisons on a large semantic urban mesh benchmark demonstrate that our approach outperforms the state-of-the-art methods in terms of boundary quality and mean IoU (intersection over union). Besides, we also introduce several new metrics for evaluating mesh over-segmentation methods dedicated for semantic segmentation, and our proposed over-segmentation approach outperforms state-of-the-art methods on all metrics. Our source code will be released when the paper is accepted.
翻訳日:2022-02-10 12:43:22 公開日:2022-02-09
# ほぼ消滅する理想に対する条件勾配

Conditional Gradients for the Approximately Vanishing Ideal ( http://arxiv.org/abs/2202.03349v3 )

ライセンス: Link先を確認
E. Wirth, S. Pokutta(参考訳) 点の集合 $X\subseteq \mathbb{R}^n$ の消滅イデアルは、すべての点 $\mathbf{x} \in X$ 上で$0$ と評価され、ジェネレータと呼ばれる多項式の有限集合による効率的な表現を認める多項式の集合である。 データセットのノイズに対処するため,約消滅するイデアルのジェネレータの集合を構築するために,CGAVI(Conditional Gradients A roughly Vanishing Ideal Algorithm)を導入する。 構築されたジェネレータのセットはデータの多項式構造をキャプチャし、例えば教師付き学習のための線形分類器と組み合わせて使用できる特徴マップを生成する。 CGAVIでは、Pairwise Frank-Wolfeアルゴリズム(PFW)を用いて、(制約付き)凸最適化問題を解くことで、ジェネレータの集合を構築する。 中でも、構築されたジェネレータはLASSO一般化境界を継承し、トレーニングだけでなく、サンプル外のデータにも消滅する。 さらに、CGAVI はスパース係数ベクトルを持つ少数の生成子を構成することで、ほぼ消滅するイデアルのコンパクト表現を認める。

The vanishing ideal of a set of points $X\subseteq \mathbb{R}^n$ is the set of polynomials that evaluate to $0$ over all points $\mathbf{x} \in X$ and admits an efficient representation by a finite set of polynomials called generators. To accommodate the noise in the data set, we introduce the Conditional Gradients Approximately Vanishing Ideal algorithm (CGAVI) for the construction of the set of generators of the approximately vanishing ideal. The constructed set of generators captures polynomial structures in data and gives rise to a feature map that can, for example, be used in combination with a linear classifier for supervised learning. In CGAVI, we construct the set of generators by solving specific instances of (constrained) convex optimization problems with the Pairwise Frank-Wolfe algorithm (PFW). Among other things, the constructed generators inherit the LASSO generalization bound and not only vanish on the training but also on out-sample data. Moreover, CGAVI admits a compact representation of the approximately vanishing ideal by constructing few generators with sparse coefficient vectors.
翻訳日:2022-02-10 12:43:00 公開日:2022-02-09
# causpref: 分散推薦のための因果選好学習

CausPref: Causal Preference Learning for Out-of-Distribution Recommendation ( http://arxiv.org/abs/2202.03984v2 )

ライセンス: Link先を確認
Yue He, Zimu Wang, Peng Cui, Hao Zou, Yafeng Zhang, Qiang Cui, Yong Jiang(参考訳) 近年の機械学習の進歩的な能力により、リコメンダシステムが著しく発展しているにもかかわらず、現在のリコメンダシステムは、現実的なシナリオにおけるユーザやアイテムの分散シフトに対して、依然として脆弱であり、テスト環境におけるパフォーマンスの急激な低下につながっている。 スパースデータからの暗黙のフィードバックしか利用できない多くの一般的なアプリケーションでは、さらに厳しい。 したがって,様々な環境においてレコメンデーション手法の性能安定性を促進することが重要である。 本稿では,まず,out-of-distribution (ood) 一般化の観点から,暗黙的推奨問題の徹底的な解析を行う。 そこで,本理論解析の指導のもと,causprefと呼ばれる新しい因果選好に基づく推薦フレームワークに推奨特化dag学習者を導入することを提案する。 実世界のデータセットから得られた広範囲な実験結果から、我々のアプローチは、分散設定のタイプにおいて、ベンチマークモデルを大幅に上回っており、その印象的な解釈可能性を示しています。

In spite of the tremendous development of recommender system owing to the progressive capability of machine learning recently, the current recommender system is still vulnerable to the distribution shift of users and items in realistic scenarios, leading to the sharp decline of performance in testing environments. It is even more severe in many common applications where only the implicit feedback from sparse data is available. Hence, it is crucial to promote the performance stability of recommendation method in different environments. In this work, we first make a thorough analysis of implicit recommendation problem from the viewpoint of out-of-distribution (OOD) generalization. Then under the guidance of our theoretical analysis, we propose to incorporate the recommendation-specific DAG learner into a novel causal preference-based recommendation framework named CausPref, mainly consisting of causal learning of invariant user preference and anti-preference negative sampling to deal with implicit feedback. Extensive experimental results from real-world datasets clearly demonstrate that our approach surpasses the benchmark models significantly under types of out-of-distribution settings, and show its impressive interpretability.
翻訳日:2022-02-10 12:42:38 公開日:2022-02-09
# 教師付き変化点検出のためのシンクホーンダイバージェンス学習

Learning Sinkhorn divergences for supervised change point detection ( http://arxiv.org/abs/2202.04000v2 )

ライセンス: Link先を確認
Nauman Ahad, Eva L. Dyer, Keith B. Hengen, Yao Xie, Mark A. Davenport(参考訳) 現代の多くのアプリケーションは、複雑なシーケンシャルデータの変化点を検出する必要がある。 変更点検出のための既存のほとんどのメソッドは教師なしであり、結果として、どのような変更を検出したいか、あるいは何らかの変更が無視されるかどうかに関する情報がない。 これにより、しばしば変更検出性能が低下する。 そこで本研究では,スライディングウインドウにおける2つのサンプルテストにおいて,シンクホーンダイバージェンスを用いてオンライン的に変化点を検出できるように,基底距離の学習にtrue change pointインスタンスを用いた新しい変化点検出フレームワークを提案する。 本手法は,高次元変化点検出設定における特徴選択と解釈の両方に有用なスパースメトリックの学習に使用できる。 その結果,提案手法はラベル付き変更点インスタンス数が少ないだけで,既存の教師なし変更点検出手法よりも大幅に変更点検出性能を向上させることができることがわかった。

Many modern applications require detecting change points in complex sequential data. Most existing methods for change point detection are unsupervised and, as a consequence, lack any information regarding what kind of changes we want to detect or if some kinds of changes are safe to ignore. This often results in poor change detection performance. We present a novel change point detection framework that uses true change point instances as supervision for learning a ground metric such that Sinkhorn divergences can be then used in two-sample tests on sliding windows to detect change points in an online manner. Our method can be used to learn a sparse metric which can be useful for both feature selection and interpretation in high-dimensional change point detection settings. Experiments on simulated as well as real world sequences show that our proposed method can substantially improve change point detection performance over existing unsupervised change point detection methods using only few labeled change point instances.
翻訳日:2022-02-10 12:42:16 公開日:2022-02-09
# PrivFair: プライバシー保護フェアネス監査のためのライブラリ

PrivFair: a Library for Privacy-Preserving Fairness Auditing ( http://arxiv.org/abs/2202.04058v2 )

ライセンス: Link先を確認
Sikha Pentyala, David Melanson, Martine De Cock, Golnoosh Farnadi(参考訳) 機械学習(ML)は、医療、司法、金融など、人々の生活の質に直接影響を及ぼすアプリケーションで顕著になっている。 MLモデルは、性別、人種、障害などのセンシティブな属性に基づいた差別を示す。 mlモデルにバイアスがないかどうかを評価することは、いまだに難しい課題であり、定義上、差別防止法やデータ保護法の対象となる繊細なユーザー特性で行わなければならない。 mlモデルの公正監査のための既存のライブラリは、監査データのプライバシーを保護するメカニズムを提供していません。 MLモデルのプライバシ保護フェアネス監査のためのライブラリであるPrivFairを紹介する。 Secure Multiparty Computation (MPC)の使用により、PrivFairは監査中のモデルの機密性と監査に使用される機密データを保護し、企業が所有する独自分類器が外部調査員からの機密監査データを使用して監査されるシナリオをサポートする。 文書データや画像データを用いたグループフェアネス監査にPrivFairを用いることで,調査員が暗号化されていない方法でデータを公開したり,モデル所有者がモデルパラメータを平文で公開したりすることなく,グループフェアネス監査にPivFairを活用できることを実証する。

Machine learning (ML) has become prominent in applications that directly affect people's quality of life, including in healthcare, justice, and finance. ML models have been found to exhibit discrimination based on sensitive attributes such as gender, race, or disability. Assessing if an ML model is free of bias remains challenging to date, and by definition has to be done with sensitive user characteristics that are subject of anti-discrimination and data protection law. Existing libraries for fairness auditing of ML models offer no mechanism to protect the privacy of the audit data. We present PrivFair, a library for privacy-preserving fairness audits of ML models. Through the use of Secure Multiparty Computation (MPC), PrivFair protects the confidentiality of the model under audit and the sensitive data used for the audit, hence it supports scenarios in which a proprietary classifier owned by a company is audited using sensitive audit data from an external investigator. We demonstrate the use of PrivFair for group fairness auditing with tabular data or image data, without requiring the investigator to disclose their data to anyone in an unencrypted manner, or the model owner to reveal their model parameters to anyone in plaintext.
翻訳日:2022-02-10 12:41:45 公開日:2022-02-09
# チャネル符号化理論を用いた分散テンソル用局所ランダムP族合金符号

Locally Random P-adic Alloy Codes with Channel Coding Theorems for Distributed Coded Tensors ( http://arxiv.org/abs/2202.03469v2 )

ライセンス: Link先を確認
Pedro Soto, Haibin Guan, Jun Li(参考訳) テンソル、すなわちマルチリニア関数は、機械学習アルゴリズムの基本的な構築ブロックである。 大規模データセットのトレーニングには,作業者間で計算を分散することが一般的である。 しかし、ストラグラーやその他の障害は、パフォーマンスやトレーニング時間全体に重大な影響を与える可能性がある。 これらの障害を軽減するための新しい戦略は、コード化された計算を使うことである。 我々は,最も可能性の高い事象に注目し,この尺度に最適な分散符号化テンソル演算を新たに構築した,典型的な回復しきい値と呼ばれる新しい分析指標を導入する。 我々は,我々の汎用フレームワークが,他の多くの計算スキームやメトリクスを特別に包含していることを示す。 特に,ノイズの確率が0である場合,典型的な回復しきい値の特別な場合に,回復しきい値とテンソルランクを回復可能であることを証明し,ノイズのない計算をセレンディピタイトな結果としてノイズを一般化する。 純粋に理論的な構成とは程遠いが、これらの定義は実践的なランダムなコード構成、すなわち局所的なランダムなp進合金符号へと導かれる。 amazon ec2で実施した実験を分析し、理論によって予測されるように、実際の多くのベンチマーク計算方式よりも高速で数値的に安定であることを示す。

Tensors, i.e., multi-linear functions, are a fundamental building block of machine learning algorithms. In order to train on large data-sets, it is common practice to distribute the computation amongst workers. However, stragglers and other faults can severely impact the performance and overall training time. A novel strategy to mitigate these failures is the use of coded computation. We introduce a new metric for analysis called the typical recovery threshold, which focuses on the most likely event and provide a novel construction of distributed coded tensor operations which are optimal with this measure. We show that our general framework encompasses many other computational schemes and metrics as a special case. In particular, we prove that the recovery threshold and the tensor rank can be recovered as a special case of the typical recovery threshold when the probability of noise, i.e., a fault, is equal to zero, thereby providing a noisy generalization of noiseless computation as a serendipitous result. Far from being a purely theoretical construction, these definitions lead us to practical random code constructions, i.e., locally random p-adic alloy codes, which are optimal with respect to the measures. We analyze experiments conducted on Amazon EC2 and establish that they are faster and more numerically stable than many other benchmark computation schemes in practice, as is predicted by theory.
翻訳日:2022-02-10 12:41:23 公開日:2022-02-09
# フェアSA:顔認識におけるフェアネスの感度解析

Fair SA: Sensitivity Analysis for Fairness in Face Recognition ( http://arxiv.org/abs/2202.03586v2 )

ライセンス: Link先を確認
Aparna R. Joshi, Xavier Suau, Nivedha Sivakumar, Luca Zappella and Nicholas Apostoloff(参考訳) 高影響領域におけるディープラーニングの利用がユビキタス化するにつれ、モデルのレジリエンスを評価することがますます重要である。 そのような大きな影響領域の1つは顔認識であり、現実世界のアプリケーションは、動きのぼかしや高露出といった様々な劣化の影響を受ける画像を含む。 さらに、性別や人種といったさまざまな属性でキャプチャされた画像は、顔認識アルゴリズムの堅牢性にも挑戦することができる。 従来の要約統計では、顔認識モデルの総合的な性能は改善を続けているが、これらの指標はモデルのロバスト性や公平性を直接測定するものではない。 視覚心理物理学感度分析(vpsa)[1]は、データにインクリメンタルな摂動を導入することによって、個々の障害原因を特定する方法を提供する。 しかし、摂動はサブグループに異なる影響を与える可能性がある。 本稿では,VPSAを拡張した汎用フレームワークとして,ロバスト性に基づく新たなフェアネス評価を提案する。 この枠組みにより,摂動によって影響を受ける集団の異なるサブグループに対して,モデルが公平に実行する能力を分析し,対象のロバスト性を測定することにより,サブグループの正確な障害モードを特定できる。 モデルの公平性への注目が高まる中、顔認識をフレームワークのサンプルアプリケーションとして使用し、auc行列を介してモデルの公平性解析をコンパクトに可視化することを提案する。 本研究では,一般的な顔認識モデルの性能を分析し,画像の摂動時に一部のサブグループが不利であることを実証的に示す。

As the use of deep learning in high impact domains becomes ubiquitous, it is increasingly important to assess the resilience of models. One such high impact domain is that of face recognition, with real world applications involving images affected by various degradations, such as motion blur or high exposure. Moreover, images captured across different attributes, such as gender and race, can also challenge the robustness of a face recognition algorithm. While traditional summary statistics suggest that the aggregate performance of face recognition models has continued to improve, these metrics do not directly measure the robustness or fairness of the models. Visual Psychophysics Sensitivity Analysis (VPSA) [1] provides a way to pinpoint the individual causes of failure by way of introducing incremental perturbations in the data. However, perturbations may affect subgroups differently. In this paper, we propose a new fairness evaluation based on robustness in the form of a generic framework that extends VPSA. With this framework, we can analyze the ability of a model to perform fairly for different subgroups of a population affected by perturbations, and pinpoint the exact failure modes for a subgroup by measuring targeted robustness. With the increasing focus on the fairness of models, we use face recognition as an example application of our framework and propose to compactly visualize the fairness analysis of a model via AUC matrices. We analyze the performance of common face recognition models and empirically show that certain subgroups are at a disadvantage when images are perturbed, thereby uncovering trends that were not visible using the model's performance on subgroups without perturbations.
翻訳日:2022-02-10 12:41:02 公開日:2022-02-09
# マスクオートエンコーダの理解方法

How to Understand Masked Autoencoders ( http://arxiv.org/abs/2202.03670v2 )

ライセンス: Link先を確認
Shuhao Cao, Peng Xu, David A. Clifton(参考訳) Masked Autoencoders (MAE) Are Scalable Vision Learners (MAE) Are Are Scalable Vision Learners) は、イメージ事前学習の最先端を達成できるだけでなく、視覚面と言語面のオートエンコーディング(BERTスタイル)のギャップを埋めるマイルストーンである、自己教師型学習法に革命をもたらす。 しかし、我々の知る限り、今のところMAEの強力な表現性を説明する理論的視点は存在しない。 本稿では,MAEの数学的理解を提供する統一理論フレームワークを初めて提案する。 具体的には、重複しないドメイン分解設定の下で、積分カーネルを用いたMAEのパッチベースのアテンションアプローチを説明する。 研究コミュニティがMAEの大成功の主な理由をさらに理解するために,我々の枠組みに基づいて5つの質問を行い,演算子理論からの洞察を用いて数学的厳密さに答える。

"Masked Autoencoders (MAE) Are Scalable Vision Learners" revolutionizes the self-supervised learning method in that it not only achieves the state-of-the-art for image pre-training, but is also a milestone that bridges the gap between visual and linguistic masked autoencoding (BERT-style) pre-trainings. However, to our knowledge, to date there are no theoretical perspectives to explain the powerful expressivity of MAE. In this paper, we, for the first time, propose a unified theoretical framework that provides a mathematical understanding for MAE. Specifically, we explain the patch-based attention approaches of MAE using an integral kernel under a non-overlapping domain decomposition setting. To help the research community to further comprehend the main reasons of the great success of MAE, based on our framework, we pose five questions and answer them with mathematical rigor using insights from operator theory.
翻訳日:2022-02-10 12:40:38 公開日:2022-02-09