このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220201となっている論文です。

PDF登録状況(公開日: 20220201)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) マクロな交通状態推定のためのハイブリッド物理機械学習手法 [全文訳有]

A Hybrid Physics Machine Learning Approach for Macroscopic Traffic State Estimation ( http://arxiv.org/abs/2202.01888v1 )

ライセンス: CC BY 4.0
Zhao Zhang, Ding Zhao, Xianfeng Terry Yang(参考訳) 高速道路におけるインテリジェントトランスポーテーションシステム(ITS)の運用の成功には、フルフィールドの交通状況情報(流れ、速度、密度など)が不可欠である。 しかし,ほとんどの地域では不十分な交通検知器から不完全な交通情報が直接収集される傾向にあり,ITSの普及の大きな障害となっている。 本稿では,トラヒック物理モデル(第2次マクロトラヒックフローモデルなど)を用いて,トラヒックセンサからの限られた情報を入力として使用し,高速道路システムのための高精度かつフルフィールドな推定トラヒック状態を構築できる,ハイブリッド回帰型機械学習手法(例えば,ニューラルネットワーク(ann),ランダムフォレスト(rf),サポートベクタマシン(svm))をハイブリッド化した,革新的なトラヒック状態推定(tse)フレームワークを提案する。 提案するTSEフレームワークの有効性を検討するため,ユタ州ソルトレイクシティのI-15高速道路から収集した実世界のデータセットについて実験的検討を行った。 実験の結果,提案手法は実地交通情報を正確に推定できることが証明された。 したがって,提案手法は高精度かつフルフィールドの交通情報を提供し,ITSの普及の基盤となる。

Full-field traffic state information (i.e., flow, speed, and density) is critical for the successful operation of Intelligent Transportation Systems (ITS) on freeways. However, incomplete traffic information tends to be directly collected from traffic detectors that are insufficiently installed in most areas, which is a major obstacle to the popularization of ITS. To tackle this issue, this paper introduces an innovative traffic state estimation (TSE) framework that hybrid regression machine learning techniques (e.g., artificial neural network (ANN), random forest (RF), and support vector machine (SVM)) with a traffic physics model (e.g., second-order macroscopic traffic flow model) using limited information from traffic sensors as inputs to construct accurate and full-field estimated traffic state for freeway systems. To examine the effectiveness of the proposed TSE framework, this paper conducted empirical studies on a real-world data set collected from a stretch of I-15 freeway in Salt Lake City, Utah. Experimental results show that the proposed method has been proved to estimate full-field traffic information accurately. Hence, the proposed method could provide accurate and full-field traffic information, thus providing the basis for the popularization of ITS.
翻訳日:2022-02-14 00:31:29 公開日:2022-02-01
# (参考訳) 深層学習と信号分解法を用いた短期多層住宅電力負荷予測 [全文訳有]

Short-term Multi-horizon Residential Electric Load Forecasting using Deep Learning and Signal Decomposition Methods ( http://arxiv.org/abs/2202.03264v1 )

ライセンス: CC BY 4.0
Mohamed Aymane Ahajjam, Daniel Bonilla Licea, Mounir Ghogho, Abdellatif Kobbane(参考訳) 先進的なデジタル技術の急成長に伴い、家庭の電力消費に関する詳細かつタイムリーな情報を得ることができるようになった。 これらの技術は家庭の電力消費量(すなわち負荷)を予測するのにも使うことができる。 本稿では,変動モード分解法と深層学習法を用いて,負荷予測問題の精度を向上させる手法について検討する。 この問題は文献で研究されているが、適切な分解レベルとより良い予測性能を提供するディープラーニング技術の選択は、比較的注目されていない。 この研究は、6つの分解レベルと5つの異なるディープラーニングネットワークの効果を研究することで、このギャップを埋める。 原負荷プロファイルは、まず変動モード分解を用いて本質モード関数に分解され、非定常的な側面を緩和する。 そして、4レベルウェーブレット分解ネットワークモデルに3次元入力シーケンスとして、日、時間、過去の電力消費データを供給する。 最後に、異なる固有モード関数に関連する予測シーケンスを結合して集約予測シーケンスを形成する。 提案手法は,モロッコの5世帯の電力消費データセット(MORED)の負荷プロファイルを用いて評価し,現状の時系列モデルとベースラインの持続性モデルと比較した。

With the booming growth of advanced digital technologies, it has become possible for users as well as distributors of energy to obtain detailed and timely information about the electricity consumption of households. These technologies can also be used to forecast the household's electricity consumption (a.k.a. the load). In this paper, we investigate the use of Variational Mode Decomposition and deep learning techniques to improve the accuracy of the load forecasting problem. Although this problem has been studied in the literature, selecting an appropriate decomposition level and a deep learning technique providing better forecasting performance have garnered comparatively less attention. This study bridges this gap by studying the effect of six decomposition levels and five distinct deep learning networks. The raw load profiles are first decomposed into intrinsic mode functions using the Variational Mode Decomposition in order to mitigate their non-stationary aspect. Then, day, hour, and past electricity consumption data are fed as a three-dimensional input sequence to a four-level Wavelet Decomposition Network model. Finally, the forecast sequences related to the different intrinsic mode functions are combined to form the aggregate forecast sequence. The proposed method was assessed using load profiles of five Moroccan households from the Moroccan buildings' electricity consumption dataset (MORED) and was benchmarked against state-of-the-art time-series models and a baseline persistence model.
翻訳日:2022-02-14 00:17:52 公開日:2022-02-01
# (参考訳) 運転行動分類のためのスマートフォンを用いた機械学習センシング [全文訳有]

A Machine Learning Smartphone-based Sensing for Driver Behavior Classification ( http://arxiv.org/abs/2202.01893v1 )

ライセンス: CC BY 4.0
Sarra Ben Brahim, Hakim Ghazzai, Hichem Besbes, Yehia Massoud(参考訳) ドライバーの行動プロファイリングは、保険業界やフリートマネジメントの主要な問題の一つであり、低コストのモバイルアプリケーションでドライバーの行動を分類できることは、自動運転のスポットライトのままである。 しかし、モバイルセンサーを使うことは、セキュリティ、プライバシー、信頼の問題に直面する可能性がある。 これらの課題を克服するために,スマートフォン(加速度計,ジャイロスコープ,GPS)で利用可能なCarla Simulatorを用いて,現在の道路および気象条件の速度制限を考慮した速度,加速度,方向,3軸回転角(ヨー,ピッチ,ロール)を用いて運転者の行動の分類を行うことを提案する。 第2に,複数のセンサから軸間データを1つのファイルに融合した後,時系列分類のための異なる機械学習アルゴリズムを探索し,最もパフォーマンスの高いアルゴリズムを評価する。

Driver behavior profiling is one of the main issues in the insurance industries and fleet management, thus being able to classify the driver behavior with low-cost mobile applications remains in the spotlight of autonomous driving. However, using mobile sensors may face the challenge of security, privacy, and trust issues. To overcome those challenges, we propose to collect data sensors using Carla Simulator available in smartphones (Accelerometer, Gyroscope, GPS) in order to classify the driver behavior using speed, acceleration, direction, the 3-axis rotation angles (Yaw, Pitch, Roll) taking into account the speed limit of the current road and weather conditions to better identify the risky behavior. Secondly, after fusing inter-axial data from multiple sensors into a single file, we explore different machine learning algorithms for time series classification to evaluate which algorithm results in the highest performance.
翻訳日:2022-02-13 23:54:27 公開日:2022-02-01
# (参考訳) 情報融合と変化検出による海洋航行のサイバーレジリエンス [全文訳有]

Cyber-resilience for marine navigation by information fusion and change detection ( http://arxiv.org/abs/2202.03268v1 )

ライセンス: CC BY 4.0
Dimitrios Dagdilelis, Mogens Blanke, Rasmus Hjorth Andersen, Roberto Galeazzi(参考訳) サイバーレジリエンスは、船舶の自律航法ソリューション開発における関心が高まっている。 本稿では,複数のセンサ情報融合,非正常動作の診断,変化検出の3つのエッジを有するプリズムによる海洋航行のサイバーレジリエンス特性について検討する。 沿岸航法に用いるセンサ信号の診断と緩和のための2段階推定器を提案する。 Likelihood Fieldアプローチの開発の第1段階では、レーダーから海岸線の特徴を抽出し、それらを電子ナビゲーションチャートにマッチさせる。 第2ステージは、ブイとビーコンをレーダーからチャート情報に関連付ける。 海上試験で記録された実データと模擬スプーフィングを組み合わせることで、タイムリーに診断し、位置測定を妥協する試みを分離する能力を検証する。 個々の感覚入力の基盤となる技術とは無関係な、受信データの高レベルな処理に対して、その一貫性を評価する新しいアプローチが提案されている。 パラメトリックガウスモデルとカーネル密度推定の組み合わせを提案し,スライディングウインドウを用いた一般化された確率比変化検出器と比較した。 本論文は, 攻撃時やセンサの欠陥発生時に, コンポーネントの特異な振る舞いや分離からの逸脱がいかに可能かを示す。

Cyber-resilience is an increasing concern in developing autonomous navigation solutions for marine vessels. This paper scrutinizes cyber-resilience properties of marine navigation through a prism with three edges: multiple sensor information fusion, diagnosis of not-normal behaviours, and change detection. It proposes a two-stage estimator for diagnosis and mitigation of sensor signals used for coastal navigation. Developing a Likelihood Field approach, a first stage extracts shoreline features from radar and matches them to the electronic navigation chart. A second stage associates buoy and beacon features from the radar with chart information. Using real data logged at sea tests combined with simulated spoofing, the paper verifies the ability to timely diagnose and isolate an attempt to compromise position measurements. A new approach is suggested for high level processing of received data to evaluate their consistency, that is agnostic to the underlying technology of the individual sensory input. A combined parametric Gaussian modelling and Kernel Density Estimation is suggested and compared with a generalized likelihood ratio change detector that uses sliding windows. The paper shows how deviations from nominal behaviour and isolation of the components is possible when under attack or when defects in sensors occur.
翻訳日:2022-02-13 23:45:09 公開日:2022-02-01
# FisrEbp: リスク内とスパイルオーバーリスクを融合した企業破産予測

FisrEbp: Enterprise Bankruptcy Prediction via Fusing its Intra-risk and Spillover-Risk ( http://arxiv.org/abs/2202.03874v1 )

ライセンス: Link先を確認
Yu Zhao, Shaopeng Wei, Yu Guo, Qing Yang, Gang Kou(参考訳) 本稿では,企業倒産リスクのモデルとして,リスク内リスクと流出リスクを融合してモデル化する。 本研究では,LSTMベースのリスク内エンコーダとGNNベースのリスク内エンコーダを備える新しい手法を提案する。 具体的には、リスク内エンコーダは、基本業務情報と訴訟情報から統計相関指標を用いて、企業内リスクを捕捉することができる。 流出リスクエンコーダはハイパーグラフニューラルネットワークとヘテロジニアスグラフニューラルネットワークから構成されており、企業知識グラフ間のハイパーエッジと多重ヘテロジニアスの関係という2つの側面を通じて流出リスクをモデル化することを目的としている。 提案モデルを評価するため,複数ソースの中小企業データを収集し,提案手法の優位性を示す新しいデータセットSMEsDを構築した。 このデータセットは中小企業の倒産予測のための重要なベンチマークデータセットとなり、金融リスク研究のさらなる発展を促進することが期待されている。

In this paper, we propose to model enterprise bankruptcy risk by fusing its intra-risk and spillover-risk. Under this framework, we propose a novel method that is equipped with an LSTM-based intra-risk encoder and GNNs-based spillover-risk encoder. Specifically, the intra-risk encoder is able to capture enterprise intra-risk using the statistic correlated indicators from the basic business information and litigation information. The spillover-risk encoder consists of hypergraph neural networks and heterogeneous graph neural networks, which aim to model spillover risk through two aspects, i.e. hyperedge and multiplex heterogeneous relations among enterprise knowledge graph, respectively. To evaluate the proposed model, we collect multi-sources SMEs data and build a new dataset SMEsD, on which the experimental results demonstrate the superiority of the proposed method. The dataset is expected to become a significant benchmark dataset for SMEs bankruptcy prediction and promote the development of financial risk study further.
翻訳日:2022-02-13 14:39:47 公開日:2022-02-01
# 重み付きランダムカットフォレストアルゴリズムによる異常検出

Weighted Random Cut Forest Algorithm for Anomaly Detections ( http://arxiv.org/abs/2202.01891v1 )

ライセンス: Link先を確認
Sijin Yeom and Jae-Hun Jung(参考訳) ランダムカットフォレスト(RCF)アルゴリズムは,特に時系列データにおける異常検出のために開発されている。 RCFアルゴリズムは分離森林アルゴリズムの改良版である。 分離フォレストアルゴリズムとは異なり、RCFアルゴリズムは、構築されたツリーネットワークに入力を挿入することでリアルタイム入力が異常であるかどうかを判定する能力を有する。 Robust RCF (RRCF) を含む様々な RCF アルゴリズムが開発されており、カット手順は確率的に適応的に選択される。 RRCFは、データの幾何学的範囲に基づいて切断寸法を決定するため、孤立林と比較して優れた性能を示す。 しかし、全体的なデータ構造はRRCFによる適応的切断アルゴリズムでは考慮されていない。 本稿では,重み付きRCF(WRCF)と呼ばれる新しいRCFを提案する。 WRCFを導入するために、我々はまず、WRCFの構築に不可欠である新しい幾何測度、すなわち \textit{density measure}を導入する。 我々は密度測定の様々な数学的性質を提供する。 提案したWRCFは木ネットワークを適応的に切断するが,データの密度を考慮した。 提案手法は,データを構造化し,rrcfよりも高速に所望の異常スコアを得る場合,より効率的である。 我々の主張を数値的な例で証明する定理を提供する。

Random cut forest (RCF) algorithms have been developed for anomaly detection, particularly for the anomaly detection in time-series data. The RCF algorithm is the improved version of the isolation forest algorithm. Unlike the isolation forest algorithm, the RCF algorithm has the power of determining whether the real-time input has anomaly by inserting the input in the constructed tree network. There have been developed various RCF algorithms including Robust RCF (RRCF) with which the cutting procedure is adaptively chosen probabilistically. RRCF shows better performance compared to the isolation forest as the cutting dimension is decided based on the geometric range of the data. The overall data structure is, however, not considered in the adaptive cutting algorithm with the RRCF. In this paper, we propose a new RCF, so-called the weighted RCF (WRCF). In order to introduce the WRCF, we first introduce a new geometric measure, i.e., a \textit{density measure} which is crucial for the construction of the WRCF. We provide various mathematical properties of the density measure. The proposed WRCF also cuts the tree network adaptively, but with consideration of the denseness of the data. The proposed method is more efficient when the data is structured and achieves the desired anomaly score more rapidly than the RRCF. We provide theorems that prove our claims with numerical examples.
翻訳日:2022-02-13 14:28:44 公開日:2022-02-01
# コンテキストインフォームドダイナミクスモデルによる新しい物理系への一般化

Generalizing to New Physical Systems via Context-Informed Dynamics Model ( http://arxiv.org/abs/2202.01889v1 )

ライセンス: Link先を確認
Matthieu Kirchmeyer (MLIA), Yuan Yin (MLIA), J\'er\'emie Don\`a (MLIA), Nicolas Baskiotis (MLIA), Alain Rakotomamonjy (LITIS), Patrick Gallinari (MLIA)(参考訳) 物理システムのモデリングに対するデータ駆動アプローチは、学習領域と同じ一般ダイナミクスを持つが、異なる物理コンテキストに対応する未認識のシステムへの一般化に失敗します。 本稿では,新しい力学への適応を迅速かつ効率的に行うために,システム間の分散シフトを考慮したコンテキストインフォームド・ダイナミクス・アダプティブ(CoDA)を提案する。 CoDAは異なる動的に関連付けられた複数の環境を活用し、各環境固有のコンテキストパラメータに動的モデルを条件付けることを学ぶ。 コンディショニングはハイパーネットワークを介して行われ、観測データからコンテキストベクトルと共同で学習される。 提案する定式化は探索仮説空間を制約し,高速な適応と環境間のより良い一般化を促進する。 既存のメソッドの表現性を拡張する。 理論的には、このアプローチを動機付け、様々なアプリケーションドメインを表現する非線形ダイナミクスの集合に最先端の一般化結果を示す。 また,これらのシステムでは,新しいシステムパラメータが最小限の監督でコンテキストベクトルから推測できることを示す。

Data-driven approaches to modeling physical systems fail to generalize to unseen systems that share the same general dynamics with the learning domain, but correspond to different physical contexts. We propose a new framework for this key problem, context-informed dynamics adaptation (CoDA), which takes into account the distributional shift across systems for fast and efficient adaptation to new dynamics. CoDA leverages multiple environments, each associated to a different dynamic, and learns to condition the dynamics model on contextual parameters, specific to each environment. The conditioning is performed via a hypernetwork, learned jointly with a context vector from observed data. The proposed formulation constrains the search hypothesis space to foster fast adaptation and better generalization across environments. It extends the expressivity of existing methods. We theoretically motivate our approach and show state-ofthe-art generalization results on a set of nonlinear dynamics, representative of a variety of application domains. We also show, on these systems, that new system parameters can be inferred from context vectors with minimal supervision.
翻訳日:2022-02-13 14:24:30 公開日:2022-02-01
# NeurIPS 2021でのTeam Cogitat: EEG Transfer Learning competitionのベンチマーク

Team Cogitat at NeurIPS 2021: Benchmarks for EEG Transfer Learning Competition ( http://arxiv.org/abs/2202.03267v1 )

ライセンス: Link先を確認
Stylianos Bakas, Siegfried Ludwig, Konstantinos Barmpas, Mehdi Bahri, Yannis Panagakis, Nikolaos Laskaris, Dimitrios A. Adamos, Stefanos Zafeiriou(参考訳) 脳波デコードのための主題非依存のディープラーニングモデルの構築は、異なるデータセット、主題、記録セッション間で強い共変量シフトの課題に直面している。 この課題に対処するためのアプローチは、単純な統計的手法とより表現力のある訓練可能な手法の両方を用いて、ディープラーニングモデルの様々な層に特徴分布を明示的に整列させることである。 これは共分散に基づくアライメント法と同様に、しばしばリーマン多様体の文脈で使われる。 ここで提案された方法論は、NeurIPSカンファレンスで開催された2021年のEEG Transfer Learning (BEETL)コンペで優勝した。 競争の最初のタスクは睡眠ステージの分類であり、若い被験者に訓練されたモデルに、個人化されたキャリブレーションデータなしで複数の年齢層の被験者を推論し、被験者に依存しないモデルを必要とする。 2つ目のタスクは、1つまたは複数のソースモーターイメージデータセットの被験者にトレーニングされたモデルを転送して、2つのターゲットデータセットで推論を行い、複数のテスト対象に対して少数のパーソナライズされたキャリブレーションデータを提供する。

Building subject-independent deep learning models for EEG decoding faces the challenge of strong covariate-shift across different datasets, subjects and recording sessions. Our approach to address this difficulty is to explicitly align feature distributions at various layers of the deep learning model, using both simple statistical techniques as well as trainable methods with more representational capacity. This follows in a similar vein as covariance-based alignment methods, often used in a Riemannian manifold context. The methodology proposed herein won first place in the 2021 Benchmarks in EEG Transfer Learning (BEETL) competition, hosted at the NeurIPS conference. The first task of the competition consisted of sleep stage classification, which required the transfer of models trained on younger subjects to perform inference on multiple subjects of older age groups without personalized calibration data, requiring subject-independent models. The second task required to transfer models trained on the subjects of one or more source motor imagery datasets to perform inference on two target datasets, providing a small set of personalized calibration data for multiple test subjects.
翻訳日:2022-02-13 14:24:13 公開日:2022-02-01
# MetaDLの進歩: AAAI 2021チャレンジとワークショップ

Advances in MetaDL: AAAI 2021 challenge and workshop ( http://arxiv.org/abs/2202.01890v1 )

ライセンス: Link先を確認
Adrian El Baz, Isabelle Guyon (TAU), Zhengying Liu (TAU), Jan van Rijn (LIACS), Sebastien Treguer, Joaquin Vanschoren (TU/e)(参考訳) 深層学習技術(MetaDL)を用いたメタラーニングの進歩を促進するため,2021年に課題と関連するワークショップを開催した。 本稿では,課題の設計とその成果について述べ,ワークショップで行ったプレゼンテーションを要約する。 課題は,小画像のマイナショット学習分類課題に焦点をあてた。 参加者のコードは厳密な計算制約の下で一様に実行される。 これにより、既存のアーキテクチャバックボーンやトレーニング済みネットワークを使用するソリューション設計に圧力がかかった。 優勝方法は、人気のあるcnnバックボーンの第2層上でトレーニングされた様々な分類器を特徴とし、メタトレーニングデータ(必ずしもエピソディックな方法ではない)に微調整され、ラベル付きサポートでトレーニングされ、メタテストデータのラベル付きクエリセット上でテストされた。

To stimulate advances in metalearning using deep learning techniques (MetaDL), we organized in 2021 a challenge and an associated workshop. This paper presents the design of the challenge and its results, and summarizes presentations made at the workshop. The challenge focused on few-shot learning classification tasks of small images. Participants' code submissions were run in a uniform manner, under tight computational constraints. This put pressure on solution designs to use existing architecture backbones and/or pre-trained networks. Winning methods featured various classifiers trained on top of the second last layer of popular CNN backbones, fined-tuned on the meta-training data (not necessarily in an episodic manner), then trained on the labeled support and tested on the unlabeled query sets of the meta-test data.
翻訳日:2022-02-13 14:23:53 公開日:2022-02-01
# (参考訳) 超音波音速再構成のための深層学習:訓練データの多様性が安定性とロバスト性に及ぼす影響

Deep Learning for Ultrasound Speed-of-Sound Reconstruction: Impacts of Training Data Diversity on Stability and Robustness ( http://arxiv.org/abs/2202.01208v1 )

ライセンス: CC BY 4.0
Farnaz Khun Jush, Markus Biele, Peter M. Dueppenbecker, Andreas Maier(参考訳) 超音波bモードイメージングは質的なアプローチであり、診断品質はオペレータのトレーニングと経験に強く依存する。 定量的なアプローチは、組織特性に関する情報を提供することができるため、組織中の音速などの様々な組織タイプを識別するために、特に乳房イメージングにおいて、組織悪性のバイオマーカーとして使用できる。 最近の研究では、シミュレーションデータに基づいて完全に訓練されたディープニューラルネットワークを用いた音速再構成の可能性を示した。 しかし、シミュレーションデータと測定データの間の領域シフトが続いているため、実際のセットアップにおけるこれらのモデルの安定性と性能はまだ議論中である。 本研究では,複数種類の幾何学的および自然シミュレーションファントム構造を用いて,トレーニングデータの多様性がネットワークの堅牢性に与える影響を検討した。 シミュレーションデータを用いて,ドメイン外エコー発生,ジオメトリ,ノイズの存在下でのネットワークの性能について検討した。 さらに, 実際のデータ取得装置における組織モデリングの安定性について検討した。 幾何および自然組織モデルを含むデータセットの合同でネットワークを訓練することで,シミュレーションデータと計測データの両方で予測される音速の安定性が向上することを示した。

Ultrasound b-mode imaging is a qualitative approach and diagnostic quality strongly depends on operators' training and experience. Quantitative approaches can provide information about tissue properties; therefore, can be used for identifying various tissue types, e.g., speed-of-sound in the tissue can be used as a biomarker for tissue malignancy, especially in breast imaging. Recent studies showed the possibility of speed-of-sound reconstruction using deep neural networks that are fully trained on simulated data. However, because of the ever present domain shift between simulated and measured data, the stability and performance of these models in real setups are still under debate. In this study, we investigated the impacts of training data diversity on the robustness of these networks by using multiple kinds of geometrical and natural simulated phantom structures. On the simulated data, we investigated the performance of the networks on out-of-domain echogenicity, geometries, and in the presence of noise. We further inspected the stability of employing such tissue modeling in a real data acquisition setup. We demonstrated that training the network with a joint set of datasets including both geometrical and natural tissue models improves the stability of the predicted speed-of-sound values both on simulated and measured data.
翻訳日:2022-02-05 05:40:02 公開日:2022-02-01
# (参考訳) 層状深層ネットワークは閉じた重みを持つ

Deep Layer-wise Networks Have Closed-Form Weights ( http://arxiv.org/abs/2202.01210v1 )

ライセンス: CC BY 4.0
Chieh Wu, Aria Masoomi, Arthur Gretton, Jennifer Dy(参考訳) 現在、脳がバックプロパゲーション(BP)を行う可能性について神経科学コミュニティ内で議論がある。 脳を模倣するために、bpをバイパスする代替として「シングルフォワードパス」のみを用いたネットワーク \textit{one layer at a time} のトレーニングが提案されている。 我々は,2つの優れた質問に答えることで,階層型ネットワークの研究を継続する。 まず、$\textit{彼らはクローズドフォームソリューションを持っていますか? 次に、なぜレイヤーを追加するのをやめるタイミングを知っていますか? この研究は、カーネル平均埋め込みがネットワーク全体の最適性を達成し、ネットワークを分類するために非常に望ましいカーネルへと収束させる閉形式重みであることを証明している。

There is currently a debate within the neuroscience community over the likelihood of the brain performing backpropagation (BP). To better mimic the brain, training a network \textit{one layer at a time} with only a "single forward pass" has been proposed as an alternative to bypass BP; we refer to these networks as "layer-wise" networks. We continue the work on layer-wise networks by answering two outstanding questions. First, $\textit{do they have a closed-form solution?}$ Second, $\textit{how do we know when to stop adding more layers?}$ This work proves that the Kernel Mean Embedding is the closed-form weight that achieves the network global optimum while driving these networks to converge towards a highly desirable kernel for classification; we call it the $\textit{Neural Indicator Kernel}$.
翻訳日:2022-02-05 05:38:59 公開日:2022-02-01
# 機械学習モデルの一般化可能性:3つの方法論的落とし穴の定量的評価

Generalizability of Machine Learning Models: Quantitative Evaluation of Three Methodological Pitfalls ( http://arxiv.org/abs/2202.01337v1 )

ライセンス: Link先を確認
Farhad Maleki, Katie Ovens, Rajiv Gupta, Caroline Reinhold, Alan Spatz, Reza Forghani(参考訳) 機械学習の大きな可能性にもかかわらず、一般化性の欠如は、日常的な臨床実践におけるこれらの技術の普及を妨げている。 本研究では,(1)独立性の仮定違反,(2)不適切な性能指標を用いたモデル評価,(3)バッチ効果,(3)これらの落とし穴が機械学習モデルの一般化可能性に与える影響について検討する。 頭頸部ct,肺ct,胸部x線,病理画像など,複数の医用画像データセットを用いてランダムフォレストおよび深層畳み込みニューラルネットワークモデルを実装し,これらの落とし穴の効果を定量化し,示す。 これらのモデルを落とし穴なく開発し、精度、精度、リコール、およびf1スコアの観点から結果モデルの性能を比較する。 その結果,独立仮説違反はモデル一般化可能性に大きく影響を及ぼす可能性が示唆された。 具体的には、(i)データをトレイン、バリデーション、テストセットに分割する前にオーバーサンプリングする、(ii)データを分割する前にデータ拡張を行う、(iii) トレーニング、バリデーション、テストセットを通して被験者のためのデータポイントを配布する、(iv) 分割前に特徴選択を適用すると、モデルパフォーマンスが表面的に向上する。 また,不適切な性能指標が誤った結論につながることも見出した。 また、バッチ効果は一般化性に欠けるモデルの開発につながる可能性がある。 前述の方法論的落とし穴は、過剰に最適化されたパフォーマンスを持つ機械学習モデルにつながる。 これらの誤りは内部モデル評価では捉えられず、モデルによる不正確な予測は間違った結論と解釈をもたらす可能性がある。 したがって、これらの落とし穴を避けることは一般化可能なモデルを開発する上で必要条件である。

Despite the great potential of machine learning, the lack of generalizability has hindered the widespread adoption of these technologies in routine clinical practice. We investigate three methodological pitfalls: (1) violation of independence assumption, (2) model evaluation with an inappropriate performance indicator, and (3) batch effect and how these pitfalls could affect the generalizability of machine learning models. We implement random forest and deep convolutional neural network models using several medical imaging datasets, including head and neck CT, lung CT, chest X-Ray, and histopathological images, to quantify and illustrate the effect of these pitfalls. We develop these models with and without the pitfall and compare the performance of the resulting models in terms of accuracy, precision, recall, and F1 score. Our results showed that violation of the independence assumption could substantially affect model generalizability. More specifically, (I) applying oversampling before splitting data into train, validation and test sets; (II) performing data augmentation before splitting data; (III) distributing data points for a subject across training, validation, and test sets; and (IV) applying feature selection before splitting data led to superficial boosts in model performance. We also observed that inappropriate performance indicators could lead to erroneous conclusions. Also, batch effect could lead to developing models that lack generalizability. The aforementioned methodological pitfalls lead to machine learning models with over-optimistic performance. These errors, if made, cannot be captured using internal model evaluation, and the inaccurate predictions made by the model may lead to wrong conclusions and interpretations. Therefore, avoiding these pitfalls is a necessary condition for developing generalizable models.
翻訳日:2022-02-04 14:28:45 公開日:2022-02-01
# クロスドメイン・ファウショット学習の理解 : 実験的検討

Understanding Cross-Domain Few-Shot Learning: An Experimental Study ( http://arxiv.org/abs/2202.01339v1 )

ライセンス: Link先を確認
Jaehoon Oh, Sungnyun Kim, Namgyu Ho, Jin-Hwa Kim, Hwanjun Song, Se-Young Yun(参考訳) クロスドメイン 少数ショット学習は、ソースとターゲットドメインの大きな違いを扱うことに注目が集まっている。 これらの大きな違いを克服するために、最近の研究は、訓練前の段階でターゲットドメインから小規模の未ラベルデータを活用することを検討している。 このデータは、ソースドメインの教師付き事前トレーニングに加えて、ターゲットドメインでの自己教師付き事前トレーニングを可能にする。 本稿では,各事前学習方式をドメインの類似度と少数ショット難易度に基づいて有利に利用するシナリオを実証的に検討する: ドメインの類似度が小さく,あるいは少数ショット難易度が低い場合,教師付き事前学習よりも自己教師付き事前学習の性能向上。 さらに、2つの事前学習スキーム、混合教師と2段階学習を設計し、性能を向上する。 本報では,領域の類似度や難易度が異なる3つのソースと8つのターゲットベンチマークデータセットについて,広範囲な実験と分析によって支援されたCD-FSLの7つの結果を示す。 私たちのコードはhttps://anonymous.4o pen.science/r/unders tandingCDFSLで利用可能です。

Cross-domain few-shot learning has drawn increasing attention for handling large differences between the source and target domains--an important concern in real-world scenarios. To overcome these large differences, recent works have considered exploiting small-scale unlabeled data from the target domain during the pre-training stage. This data enables self-supervised pre-training on the target domain, in addition to supervised pre-training on the source domain. In this paper, we empirically investigate scenarios under which it is advantageous to use each pre-training scheme, based on domain similarity and few-shot difficulty: performance gain of self-supervised pre-training over supervised pre-training increases when domain similarity is smaller or few-shot difficulty is lower. We further design two pre-training schemes, mixed-supervised and two-stage learning, that improve performance. In this light, we present seven findings for CD-FSL which are supported by extensive experiments and analyses on three source and eight target benchmark datasets with varying levels of domain similarity and few-shot difficulty. Our code is available at https://anonymous.4o pen.science/r/unders tandingCDFSL.
翻訳日:2022-02-04 14:21:28 公開日:2022-02-01
# 回帰変換器:数値およびテクスチュアルトークンのブレンディングによるコンカレント条件生成と回帰

Regression Transformer: Concurrent Conditional Generation and Regression by Blending Numerical and Textual Tokens ( http://arxiv.org/abs/2202.01338v1 )

ライセンス: Link先を確認
Jannis Born, Matteo Manica(参考訳) 本稿では,回帰を条件列モデリング問題として抽象化するレグレッショントランスフォーマ(rt)について報告する。 RTは数値トークンのシーケンスとして連続性をキャストし、それらを従来のトークンとともにエンコードする。 これにより、回帰タスクと条件生成タスクの間をシームレスに移行できる双対モデルが得られ、マスク位置によってのみ支配される。 我々は,XLNetの目的に対するいくつかの拡張を提案し,自己整合性損失に基づくプロパティ予測と条件文生成を同時に最適化する交互学習手法を採用した。 ケミカルおよびタンパクの両言語における実験により,クロスエントロピー損失の訓練にもかかわらず,従来の回帰モデルの性能を超越できることを示した。 重要なことに、同じモデルを連続的な特性でプライミングすると、制約された特性最適化ベンチマークにおいて、特別なアプローチよりも優れた競合条件生成モデルが得られる。 要するにRegression Transformerは、レグレッションと条件生成の両方で優れている"swiss Army knife"モデルのドアを開く。 このことは、特にプロパティ駆動で、化学またはタンパク質空間の局所的な探索に応用される。

We report the Regression Transformer (RT), a method that abstracts regression as a conditional sequence modeling problem. The RT casts continuous properties as sequences of numerical tokens and encodes them jointly with conventional tokens. This yields a dichotomous model that can seamlessly transition between solving regression tasks and conditional generation tasks; solely governed by the mask location. We propose several extensions to the XLNet objective and adopt an alternating training scheme to concurrently optimize property prediction and conditional text generation based on a self-consistency loss. Our experiments on both chemical and protein languages demonstrate that the performance of traditional regression models can be surpassed despite training with cross entropy loss. Importantly, priming the same model with continuous properties yields a highly competitive conditional generative models that outperforms specialized approaches in a constrained property optimization benchmark. In sum, the Regression Transformer opens the door for "swiss army knife" models that excel at both regression and conditional generation. This finds application particularly in property-driven, local exploration of the chemical or protein space.
翻訳日:2022-02-04 13:34:35 公開日:2022-02-01
# テキスト意図マイニングのための柔軟なクラスタリングパイプライン

A Flexible Clustering Pipeline for Mining Text Intentions ( http://arxiv.org/abs/2202.01211v1 )

ライセンス: Link先を確認
Xinyu Chen and Ian Beaver(参考訳) 大量の自然言語入力から潜伏する意図をマイニングすることは、データアナリストが顧客サービスとセールスサポートのためにIntelligent Virtual Assistants(IVA)を設計および洗練するための重要なステップである。 Verint Intent Manager(VIM)内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成し、言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合して、アナリストが会話テキストから関連するユーザの意図を素早く把握し整理するのに役立つようにしました。 事前訓練された言語モデルでは、対象のテキストが見えないドメインから、あるいはクラスタリングタスクがトピック検出でない場合に、特定のクラスタリング構造を効率的に表現できないため、微調整のステップが必要である。 実世界の3つのテキストマイニングタスクにおいてBERTを用いてパイプラインを記述し,その性能を示す。 VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは、高品質な結果を生成し、データアナリストのパフォーマンスを改善し、カスタマサービスデータから意図を明らかにするのに要する時間を削減し、新たなドメインでのIVAの構築とデプロイに要する時間を削減します。

Mining the latent intentions from large volumes of natural language inputs is a key step to help data analysts design and refine Intelligent Virtual Assistants (IVAs) for customer service and sales support. We created a flexible and scalable clustering pipeline within the Verint Intent Manager (VIM) that integrates the fine-tuning of language models, a high performing k-NN library and community detection techniques to help analysts quickly surface and organize relevant user intentions from conversational texts. The fine-tuning step is necessary because pre-trained language models cannot encode texts to efficiently surface particular clustering structures when the target texts are from an unseen domain or the clustering task is not topic detection. We describe the pipeline and demonstrate its performance using BERT on three real-world text mining tasks. As deployed in the VIM application, this clustering pipeline produces high quality results, improving the performance of data analysts and reducing the time it takes to surface intentions from customer service data, thereby reducing the time it takes to build and deploy IVAs in new domains.
翻訳日:2022-02-04 13:32:42 公開日:2022-02-01
# (参考訳) 情報過剰:CDCLソルバは忘れ、再起動する必要がある [全文訳有]

Too much information: CDCL solvers need to forget and perform restarts ( http://arxiv.org/abs/2202.01030v1 )

ライセンス: CC BY 4.0
Tom Kr\"uger and Jan-Hendrik Lorenz and Florian W\"orz(参考訳) 競合駆動型節学習(CDCL)は命題論理の満足度問題を解くための極めて成功したパラダイムである。 単純な深さ優先のバックトラックアプローチの代わりに、この種の解法は、追加の節の形で競合が発生する理由を学ぶ。 しかし、CDCLソルバの圧倒的な成功にもかかわらず、これらのソルバの性能にどのような影響を及ぼすかは、まだ理解されていない。 この論文は、節の学習(いくつかの節を削除せずに)がランタイムを改善できるだけでなく、しばしばそれを劇的に悪化させることを示した。 広範な経験的分析を行うことにより,CDCLソルバのランタイム分布が多モードであることが判明した。 この多モード性は、前述の劣化現象の理由と見なすことができる。 同時に、この現象にもかかわらずSAT解決の事実上のデファクトスタンダードである条項削除と再起動の組み合わせによる節学習の理由を示す。 最後に,ワイブル混合分布がマルチモーダル分布を正確に記述できることを示す。 したがって、ベースインスタンスに新しい節を追加することは、ランタイムを長期化する本質的に効果がある。 この洞察は、リスタートや節削除のテクニックがcdclソルバで有用である理由に関する理論的説明を提供する。

Conflict-driven clause learning (CDCL) is a remarkably successful paradigm for solving the satisfiability problem of propositional logic. Instead of a simple depth-first backtracking approach, this kind of solver learns the reason behind occurring conflicts in the form of additional clauses. However, despite the enormous success of CDCL solvers, there is still only a shallow understanding of what influences the performance of these solvers in what way. This paper will demonstrate, quite surprisingly, that clause learning (without being able to get rid of some clauses) can not only improve the runtime but can oftentimes deteriorate it dramatically. By conducting extensive empirical analysis, we find that the runtime distributions of CDCL solvers are multimodal. This multimodality can be seen as a reason for the deterioration phenomenon described above. Simultaneously, it also gives an indication of why clause learning in combination with clause deletion and restarts is virtually the de facto standard of SAT solving in spite of this phenomenon. As a final contribution, we will show that Weibull mixture distributions can accurately describe the multimodal distributions. Thus, adding new clauses to a base instance has an inherent effect of making runtimes long-tailed. This insight provides a theoretical explanation as to why the techniques of restarts and clause deletion are useful in CDCL solvers.
翻訳日:2022-02-04 03:54:12 公開日:2022-02-01
# (参考訳) 音声認識の可視化 - 理解を深めるための方法? [全文訳有]

Visualizing Automatic Speech Recognition -- Means for a Better Understanding? ( http://arxiv.org/abs/2202.00673v1 )

ライセンス: CC BY 4.0
Karla Markert and Romain Parracone and Mykhailo Kulakov and Philip Sperl and Ching-Yu Kao and Konstantin B\"ottinger(参考訳) 自動音声認識(asr)は、人間の音声処理を模倣する技術をさらに改善している。 しかしながら、ASRの機能は、それらが基盤とするディープニューラルネットワーク(DNN)の複雑な構造によって、かなり難読化されている。 本稿では、画像認識からインポートし、音声データの処理に適した適応を行ういわゆる属性手法が、ASRの動作を明らかにするのにどのように役立つかを示す。 ASRのエンドツーエンドモデルであるDeepSpeechをケーススタディとして、これらの手法が、入力のどの特徴が出力を決定するのに最も影響するかを可視化するのにどのように役立つかを示す。 レイヤワイド・レバレンス・プロパゲーション(LRP)、サリエンシ・マップ(Saliency Maps)、シェープ・アダプティブ・エクスプメンテーション(Shapley Additive Explanations,SHAP)の3つの可視化技術に注目した。 これらの手法を比較し、敵例の検出など、さらなる応用の可能性について論じる。

Automatic speech recognition (ASR) is improving ever more at mimicking human speech processing. The functioning of ASR, however, remains to a large extent obfuscated by the complex structure of the deep neural networks (DNNs) they are based on. In this paper, we show how so-called attribution methods, that we import from image recognition and suitably adapt to handle audio data, can help to clarify the working of ASR. Taking DeepSpeech, an end-to-end model for ASR, as a case study, we show how these techniques help to visualize which features of the input are the most influential in determining the output. We focus on three visualization techniques: Layer-wise Relevance Propagation (LRP), Saliency Maps, and Shapley Additive Explanations (SHAP). We compare these methods and discuss potential further applications, such as in the detection of adversarial examples.
翻訳日:2022-02-04 03:33:08 公開日:2022-02-01
# (参考訳) 連続時間マルコフ連鎖からmttfを計算する別の方法 [全文訳有]

Just Another Method to Compute MTTF from Continuous Time Markov Chain ( http://arxiv.org/abs/2202.00674v1 )

ライセンス: CC BY 4.0
Eduardo M. Vasconcelos(参考訳) 平均失敗時間 (Meantime to Failure) は、システムが吸収状態に入るのにどれだけの時間を費やすかを決定する統計である。 この統計は、ほとんどの分野の知識で利用できる。 例えばエンジニアリングでは、機器の信頼性の尺度として、そしてビジネスでは、プロセスのパフォーマンスの尺度として使用することができる。 本研究は,連続時間マルコフ連鎖モデルから故障までの時間を取得する手法を提案する。 この手法は直感的であり、より実装が容易である。なぜなら、線形方程式の系を解いて構成されるからである。

The Meantime to Failure is a statistic used to determine how much time a system spends to enter one of its absorption states. This statistic can be used in most areas of knowledge. In engineering, for example, can be used as a measure of equipment reliability, and in business, as a measure of processes performance. This work presents a method to obtain the Meantime to Failure from a Continuous Time Markov Chain models. The method is intuitive and is simpler to be implemented, since, it consists of solving a system of linear equations.
翻訳日:2022-02-04 03:22:40 公開日:2022-02-01
# (参考訳) 微分同相変形画像登録のための学習不要再帰的多分解能フレームワーク [全文訳有]

A training-free recursive multiresolution framework for diffeomorphic deformable image registration ( http://arxiv.org/abs/2202.00675v1 )

ライセンス: CC BY 4.0
Ameneh Sheikhjafari, Michelle Noga, Kumaradevan Punithakumar and Nilanjan Ray(参考訳) Diffomorphic deformable Image registrationは、医用画像解析において重要な課題の1つであり、変換のトポロジーと可逆性を保ちながら、ユニークな変換を見つけることを目的としている。 深層畳み込みニューラルネットワーク(deep convolutional neural networks, cnns)は、大規模なデータセットから事前変換を学習することで、画像登録に適したアプローチを生み出した。 これらの手法の性能改善は、特定のデータ領域にフレームワークを組み込むのが難しいいくつかのサンプル医療画像から情報を学習する能力に関連している。 本稿では,通常の微分方程式の原理に基づいて,新しい二相的トレーニングフリーアプローチを提案する。 我々の定式化は、固定像と移動像のピラミッド間の空間変換の変化を異なる解像度で推定するオイラー積分型再帰的スキームをもたらす。 提案されたアーキテクチャは設計が単純である。 移動画像は、各解像度で順次ワープされ、最終的に固定画像に整列される。この手順は、各解像度において、完全な畳み込みネットワーク(FCN)が現在のワープ画像の変形の進行変化をモデル化する方法で再帰的に行われる。 システム全体はエンドツーエンドであり、一対のイメージに最適化されている。 学習に基づく手法と比較すると,提案手法では専用のトレーニングセットも必要とせず,トレーニングバイアスも持たない。 本手法を3つの心画像データセットで評価した。 評価結果は,提案手法が望ましい微分型特性を維持しつつ,最先端の登録精度を実現することを示す。

Diffeomorphic deformable image registration is one of the crucial tasks in medical image analysis, which aims to find a unique transformation while preserving the topology and invertibility of the transformation. Deep convolutional neural networks (CNNs) have yielded well-suited approaches for image registration by learning the transformation priors from a large dataset. The improvement in the performance of these methods is related to their ability to learn information from several sample medical images that are difficult to obtain and bias the framework to the specific domain of data. In this paper, we propose a novel diffeomorphic training-free approach; this is built upon the principle of an ordinary differential equation. Our formulation yields an Euler integration type recursive scheme to estimate the changes of spatial transformations between the fixed and the moving image pyramids at different resolutions. The proposed architecture is simple in design. The moving image is warped successively at each resolution and finally aligned to the fixed image; this procedure is recursive in a way that at each resolution, a fully convolutional network (FCN) models a progressive change of deformation for the current warped image. The entire system is end-to-end and optimized for each pair of images from scratch. In comparison to learning-based methods, the proposed method neither requires a dedicated training set nor suffers from any training bias. We evaluate our method on three cardiac image datasets. The evaluation results demonstrate that the proposed method achieves state-of-the-art registration accuracy while maintaining desirable diffeomorphic properties.
翻訳日:2022-02-04 03:19:51 公開日:2022-02-01
# (参考訳) 半監督医用画像分割のための恥ずかしいほど単純な一貫性規則化法 [全文訳有]

An Embarrassingly Simple Consistency Regularization Method for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2202.00677v1 )

ライセンス: CC BY 4.0
Hritam Basak, Rajarshi Bhattacharya, Rukhshanda Hussain, Agniv Chatterjee(参考訳) 医用画像のセグメンテーションタスクでは,ピクセルレベルのアノテーションの不足が問題となっている。 本稿では,半教師付き医用画像分割のための補間に基づく混合を含む新しい正規化戦略を提案する。 提案手法は,2つのラベルなしデータの補間を分割し,それらのデータのセグメンテーションマップの補間と一致させる新しい一貫性正規化戦略である。 本手法は,ラベル付きデータの高信頼値における過度な適合を最小化するための,データ適応正規化パラダイムの一種である。 提案手法は,追加計算を必要とせず,逆モデルや生成モデルよりも有利である。 ACDCとMMWHSの2つの公開MRIデータセットを評価すると、既存の半教師付きモデルと比較して提案手法の優位性を示す実験結果が得られた。

The scarcity of pixel-level annotation is a prevalent problem in medical image segmentation tasks. In this paper, we introduce a novel regularization strategy involving interpolation-based mixing for semi-supervised medical image segmentation. The proposed method is a new consistency regularization strategy that encourages segmentation of interpolation of two unlabelled data to be consistent with the interpolation of segmentation maps of those data. This method represents a specific type of data-adaptive regularization paradigm which aids to minimize the overfitting of labelled data under high confidence values. The proposed method is advantageous over adversarial and generative models as it requires no additional computation. Upon evaluation on two publicly available MRI datasets: ACDC and MMWHS, experimental results demonstrate the superiority of the proposed method in comparison to existing semi-supervised models.
翻訳日:2022-02-04 03:05:14 公開日:2022-02-01
# (参考訳) グラフニューラルネットワークにおける転送学習の検討 [全文訳有]

Investigating Transfer Learning in Graph Neural Networks ( http://arxiv.org/abs/2202.00740v1 )

ライセンス: CC BY 4.0
Nishai Kooverjee, Steven James, Terence van Zyl(参考訳) グラフニューラルネットワーク(GNN)は、グラフ空間で使用するように拡張することで、ディープラーニングモデルの成功に基づいて構築される。 トランスファー学習は、従来のディープラーニング問題において非常に成功していることが証明されている。 GNNとその利用例への関心が高まっているにもかかわらず、転送可能性についてはほとんど研究されていない。 本研究は,移動学習がGNNに対して有効であることを示し,ソースタスクとGNNの選択が一般化可能な知識を学習する能力に与える影響について述べる。 ノード分類とグラフ分類の文脈内で実世界および合成データを用いて実験を行う。 この目的のために,転送学習実験のための一般的な手法を提供し,合成グラフ分類タスクを生成する新しいアルゴリズムを提案する。 合成と実世界の両方のデータセットでGCN, GraphSAGE, GINの性能を比較した。 以上の結果より, 誘導操作によるGNNは, 統計的に有意な転写改善をもたらすことが示された。 さらに、ソースタスクとターゲットタスクのコミュニティ構造における類似性は、ノード属性のみの使用以上の転送において統計的に有意な改善をもたらすことを示す。

Graph neural networks (GNNs) build on the success of deep learning models by extending them for use in graph spaces. Transfer learning has proven extremely successful for traditional deep learning problems: resulting in faster training and improved performance. Despite the increasing interest in GNNs and their use cases, there is little research on their transferability. This research demonstrates that transfer learning is effective with GNNs, and describes how source tasks and the choice of GNN impact the ability to learn generalisable knowledge. We perform experiments using real-world and synthetic data within the contexts of node classification and graph classification. To this end, we also provide a general methodology for transfer learning experimentation and present a novel algorithm for generating synthetic graph classification tasks. We compare the performance of GCN, GraphSAGE and GIN across both the synthetic and real-world datasets. Our results demonstrate empirically that GNNs with inductive operations yield statistically significantly improved transfer. Further we show that similarity in community structure between source and target tasks support statistically significant improvements in transfer over and above the use of only the node attributes.
翻訳日:2022-02-04 02:56:58 公開日:2022-02-01
# (参考訳) モジュラーバイアス緩和器とアンサンブルの実証的研究 [全文訳有]

An Empirical Study of Modular Bias Mitigators and Ensembles ( http://arxiv.org/abs/2202.00751v1 )

ライセンス: CC BY 4.0
Michael Feffer, Martin Hirzel, Samuel C. Hoffman, Kiran Kate, Parikshit Ram, Avraham Shinnar(参考訳) 機械学習モデルにはアルゴリズムバイアスを低減できるバイアス緩和器がいくつかあるが、残念ながら、異なるデータ分割で測定した場合、公平性に対する緩和器の効果は安定しないことが多い。 より安定したモデルをトレーニングするための一般的なアプローチは、アンサンブル学習である。 バグング、ブースティング、投票、積み重ねなどのアンサンブルは、予測性能をより安定させることに成功した。 したがって、バイアス緩和器とアンサンブルの利点を組み合わせることができるかどうかを問うことができる。 この問題を調査するためには、まずバイアス緩和器とアンサンブルを併用する必要があります。 我々は,10個のマイティゲータ,4つのアンサンブル,対応するハイパーパラメータのモジュール構成が可能なオープンソースライブラリを構築した。 このライブラリに基づいて,本ライブラリが新たに収集したデータセットに加えて,フェアネス文学で一般的に使用されるデータセットを含む,13のデータセットのコンビネーションの空間を実証的に検討した。 さらに,その成果を実践者の指導図にまとめた。 この論文はバイアス緩和の安定性向上に寄与することを願っている。

There are several bias mitigators that can reduce algorithmic bias in machine learning models but, unfortunately, the effect of mitigators on fairness is often not stable when measured across different data splits. A popular approach to train more stable models is ensemble learning. Ensembles, such as bagging, boosting, voting, or stacking, have been successful at making predictive performance more stable. One might therefore ask whether we can combine the advantages of bias mitigators and ensembles? To explore this question, we first need bias mitigators and ensembles to work together. We built an open-source library enabling the modular composition of 10 mitigators, 4 ensembles, and their corresponding hyperparameters. Based on this library, we empirically explored the space of combinations on 13 datasets, including datasets commonly used in fairness literature plus datasets newly curated by our library. Furthermore, we distilled the results into a guidance diagram for practitioners. We hope this paper will contribute towards improving stability in bias mitigation.
翻訳日:2022-02-04 02:41:33 公開日:2022-02-01
# (参考訳) ColloSSL: 人間の活動認識のための協調的自己監視学習 [全文訳有]

ColloSSL: Collaborative Self-Supervised Learning for Human Activity Recognition ( http://arxiv.org/abs/2202.00758v1 )

ライセンス: CC BY 4.0
Yash Jain, Chi Ian Tang, Chulhong Min, Fahim Kawsar, and Akhil Mathur(参考訳) 堅牢なヒューマンアクティビティ認識モデル(HAR)のトレーニングにおける大きなボトルネックは、大規模ラベル付きセンサーデータセットの必要性である。 大量のセンサーデータのラベリングは高価な作業であるため、ラベルを必要とせずにデータから優れた特徴を学習できる教師なし、半教師なしの学習技術が登場している。 本稿では,この研究を拡張し,ユーザが装着した複数のデバイスから収集したラベルのないデータを利用して,高品質なデータの特徴を学習するColloSSLという新しい手法を提案する。 ColloSSLの設計を支える重要な洞察は、複数のデバイスによって同時にキャプチャされたラベルのないセンサデータセットが互いに自然な変換と見なされ、表現学習のための監視信号を生成するために利用されることである。 本稿では,従来の自己教師付き学習アルゴリズムをマルチデバイス設定に拡張するための3つの技術革新について述べる: 正と負のデバイスを選択してコントラスト学習を可能にするデバイス選択アプローチ,多デバイス設定で正と負のサンプルをサンプリングするコントラストサンプリングアルゴリズム,および標準コントラスト損失をマルチデバイス設定に拡張するマルチビューコントラスト損失と呼ばれる損失関数。 3つのマルチデバイスデータセットによる実験結果から,ColroSSLは実験環境の大部分において,完全教師付きと半教師付きの両方の学習技術より優れており,F_1スコアの絶対的に7.9%向上することがわかった。 また、ColroSSLは、利用可能なラベル付きデータの10分の1をベストケースで使用することで、低データ方式で完全に教師されたメソッドよりも優れていることを示す。

A major bottleneck in training robust Human-Activity Recognition models (HAR) is the need for large-scale labeled sensor datasets. Because labeling large amounts of sensor data is an expensive task, unsupervised and semi-supervised learning techniques have emerged that can learn good features from the data without requiring any labels. In this paper, we extend this line of research and present a novel technique called Collaborative Self-Supervised Learning (ColloSSL) which leverages unlabeled data collected from multiple devices worn by a user to learn high-quality features of the data. A key insight that underpins the design of ColloSSL is that unlabeled sensor datasets simultaneously captured by multiple devices can be viewed as natural transformations of each other, and leveraged to generate a supervisory signal for representation learning. We present three technical innovations to extend conventional self-supervised learning algorithms to a multi-device setting: a Device Selection approach which selects positive and negative devices to enable contrastive learning, a Contrastive Sampling algorithm which samples positive and negative examples in a multi-device setting, and a loss function called Multi-view Contrastive Loss which extends standard contrastive loss to a multi-device setting. Our experimental results on three multi-device datasets show that ColloSSL outperforms both fully-supervised and semi-supervised learning techniques in majority of the experiment settings, resulting in an absolute increase of upto 7.9% in F_1 score compared to the best performing baselines. We also show that ColloSSL outperforms the fully-supervised methods in a low-data regime, by just using one-tenth of the available labeled data in the best case.
翻訳日:2022-02-04 02:21:24 公開日:2022-02-01
# (参考訳) 視点変形に基づく多視点残差共分散モデル [全文訳有]

A Model for Multi-View Residual Covariances based on Perspective Deformation ( http://arxiv.org/abs/2202.00765v1 )

ライセンス: CC BY 4.0
Alejandro Fontan, Laura Oliva, Javier Civera and Rudolph Triebel(参考訳) 本研究では,マルチビューSfM,オドメトリ,SLAMセットアップにおける視覚的残差の共分散モデルを提案する。 我々のアプローチの核心は、幾何学的および測光的ノイズ源の組み合わせとしての残留共分散の定式化である。 そして、我々の重要な新しい貢献は、局所的な2Dパッチが1点あたりの3D表面を撮像する際に、どのように視点変形に苦しむかをモデル化する用語の導出である。 これらを組み合わせることで、機能ベースと直接メソッドの両方の精度を向上させるだけでなく、より正確な状態エントロピーの測定値の推定や、より優れた確立された点可視性しきい値の推定にも使用できる、効率的で一般的な定式化が可能になる。 合成データと実データを用いてモデルを検証し,光度および特徴量に基づくバンドル調整に統合し,その精度を無視できないオーバーヘッドで向上する。

In this work, we derive a model for the covariance of the visual residuals in multi-view SfM, odometry and SLAM setups. The core of our approach is the formulation of the residual covariances as a combination of geometric and photometric noise sources. And our key novel contribution is the derivation of a term modelling how local 2D patches suffer from perspective deformation when imaging 3D surfaces around a point. Together, these add up to an efficient and general formulation which not only improves the accuracy of both feature-based and direct methods, but can also be used to estimate more accurate measures of the state entropy and hence better founded point visibility thresholds. We validate our model with synthetic and real data and integrate it into photometric and feature-based Bundle Adjustment, improving their accuracy with a negligible overhead.
翻訳日:2022-02-04 01:48:05 公開日:2022-02-01
# (参考訳) ローエンドデバイス用変圧器との局所的特徴マッチング [全文訳有]

Local Feature Matching with Transformers for low-end devices ( http://arxiv.org/abs/2202.00770v1 )

ライセンス: CC BY 4.0
Kyrylo Kolodiazhnyi(参考訳) LoFTR arXiv:2104.00680は画像対上の適切な局所特徴マッチングを見つけるための効率的なディープラーニング手法である。 本稿では,計算性能が低くメモリが限られたデバイス上で動作するための最適化について報告する。 オリジナルのLoFTRアプローチはResNet arXiv:1512.03385ヘッドとLinear Transformer arXiv:2006.04768アーキテクチャに基づく2つのモジュールに基づいている。 提案手法では,粗マッチングブロックのみが残され,パラメータ数が大幅に減少し,知識蒸留技術を用いてネットワークを訓練した。 比較の結果,粗いマッチングブロックにおける教師モデルと比較して,モデルサイズが大幅に減少しているにもかかわらず,学生モデルに対して適切な特徴検出精度が得られることがわかった。 また、NVIDIA TensorRTランタイムとモデル互換化に必要な追加ステップを示し、ローエンドGPUのトレーニング方法を最適化するためのアプローチを示す。

LoFTR arXiv:2104.00680 is an efficient deep learning method for finding appropriate local feature matches on image pairs. This paper reports on the optimization of this method to work on devices with low computational performance and limited memory. The original LoFTR approach is based on a ResNet arXiv:1512.03385 head and two modules based on Linear Transformer arXiv:2006.04768 architecture. In the presented work, only the coarse-matching block was left, the number of parameters was significantly reduced, and the network was trained using a knowledge distillation technique. The comparison showed that this approach allows to obtain an appropriate feature detection accuracy for the student model compared to the teacher model in the coarse matching block, despite the significant reduction of model size. Also, the paper shows additional steps required to make model compatible with NVIDIA TensorRT runtime, and shows an approach to optimize training method for low-end GPUs.
翻訳日:2022-02-04 01:32:02 公開日:2022-02-01
# (参考訳) 構造化データグラディエントプルーニングによるDNN学習の高速化 [全文訳有]

Accelerating DNN Training with Structured Data Gradient Pruning ( http://arxiv.org/abs/2202.00774v1 )

ライセンス: CC BY 4.0
Bradley McDanel, Helia Dinh, John Magallanes(参考訳) ウェイトプルーニング(Weight pruning)は、トレーニング中のモデルパラメータ数を削減し、ディープニューラルネットワーク(DNN)の推論をより効率的にする手法である。 しかし、ほとんどの重み付け技術は一般的にDNNトレーニングをスピードアップせず、モデル収束に達するためにより多くのイテレーションを必要とすることもある。 本研究では,モデル収束に影響を与えることなくトレーニングを高速化するSDGP(Structured Data Gradient Pruning)手法を提案する。 このアプローチは特定の空間構造を強制し、行列内のすべての M 要素のうち N のみが 0 でないことができ、ハードウェアの加速に有効である。 Nvidia A100 GPUのような現代のアクセラレーターは、このタイプの構造化された空間を4要素あたり2つの非ゼロでサポートしている。 2:4間隔でのハードウェアサポートを仮定すると、本手法は性能に大きな影響を及ぼすことなく、トレーニング時間を15~25%削減できる。 ソースコードと事前トレーニングされたモデルは \url{https://github.com/b radmcdanel/sdgp} で入手できる。

Weight pruning is a technique to make Deep Neural Network (DNN) inference more computationally efficient by reducing the number of model parameters over the course of training. However, most weight pruning techniques generally does not speed up DNN training and can even require more iterations to reach model convergence. In this work, we propose a novel Structured Data Gradient Pruning (SDGP) method that can speed up training without impacting model convergence. This approach enforces a specific sparsity structure, where only N out of every M elements in a matrix can be nonzero, making it amenable to hardware acceleration. Modern accelerators such as the Nvidia A100 GPU support this type of structured sparsity for 2 nonzeros per 4 elements in a reduction. Assuming hardware support for 2:4 sparsity, our approach can achieve a 15-25\% reduction in total training time without significant impact to performance. Source code and pre-trained models are available at \url{https://github.com/B radMcDanel/sdgp}.
翻訳日:2022-02-04 01:24:31 公開日:2022-02-01
# (参考訳) AdaAnn:確率密度近似のための適応型アニーリングスケジューリング [全文訳有]

AdaAnn: Adaptive Annealing Scheduler for Probability Density Approximation ( http://arxiv.org/abs/2202.00792v1 )

ライセンス: CC BY 4.0
Emma R. Cobian, Jonathan D. Hauenstein, Fang Liu and Daniele E. Schiavazzi(参考訳) 確率分布の近似は、特に高い幾何学的複雑性の領域でサポートされたり、複数のモードを示す場合、難しい作業である。 アニーリングは、逆温度で事前選択されたインクリメントの定数と組み合わされることが多いこのタスクの促進に使うことができる。 しかし, 一定インクリメントを用いることで, 焼鈍密度のスムーズな変化がより大きなインクリメントと等しく扱える状況に適応できないため, 計算効率が制限される。 AdaAnnは適応型焼鈍スケジューラで、十分に密着した焼鈍温度の2つの分布間のクルバック・リーブラーのばらつきの変化に基づいて温度インクリメントを自動的に調整する。 adaannは実装が容易で、変分推論のためのフローの正規化やマルコフ連鎖モンテカルロといった既存のサンプリングアプローチに統合することができる。 本稿では,密度近似や動的システムのパラメータ推定など,多くの例で正規化フローを用いた変分推論のためのadaannスケジューラの計算効率を示す。

Approximating probability distributions can be a challenging task, particularly when they are supported over regions of high geometrical complexity or exhibit multiple modes. Annealing can be used to facilitate this task which is often combined with constant a priori selected increments in inverse temperature. However, using constant increments limit the computational efficiency due to the inability to adapt to situations where smooth changes in the annealed density could be handled equally well with larger increments. We introduce AdaAnn, an adaptive annealing scheduler that automatically adjusts the temperature increments based on the expected change in the Kullback-Leibler divergence between two distributions with a sufficiently close annealing temperature. AdaAnn is easy to implement and can be integrated into existing sampling approaches such as normalizing flows for variational inference and Markov chain Monte Carlo. We demonstrate the computational efficiency of the AdaAnn scheduler for variational inference with normalizing flows on a number of examples, including density approximation and parameter estimation for dynamical systems.
翻訳日:2022-02-04 01:11:09 公開日:2022-02-01
# (参考訳) トラッキングデータを用いたサッカーにおける自動イベント検出

Automatic event detection in football using tracking data ( http://arxiv.org/abs/2202.00804v1 )

ライセンス: CC BY 4.0
Ferran Vidal-Codina, Nicolas Evans, Bahaeddine El Fakir, Johsan Billingham(参考訳) 近年分析に広く使われてきたサッカーにおけるイベントデータの主な欠点の1つは、手作業による収集がまだ必要であり、それによって大会数が減っていることである。 本研究では,すべての選手と球の座標の追跡データを用いて,サッカーイベントを自動的に抽出する計算フレームワークを提案する。 本手法は2つのモデルから構成される:(1)保持モデルは、ボールがプレイされていない時間間隔において、どのプレーヤーがボールを所有しているかを評価するだけでなく、異なるプレイヤーの設定を評価する;(2) ボール保持の変化に依存する、すなわちパス、ショット、クロス、セーブ、レシーブ、インターセプション、およびセットピースを決定する。 まず,ボール保持判定のための追跡データの精度と,手作業で収集したイベントの時間アノテーションの精度を分析する。 次に、自動検出イベントを手動でアノテートしたイベントのデータセットでベンチマークし、ほとんどのカテゴリにおいて提案手法が+90\%$検出率を達成したことを示す。 最後に、自動検出イベントの粒度を高めるために、追跡データによって提供される文脈情報をいかに活用できるかを実証し、サッカーにおける無数のデータ分析を行うために、提案するフレームワークがどのように使用されるかを示す。

One of the main shortcomings of event data in football, which has been extensively used for analytics in the recent years, is that it still requires manual collection, thus limiting its availability to a reduced number of tournaments. In this work, we propose a computational framework to automatically extract football events using tracking data, namely the coordinates of all players and the ball. Our approach consists of two models: (1) the possession model evaluates which player was in possession of the ball at each time, as well as the distinct player configurations in the time intervals where the ball is not in play; (2) the event detection model relies on the changes in ball possession to determine in-game events, namely passes, shots, crosses, saves, receptions and interceptions, as well as set pieces. First, analyze the accuracy of tracking data for determining ball possession, as well as the accuracy of the time annotations for the manually collected events. Then, we benchmark the auto-detected events with a dataset of manually annotated events to show that in most categories the proposed method achieves $+90\%$ detection rate. Lastly, we demonstrate how the contextual information offered by tracking data can be leveraged to increase the granularity of auto-detected events, and exhibit how the proposed framework may be used to conduct a myriad of data analyses in football.
翻訳日:2022-02-04 00:50:17 公開日:2022-02-01
# (参考訳) 分散構造グラフに対する局所微分プライバシーを用いたGromov-Wasserstein差分法 [全文訳有]

Gromov-Wasserstein Discrepancy with Local Differential Privacy for Distributed Structural Graphs ( http://arxiv.org/abs/2202.00808v1 )

ライセンス: CC BY 4.0
Hongwei Jin, Xun Chen(参考訳) 構造化データ、特にグラフ間の類似性を学ぶことは、重要な問題の1つです。 グラフカーネルのようなアプローチに加えて、Gromov-Wasserstein (GW) 距離は、最近、トポロジ的特徴と特徴的特徴の両方を捉える柔軟性と、置換不変性を扱う柔軟性のために大きな注目を集めている。 しかし、構造化データは異なるデータマイニングと機械学習アプリケーションのために広く配布されている。 プライバシの懸念により、分散データへのアクセスは個々のクライアントまたは異なるサイロに限定される。 そこで本研究では,グラフニューラルネットワークから局部的に学習したノード埋め込みのgw不一致をフェデレーションフレーバーで解析し,マルチビットエンコーダに基づいて局所微分プライバシー(ldp)を明示的に配置して機密情報を保護するプライバシ保存フレームワークを提案する。 我々の実験は、$\varepsilon$-LDPアルゴリズムによって保証される強力なプライバシ保護により、提案するフレームワークは、グラフ学習におけるプライバシを保存するだけでなく、GW距離下でノイズのある構造的メトリクスも提示する。 さらに, LDPに基づくGW距離の理論的根拠を解析的に, 実証的に考察する。

Learning the similarity between structured data, especially the graphs, is one of the essential problems. Besides the approach like graph kernels, Gromov-Wasserstein (GW) distance recently draws big attention due to its flexibility to capture both topological and feature characteristics, as well as handling the permutation invariance. However, structured data are widely distributed for different data mining and machine learning applications. With privacy concerns, accessing the decentralized data is limited to either individual clients or different silos. To tackle these issues, we propose a privacy-preserving framework to analyze the GW discrepancy of node embedding learned locally from graph neural networks in a federated flavor, and then explicitly place local differential privacy (LDP) based on Multi-bit Encoder to protect sensitive information. Our experiments show that, with strong privacy protections guaranteed by the $\varepsilon$-LDP algorithm, the proposed framework not only preserves privacy in graph learning but also presents a noised structural metric under GW distance, resulting in comparable and even better performance in classification and clustering tasks. Moreover, we reason the rationale behind the LDP-based GW distance analytically and empirically.
翻訳日:2022-02-04 00:49:03 公開日:2022-02-01
# データリライディングによる不便なコストで公正を達成する

Achieving Fairness at No Utility Cost via Data Reweighing ( http://arxiv.org/abs/2202.00787v1 )

ライセンス: Link先を確認
Peizhao Li and Hongfu Liu(参考訳) アルゴリズムガバナンスの急速な発展に伴い、公正性は意図しない差別を抑制するために機械学習モデルに必須の性質となっている。 本稿では,公平性を達成するための前処理の側面に着目し,トレーニング段階におけるサンプルの重み付けのみを調整するデータ緩和手法を提案する。 各(サブ)グループに一様重みを割り当てる従来の改良法と異なり、各トレーニングサンプルからフェアネスと予測実用性に関する影響を詳細にモデル化し、フェアネスと実用性の両方の制約の影響に基づいて個々の重みを計算する。 実験の結果, 従来手法では, 実用性に乏しいコストで公平性を達成できたが, 重要な利点として, 実証的にトレードオフを解放し, コストフリーな公平性を得ることができた。 複数の表型データセットのベースラインメソッドと比較して,バニラ分類器と標準訓練プロセスによるコストフリーフェアネスを異なるフェアネス概念で示す。

With the fast development of algorithmic governance, fairness has become a compulsory property for machine learning models to suppress unintentional discrimination. In this paper, we focus on the pre-processing aspect for achieving fairness, and propose a data reweighing approach that only adjusts the weight for samples in the training phase. Different from most previous reweighing methods which assign a uniform weight for each (sub)group, we granularly model the influence from each training sample with regard to fairness and predictive utility, and compute individual weights based on the influence with constraints of both fairness and utility. Experimental results reveal that previous methods achieve fairness at a non-negligible cost of utility, while as a significant advantage, our approach can empirically release the tradeoff and obtain cost-free fairness. We demonstrate the cost-free fairness through vanilla classifiers and standard training processes on different fairness notions, compared to baseline methods on multiple tabular datasets.
翻訳日:2022-02-03 15:25:13 公開日:2022-02-01
# LocUNet:ラジオマップとディープラーニングを用いた高速都市位置決め

LocUNet: Fast Urban Positioning Using Radio Maps and Deep Learning ( http://arxiv.org/abs/2202.00738v1 )

ライセンス: Link先を確認
\c{C}a\u{g}kan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire(参考訳) 本稿では,密集した都市シナリオにおけるセルネットワークの局在の問題を扱う。 グローバル・ナビゲーション・サテライト・システム(gnss: global navigation satellite systems)は、視力が低くなる都市環境では性能が悪いため、適切な精度のために代替のローカライズ手法が求められている。 本稿では,基地局 (BS) から受信信号強度 (RSS) をベースとした局所化学習手法を提案する。これは,到着時刻や到着角に依存する手法とは異なり,デバイス標準操作に関して,ユーザデバイスにおける計算複雑性の増大を必要としない。 提案手法では,rssをbssから中央処理ユニット(cpu)にローカライズし,クラウドに配置する。 あるいは、ユーザに対してローカルにローカライズすることができる。 推定されたBSのパスロスラジオマップを用いて、LocUNetは最先端の精度でユーザをローカライズし、無線マップの不正確性に対して高い堅牢性を享受する。 提案手法は環境の事前サンプリングを必要とせず、ニューラルネットワークベースの無線マップ推定器であるRadioUNetのおかげでリアルタイムアプリケーションに適している。 また,現実都市環境におけるrssと到着時刻(toa)の数値比較が可能なデータセットを2つ導入した。

This paper deals with the problem of localization in a cellular network in a dense urban scenario. Global Navigation Satellite Systems (GNSS) typically perform poorly in urban environments, where the likelihood of line-of-sight conditions is low, and thus alternative localization methods are required for good accuracy. We present LocUNet: A deep learning method for localization, based merely on Received Signal Strength (RSS) from Base Stations (BSs), which does not require any increase in computation complexity at the user devices with respect to the device standard operations, unlike methods that rely on time of arrival or angle of arrival information. In the proposed method, the user to be localized reports the RSS from BSs to a Central Processing Unit (CPU), which may be located in the cloud. Alternatively, the localization can be performed locally at the user. Using estimated pathloss radio maps of the BSs, LocUNet can localize users with state-of-the-art accuracy and enjoys high robustness to inaccuracies in the radio maps. The proposed method does not require pre-sampling of the environment; and is suitable for real-time applications, thanks to the RadioUNet, a neural network-based radio map estimator. We also introduce two datasets that allow numerical comparisons of RSS and Time of Arrival (ToA) methods in realistic urban environments.
翻訳日:2022-02-03 15:19:59 公開日:2022-02-01
# 再構成可能なハードウェアアクセラレータのコンパイラ駆動シミュレーション

Compiler-Driven Simulation of Reconfigurable Hardware Accelerators ( http://arxiv.org/abs/2202.00739v1 )

ライセンス: Link先を確認
Zhijing Li, Yuwei Ye, Stephen Neuendorffer, Adrian Sampso(参考訳) ハイパフォーマンスコンピューティングの需要に対応するためにカスタマイズされた加速器の設計がますます人気になってきており、現代のシミュレータ設計がこのような多種多様な加速器に適応することは困難である。 既存のシミュレータは、ハードウェアをモデル化できるが、かなりの労力と実行時間を要するrtlシミュレーションのような低レベルおよび一般的なアプローチと、より高速で使いやすいが1回限りのエンジニアリング労力を必要とする高レベルのアプリケーション固有のモデルである。 本研究は,構成可能なハードウェアアクセラレータをモデル化するコンパイラ駆動シミュレーションワークフローを提案する。 鍵となるアイデアは、様々なハードウェア構成を柔軟に表現できる中間言語を開発することで、構造表現をシミュレーションから分離することである。 我々は、明示的なデータ移動と分散イベントベース制御を備えた任意のハードウェアアクセラレータをモデル化可能なMLIRのEvent Queue(EQueue)方言を設計し、異なる抽象レベルを表すハイブリッドMLIR方言でEQueueプログラムをモデル化するための汎用シミュレーションエンジンを実装した。 本稿では、EQueue実装アクセラレータの2つのケーススタディとして、現代のFPGAにおける畳み込みとSIMDプロセッサのシストリック配列を示す。 前者では、EQueueシミュレーションは最先端のシミュレータと同じくらい正確であり、高い拡張性とコンパイラパスによるイテレーションコストの低減を提供する。 後者では、可視化可能なシミュレーションアウトプットを用いて、設計を効率的に改善できるシミュレーションフローを示す。

As customized accelerator design has become increasingly popular to keep up with the demand for high performance computing, it poses challenges for modern simulator design to adapt to such a large variety of accelerators. Existing simulators tend to two extremes: low-level and general approaches, such as RTL simulation, that can model any hardware but require substantial effort and long execution times; and higher-level application-specific models that can be much faster and easier to use but require one-off engineering effort. This work proposes a compiler-driven simulation workflow that can model configurable hardware accelerator. The key idea is to separate structure representation from simulation by developing an intermediate language that can flexibly represent a wide variety of hardware constructs. We design the Event Queue (EQueue) dialect of MLIR, a dialect that can model arbitrary hardware accelerators with explicit data movement and distributed event-based control; we also implement a generic simulation engine to model EQueue programs with hybrid MLIR dialects representing different abstraction levels. We demonstrate two case studies of EQueue-implemented accelerators: the systolic array of convolution and SIMD processors in a modern FPGA. In the former we show EQueue simulation is as accurate as a state-of-the-art simulator, while offering higher extensibility and lower iteration cost via compiler passes. In the latter we demonstrate our simulation flow can guide designer efficiently improve their design using visualizable simulation outputs.
翻訳日:2022-02-03 15:19:34 公開日:2022-02-01
# 最適アクティブ粒子ナビゲーションの強化学習

Reinforcement learning of optimal active particle navigation ( http://arxiv.org/abs/2202.00812v1 )

ライセンス: Link先を確認
Mahdi Nasiri, Benno Liebchen(参考訳) マイクロスケールとナノスケールでの自己推進粒子の開発は、能動物質物理学、マイクロサージリー、標的薬のデリバリーにおける将来の応用に大きな可能性をもたらした。 しかし、後者の応用は、例えばがん細胞のような標的に向かって最適に移動する方法の探求を引き起こすが、十分に複雑な環境で最適な経路を決定するための簡単な方法はまだ存在しない。 ここでは,複雑な環境で自由に操縦できる自己推進剤の漸近的最適経路を初めて決定できる機械学習ベースの手法を開発した。 本手法は,政策勾配に基づく深層強化学習技術に依存しており,特に報酬形成やヒューリスティックスを必要としない。 提案手法は, 最適軌道を求める現在の解析手法に代わる強力な代替手段を提供し, 将来の知的粒子のためのユニバーサルパスプランナーへの道を開く。

The development of self-propelled particles at the micro- and the nanoscale has sparked a huge potential for future applications in active matter physics, microsurgery, and targeted drug delivery. However, while the latter applications provoke the quest on how to optimally navigate towards a target, such as e.g. a cancer cell, there is still no simple way known to determine the optimal route in sufficiently complex environments. Here we develop a machine learning-based approach that allows us, for the first time, to determine the asymptotically optimal path of a self-propelled agent which can freely steer in complex environments. Our method hinges on policy gradient-based deep reinforcement learning techniques and, crucially, does not require any reward shaping or heuristics. The presented method provides a powerful alternative to current analytical methods to calculate optimal trajectories and opens a route towards a universal path planner for future intelligent active particles.
翻訳日:2022-02-03 15:19:09 公開日:2022-02-01
# 散歩しましょうか。 ビデオデータによるエネルギー消費量の推定

Should I take a walk? Estimating Energy Expenditure from Video Data ( http://arxiv.org/abs/2202.00712v1 )

ライセンス: Link先を確認
Kunyu Peng, Alina Roitberg, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen(参考訳) 本研究は,身体活動中に人体が使用するキロカロリーを自動的に推定する問題をビデオ観察から検討する。 医療文献で確立されたモデルに基づくエネルギー支出アノテーションを導出する高強度・低強度の両方を特徴とするビデオデータから、カロリー消費を推定するための全ソースベンチマークであるVid2Burnを紹介する。 実際には、トレーニングセットは特定のアクティビティタイプのみをカバーするものであり、トレーニング中に見られる特定のアクティビティカテゴリの固定値を記憶する代わりに、モデルが実際にエネルギー消費の本質(例えば、どの筋肉が関与し、どの筋肉がどれだけ激しいか)を捉えているかどうかを検証することが重要である。 理想的には、モデルはそのようなカテゴリー固有のバイアスを越えて、トレーニング中に明示的に存在しない活動カテゴリを描写したビデオのカロリーコストを抑えるべきである。 この特性を念頭に置いて、Vid2Burnはクロスカテゴリベンチマークを伴い、トレーニング中に存在しない身体活動の種類に対するカロリー消費を抑える。 エネルギー支出推定タスクのために修正された映像認識の最先端手法の広範な評価は、特にテスト時の新しい活動タイプにおいて、この問題の難しさを示している。 データセットとコードはhttps://github.com/k peng9510/vid2burnで入手できる。

We explore the problem of automatically inferring the amount of kilocalories used by human during physical activity from his/her video observation. To study this underresearched task, we introduce Vid2Burn -- an omni-source benchmark for estimating caloric expenditure from video data featuring both, high- and low-intensity activities for which we derive energy expenditure annotations based on models established in medical literature. In practice, a training set would only cover a certain amount of activity types, and it is important to validate, if the model indeed captures the essence of energy expenditure, (e.g., how many and which muscles are involved and how intense they work) instead of memorizing fixed values of specific activity categories seen during training. Ideally, the models should look beyond such category-specific biases and regress the caloric cost in videos depicting activity categories not explicitly present during training. With this property in mind, Vid2Burn is accompanied with a cross-category benchmark, where the task is to regress caloric expenditure for types of physical activities not present during training. An extensive evaluation of state-of-the-art approaches for video recognition modified for the energy expenditure estimation task demonstrates the difficulty of this problem, especially for new activity types at test-time, marking a new research direction. Dataset and code are available at https://github.com/K Peng9510/Vid2Burn.
翻訳日:2022-02-03 14:59:13 公開日:2022-02-01
# 凸クラスタリングによる個人化フェデレーション学習

Personalized Federated Learning via Convex Clustering ( http://arxiv.org/abs/2202.00718v1 )

ライセンス: Link先を確認
Aleksandar Armacki, Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのパラメトリックなアルゴリズム群を提案する。 提案するフレームワークは凸クラスタリングの一般化に基づいており,各ユーザのモデルの違いは,ペナルティパラメータ$\lambda$で重み付けされたノームの和によってペナルティ化される。 提案手法は,隠れクラスタ構造やクラスタ数の事前知識を必要とせずに,"自動"モデルクラスタリングを可能にする。 同時パーソナライズ、一般化、自動モデルクラスタリングにつながる重みパラメータに関する分析的な境界が提供される。 この形式化された問題に対する解決策は、異なるクラスタにまたがる異なるモデルを提供することでパーソナライズを可能にし、個別に計算されたユーザー毎のモデルとは異なるモデルを提供することで一般化を可能にする。 次に,並列方向乗算器法(pdmm)に基づく効率的なアルゴリズムを提案し,提案手法をフェデレーションサーバユーザ設定で解く。 数値実験は我々の発見を裏付ける。 興味深い副産物として、この結果は凸クラスタリングへのいくつかの一般化を提供する。

We propose a parametric family of algorithms for personalized federated learning with locally convex user costs. The proposed framework is based on a generalization of convex clustering in which the differences between different users' models are penalized via a sum-of-norms penalty, weighted by a penalty parameter $\lambda$. The proposed approach enables "automatic" model clustering, without prior knowledge of the hidden cluster structure, nor the number of clusters. Analytical bounds on the weight parameter, that lead to simultaneous personalization, generalization and automatic model clustering are provided. The solution to the formulated problem enables personalization, by providing different models across different clusters, and generalization, by providing models different than the per-user models computed in isolation. We then provide an efficient algorithm based on the Parallel Direction Method of Multipliers (PDMM) to solve the proposed formulation in a federated server-users setting. Numerical experiments corroborate our findings. As an interesting byproduct, our results provide several generalizations to convex clustering.
翻訳日:2022-02-03 14:56:41 公開日:2022-02-01
# 微分学習シミュレータを用いた物理設計

Physical Design using Differentiable Learned Simulators ( http://arxiv.org/abs/2202.00728v1 )

ライセンス: Link先を確認
Kelsey R. Allen, Tatiana Lopez-Guevara, Kimberly Stachenfeld, Alvaro Sanchez-Gonzalez, Peter Battaglia, Jessica Hamrick, Tobias Pfaff(参考訳) ツールやその他の機能構造などの目的に果たす物理的アーティファクトを設計することは、エンジニアリングと日々の人間の振る舞いの中心である。 設計の自動化には大きな約束があるが、汎用的手法はまだ存在しない。 ここでは,グラフニューラルネットワークに基づく学習フォワードシミュレータと勾配に基づく設計最適化を組み合わせた,シンプルで高速でロバストな逆設計手法を提案する。 本手法は, 流体の流れを制御し, 抵抗を最小限に抑えるために翼形状を最適化する表面や工具の設計を含む, 複雑な物理力学の高次元問題を解く。 このフレームワークは、設計タスクとは大きく異なるデータ上の単一ステップ予測のために事前訓練されたモデルを使用しても、数百ステップの軌道で勾配を伝播することで高品質な設計を生成する。 流体操作タスクでは,サンプリングベース最適化手法により得られた結果よりも優れた結果を得た。 翼の設計では、特殊な解法で得られるものの品質と一致した。 以上の結果から,機械学習に基づくシミュレータは,課題が残っているにもかかわらず,様々な分野にわたる汎用設計の最適化を支援できる段階まで成熟していることが示唆された。

Designing physical artifacts that serve a purpose - such as tools and other functional structures - is central to engineering as well as everyday human behavior. Though automating design has tremendous promise, general-purpose methods do not yet exist. Here we explore a simple, fast, and robust approach to inverse design which combines learned forward simulators based on graph neural networks with gradient-based design optimization. Our approach solves high-dimensional problems with complex physical dynamics, including designing surfaces and tools to manipulate fluid flows and optimizing the shape of an airfoil to minimize drag. This framework produces high-quality designs by propagating gradients through trajectories of hundreds of steps, even when using models that were pre-trained for single-step predictions on data substantially different from the design tasks. In our fluid manipulation tasks, the resulting designs outperformed those found by sampling-based optimization techniques. In airfoil design, they matched the quality of those obtained with a specialized solver. Our results suggest that despite some remaining challenges, machine learning-based simulators are maturing to the point where they can support general-purpose design optimization across a variety of domains.
翻訳日:2022-02-03 14:56:22 公開日:2022-02-01
# 教師なしマルチソースフリードメイン適応のための擬似ラベルにおける選択性の効果について

On the Benefits of Selectivity in Pseudo-Labeling for Unsupervised Multi-Source-Free Domain Adaptation ( http://arxiv.org/abs/2202.00796v1 )

ライセンス: Link先を確認
Maohao Shen, Yuheng Bu, Gregory Wornell(参考訳) プライバシやストレージ、その他の制約のため、ソースモデルのコレクションのトレーニングに使用されるデータにアクセスする必要のないマシンラーニングにおいて、教師なしのドメイン適応技術がますます必要になる。 このようなマルチソースフリーなドメイン適応のための既存の手法は通常、利用可能なソースモデルによって生成されるターゲットデータのための擬似ラベルと共に教師あり技術を使ってターゲットモデルを訓練する。 しかし,対象データのサブセットのみに擬似ラベルを割り当てることにより,性能が向上することを示す。 特に,対象モデルの一般化誤差に基づく情報理論的な境界を開発し,部分集合選択によって制御される固有バイアス分散トレードオフを実証する。 そこで本研究では,対象データを擬似ラベル付きおよび未ラベルのサブセットに分割し,トレードオフのバランスをとる手法を開発した。 疑似ラベル付きサブセットの活用に加えて、従来の教師なしドメイン適応機能アライメント手順により、未ラベルサブセットの情報をさらに活用する。 複数のベンチマークデータセットの実験により,提案手法の優れた性能が示された。

Due to privacy, storage, and other constraints, there is a growing need for unsupervised domain adaptation techniques in machine learning that do not require access to the data used to train a collection of source models. Existing methods for such multi-source-free domain adaptation typically train a target model using supervised techniques in conjunction with pseudo-labels for the target data, which are produced by the available source models. However, we show that assigning pseudo-labels to only a subset of the target data leads to improved performance. In particular, we develop an information-theoreti c bound on the generalization error of the resulting target model that demonstrates an inherent bias-variance trade-off controlled by the subset choice. Guided by this analysis, we develop a method that partitions the target data into pseudo-labeled and unlabeled subsets to balance the trade-off. In addition to exploiting the pseudo-labeled subset, our algorithm further leverages the information in the unlabeled subset via a traditional unsupervised domain adaptation feature alignment procedure. Experiments on multiple benchmark datasets demonstrate the superior performance of the proposed method.
翻訳日:2022-02-03 14:56:05 公開日:2022-02-01
# IFOR:ロボット物体再構成のための反復フロー最小化

IFOR: Iterative Flow Minimization for Robotic Object Rearrangement ( http://arxiv.org/abs/2202.00732v1 )

ライセンス: Link先を確認
Ankit Goyal, Arsalan Mousavian, Chris Paxton, Yu-Wei Chao, Brian Okorn, Jia Deng, Dieter Fox(参考訳) 視覚からの正確なオブジェクトの再構成は、非構造化環境での様々な実世界のロボットアプリケーションにとって重要な問題である。 本研究は,ロボットの物体再配置のためのifor,反復フロー最小化,および原シーンと最終シーンのrgbd画像による未知物体の物体再配置問題に対するエンドツーエンド手法を提案する。 まず,合成データから物体の相対的変換を推定するために,raftに基づく光フローモデルを学ぶ。 この流れは、未確認物体の正確な位置決めを実現するために反復最小化アルゴリズムで使用される。 重要なことに,本手法は,合成データのみをトレーニングしながら,散らばったシーンや現実世界に適用される。 ビデオはhttps://imankgoyal.g ithub.io/ifor.htmlで閲覧できる。

Accurate object rearrangement from vision is a crucial problem for a wide variety of real-world robotics applications in unstructured environments. We propose IFOR, Iterative Flow Minimization for Robotic Object Rearrangement, an end-to-end method for the challenging problem of object rearrangement for unknown objects given an RGBD image of the original and final scenes. First, we learn an optical flow model based on RAFT to estimate the relative transformation of the objects purely from synthetic data. This flow is then used in an iterative minimization algorithm to achieve accurate positioning of previously unseen objects. Crucially, we show that our method applies to cluttered scenes, and in the real world, while training only on synthetic data. Videos are available at https://imankgoyal.g ithub.io/ifor.html.
翻訳日:2022-02-03 14:52:44 公開日:2022-02-01
# ポジティヴ・ジャコビアンに向けて:行列指数による差分像登録のプロセス後学習

Towards Positive Jacobian: Learn to Postprocess Diffeomorphic Image Registration with Matrix Exponential ( http://arxiv.org/abs/2202.00749v1 )

ライセンス: Link先を確認
Soumyadeep Pal, Matthew Tennant and Nilanjan Ray(参考訳) 本稿では, 変形可能な画像登録のための後処理層を提案する。 逆行性, 変換の滑らかさ, グリッドのトポロジー保存/非折り畳み性などの性質から, 医用画像研究において二相性画像登録は重要である。 これらの特性の侵害は、画像登録中に近隣の破壊と解剖学的構造の接続につながる可能性がある。 最近のディープラーニング手法のほとんどは、この折りたたみ問題に明示的に対処しておらず、登録フィールドの滑らかな正規化によって解決しようとする。 本稿では,任意の登録フィールドを入力とする微分可能層を提案し,入力のヤコビ行列の指数関数を計算し,ポアソン再構成を用いた指数化ヤコビ行列から新しい登録フィールドを再構成する。 提案したポアソン復元損失は,最終登録分野における正のジャコビアンを強制する。 このように,本手法は学習可能なパラメータを含まない後処理層として機能し,ディープラーニングパイプラインの端に配置してエンドツーエンドの学習可能なフレームワークを構築することができる。 本稿では,一般的なディープラーニング登録手法であるVoxelmorphの有効性を示し,それを3次元脳MRIスキャンを含むデータセットを用いて評価する。 以上の結果から, 登録精度が著しく低下することなく, 非陽性ヤコビアンの数が有意に減少し, 登録フィールドがより二相化することが認められた。 私たちのコードはhttps://github.com/s oumyadeep-pal/diffeo morphic-image-regist ration-postprocess.c omで利用可能です。

We present a postprocessing layer for deformable image registration to make a registration field more diffeomorphic by encouraging Jacobians of the transformation to be positive. Diffeomorphic image registration is important for medical imaging studies because of the properties like invertibility, smoothness of the transformation, and topology preservation/non-fol ding of the grid. Violation of these properties can lead to destruction of the neighbourhood and the connectivity of anatomical structures during image registration. Most of the recent deep learning methods do not explicitly address this folding problem and try to solve it with a smoothness regularization on the registration field. In this paper, we propose a differentiable layer, which takes any registration field as its input, computes exponential of the Jacobian matrices of the input and reconstructs a new registration field from the exponentiated Jacobian matrices using Poisson reconstruction. Our proposed Poisson reconstruction loss enforces positive Jacobians for the final registration field. Thus, our method acts as a post-processing layer without any learnable parameters of its own and can be placed at the end of any deep learning pipeline to form an end-to-end learnable framework. We show the effectiveness of our proposed method for a popular deep learning registration method Voxelmorph and evaluate it with a dataset containing 3D brain MRI scans. Our results show that our post-processing can effectively decrease the number of non-positive Jacobians by a significant amount without any noticeable deterioration of the registration accuracy, thus making the registration field more diffeomorphic. Our code is available online at https://github.com/S oumyadeep-Pal/Diffeo morphic-Image-Regist ration-Postprocess.
翻訳日:2022-02-03 14:52:30 公開日:2022-02-01
# 連合学習の課題と機会--展望

Federated Learning Challenges and Opportunities: An Outlook ( http://arxiv.org/abs/2202.00807v1 )

ライセンス: Link先を確認
Jie Ding, Eric Tramel, Anit Kumar Sahu, Shuang Wu, Salman Avestimehr, Tao Zhang(参考訳) フェデレートラーニング(FL)は、エッジデバイスのリソースを活用し、顧客のプライバシを高め、規制を遵守し、開発コストを削減するための有望なフレームワークとして開発されている。 FLのための多くの手法や応用が開発されているが、実用FLシステムのいくつかの重要な課題は未解決のままである。 本稿では,fl開発の展望を,アルゴリズム基盤,パーソナライゼーション,ハードウェアとセキュリティの制約,生涯学習,非標準データという,flの新しい5つの方向に分類した。 私たちのユニークな視点は、エッジデバイスのための大規模フェデレーションシステムの実践的な観察によって裏付けられています。

Federated learning (FL) has been developed as a promising framework to leverage the resources of edge devices, enhance customers' privacy, comply with regulations, and reduce development costs. Although many methods and applications have been developed for FL, several critical challenges for practical FL systems remain unaddressed. This paper provides an outlook on FL development, categorized into five emerging directions of FL, namely algorithm foundation, personalization, hardware and security constraints, lifelong learning, and nonstandard data. Our unique perspectives are backed by practical observations from large-scale federated systems for edge devices.
翻訳日:2022-02-03 14:25:09 公開日:2022-02-01
# AlphaDesign: AlphaFoldDBのグラフタンパク質設計方法とベンチマーク

AlphaDesign: A graph protein design method and benchmark on AlphaFoldDB ( http://arxiv.org/abs/2202.01079v1 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Stan. Z Li(参考訳) DeepMindは、タンパク質の折り畳みを一時的に解決しているが、その逆問題である3D構造からタンパク質配列を予測するタンパク質設計は、依然として重大な課題に直面している。 特に、大規模標準ベンチマークの欠如と不十分なaccurayが研究の進展を妨げている。 比較を標準化し、さらなる研究の関心を引くために、我々は、世界最大のタンパク質構造データベースであるAlphaFold DBを使用して、新しいグラフベースのベンチマークであるAlphaDesignを確立する。 AlphaDesignに基づいて,タンパク質角を新しい特徴として導入し,グラフトランスフォーマーエンコーダ(SGT)を簡略化し,信頼性に配慮したタンパク質デコーダ(CPD)を提案することにより,ADesignと呼ばれる新しい手法を提案する。 一方、SGTとCDDは、トレーニングやテスト手順を簡素化することで、モデルの効率も向上する。 実験の結果、ADesignは従来のグラフモデルよりも大幅に優れており、例えば平均精度は8\%向上し、推論速度は以前より40倍速くなっている。

While DeepMind has tentatively solved protein folding, its inverse problem -- protein design which predicts protein sequences from their 3D structures -- still faces significant challenges. Particularly, the lack of large-scale standardized benchmark and poor accuray hinder the research progress. In order to standardize comparisons and draw more research interest, we use AlphaFold DB, one of the world's largest protein structure databases, to establish a new graph-based benchmark -- AlphaDesign. Based on AlphaDesign, we propose a new method called ADesign to improve accuracy by introducing protein angles as new features, using a simplified graph transformer encoder (SGT), and proposing a confidence-aware protein decoder (CPD). Meanwhile, SGT and CPD also improve model efficiency by simplifying the training and testing procedures. Experiments show that ADesign significantly outperforms previous graph models, e.g., the average accuracy is improved by 8\%, and the inference speed is 40+ times faster than before.
翻訳日:2022-02-03 14:24:19 公開日:2022-02-01
# 形態変化の深層学習による実装

A deep residual learning implementation of Metamorphosis ( http://arxiv.org/abs/2202.00676v1 )

ライセンス: Link先を確認
Matthis Maillard, Anton Fran\c{c}ois, Joan Glaun\`es, Isabelle Bloch, Pietro Gori(参考訳) 医用画像では、ほとんどの画像登録法は、ソースとターゲット画像(すなわち微分同相)の1対1対応を暗黙的に仮定する。 しかし、病的医療画像(例えば、腫瘍、病変など)を扱う場合、必ずしもそうではない。 この問題に対処するために,変形モデルが提案されている。 幾何学的および位相的差異に対処するために、画像の形状と外観の両方を修飾する。 しかし、高い計算時間と負荷は、これまでその応用を妨げてきた。 本稿では,推論時の計算時間を劇的に削減するメタモルフィズムの残差学習実装を提案する。 さらに,提案手法は,空間的正規化として機能する位相変化(例えばセグメンテーションマスク)の局所化に関する事前知識を容易に統合でき,正確に見栄えや形状変化を区別できることを示した。 提案手法はBraTS 2021データセット上でテストし,脳腫瘍と画像のアライメントにおいて最先端の手法よりも優れていることを示した。

In medical imaging, most of the image registration methods implicitly assume a one-to-one correspondence between the source and target images (i.e., diffeomorphism). However, this is not necessarily the case when dealing with pathological medical images (e.g., presence of a tumor, lesion, etc.). To cope with this issue, the Metamorphosis model has been proposed. It modifies both the shape and the appearance of an image to deal with the geometrical and topological differences. However, the high computational time and load have hampered its applications so far. Here, we propose a deep residual learning implementation of Metamorphosis that drastically reduces the computational time at inference. Furthermore, we also show that the proposed framework can easily integrate prior knowledge of the localization of topological changes (e.g., segmentation masks) that can act as spatial regularization to correctly disentangle appearance and shape changes. We test our method on the BraTS 2021 dataset, showing that it outperforms current state-of-the-art methods in the alignment of images with brain tumors.
翻訳日:2022-02-03 14:21:24 公開日:2022-02-01
# 畳み込みニューラルネットワークを用いた皮膚癌画像の分類

Classification of Skin Cancer Images using Convolutional Neural Networks ( http://arxiv.org/abs/2202.00678v1 )

ライセンス: Link先を確認
Kartikeya Agarwal, Tismeet Singh(参考訳) 皮膚がんは最も一般的なヒト悪性腫瘍(American Cancer Society)であり、主に視覚的に診断され、初期臨床検査から始まり、皮膚内視鏡検査、生検、病理組織検査が続く可能性がある。 皮膚がんは、皮膚細胞のDNAにエラー(突然変異)が発生したときに起こる。 この変異により、細胞は制御不能に成長し、がん細胞の塊を形成する。 本研究の目的は,畳み込みニューラルネットワークを用いて皮膚病変の画像の分類を行うことである。 深層ニューラルネットワークは、環境によって示される大きな変動を考慮した画像分類の可能性を示す。 ここではピクセル値に基づいて画像を訓練し,疾患ラベルに基づいて分類した。 データセットは、ISIC(International Skin Imaging Collaboration) Archiveから取得したオープンソースKaggle Repository(Kaggle Dataset)から取得された。 トレーニングは、転送学習を伴う複数のモデルで実施された。 最も高いモデル精度は86.65%以上であった。 使用するデータセットは、前述の結果の信頼性と再現性を保証するために公開されている。

Skin cancer is the most common human malignancy(American Cancer Society) which is primarily diagnosed visually, starting with an initial clinical screening and followed potentially by dermoscopic(related to skin) analysis, a biopsy and histopathological examination. Skin cancer occurs when errors (mutations) occur in the DNA of skin cells. The mutations cause the cells to grow out of control and form a mass of cancer cells. The aim of this study was to try to classify images of skin lesions with the help of convolutional neural networks. The deep neural networks show humongous potential for image classification while taking into account the large variability exhibited by the environment. Here we trained images based on the pixel values and classified them on the basis of disease labels. The dataset was acquired from an Open Source Kaggle Repository(Kaggle Dataset)which itself was acquired from ISIC(International Skin Imaging Collaboration) Archive. The training was performed on multiple models accompanied with Transfer Learning. The highest model accuracy achieved was over 86.65%. The dataset used is publicly available to ensure credibility and reproducibility of the aforementioned result.
翻訳日:2022-02-03 14:21:05 公開日:2022-02-01
# ADG-Pose:実世界の人文推定のための自動データセット生成

ADG-Pose: Automated Dataset Generation for Real-World Human Pose Estimation ( http://arxiv.org/abs/2202.00753v1 )

ライセンス: Link先を確認
Ghazal Alinezhad Noghre, Armin Danesh Pazho, Justin Sanchez, Nathan Hewitt, Christopher Neff, Hamed Tabkhi(参考訳) コンピュータビジョンの最近の進歩は、人間のポーズを理解するためにニューラルネットワークを用いた応用が普及している。 しかし、Stand-of-the-Artデータセットでは精度が着実に向上しているが、これらのデータセットは現実世界のアプリケーションで見られる課題に対処しないことが多い。 これらの課題は、カメラから遠く離れた人々、群衆の中の人々、そして密集した人々を扱うことです。 その結果、実世界のアプリケーションの多くは、デプロイ中のデータを反映しないデータに基づいてトレーニングを行い、パフォーマンスが大幅に低下した。 本稿では,実世界の人間のポーズ推定のためのデータセットを自動生成するADG-Poseを提案する。 これらのデータセットは、人の距離、混雑度、閉塞分布を決定するためにカスタマイズできる。 我々の方法でトレーニングされたモデルは、他のデータセットでトレーニングされたモデルが失敗するこれらの課題の存在下で実行することができる。 ADG-Poseを用いることで、現実の骨格に基づく行動認識におけるエンドツーエンドの精度は、適度な距離と閉塞レベルを持つシーンでは20%向上し、他のモデルがランダムよりもパフォーマンスが良くない遠隔シーンでは4倍向上する。

Recent advancements in computer vision have seen a rise in the prominence of applications using neural networks to understand human poses. However, while accuracy has been steadily increasing on State-of-the-Art datasets, these datasets often do not address the challenges seen in real-world applications. These challenges are dealing with people distant from the camera, people in crowds, and heavily occluded people. As a result, many real-world applications have trained on data that does not reflect the data present in deployment, leading to significant underperformance. This article presents ADG-Pose, a method for automatically generating datasets for real-world human pose estimation. These datasets can be customized to determine person distances, crowdedness, and occlusion distributions. Models trained with our method are able to perform in the presence of these challenges where those trained on other datasets fail. Using ADG-Pose, end-to-end accuracy for real-world skeleton-based action recognition sees a 20% increase on scenes with moderate distance and occlusion levels, and a 4X increase on distant scenes where other models failed to perform better than random.
翻訳日:2022-02-03 14:20:49 公開日:2022-02-01
# ラベルの少ない火星地層セグメンテーション

Mars Terrain Segmentation with Less Labels ( http://arxiv.org/abs/2202.00791v1 )

ライセンス: Link先を確認
Edwin Goh, Jingdao Chen, Brian Wilson(参考訳) 惑星ローバーシステムは、乾燥可能な地域を識別し、サンプル収集のための特定の種類の土壌を特定するために、地形のセグメンテーションを行う必要がある。 最新の火星の地形区分法は教師あり学習に依存しており、非常にデータに飢えており、少数のラベル付きサンプルしか使用できない訓練が困難である。 さらに、セマンティクスクラスは、異なるアプリケーション(例えばローバートラバーサル対地質学)に対して異なる定義であり、結果としてネットワークは、リソースの非効率的な使用である、毎回スクラッチからトレーニングされなければならない。 本研究では,無ラベル画像を用いた深層セグメンテーションネットワークを,少数のラベル付き画像で訓練された地形セグメンテーションのタスクに転送する,火星の地形セグメンテーションのための半教師付き学習フレームワークを提案する。 このネットワークは、コントラスト損失関数を用いてトレーニングされるバックボーンモジュールと、画素毎のクロスエントロピー損失関数を用いてトレーニングされる出力アトラス畳み込みモジュールとを組み込む。 セグメンテーション精度の指標を用いた評価の結果, コントラストプリトレーニングによる手法は, 教師あり学習を2%~10%上回ることがわかった。 さらに,提案モデルでは,教師付き学習の81.9%に対して161のトレーニング画像(オリジナルデータセットの1%)のみを用いて,91.1%のセグメンテーション精度を実現することができた。

Planetary rover systems need to perform terrain segmentation to identify drivable areas as well as identify specific types of soil for sample collection. The latest Martian terrain segmentation methods rely on supervised learning which is very data hungry and difficult to train where only a small number of labeled samples are available. Moreover, the semantic classes are defined differently for different applications (e.g., rover traversal vs. geological) and as a result the network has to be trained from scratch each time, which is an inefficient use of resources. This research proposes a semi-supervised learning framework for Mars terrain segmentation where a deep segmentation network trained in an unsupervised manner on unlabeled images is transferred to the task of terrain segmentation trained on few labeled images. The network incorporates a backbone module which is trained using a contrastive loss function and an output atrous convolution module which is trained using a pixel-wise cross-entropy loss function. Evaluation results using the metric of segmentation accuracy show that the proposed method with contrastive pretraining outperforms plain supervised learning by 2%-10%. Moreover, the proposed model is able to achieve a segmentation accuracy of 91.1% using only 161 training images (1% of the original dataset) compared to 81.9% with plain supervised learning.
翻訳日:2022-02-03 14:20:29 公開日:2022-02-01
# グラフに基づくニューラルネットワークによる多重組織標本の免疫プロファイリング

A Graph Based Neural Network Approach to Immune Profiling of Multiplexed Tissue Samples ( http://arxiv.org/abs/2202.00813v1 )

ライセンス: Link先を確認
Natalia Garcia Martin, Stefano Malacrino, Marta Wojciechowska, Leticia Campo, Helen Jones, David C. Wedge, Chris Holmes, Korsuk Sirinukunwattana, Heba Sailem, Clare Verrill, and Jens Rittscher(参考訳) 多重免疫蛍光は、特定の細胞間および細胞微小環境相互作用を研究する前例のない機会を提供する。 組織形態から得られた特徴とタンパク質発現の測定を組み合わせるためにグラフニューラルネットワークを用い,異なる腫瘍ステージに関連付けられた腫瘍の微小環境を解析した。 我々のフレームワークは、これらの複雑な多次元データセットを分析して処理する新しいアプローチを示し、これらのデータ分析におけるいくつかの重要な課題を克服し、生物学的に有意義な相互作用を抽象化する機会を開く。

Multiplexed immunofluorescence provides an unprecedented opportunity for studying specific cell-to-cell and cell microenvironment interactions. We employ graph neural networks to combine features obtained from tissue morphology with measurements of protein expression to profile the tumour microenvironment associated with different tumour stages. Our framework presents a new approach to analysing and processing these complex multi-dimensional datasets that overcomes some of the key challenges in analysing these data and opens up the opportunity to abstract biologically meaningful interactions.
翻訳日:2022-02-03 14:17:59 公開日:2022-02-01
# コンテキスト帯域におけるコンテキスト不確かさとリコメンダシステムへの応用

Context Uncertainty in Contextual Bandits with Applications to Recommender Systems ( http://arxiv.org/abs/2202.00805v1 )

ライセンス: Link先を確認
Hao Wang, Yifei Ma, Hao Ding, Yuyang Wang(参考訳) リカレントニューラルネットワークは,レコメンデータシステムの逐次ユーザフィードバックのモデル化に有効であることが証明されている。 しかし、通常はアイテムの関連性のみに重点を置いており、ユーザのための多様なアイテムを効果的に探索できないため、長期的にはシステムパフォーマンスを損なう。 この問題に対処するために,リカレント探索ネットワーク(REN)と呼ばれる新しいタイプのリカレントニューラルネットワークを提案する。 RENは、表現の不確実性を考慮して、妥当性と探索のバランスをとる。 我々の理論的分析は,RENが学習表現に不確実性がある場合でも,レート最適サブ線形後悔を保てることを示す。 我々の実証研究は、RENが合成および実世界のレコメンデーションデータセットに満足な長期報酬を得られることを示した。

Recurrent neural networks have proven effective in modeling sequential user feedbacks for recommender systems. However, they usually focus solely on item relevance and fail to effectively explore diverse items for users, therefore harming the system performance in the long run. To address this problem, we propose a new type of recurrent neural networks, dubbed recurrent exploration networks (REN), to jointly perform representation learning and effective exploration in the latent space. REN tries to balance relevance and exploration while taking into account the uncertainty in the representations. Our theoretical analysis shows that REN can preserve the rate-optimal sublinear regret even when there exists uncertainty in the learned representations. Our empirical study demonstrates that REN can achieve satisfactory long-term rewards on both synthetic and real-world recommendation datasets, outperforming state-of-the-art models.
翻訳日:2022-02-03 13:54:13 公開日:2022-02-01
# テキストからの意図抽出のための半監督深層クラスタリングパイプライン

A Semi-Supervised Deep Clustering Pipeline for Mining Intentions From Texts ( http://arxiv.org/abs/2202.00802v1 )

ライセンス: Link先を確認
Xinyu Chen and Ian Beaver(参考訳) 大量の自然言語入力から潜伏する意図をマイニングすることは、データアナリストが顧客のサービス用にIntelligent Virtual Assistant(IVA)を設計および洗練するのを助ける重要なステップである。 このタスクでデータアナリストを支援するために、分析プラットフォームであるVerint Intent Manager(VIM)を紹介します。 データの最初の調査には、ハイパフォーマンス言語モデルの微調整、分散k-nnグラフ構築方法、テキストから意図やトピックをマイニングするためのコミュニティ検出技術を統合する、教師なしで半教師なしの新しいパイプラインを使用します。 事前訓練された言語モデルでは、対象のテキストが見えないドメインから、あるいはクラスタリングタスクがトピック検出でない場合に、特定のクラスタリング構造を効率的に表現できないため、微調整のステップが必要である。 クラスタ数を指定する必要がある場合と、クラスタ数を自動的に検出してクラスタ品質を比較できるが、計算時間を犠牲にしている場合の2つのクラスタリングアプローチをデプロイする。 アプリケーションとデプロイメントについて説明し,bertを用いて3つのテキストマイニングタスクでその性能を示す。 実験の結果,BERTはタスクデータの0.5%程度のラベル付きサブセットを用いて,より優れたタスク認識表現を創出し始めた。 タスクデータのわずか2.5%のラベル付きサブセットでbertが微調整された場合、クラスタリングの品質は最先端の結果を超える。 VIMアプリケーションにデプロイされるように、この柔軟なクラスタリングパイプラインは、高品質な結果をもたらし、データアナリストのパフォーマンスを改善し、カスタマサービスデータから意図を明らかにするのに要する時間を削減し、新たなドメインでのIVAの構築とデプロイに要する時間を削減します。

Mining the latent intentions from large volumes of natural language inputs is a key step to help data analysts design and refine Intelligent Virtual Assistants (IVAs) for customer service. To aid data analysts in this task we present Verint Intent Manager (VIM), an analysis platform that combines unsupervised and semi-supervised approaches to help analysts quickly surface and organize relevant user intentions from conversational texts. For the initial exploration of data we make use of a novel unsupervised and semi-supervised pipeline that integrates the fine-tuning of high performing language models, a distributed k-NN graph building method and community detection techniques for mining the intentions and topics from texts. The fine-tuning step is necessary because pre-trained language models cannot encode texts to efficiently surface particular clustering structures when the target texts are from an unseen domain or the clustering task is not topic detection. For flexibility we deploy two clustering approaches: where the number of clusters must be specified and where the number of clusters is detected automatically with comparable clustering quality but at the expense of additional computation time. We describe the application and deployment and demonstrate its performance using BERT on three text mining tasks. Our experiments show that BERT begins to produce better task-aware representations using a labeled subset as small as 0.5% of the task data. The clustering quality exceeds the state-of-the-art results when BERT is fine-tuned with labeled subsets of only 2.5% of the task data. As deployed in the VIM application, this flexible clustering pipeline produces high quality results, improving the performance of data analysts and reducing the time it takes to surface intentions from customer service data, thereby reducing the time it takes to build and deploy IVAs in new domains.
翻訳日:2022-02-03 13:51:28 公開日:2022-02-01
# 注意および視覚変換器を用いた値ベースモデルのサンプル効率向上

Improving Sample Efficiency of Value Based Models Using Attention and Vision Transformers ( http://arxiv.org/abs/2202.00710v1 )

ライセンス: Link先を確認
Amir Ardalan Kalantari, Mohammad Amini, Sarath Chandar, Doina Precup(参考訳) 最近のDeep Reinforcement Learningの成功の多くは、世界の効果的な内部表現を学習し、活用する神経アーキテクチャの可能性に起因している。 多くのアルゴリズムがシミュレーターにアクセスして大量のデータでトレーニングするが、現実的な設定では、人に対してプレイできるゲームもあれば、収集体験は非常にコストがかかる。 本稿では,性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。 我々は近年,自然言語処理とコンピュータビジョンの分野で達成された進歩を取り入れて,このアーキテクチャを設計する。 具体的には、トランスフォーマーを用いて状態表現の特徴マップ上で自己照応機構を学習し、同時に戻り値を最適化する視覚注意モデルを提案する。 我々は、このアーキテクチャがいくつかのatari環境のサンプル複雑さを改善し、いくつかのゲームでより良いパフォーマンスを達成することを実証的に示している。

Much of recent Deep Reinforcement Learning success is owed to the neural architecture's potential to learn and use effective internal representations of the world. While many current algorithms access a simulator to train with a large amount of data, in realistic settings, including while playing games that may be played against people, collecting experience can be quite costly. In this paper, we introduce a deep reinforcement learning architecture whose purpose is to increase sample efficiency without sacrificing performance. We design this architecture by incorporating advances achieved in recent years in the field of Natural Language Processing and Computer Vision. Specifically, we propose a visually attentive model that uses transformers to learn a self-attention mechanism on the feature maps of the state representation, while simultaneously optimizing return. We demonstrate empirically that this architecture improves sample complexity for several Atari environments, while also achieving better performance in some of the games.
翻訳日:2022-02-03 13:50:12 公開日:2022-02-01
# 勾配に基づくクラスタリング

Gradient Based Clustering ( http://arxiv.org/abs/2202.00720v1 )

ライセンス: Link先を確認
Aleksandar Armacki, Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 本稿では,クラスタ割り当てやクラスタ中心位置に対するクラスタリング品質を測定するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。 このアプローチは、反復的な2段階の手順(クラスタ割り当てとクラスタセンター更新の相互調整)であり、いくつかの穏やかな仮定を満たす幅広い機能に適用できる。 提案手法の主な利点は、シンプルで計算量的に安いアップデートルールである。 クラスタリング問題の特定の定式化に特化する従来の手法とは異なり,ハマーロスに基づく非ブレグマンクラスタリング手法を含む,幅広いコストに対して適用可能である。 提案アルゴリズムの収束を解析し、任意の中心初期化の下で適切に定義された固定点の集合に収束することを示す。 ブレグマンのコスト関数の特別な場合、アルゴリズムは、以前の研究と整合した中心的ボロノイ分割の集合に収束する。 実データを用いた数値実験により,提案手法の有効性が示された。

We propose a general approach for distance based clustering, using the gradient of the cost function that measures clustering quality with respect to cluster assignments and cluster center positions. The approach is an iterative two step procedure (alternating between cluster assignment and cluster center updates) and is applicable to a wide range of functions, satisfying some mild assumptions. The main advantage of the proposed approach is a simple and computationally cheap update rule. Unlike previous methods that specialize to a specific formulation of the clustering problem, our approach is applicable to a wide range of costs, including non-Bregman clustering methods based on the Huber loss. We analyze the convergence of the proposed algorithm, and show that it converges to the set of appropriately defined fixed points, under arbitrary center initialization. In the special case of Bregman cost functions, the algorithm converges to the set of centroidal Voronoi partitions, which is consistent with prior works. Numerical experiments on real data demonstrate the effectiveness of the proposed method.
翻訳日:2022-02-03 13:49:38 公開日:2022-02-01
# 地域説明の忠実度評価のための枠組み

Framework for Evaluating Faithfulness of Local Explanations ( http://arxiv.org/abs/2202.00734v1 )

ライセンス: Link先を確認
Sanjoy Dasgupta, Nave Frost, Michal Moshkovitz(参考訳) 基礎となる予測モデルに対する説明システムの忠実性について検討する。 このことは,一貫性と十分性という2つの性質によって捉えることができ,その程度を定量的に測定できることを示す。 興味深いことに、これらの測定はテスト時のデータ分布に依存する。 アンカーなどの既存システムでは,これらの量について解析的に検討する。 また,ブラックボックス説明システムの忠実さを実証的に決定するための推定子とサンプル複雑性境界も提供する。 最後に,新しい特性と推定器を実験的に検証した。

We study the faithfulness of an explanation system to the underlying prediction model. We show that this can be captured by two properties, consistency and sufficiency, and introduce quantitative measures of the extent to which these hold. Interestingly, these measures depend on the test-time data distribution. For a variety of existing explanation systems, such as anchors, we analytically study these quantities. We also provide estimators and sample complexity bounds for empirically determining the faithfulness of black-box explanation systems. Finally, we experimentally validate the new properties and estimators.
翻訳日:2022-02-03 13:48:24 公開日:2022-02-01
# シンクホーン反復による分布強化学習

Distributional Reinforcement Learning via Sinkhorn Iterations ( http://arxiv.org/abs/2202.00769v1 )

ライセンス: Link先を確認
Ke Sun, Yingnan Zhao, Yi Liu, Bei Jiang, Linglong Kong(参考訳) distributional reinforcement learning~(rl)は、期待値だけでなく総リターンの分布全体を推定する最先端アルゴリズムのクラスである。 分布RLの実証的な成功には,各分布の表現方法と分布の分散の選択が重要である。 本稿では,各帰納分布から有限個の統計値集合,すなわち決定論的サンプルを学習し,その帰納分布からシンクホーン反復を利用して現在のベルマン分布と対象ベルマン分布との間のシンクホーン距離を評価する,新しいクラスである \textit{sinkhorn distributional rl} を提案する。 注目すべきことに、シンクホーンの発散はワッサーシュタイン距離と最大平均離散度~(MMD)の間に補間する。 これにより,提案するシンクホーン分布rlアルゴリズムは,最適移動距離の幾何とmmdの偏りのない勾配推定を生かしたスイートスポットを見つけることができる。 最後に、アタリゲームの一組の実験により、既存の最先端アルゴリズムとは対照的にシンクホーン分布RLアルゴリズムの競合性能が示された。

Distributional reinforcement learning~(RL) is a class of state-of-the-art algorithms that estimate the whole distribution of the total return rather than only its expectation. The representation manner of each return distribution and the choice of distribution divergence are pivotal for the empirical success of distributional RL. In this paper, we propose a new class of \textit{Sinkhorn distributional RL} algorithm that learns a finite set of statistics, i.e., deterministic samples, from each return distribution and then leverages Sinkhorn iterations to evaluate the Sinkhorn distance between the current and target Bellmen distributions. Remarkably, as Sinkhorn divergence interpolates between the Wasserstein distance and Maximum Mean Discrepancy~(MMD). This allows our proposed Sinkhorn distributional RL algorithms to find a sweet spot leveraging the geometry of optimal transport-based distance, and the unbiased gradient estimates of MMD. Finally, experiments on a suite of Atari games reveal the competitive performance of Sinkhorn distributional RL algorithm as opposed to existing state-of-the-art algorithms.
翻訳日:2022-02-03 13:48:16 公開日:2022-02-01
# 正規化座標MLPについて

On Regularizing Coordinate-MLPs ( http://arxiv.org/abs/2202.00790v1 )

ライセンス: Link先を確認
Sameera Ramasinghe, Lachlan MacDonald, Simon Lucey(参考訳) 深部ニューラルネットワークの典型的な暗黙的正規化仮定(回帰)は、高周波数信号を表すためにコンピュータビジョンにおいて現在ユビキタスなMLPの族である座標MLPを保たないことを示す。 このような暗黙のバイアスの欠如は、トレーニングサンプル間のスムーズな補間を混乱させ、異なるスペクトルの信号領域に一般化する障害となる。 この挙動をフーリエレンズを用いて検討し、座標mlpの帯域幅が増大するにつれて、適切なプリエントが明示的に提供されない限り低周波が抑制される傾向があることを明らかにする。 これらの知見に基づき、アーキテクチャの変更なしに既存のネットワークに組み込むことができる、上記の問題を緩和できるシンプルな正規化手法を提案する。

We show that typical implicit regularization assumptions for deep neural networks (for regression) do not hold for coordinate-MLPs, a family of MLPs that are now ubiquitous in computer vision for representing high-frequency signals. Lack of such implicit bias disrupts smooth interpolations between training samples, and hampers generalizing across signal regions with different spectra. We investigate this behavior through a Fourier lens and uncover that as the bandwidth of a coordinate-MLP is enhanced, lower frequencies tend to get suppressed unless a suitable prior is provided explicitly. Based on these insights, we propose a simple regularization technique that can mitigate the above problem, which can be incorporated into existing networks without any architectural modifications.
翻訳日:2022-02-03 13:46:06 公開日:2022-02-01
# モンジュパッチ上のラグランジュ多様体モンテカルロ

Lagrangian Manifold Monte Carlo on Monge Patches ( http://arxiv.org/abs/2202.00755v1 )

ライセンス: Link先を確認
Marcelo Hartmann and Mark Girolami and Arto Klami(参考訳) マルコフ連鎖モンテカルロ(mcmc)の効率は、問題の基本的な形状をどのように考慮するかに依存する。 強い曲率を持つ分布に対して、リーマン計量はターゲット分布の効率的な探索に役立つ。 残念なことに、計量テンソルの繰り返し反転による計算上のオーバーヘッドが大きく、フィッシャー情報行列を用いて多様体を誘導する現在の幾何学的mcmc法は実際には遅い。 対象分布を高次元ユークリッド空間にモンジュパッチとして埋め込み,直接幾何学的推論によって決定される誘導計量を用いることにより,mcmc の新たなリーマン計量を提案する。 我々の計量は1次勾配情報のみを必要とし、高速な逆行列と行列式を持ち、問題次元における個々の反復の計算複雑性を3次から2次に減らすことができる。 この計量でラグランジアンモンテカルロがターゲット分布を効率的に探索する方法を実証する。

The efficiency of Markov Chain Monte Carlo (MCMC) depends on how the underlying geometry of the problem is taken into account. For distributions with strongly varying curvature, Riemannian metrics help in efficient exploration of the target distribution. Unfortunately, they have significant computational overhead due to e.g. repeated inversion of the metric tensor, and current geometric MCMC methods using the Fisher information matrix to induce the manifold are in practice slow. We propose a new alternative Riemannian metric for MCMC, by embedding the target distribution into a higher-dimensional Euclidean space as a Monge patch and using the induced metric determined by direct geometric reasoning. Our metric only requires first-order gradient information and has fast inverse and determinants, and allows reducing the computational complexity of individual iterations from cubic to quadratic in the problem dimensionality. We demonstrate how Lagrangian Monte Carlo in this metric efficiently explores the target distributions.
翻訳日:2022-02-03 13:43:19 公開日:2022-02-01
# (参考訳) 固定足場とのヘテロ結合による破滅的記憶のないコンテンツアドレス記憶 [全文訳有]

Content addressable memory without catastrophic forgetting by heteroassociation with a fixed scaffold ( http://arxiv.org/abs/2202.00159v1 )

ライセンス: CC BY 4.0
Sugandha Sharma, Sarthak Chandra, Ila R. Fiete(参考訳) content-addressable memory (cam) と呼ばれるネットワークは、格納されたアイテムを部分的または腐敗したバージョンでリコールできるため、容量以下の少数の情報拡散パターンと'メモリクリフ'のほとんど完全なリコールを示し、単一の追加パターンを挿入すると、すべての格納されたパターンを壊滅的に忘れてしまう。 少ない数のパターンは、完全な情報回復機能を備えた標準カムで保存され、より多くのパターンを挿入しても、パターン数と逆スケールするパターン毎の情報とともに、すべてのパターンを部分的にリコールする。 脳のエントルヒナル-海馬記憶回路のアーキテクチャに動機づけられたメッシュは、内部安定化状態の所定のセットと、内部状態と任意の外部パターンとのヘテロアソシエーションを使用するペアワイズ相互作用を持つ三部構成である。 解析的および実験的に、MESHはCAMネットワークの総情報バウンド(シナプス数で表される)をほぼ飽和し、記憶パターンの数に不変であり、既存のCAMモデルよりも優れていることを示す。

Content-addressable memory (CAM) networks, so-called because stored items can be recalled by partial or corrupted versions of the items, exhibit near-perfect recall of a small number of information-dense patterns below capacity and a `memory cliff' beyond, such that inserting a single additional pattern results in catastrophic forgetting of all stored patterns. We propose a novel ANN architecture, Memory Scaffold with Heteroassociation (MESH), that gracefully trades-off pattern richness with pattern number to generate a CAM continuum without a memory cliff: Small numbers of patterns are stored with complete information recovery matching standard CAMs, while inserting more patterns still results in partial recall of every pattern, with an information per pattern that scales inversely with the number of patterns. Motivated by the architecture of the Entorhinal-Hippocamp al memory circuit in the brain, MESH is a tripartite architecture with pairwise interactions that uses a predetermined set of internally stabilized states together with heteroassociation between the internal states and arbitrary external patterns. We show analytically and experimentally that MESH nearly saturates the total information bound (given by the number of synapses) for CAM networks, invariant of the number of stored patterns, outperforming all existing CAM models.
翻訳日:2022-02-03 01:51:16 公開日:2022-02-01
# (参考訳) CIC:教師なしスキル発見のための対照的な内在的制御 [全文訳有]

CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery ( http://arxiv.org/abs/2202.00161v1 )

ライセンス: CC BY 4.0
Michael Laskin, Hao Liu, Xue Bin Peng, Denis Yarats, Aravind Rajeswaran, Pieter Abbeel(参考訳) 本研究では,スキルと状態遷移の相互情報を最大化する教師なしスキル発見のためのアルゴリズムであるコントラスト内在制御(cic)を提案する。 従来のほとんどのアプローチとは対照的に、CICは状態エントロピーを最大化することで多様な振る舞いを明示的に動機付ける相互情報の分解を使用する。 状態エントロピーのための粒子推定器を組み合わせ、多様な振る舞いを生成し、対照的な学習を行い、これらの振る舞いを異なるスキルに蒸留する新しい低境界推定法を導出する。 本研究では,非教師付き強化学習ベンチマーク(Unsupervised Reinforcement Learning Benchmark)に基づくアルゴリズムの評価を行った。 我々は、CICが教師なしスキル発見手法よりも大幅に改善し、下流タスク性能の観点から、次の先導的な総合探索アルゴリズムよりも優れていることを発見した。

We introduce Contrastive Intrinsic Control (CIC), an algorithm for unsupervised skill discovery that maximizes the mutual information between skills and state transitions. In contrast to most prior approaches, CIC uses a decomposition of the mutual information that explicitly incentivizes diverse behaviors by maximizing state entropy. We derive a novel lower bound estimate for the mutual information which combines a particle estimator for state entropy to generate diverse behaviors and contrastive learning to distill these behaviors into distinct skills. We evaluate our algorithm on the Unsupervised Reinforcement Learning Benchmark, which consists of a long reward-free pre-training phase followed by a short adaptation phase to downstream tasks with extrinsic rewards. We find that CIC substantially improves over prior unsupervised skill discovery methods and outperforms the next leading overall exploration algorithm in terms of downstream task performance.
翻訳日:2022-02-03 01:23:30 公開日:2022-02-01
# (参考訳) 点雲圧縮のためのフラクショナルモーション推定 [全文訳有]

Fractional Motion Estimation for Point Cloud Compression ( http://arxiv.org/abs/2202.00172v1 )

ライセンス: CC BY 4.0
Haoran Hong, Eduardo Pavez, Antonio Ortega, Ryosuke Watanabe, Keisuke Nonaka(参考訳) ビデオ符号化における分数画素運動の成功に触発され、動的3次元点雲の色属性の圧縮のための分数ボクセル分解能を用いた動き推定の設計について検討する。 提案手法は,フレーム内およびフレーム間におけるボクセル分布の不規則性といった,点雲とビデオの基本的な差異を考慮に入れたブロックベース分数ボクセル運動推定手法である。 運動補償は,高分解能基準と分数精度による変位の精度が向上することを示す。 提案手法は,整数運動のみを用いる手法よりも優れている。 提案されたスキームは、領域適応グラフフーリエ変換や領域適応ハール変換のような変換を用いる最先端システムと組み合わせ、拡張することができる。

Motivated by the success of fractional pixel motion in video coding, we explore the design of motion estimation with fractional-voxel resolution for compression of color attributes of dynamic 3D point clouds. Our proposed block-based fractional-voxel motion estimation scheme takes into account the fundamental differences between point clouds and videos, i.e., the irregularity of the distribution of voxels within a frame and across frames. We show that motion compensation can benefit from the higher resolution reference and more accurate displacements provided by fractional precision. Our proposed scheme significantly outperforms comparable methods that only use integer motion. The proposed scheme can be combined with and add sizeable gains to state-of-the-art systems that use transforms such as Region Adaptive Graph Fourier Transform and Region Adaptive Haar Transform.
翻訳日:2022-02-03 00:54:43 公開日:2022-02-01
# (参考訳) 時間グラフニューラルネットワークによる半教師付き3次元物体検出 [全文訳有]

Semi-supervised 3D Object Detection via Temporal Graph Neural Networks ( http://arxiv.org/abs/2202.00182v1 )

ライセンス: CC BY 4.0
Jianren Wang, Haiming Gang, Siddarth Ancha, Yi-Ting Chen, David Held(参考訳) 3dオブジェクト検出は、自動運転やその他のロボットアプリケーションにおいて重要な役割を果たす。 しかし、これらの検出器は通常、収集に要する費用と時間を要する大量の注釈付きデータの訓練を必要とする。 代わりに,時間的グラフニューラルネットワークによる3次元物体検出器の半教師付き学習により,多量の無ラベル点クラウドビデオを活用することを提案する。 我々の洞察では、時間的平滑化はラベルのないデータでより正確な検出結果を生成することができ、これらの平滑化検出は検出器の再訓練に使用できる。 この時間的推論をグラフニューラルネットワークを用いて行うことを学び、エッジは異なる時間枠における候補検出の関係を表す。 半教師付き学習の後,本手法は,同じラベル付きデータに基づいてトレーニングされたベースラインと比較して,難易度の高いnuScenesとH3Dベンチマークの最先端検出性能を実現する。 プロジェクトとコードはhttps://www.jianrenw .com/SOD-TGNN/.comで公開されている。

3D object detection plays an important role in autonomous driving and other robotics applications. However, these detectors usually require training on large amounts of annotated data that is expensive and time-consuming to collect. Instead, we propose leveraging large amounts of unlabeled point cloud videos by semi-supervised learning of 3D object detectors via temporal graph neural networks. Our insight is that temporal smoothing can create more accurate detection results on unlabeled data, and these smoothed detections can then be used to retrain the detector. We learn to perform this temporal reasoning with a graph neural network, where edges represent the relationship between candidate detections in different time frames. After semi-supervised learning, our method achieves state-of-the-art detection performance on the challenging nuScenes and H3D benchmarks, compared to baselines trained on the same amount of labeled data. Project and code are released at https://www.jianrenw .com/SOD-TGNN/.
翻訳日:2022-02-03 00:43:41 公開日:2022-02-01
# (参考訳) Deep Reference Priors: モデルを事前トレーニングする最善の方法は何か? [全文訳有]

Deep Reference Priors: What is the best way to pretrain a model? ( http://arxiv.org/abs/2202.00187v1 )

ライセンス: CC BY 4.0
Yansong Gao, Rahul Ramesh, Pratik Chaudhari(参考訳) 特定のタスクを学習するために、同じタスクからラベルなしのデータや、関連するタスクからのラベル付きデータといった、余分なデータを利用する最善の方法は何か? 本稿では,参照優先理論を用いて質問を形式化する。 参照優先事項は客観的であり、モデルのタスクと重み付けの間の相互情報を最大化する非変形ベイズ優先事項である。 このような事前は、タスクがベイズ後部に与える影響を最大化することができる、例えば、参照先行はタスクを学習するのに利用可能なサンプルの数に依存し、非常に小さなサンプルサイズの場合、前者は仮説空間の低複雑さモデルにより多くの確率質量を与える。 本稿では,中規模深層ネットワークと画像ベースデータの参照優先性を示す最初の例を示す。 我々は、参照優先の一般化を開発し、2つの問題への応用を実証する。 まず,ラベルなしのデータを用いて参照を事前に計算することにより,クラス毎のサンプル数が少ない場合でも有効なベイズ型半教師付き学習手法を新たに開発する。 第2に、ソースタスクからのラベル付きデータを用いて参照先を計算し、ターゲットタスクからのデータをベイズ後方に最大に影響を及ぼすような転送学習のための新しい事前学習手法を開発する。 これらの手法の実証検証は画像分類データセット上で行われる。

What is the best way to exploit extra data -- be it unlabeled data from the same task, or labeled data from a related task -- to learn a given task? This paper formalizes the question using the theory of reference priors. Reference priors are objective, uninformative Bayesian priors that maximize the mutual information between the task and the weights of the model. Such priors enable the task to maximally affect the Bayesian posterior, e.g., reference priors depend upon the number of samples available for learning the task and for very small sample sizes, the prior puts more probability mass on low-complexity models in the hypothesis space. This paper presents the first demonstration of reference priors for medium-scale deep networks and image-based data. We develop generalizations of reference priors and demonstrate applications to two problems. First, by using unlabeled data to compute the reference prior, we develop new Bayesian semi-supervised learning methods that remain effective even with very few samples per class. Second, by using labeled data from the source task to compute the reference prior, we develop a new pretraining method for transfer learning that allows data from the target task to maximally affect the Bayesian posterior. Empirical validation of these methods is conducted on image classification datasets.
翻訳日:2022-02-03 00:30:22 公開日:2022-02-01
# (参考訳) 認識認識による画像圧縮 [全文訳有]

Recognition-Aware Learned Image Compression ( http://arxiv.org/abs/2202.00198v1 )

ライセンス: CC BY 4.0
Maxime Kawawa-Beaudan, Ryan Roggenkemper, Avideh Zakhor(参考訳) 学習画像圧縮手法は一般にレート歪み損失を最適化し、付加ビットレートに対する視覚歪みの改善をトレードオフする。 しかし、圧縮画像は分類、物体検出、超解像など様々なタスクの深層学習ネットワークへの入力として使われるようになっている。 本稿では,タスク固有の損失を伴う速度歪み損失を最適化し,共同学習型圧縮・認識ネットワークを提案する。 階層型オートエンコーダに基づく圧縮ネットワークを高効率ネット認識モデルで拡張し、2つのハイパーパラメータを用いて歪み、ビットレート、認識性能をトレードオフする。 本研究では,提案手法の分類精度をビットレートの関数として特徴付け,低ビットレートの場合の認識精度をbetter portable graphics (bpg) などの従来の手法と比較して26%向上させることを示す。

Learned image compression methods generally optimize a rate-distortion loss, trading off improvements in visual distortion for added bitrate. Increasingly, however, compressed imagery is used as an input to deep learning networks for various tasks such as classification, object detection, and superresolution. We propose a recognition-aware learned compression method, which optimizes a rate-distortion loss alongside a task-specific loss, jointly learning compression and recognition networks. We augment a hierarchical autoencoder-based compression network with an EfficientNet recognition model and use two hyperparameters to trade off between distortion, bitrate, and recognition performance. We characterize the classification accuracy of our proposed method as a function of bitrate and find that for low bitrates our method achieves as much as 26% higher recognition accuracy at equivalent bitrates compared to traditional methods such as Better Portable Graphics (BPG).
翻訳日:2022-02-03 00:08:48 公開日:2022-02-01
# (参考訳) 高調波混合音からの合成パラメータ抽出のための可変ディジタル信号処理混合モデル [全文訳有]

Differentiable Digital Signal Processing Mixture Model for Synthesis Parameter Extraction from Mixture of Harmonic Sounds ( http://arxiv.org/abs/2202.00200v1 )

ライセンス: CC BY 4.0
Masaya Kawamura, Tomohiko Nakamura, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, Kazunobu Kondo(参考訳) 微分可能なデジタル信号処理(ddsp)オートエンコーダ(英: differentiable digital signal processing)は、ディープニューラルネットワーク(dnn)とスペクトルモデリング合成を組み合わせた音楽音響合成器である。 入力音から抽出した基本周波数,音色特徴,ラウドネス(合成パラメータ)を変化させることで,柔軟に音を編集することができる。 しかし、モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニック・サウンドの混合を扱えない。 本稿では,複数の事前学習されたDDSPオートエンコーダの出力の和として混合を表現するモデル(DDSP混合モデル)を提案する。 提案モデルの出力を観測混合物に適合させることにより、各ソースの合成パラメータを直接推定することができる。 合成パラメータ抽出実験により, ddspオートエンコーダを音源分離法で分離した信号に適用する簡単な手法と比較して, 提案手法は高い安定性能を有することを示す。

A differentiable digital signal processing (DDSP) autoencoder is a musical sound synthesizer that combines a deep neural network (DNN) and spectral modeling synthesis. It allows us to flexibly edit sounds by changing the fundamental frequency, timbre feature, and loudness (synthesis parameters) extracted from an input sound. However, it is designed for a monophonic harmonic sound and cannot handle mixtures of harmonic sounds. In this paper, we propose a model (DDSP mixture model) that represents a mixture as the sum of the outputs of multiple pretrained DDSP autoencoders. By fitting the output of the proposed model to the observed mixture, we can directly estimate the synthesis parameters of each source. Through synthesis parameter extraction experiments, we show that the proposed method has high and stable performance compared with a straightforward method that applies the DDSP autoencoder to the signals separated by an audio source separation method.
翻訳日:2022-02-03 00:00:20 公開日:2022-02-01
# (参考訳) 深層学習による多重散乱の遠方性:電子回折パターンからのひずみマッピングへの応用 [全文訳有]

Disentangling multiple scattering with deep learning: application to strain mapping from electron diffraction patterns ( http://arxiv.org/abs/2202.00204v1 )

ライセンス: CC BY 4.0
Joydeep Munshi, Alexander Rakowski, Benjamin H Savitzky, Steven E Zeltmann, Jim Ciston, Matthew Henderson, Shreyas Cholia, Andrew M Minor, Maria KY Chan, and Colin Ophus(参考訳) 高速でロバストで完全自動化された結晶構造決定用パイプラインの実装と結晶材料のひずみマッピングは、多くの技術応用において重要である。 走査型電子ナノ回折は、高い精度と高い空間分解能でひずみマップを同定し収集する手順を提供する。 しかし、特に電子ビームが多重散乱し、信号の非線形性をもたらす厚い試料では、この技術の適用は限られている。 深層学習法はこれらの複雑な信号を反転させる可能性があるが、以前の実装は結晶構造や顕微鏡パラメータ位相空間の小さなサブセットにのみ訓練されている。 本研究では,fcu-netと呼ばれるフーリエ空間の複素値深層ニューラルネットワークを実装し,高非線形電子回折パターンを対応する定量的構造因子画像に変換する。 結晶構造, 配向, 厚さ, 顕微鏡パラメータ, 実験器具の様々な組み合わせを含む20,000以上のユニークな動的回折パターンを用いてFCU-Netを訓練した。 シミュレーションおよび実験による4d-stem回折データセットに対するfcu-netモデルの評価を行った。 シミュレーションされた回折パターンライブラリ、FCU-Netの実装、訓練されたモデルの重み付けはオープンソースリポジトリで自由に利用可能であり、様々な回折測定問題に適応できる。

Implementation of a fast, robust, and fully-automated pipeline for crystal structure determination and underlying strain mapping for crystalline materials is important for many technological applications. Scanning electron nanodiffraction offers a procedure for identifying and collecting strain maps with good accuracy and high spatial resolutions. However, the application of this technique is limited, particularly in thick samples where the electron beam can undergo multiple scattering, which introduces signal nonlinearities. Deep learning methods have the potential to invert these complex signals, but previous implementations are often trained only on specific crystal systems or a small subset of the crystal structure and microscope parameter phase space. In this study, we implement a Fourier space, complex-valued deep neural network called FCU-Net, to invert highly nonlinear electron diffraction patterns into the corresponding quantitative structure factor images. We trained the FCU-Net using over 200,000 unique simulated dynamical diffraction patterns which include many different combinations of crystal structures, orientations, thicknesses, microscope parameters, and common experimental artifacts. We evaluated the trained FCU-Net model against simulated and experimental 4D-STEM diffraction datasets, where it substantially out-performs conventional analysis methods. Our simulated diffraction pattern library, implementation of FCU-Net, and trained model weights are freely available in open source repositories, and can be adapted to many different diffraction measurement problems.
翻訳日:2022-02-02 23:49:34 公開日:2022-02-01
# (参考訳) GNNRank: グラフニューラルネットワークによるペアワイズ比較からグローバルランキングを学習

GNNRank: Learning Global Rankings from Pairwise Comparisons via Directed Graph Neural Networks ( http://arxiv.org/abs/2202.00211v1 )

ライセンス: CC BY 4.0
Yixuan He and Quan Gan and David Wipf and Gesine Reinert and Junchi Yan and Mihai Cucuringu(参考訳) ペア比較からグローバルランキングを復元することは、時間同期からスポーツチームランキングまで、多くのアプリケーションにおいて重要な問題である。 競合におけるマッチに対応する対比較は、有向グラフ(digraph)のエッジとして自然に解釈でき、ノードは未知のランクやスキルの強さを持つ競合を表す。 しかし、これまでのランク推定問題に対処する既存の手法では、強力なニューラルネットワークアーキテクチャを使用してランキング目標を最適化していない。 そこで本稿では,ニューラルネットワーク,特にグラフニューラルネットワーク(GNN)を手前の問題に対する一貫性のために拡張するアルゴリズムを提案する。 本稿では,グラフ埋め込みを学習可能なGNNと互換性のあるモデリングフレームワークであるGNNRankを紹介する。 このフレームワークは、ランキングスコア推定アプローチを含み、学習可能な類似性行列から構築されたグラフのFiedlerベクトル計算を展開させることにより、有用な帰納バイアスを与える。 実験結果から,本手法は既存の手法に比べて競争力が高く,性能も優れていることがわかった。 また、トレーニングされたgnnモデルに基づいた新しいデータへの転送能力も示す。

Recovering global rankings from pairwise comparisons is an important problem with many applications, ranging from time synchronization to sports team ranking. Pairwise comparisons corresponding to matches in a competition can naturally be construed as edges in a directed graph (digraph), whose nodes represent competitors with an unknown rank or skill strength. However, existing methods addressing the rank estimation problem have thus far not utilized powerful neural network architectures to optimize ranking objectives. Hence, we propose to augment an algorithm with neural network, in particular graph neural network (GNN) for its coherence to the problem at hand. In this paper, we introduce GNNRank, a modeling framework that is compatible with any GNN capable of learning digraph embeddings, and we devise trainable objectives to encode ranking upsets/violations. This framework includes a ranking score estimation approach, and adds a useful inductive bias by unfolding the Fiedler vector computation of the graph constructed from a learnable similarity matrix. Experimental results on a wide range of data sets show that our methods attain competitive and often superior performance compared with existing approaches. It also shows promising transfer ability to new data based on the trained GNN model.
翻訳日:2022-02-02 23:19:32 公開日:2022-02-01
# (参考訳) 状態オブザーバを用いた映像からの敵対的模倣学習 [全文訳有]

Adversarial Imitation Learning from Video using a State Observer ( http://arxiv.org/abs/2202.00243v1 )

ライセンス: CC BY 4.0
Haresh Karnan, Garrett Warnell, Faraz Torabi, Peter Stone(参考訳) 模倣学習研究コミュニティは最近、人工エージェントがビデオデモだけで行動の模倣を可能にするという目標に向けて大きな進歩を遂げている。 しかし,この問題に対する最先端のアプローチは,映像観察の高次元性に起因して,高いサンプル複雑性を示す。 本稿では, 状態観察者vgaifo-soを用いた視覚生成逆模倣法という新しいアルゴリズムを提案する。 中心となるVGAIfO-SOは、高次元画像から低次元の受容状態表現を推定する、新しい自己監督状態オブザーバを用いてサンプル非効率に対処しようとする。 複数の連続制御環境では、vgaifo-soはビデオのみのデモンストレーションから学習する他のifoアルゴリズムよりもサンプル効率が良く、時にはデモストラクタの摂理状態情報へのアクセスを特権とするgaifo(generative adversarial imitation from observation)アルゴリズムに近い性能が得られる。

The imitation learning research community has recently made significant progress towards the goal of enabling artificial agents to imitate behaviors from video demonstrations alone. However, current state-of-the-art approaches developed for this problem exhibit high sample complexity due, in part, to the high-dimensional nature of video observations. Towards addressing this issue, we introduce here a new algorithm called Visual Generative Adversarial Imitation from Observation using a State Observer VGAIfO-SO. At its core, VGAIfO-SO seeks to address sample inefficiency using a novel, self-supervised state observer, which provides estimates of lower-dimensional proprioceptive state representations from high-dimensional images. We show experimentally in several continuous control environments that VGAIfO-SO is more sample efficient than other IfO algorithms at learning from video-only demonstrations and can sometimes even achieve performance close to the Generative Adversarial Imitation from Observation (GAIfO) algorithm that has privileged access to the demonstrator's proprioceptive state information.
翻訳日:2022-02-02 23:17:47 公開日:2022-02-01
# (参考訳) オフポリシー強化学習による逐次探索 [全文訳有]

Sequential Search with Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2202.00245v1 )

ライセンス: CC BY 4.0
Dadong Miao, Yanan Wang, Guoyu Tang, Lin Liu, Sulong Xu, Bo Long, Yun Xiao, Lingfei Wu, Yunjiang Jiang(参考訳) 近年,逐次的ユーザ行動とユーザとアイテム間のインタラクションを時間とともに理解し,モデル化することを目的とした,逐次的レコメンデーション(Sequential Recommendation, SR)への関心が高まっている。 驚くべきことに、逐次的レコメンデーションが大きな成功を収めたにも関わらず、ユーザーの現在および過去の検索クエリを考慮に入れる2つの学習タスクであるシーケンシャル検索(ss)について、過去のクエリセッションでの振る舞いに加えて、ほとんど研究されていない。 ss学習タスクは、オンラインサービスの需要が大きく、トラフィック量も大きいため、ほとんどのe-commence企業にとってsrタスクよりも重要である。 そこで本稿では,RNN学習フレームワークを短期間のユーザ・イテムインタラクションで活用した高度にスケーラブルなハイブリッド学習モデルと,長期のインタラクションから選択した項目のみの機能を活用したアテンションモデルを提案する。 新たな最適化ステップとして,学習バッチ内の1つのrnnパスに複数の短いユーザシーケンスを配置し,グルーディ・ナップサック問題をオンザフライで解決する。 さらに,マルチセッションパーソナライズされた検索ランキングにおけるオフ・ポリティクス強化学習の利用について検討する。 具体的には,ペアワイズ分類誤差の観点でユーザの長期的な報酬を効果的に獲得する,ペアワイズ深い決定論的ポリシー勾配モデルを設計する。 大規模なアブレーション実験は、さまざまなオフラインおよびオンラインメトリクスに基づいて、各コンポーネントが最先端のベースラインに大幅な改善をもたらすことを示している。

Recent years have seen a significant amount of interests in Sequential Recommendation (SR), which aims to understand and model the sequential user behaviors and the interactions between users and items over time. Surprisingly, despite the huge success Sequential Recommendation has achieved, there is little study on Sequential Search (SS), a twin learning task that takes into account a user's current and past search queries, in addition to behavior on historical query sessions. The SS learning task is even more important than the counterpart SR task for most of E-commence companies due to its much larger online serving demands as well as traffic volume. To this end, we propose a highly scalable hybrid learning model that consists of an RNN learning framework leveraging all features in short-term user-item interactions, and an attention model utilizing selected item-only features from long-term interactions. As a novel optimization step, we fit multiple short user sequences in a single RNN pass within a training batch, by solving a greedy knapsack problem on the fly. Moreover, we explore the use of off-policy reinforcement learning in multi-session personalized search ranking. Specifically, we design a pairwise Deep Deterministic Policy Gradient model that efficiently captures users' long term reward in terms of pairwise classification error. Extensive ablation experiments demonstrate significant improvement each component brings to its state-of-the-art baseline, on a variety of offline and online metrics.
翻訳日:2022-02-02 23:05:17 公開日:2022-02-01
# (参考訳) 自然言語課題における複数領域のアクティブラーニング [全文訳有]

Active Learning Over Multiple Domains in Natural Language Tasks ( http://arxiv.org/abs/2202.00254v1 )

ライセンス: CC BY 4.0
Shayne Longpre, Julia Reisler, Edward Greg Huang, Yi Lu, Andrew Frank, Nikhil Ramesh, Chris DuBois(参考訳) アクティブラーニングの研究は、伝統的にターゲットとソースデータは単一のドメインに由来すると仮定する。 しかし、現実的なアプリケーションでは、実践者は複数のアウト・オブ・ディストリビューションデータソースでアクティブな学習を必要とすることが多い。 質問応答と感情分析の難易度を検討するため, アクティブラーニング(AL), ドメインシフト検出(DS), マルチドメインサンプリングの多種多様な手法を調査した。 1)この課題にどのような方法が有効であるか? そして、(2)選択された例とドメインの特性は、強い結果をもたらすか? 4種類の方法から得られた18種類の取得関数のうち,h-発散法,特に提案するdal-eは,ランダムベースラインに対して平均2-3%改善した。 また、ドメインの多彩な割り当ての重要性と、既存のメソッドをドメイン選択とサンプル選択の両方で改善する余地があることも示す。 本研究は,自然言語タスクにおけるマルチドメインアクティブラーニングに直面する実践者にとって,既存の方法と新しい方法の両方について,初めて包括的な分析を行うものである。

Studies of active learning traditionally assume the target and source data stem from a single domain. However, in realistic applications, practitioners often require active learning with multiple sources of out-of-distribution data, where it is unclear a priori which data sources will help or hurt the target domain. We survey a wide variety of techniques in active learning (AL), domain shift detection (DS), and multi-domain sampling to examine this challenging setting for question answering and sentiment analysis. We ask (1) what family of methods are effective for this task? And, (2) what properties of selected examples and domains achieve strong results? Among 18 acquisition functions from 4 families of methods, we find H- Divergence methods, and particularly our proposed variant DAL-E, yield effective results, averaging 2-3% improvements over the random baseline. We also show the importance of a diverse allocation of domains, as well as room-for-improvement of existing methods on both domain and example selection. Our findings yield the first comprehensive analysis of both existing and novel methods for practitioners faced with multi-domain active learning for natural language tasks.
翻訳日:2022-02-02 22:48:07 公開日:2022-02-01
# (参考訳) DoCoM-SGT:分散学習のための2重圧縮モーメント支援確率勾配追従アルゴリズム

DoCoM-SGT: Doubly Compressed Momentum-assisted Stochastic Gradient Tracking Algorithm for Communication Efficient Decentralized Learning ( http://arxiv.org/abs/2202.00255v1 )

ライセンス: CC BY 4.0
Chung-Yiu Yau, Hoi-To Wai(参考訳) 本稿では,Douubly Compressed Momentum-assisted Stochastic Gradient Tracking Algorithm (DoCoM-SGT)を提案する。 DoCoM-SGTは、平均的反復勾配と確率勾配を同時に追跡するため、通信ラウンド当たりの2つの圧縮ステップを利用する。 さらに、DoCoM-SGTは勾配推定のばらつきを低減するモーメントに基づく手法を取り入れている。 我々は、DoCoM-SGT が、非凸目的函数に対して $\mathbb{E} [ \| \nabla f(\bar{\theta}) \|^2 ] = {\cal O}(1 / T^{2/3} )$ を満たす解 $\bar{\theta}$ in $T$ iterations を発見し、他の関数クラスに対して競合収束率保証を提供する。 合成データと実データに関する数値実験により,本アルゴリズムの有効性が検証された。

This paper proposes the Doubly Compressed Momentum-assisted Stochastic Gradient Tracking algorithm (DoCoM-SGT) for communication efficient decentralized learning. DoCoM-SGT utilizes two compression steps per communication round as the algorithm tracks simultaneously the averaged iterate and stochastic gradient. Furthermore, DoCoM-SGT incorporates a momentum based technique for reducing variances in the gradient estimates. We show that DoCoM-SGT finds a solution $\bar{\theta}$ in $T$ iterations satisfying $\mathbb{E} [ \| \nabla f(\bar{\theta}) \|^2 ] = {\cal O}( 1 / T^{2/3} )$ for non-convex objective functions; and we provide competitive convergence rate guarantees for other function classes. Numerical experiments on synthetic and real datasets validate the efficacy of our algorithm.
翻訳日:2022-02-02 22:27:47 公開日:2022-02-01
# (参考訳) 非負行列因子化のためのグラフベースニューラル加速法 [全文訳有]

Graph-based Neural Acceleration for Nonnegative Matrix Factorization ( http://arxiv.org/abs/2202.00264v1 )

ライセンス: CC BY 4.0
Jens Sj\"olund and Maria B{\aa}nkestad(参考訳) 本稿では,非負行列分解のためのグラフに基づくニューラルネットワークの高速化手法について述べる。これは行列と2部グラフの連結を基盤とし,ある分野(例えばスパース線形代数)でよく知られているが,行列計算のためのグラフニューラルネットワークの設計にはまだ活用されていない。 まず,低ランク分解をより広く検討し,グラフニューラルネットワークに適した問題のグラフ表現を提案する。 そこで我々は,非負行列分解の課題に焦点をあて,乗算器の交互方向法に基づく更新で二部的自己認識層をインターリーブするグラフニューラルネットワークを提案する。 人工的なデータセットと2つの実世界のデータセットに対する実証的な評価は、より小さな合成インスタンスに対して教師なしの方法でのみ訓練しても、かなり加速できることを示している。

We describe a graph-based neural acceleration technique for nonnegative matrix factorization that builds upon a connection between matrices and bipartite graphs that is well-known in certain fields, e.g., sparse linear algebra, but has not yet been exploited to design graph neural networks for matrix computations. We first consider low-rank factorization more broadly and propose a graph representation of the problem suited for graph neural networks. Then, we focus on the task of nonnegative matrix factorization and propose a graph neural network that interleaves bipartite self-attention layers with updates based on the alternating direction method of multipliers. Our empirical evaluation on synthetic and two real-world datasets shows that we attain substantial acceleration, even though we only train in an unsupervised fashion on smaller synthetic instances.
翻訳日:2022-02-02 22:25:26 公開日:2022-02-01
# (参考訳) 暗号化特徴マップを用いた物体検出モデルのアクセス制御 [全文訳有]

Access Control of Object Detection Models Using Encrypted Feature Maps ( http://arxiv.org/abs/2202.00265v1 )

ライセンス: CC BY 4.0
Teru Nagamori, Hiroki Ito, April Pyone Maung Maung, Hitoshi Kiya(参考訳) 本稿では,オブジェクト検出モデルに対するアクセス制御手法を提案する。 暗号化された画像や暗号化された特徴マップの使用は、不正アクセスからモデルのアクセス制御に有効であることが示されている。 しかし、このアプローチの有効性は画像分類モデルと意味セグメンテーションモデルのみで確認されているが、対象検出モデルでは確認されていない。 本稿では,オブジェクト検出モデルのアクセス制御において,暗号化された特徴マップの利用が初めて有効であることを示す。

In this paper, we propose an access control method for object detection models. The use of encrypted images or encrypted feature maps has been demonstrated to be effective in access control of models from unauthorized access. However, the effectiveness of the approach has been confirmed in only image classification models and semantic segmentation models, but not in object detection models. In this paper, the use of encrypted feature maps is shown to be effective in access control of object detection models for the first time.
翻訳日:2022-02-02 22:03:24 公開日:2022-02-01
# (参考訳) サロゲート勾配設計 [全文訳有]

Surrogate Gradients Design ( http://arxiv.org/abs/2202.00282v1 )

ライセンス: CC BY 4.0
Luca Herranz-Celotti and Jean Rouat(参考訳) surrogategradient(sg )トレーニングは、ディープラーニングで得られるすべての成果を、ニューラルネットワークコンピューティングとニューロモルフィックプロセッサに迅速に移行する可能性を提供し、エネルギー消費量を減少させる。 ハイパーパラメータの広範囲な探索の後、トレーニングはsg形状の選択に堅牢である、という証拠がある。 しかし、ハイパーパラメータのランダムあるいはグリッド探索は、よりハイパーパラメータを考えると指数関数的に不可能になる。 さらに、検索のすべての点は、大きなネットワークや大きなデータセットに対して非常に時間とエネルギーを消費することができる。 本稿では、複雑なタスクやネットワークがSG選択にどのように敏感であるかを示す。 第2に, 低減衰, 高鋭度, 低尾脂肪度が好ましいことを示す。 第3に、Grorot Uniform の初期化は一般にほとんどの SG 選択に好まれており、その結果は可変である。 そこで我々は,SG形状と初期化の精度向上を実現するため,拡張グリッド探索の必要性を低減できる理論解を提案する。

Surrogate gradient (SG) training provides the possibility to quickly transfer all the gains made in deep learning to neuromorphic computing and neuromorphic processors, with the consequent reduction in energy consumption. Evidence supports that training can be robust to the choice of SG shape, after an extensive search of hyper-parameters. However, random or grid search of hyper-parameters becomes exponentially unfeasible as we consider more hyper-parameters. Moreover, every point in the search can itself be highly time and energy consuming for large networks and large datasets. In this article we show how complex tasks and networks are more sensitive to SG choice. Secondly, we show how low dampening, high sharpness and low tail fatness are preferred. Thirdly, we observe that Glorot Uniform initialization is generally preferred by most SG choices, with variability in the results. We finally provide a theoretical solution to reduce the need of extensive gridsearch, to find SG shape and initializations that result in improved accuracy.
翻訳日:2022-02-02 21:56:07 公開日:2022-02-01
# (参考訳) 高次元2層ニューラルネットワークにおける確率勾配の位相図 [全文訳有]

Phase diagram of Stochastic Gradient Descent in high-dimensional two-layer neural networks ( http://arxiv.org/abs/2202.00293v1 )

ライセンス: CC BY 4.0
Rodrigo Veiga, Ludovic Stephan, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 非凸最適化の展望にもかかわらず、過パラメータの浅いネットワークは勾配降下下でグローバル収束を達成することができる。 この画像は狭いネットワークでは根本的に異なるが、局所的な極小視では行き詰まる傾向がある。 本稿では,これら2つのレジームの高次元設定におけるクロスオーバーについて検討し,特に,いわゆる平均場・流体力学的レジームとsaad & sollaの独創的アプローチとの関係について検討する。 ガウスデータに着目し,確率勾配勾配(SGD)の高次元的ダイナミクスにおける学習速度,時間スケール,隠れた単位数との相互作用について検討した。 我々の研究は、統計的物理学から高次元のSGDを決定論的に記述し、それを拡張し、厳密な収束率を提供する。

Despite the non-convex optimization landscape, over-parametrized shallow networks are able to achieve global convergence under gradient descent. The picture can be radically different for narrow networks, which tend to get stuck in badly-generalizing local minima. Here we investigate the cross-over between these two regimes in the high-dimensional setting, and in particular investigate the connection between the so-called mean-field/hydrodyna mic regime and the seminal approach of Saad & Solla. Focusing on the case of Gaussian data, we study the interplay between the learning rate, the time scale, and the number of hidden units in the high-dimensional dynamics of stochastic gradient descent (SGD). Our work builds on a deterministic description of SGD in high-dimensions from statistical physics, which we extend and for which we provide rigorous convergence rates.
翻訳日:2022-02-02 21:28:37 公開日:2022-02-01
# (参考訳) 医療分野における質問分類手法に関する研究 [全文訳有]

Research on Question Classification Methods in the Medical Field ( http://arxiv.org/abs/2202.00298v1 )

ライセンス: CC BY 4.0
Jinzhang Liu(参考訳) 質問分類は質問・回答システム研究における重要なリンクの一つである。 既存の質問分類モデルは、公開データセットでより訓練されている。 現在、特定の分野、特に医療分野において、質問分類データセットが不足している。 このギャップを補うために,医療分野における質問分類のためのデータセットを提案する。 さらに,複数のニューラルネットワークモデルを組み合わせて質問の特徴を多次元的に抽出する手法を提案し,多次元特徴抽出に基づく質問分類モデルを提案する。 実験の結果,提案手法は質問分類の性能を効果的に向上できることがわかった。

Question classification is one of the important links in the research of question and answering system. The existing question classification models are more trained on public data sets. At present, there is a lack of question classification data sets in specific fields, especially in the medical field. To make up for this gap, this paper presents a data set for question classification in the medical field. Moreover, this paper proposes a multi-dimensional extraction of the characteristics of the question by combining multiple neural network models, and proposes a question classification model based on multi-dimensional feature extraction. The experimental results show that the proposed method can effectively improve the performance of question classification.
翻訳日:2022-02-02 20:58:38 公開日:2022-02-01
# (参考訳) page-pg:確率的勾配推定を用いた簡易かつループレス分散低減ポリシー勾配法 [全文訳有]

PAGE-PG: A Simple and Loopless Variance-Reduced Policy Gradient Method with Probabilistic Gradient Estimation ( http://arxiv.org/abs/2202.00308v1 )

ライセンス: CC BY 4.0
Matilde Gargiani, Andrea Zanelli, Andrea Martinelli, Tyler Summers, John Lygeros(参考訳) その成功にもかかわらず、政策勾配法は勾配推定の高分散に悩まされ、不満足なサンプルの複雑さをもたらす可能性がある。 近年、サンプルの複雑さと競合する数値性能を確実に向上させる政策勾配法の拡張が多数提案されている。 主分散低減強化型手法のいくつかについてコンパクトな調査を行った後,2種類の更新の確率的切り替えに基づく新しいループレス分散低減型ポリシー勾配法であるポリシー勾配(page-pg)の確率的勾配推定を提案する。 本手法は,教師付き学習のためのpage estimatorにインスパイアされ,重要度サンプリングを利用して偏りのない勾配推定器を得る。 page-pg は $\mathcal{o}\left( \epsilon^{-3} \right)$ 平均的なサンプル複雑性を享受し、$\epsilon$-定常解に到達する。 古典的制御タスクにおける本手法の競合性能を数値評価により確認する。

Despite their success, policy gradient methods suffer from high variance of the gradient estimate, which can result in unsatisfactory sample complexity. Recently, numerous variance-reduced extensions of policy gradient methods with provably better sample complexity and competitive numerical performance have been proposed. After a compact survey on some of the main variance-reduced REINFORCE-type methods, we propose ProbAbilistic Gradient Estimation for Policy Gradient (PAGE-PG), a novel loopless variance-reduced policy gradient method based on a probabilistic switch between two types of updates. Our method is inspired by the PAGE estimator for supervised learning and leverages importance sampling to obtain an unbiased gradient estimator. We show that PAGE-PG enjoys a $\mathcal{O}\left( \epsilon^{-3} \right)$ average sample complexity to reach an $\epsilon$-stationar y solution, which matches the sample complexity of its most competitive counterparts under the same setting. A numerical evaluation confirms the competitive performance of our method on classical control tasks.
翻訳日:2022-02-02 20:53:26 公開日:2022-02-01
# (参考訳) マルチハイパーグラフにおけるベイズフィルタによる集合タスクのアクティビティ認識 [全文訳有]

Activity Recognition in Assembly Tasks by Bayesian Filtering in Multi-Hypergraphs ( http://arxiv.org/abs/2202.00332v1 )

ライセンス: CC BY 4.0
Timon Felske, Stefan L\"udtke, Sebastian Bader, Thomas Kirste(参考訳) 組み立て作業などの手作業プロセスにおいて,センサに基づくヒューマンアクティビティ認識について検討する。 そのようなプロセスでは、システム状態は、しばしば、オブジェクトプロパティとリレーションを含むリッチな構造を持つ。 したがって、再帰的なベイズフィルタによるセンサ観測から隠れた系状態を推定することは、システム状態の組合せ爆発のため非常に困難である。 この問題を軽減するために,そのようなプロセスに対する効率的なベイズフィルタモデルを提案する。 本手法では,システム状態はマルチハイパーグラフで表現され,システムダイナミクスはグラフ書き換え規則によってモデル化される。 本稿では,マルチハイパーグラフ上の分布を全列挙法よりもコンパクトに表現できる予備概念を示し,このコンパクト表現に直接作用する推論アルゴリズムを提案する。 実際のデータセット上でのアルゴリズムの適用性を示す。

We study sensor-based human activity recognition in manual work processes like assembly tasks. In such processes, the system states often have a rich structure, involving object properties and relations. Thus, estimating the hidden system state from sensor observations by recursive Bayesian filtering can be very challenging, due to the combinatorial explosion in the number of system states. To alleviate this problem, we propose an efficient Bayesian filtering model for such processes. In our approach, system states are represented by multi-hypergraphs, and the system dynamics is modeled by graph rewriting rules. We show a preliminary concept that allows to represent distributions over multi-hypergraphs more compactly than by full enumeration, and present an inference algorithm that works directly on this compact representation. We demonstrate the applicability of the algorithm on a real dataset.
翻訳日:2022-02-02 19:59:57 公開日:2022-02-01
# (参考訳) 学習と推論における関連性の定量化

Quantifying Relevance in Learning and Inference ( http://arxiv.org/abs/2202.00339v1 )

ライセンス: CC BY 4.0
Matteo Marsili and Yasser Roudi(参考訳) 学習は知的行動の独特な特徴である。 高スループットの実験データとビッグデータは、細胞や脳、社会といった複雑なシステムに新しい窓を開くことを約束します。 しかし、人工知能と機械学習の成功は、まだ学習に関する概念的な理解が不十分であることを示している。 これらの応用は、データが高次元で不足している非チャート領域に統計的推論をプッシュし、「真の」モデルに関する事前情報は、完全に欠落していない場合はスキャンされる。 本稿では,「関連性」の概念に基づく学習の理解の最近の進歩を概観する。 関連性は、ここで定義するとおり、データセットや学習機械の内部表現がデータの生成モデルに含んでいる情報の量を定量化する。 これにより、最大情報化サンプルを一方に、最適学習マシンを他方に定義することができる。 これらはサンプルと機械の理想的な限界であり、与えられた解像度(または圧縮レベル)において、未知の生成過程に関する情報の最大量を含む。 最大情報的サンプルは、正則周波数分布(統計的臨界度)と最適学習機械によって、異常に大きな感受性によって特徴づけられる。 分解能(すなわち圧縮)と関連性の間のトレードオフは、ノイズ表現の規則と損失圧縮の規則を区別する。 これらはZipfの法則統計によって特徴づけられる特別な点によって分離される。 これはZipfの法則に従うサンプルを、最大関連性という意味で最適である最も圧縮された損失のない表現として特定する。 最適学習機械の臨界度はエネルギー準位の指数的な縮退に現れ、異常な熱力学特性をもたらす。

Learning is a distinctive feature of intelligent behaviour. High-throughput experimental data and Big Data promise to open new windows on complex systems such as cells, the brain or our societies. Yet, the puzzling success of Artificial Intelligence and Machine Learning shows that we still have a poor conceptual understanding of learning. These applications push statistical inference into uncharted territories where data is high-dimensional and scarce, and prior information on "true" models is scant if not totally absent. Here we review recent progress on understanding learning, based on the notion of "relevance". The relevance, as we define it here, quantifies the amount of information that a dataset or the internal representation of a learning machine contains on the generative model of the data. This allows us to define maximally informative samples, on one hand, and optimal learning machines on the other. These are ideal limits of samples and of machines, that contain the maximal amount of information about the unknown generative process, at a given resolution (or level of compression). Both ideal limits exhibit critical features in the statistical sense: Maximally informative samples are characterised by a power-law frequency distribution (statistical criticality) and optimal learning machines by an anomalously large susceptibility. The trade-off between resolution (i.e. compression) and relevance distinguishes the regime of noisy representations from that of lossy compression. These are separated by a special point characterised by Zipf's law statistics. This identifies samples obeying Zipf's law as the most compressed loss-less representations that are optimal in the sense of maximal relevance. Criticality in optimal learning machines manifests in an exponential degeneracy of energy levels, that leads to unusual thermodynamic properties.
翻訳日:2022-02-02 19:53:44 公開日:2022-02-01
# (参考訳) DNNにおける階層的意思決定の探索 [全文訳有]

Exploring layerwise decision making in DNNs ( http://arxiv.org/abs/2202.00345v1 )

ライセンス: CC BY 4.0
Coenraad Mouton and Marelie H. Davel(参考訳) ディープニューラルネットワーク(DNN)は多くの機械学習タスクの標準アーキテクチャとなっているが、内部決定プロセスと一般的な解釈可能性はまだ理解されていない。 逆に、一般的な決定木は容易に解釈でき、理論的によく理解される。 ノードの離散的なサンプル活性化値をバイナリ表現として符号化することにより、ReLU活性化多層パーセプトロン(MLP)において各レイヤの分類手順を説明する決定木を抽出できることを示す。 次に、モデルの各レイヤの解釈を生成するために、これらの決定木と既存の特徴属性技術を組み合わせる。 最後に、生成された解釈、バイナリエンコーディングの振る舞い、ニューラルネットワークのトレーニングプロセス中に生成されたサンプルグルーピングとの関連性について分析する。

While deep neural networks (DNNs) have become a standard architecture for many machine learning tasks, their internal decision-making process and general interpretability is still poorly understood. Conversely, common decision trees are easily interpretable and theoretically well understood. We show that by encoding the discrete sample activation values of nodes as a binary representation, we are able to extract a decision tree explaining the classification procedure of each layer in a ReLU-activated multilayer perceptron (MLP). We then combine these decision trees with existing feature attribution techniques in order to produce an interpretation of each layer of a model. Finally, we provide an analysis of the generated interpretations, the behaviour of the binary encodings and how these relate to sample groupings created during the training process of the neural network.
翻訳日:2022-02-02 19:52:15 公開日:2022-02-01
# (参考訳) 進化戦略を用いたデジタル双対ネットワーク最適化のための深層強化学習の高速化 [全文訳有]

Accelerating Deep Reinforcement Learning for Digital Twin Network Optimization with Evolutionary Strategies ( http://arxiv.org/abs/2202.00360v1 )

ライセンス: CC BY 4.0
Carlos G\"uemes-Palau (1), Paul Almasan (1), Shihan Xiao (2), Xiangle Cheng (2), Xiang Shi (2), Pere Barlet-Ros (1), Albert Cabellos-Aparicio (1) ((1) Barcelona Neural Networking Center, Universitat Polit\`ecnica de Catalunya, Spain (2) Network Technology Lab., Huawei Technologies Co., Ltd.)(参考訳) 近年の緊急ネットワークアプリケーション(衛星ネットワーク、車両ネットワークなど)の成長は、現代の通信ネットワークの管理の複雑さを増している。 その結果、コミュニティは効率的なネットワーク管理の鍵となる手段としてDigital Twin Networks (DTN)を提案した。 ネットワークオペレータはDTNを利用して異なる最適化タスク(例えば、トラフィックエンジニアリング、ネットワークプランニング)を実行することができる。 Deep Reinforcement Learning (DRL) は,ネットワーク最適化問題の解法として高い性能を示した。 DTNの文脈では、DRLは現実世界のネットワーク動作に直接影響を与えずに最適化問題を解決するために利用することができる。 しかし、DRLは問題の大きさと複雑さに乏しい。 本稿では,経路最適化問題の解法として,進化的戦略(ES)を用いてDRLエージェントの訓練を行う。 実験の結果, ES は NSFNET と GEANT2 のトポロジーでそれぞれ 18 と 6 のトレーニングタイムアップを達成した。

The recent growth of emergent network applications (e.g., satellite networks, vehicular networks) is increasing the complexity of managing modern communication networks. As a result, the community proposed the Digital Twin Networks (DTN) as a key enabler of efficient network management. Network operators can leverage the DTN to perform different optimization tasks (e.g., Traffic Engineering, Network Planning). Deep Reinforcement Learning (DRL) showed a high performance when applied to solve network optimization problems. In the context of DTN, DRL can be leveraged to solve optimization problems without directly impacting the real-world network behavior. However, DRL scales poorly with the problem size and complexity. In this paper, we explore the use of Evolutionary Strategies (ES) to train DRL agents for solving a routing optimization problem. The experimental results show that ES achieved a training time speed-up of 128 and 6 for the NSFNET and GEANT2 topologies respectively.
翻訳日:2022-02-02 19:42:27 公開日:2022-02-01
# (参考訳) ファン文化を見つめる男性としてのディープフェイクポルノ [全文訳有]

Deepfake pornography as a male gaze on fan culture ( http://arxiv.org/abs/2202.00374v1 )

ライセンス: CC BY 4.0
Inna Suvorova(参考訳) このエッセイは、ファン文化に対するディープフェイク技術の影響を示している。 この革新的な技術は、男性の聴衆にアイデアやプロットを表現するための道具を提供した。 その後、ディープフェイクポルノの台頭に繋がった。 有名人の研究の一部と見なされることが多いが、このエッセイはファンフィックの一種であり、参加文化の産物、コミュニティの起源の共有、商業企業による搾取、ディープセクシュアライゼーションとも考えられる。 これら2つのファンフィック進化の枝は、マシニマポルノグラフィーのジャンルを通して繋がることができる。 テクスト的なファンタジーは主に女性によって作られ、男性を描いているが、それ以外の場合は、ディープフェイクポルノとマチニマは男性と女性をターゲットにした男性によって作られる。

This essay shows the impact of deepfake technology on fan culture. The innovative technology provided the male audience with an instrument to express its ideas and plots. Which subsequently led to the rise of deepfake pornography. It is often seen as a part of celebrity studies; however, the essay shows that it could also be considered a type of fanfic and a product of participatory culture, sharing community origin, exploitation by commercial companies and deep sexualisation. These two branches of fanfic evolution can be connected via the genre of machinima pornography. Textual fanfics are mainly created by females for females, depicting males; otherwise, deepfake pornography and machinima are made by males and for males targeting females.
翻訳日:2022-02-02 19:32:10 公開日:2022-02-01
# (参考訳) 議論の学習を通して説明可能なAI [全文訳有]

Explainable AI through the Learning of Arguments ( http://arxiv.org/abs/2202.00383v1 )

ライセンス: CC BY 4.0
Jonas Bei, David Pomerenke, Lukas Schreiner, Sepideh Sharbaf, Pieter Collins, Nico Roos(参考訳) 学習の議論は、説明可能な人工知能の分野と非常に関係がある。 これは、特に人間に解釈可能なシンボリック機械学習技術のファミリーである。 これらのテクニックは、中間表現として引数の集合を学ぶ。 引数は、予測や決定を行うためのより大きな引数にチェーンできる例外を持つ小さなルールである。 議論の学習,特にVerheij [34]の提案した「ケースモデル」からの議論の学習について検討する。 verheijのアプローチのケースモデルは、法的設定のケースまたはシナリオである。 ケースモデルのケース数は相対的に少ない。 本稿では、verheijのアプローチが、より多くのインスタンスを持つ他の種類のデータセットから引数を学ぶのに使えるかどうかについて検討する。 ケースモデルからの議論の学習とHeROアルゴリズム [15] を比較し,意思決定木を学習する。

Learning arguments is highly relevant to the field of explainable artificial intelligence. It is a family of symbolic machine learning techniques that is particularly human-interpretable. These techniques learn a set of arguments as an intermediate representation. Arguments are small rules with exceptions that can be chained to larger arguments for making predictions or decisions. We investigate the learning of arguments, specifically the learning of arguments from a 'case model' proposed by Verheij [34]. The case model in Verheij's approach are cases or scenarios in a legal setting. The number of cases in a case model are relatively low. Here, we investigate whether Verheij's approach can be used for learning arguments from other types of data sets with a much larger number of instances. We compare the learning of arguments from a case model with the HeRO algorithm [15] and learning a decision tree.
翻訳日:2022-02-02 19:19:04 公開日:2022-02-01
# (参考訳) 不均衡クラスインクリメンタル学習における校正法の比較検討 [全文訳有]

A Comparative Study of Calibration Methods for Imbalanced Class Incremental Learning ( http://arxiv.org/abs/2202.00386v1 )

ライセンス: CC BY 4.0
Umang Aggarwal, Adrian Popescu, Eden Belouadah and C\'eline Hudelot(参考訳) ディープラーニングのアプローチは、幅広いai問題、特に視覚認識タスクで成功しています。 しかし、視覚情報のストリームを処理する能力とデータセットにおけるクラス不均衡の管理には、まだ未解決の問題がある。 既存の研究は、これら2つの問題を現実の応用で共起しながら別々にアプローチしている。 本稿では、不均衡なデータセットから漸進的に学習する問題を考察する。 我々は、一定の深層モデル複雑性を持つアルゴリズムに焦点をあて、インクリメンタルな状態にまたがる古いクラスの例を記憶するために境界メモリを使用する。 メモリは境界なので、古いクラスは新しいクラスよりも少ないイメージで学習され、インクリメンタルな学習による不均衡が初期データセットの不均衡に追加される。 新しいクラスを選好するスコア予測バイアスが出現し、それを減らすためのスコア校正手法の包括的なセットを評価する。 評価は3つのデータセットで行われ、2つのデータセットの不均衡構成と3つの境界メモリサイズを使用する。 その結果,ほとんどのキャリブレーション手法は有効であり,メモリサイズが小さい場合に最も有用であることが示唆された。 二次的貢献として,通常蒸留成分をインクリメンタル学習アルゴリズムの損失関数から除去する。 非バランスなインクリメンタル学習アルゴリズムにとって,よりシンプルなバニラ微調整がより強固なバックボーンであることを示す。

Deep learning approaches are successful in a wide range of AI problems and in particular for visual recognition tasks. However, there are still open problems among which is the capacity to handle streams of visual information and the management of class imbalance in datasets. Existing research approaches these two problems separately while they co-occur in real world applications. Here, we study the problem of learning incrementally from imbalanced datasets. We focus on algorithms which have a constant deep model complexity and use a bounded memory to store exemplars of old classes across incremental states. Since memory is bounded, old classes are learned with fewer images than new classes and an imbalance due to incremental learning is added to the initial dataset imbalance. A score prediction bias in favor of new classes appears and we evaluate a comprehensive set of score calibration methods to reduce it. Evaluation is carried with three datasets, using two dataset imbalance configurations and three bounded memory sizes. Results show that most calibration methods have beneficial effect and that they are most useful for lower bounded memory sizes, which are most interesting in practice. As a secondary contribution, we remove the usual distillation component from the loss function of incremental learning algorithms. We show that simpler vanilla fine tuning is a stronger backbone for imbalanced incremental learning algorithms.
翻訳日:2022-02-02 19:05:57 公開日:2022-02-01
# (参考訳) 不均衡データセットのためのマイノリティクラス指向アクティブラーニング [全文訳有]

Minority Class Oriented Active Learning for Imbalanced Datasets ( http://arxiv.org/abs/2202.00390v1 )

ライセンス: CC BY 4.0
Umang Aggarwal, Adrian Popescu, and C\'eline Hudelot(参考訳) active learningは、リソースが制約されたときにデータセットのアノテーションプロセスを最適化することを目的としている。 既存のほとんどのメソッドはバランスの取れたデータセット用に設計されている。 彼らの実用的適用性は、実際のデータセットの大部分が実際に不均衡であるという事実によって制限される。 本稿では,不均衡なデータセットを対象とした新しいアクティブ学習手法を提案する。 これは、ラベル付きサブセットの不均衡を減らし、これらのクラスのより良い表現を作成するために、マイノリティクラスにある可能性が高いサンプルを好む。 また,本研究は,(1)モデル微調整を反復毎に用いた深層能動学習と(2)伝達学習にインスパイアされ,汎用的な事前学習モデルを活用し,各反復に対して浅い分類器を訓練する手法の2つを比較した。 評価は3つの不均衡データセットで実行される。 その結果,提案手法は競争ベースラインを上回っていることがわかった。 同様に興味深いことに、トランスファーラーニングトレーニングスキームは、ジェネリックデータセットからラベルなしデータセットへ機能が転送可能であれば、モデルファインチューニングよりも優れていることを示している。 この最後の結果は驚きであり、コミュニティに深いアクティブな学習方法の設計を探求するよう促すべきである。

Active learning aims to optimize the dataset annotation process when resources are constrained. Most existing methods are designed for balanced datasets. Their practical applicability is limited by the fact that a majority of real-life datasets are actually imbalanced. Here, we introduce a new active learning method which is designed for imbalanced datasets. It favors samples likely to be in minority classes so as to reduce the imbalance of the labeled subset and create a better representation for these classes. We also compare two training schemes for active learning: (1) the one commonly deployed in deep active learning using model fine tuning for each iteration and (2) a scheme which is inspired by transfer learning and exploits generic pre-trained models and train shallow classifiers for each iteration. Evaluation is run with three imbalanced datasets. Results show that the proposed active learning method outperforms competitive baselines. Equally interesting, they also indicate that the transfer learning training scheme outperforms model fine tuning if features are transferable from the generic dataset to the unlabeled one. This last result is surprising and should encourage the community to explore the design of deep active learning methods.
翻訳日:2022-02-02 18:33:04 公開日:2022-02-01
# (参考訳) Twitterの時代における政治と処女性: ギリシャ、スペイン、イギリスにおける大規模横断的センチメント分析 [全文訳有]

Politics and Virality in the Time of Twitter: A Large-Scale Cross-Party Sentiment Analysis in Greece, Spain and United Kingdom ( http://arxiv.org/abs/2202.00396v1 )

ライセンス: CC BY 4.0
Dimosthenis Antypas, Alun Preece, Jose Camacho Collados(参考訳) ソーシャルメディアは、近代社会、特に西洋社会における政策立案に関して非常に影響力を持つようになった(例えば、ヨーロッパ人の48%が毎日、あるいはほぼ毎日ソーシャルメディアを使用している)。 twitterのようなプラットフォームでは、ユーザーは政治家をフォローできるので、市民は政治議論にもっと関与できる。 同様に、政治家はTwitterを使って意見を表明し、現在の話題について議論し、有権者の行動に影響を与えるための政治議題を推進している。 これまでの研究では、ネガティブな感情を伝えるツイートがより頻繁にリツイートされることが示されている。 本稿では、各国の政治家のツイートを分析し、彼らのツイートが同じ傾向を辿っているかどうかを探る。 最先端の事前学習された言語モデルを活用して,ギリシャ,スペイン,英国議会の議員が収集した多言語ツイートに対する感情分析を行った。 私たちは、影響力のあるツイートとあまり人気のないツイートの違いを体系的に探索し分析することでこれを達成しました。 分析の結果、政治家のネガティブなツイートは、特に近年、広く拡散し、感情と人気の交点で興味深い傾向が浮き彫りになった。

Social media has become extremely influential when it comes to policy making in modern societies especially in the western world (e.g., 48% of Europeans use social media every day or almost every day). Platforms such as Twitter allow users to follow politicians, thus making citizens more involved in political discussion. In the same vein, politicians use Twitter to express their opinions, debate among others on current topics and promote their political agenda aiming to influence voter behaviour. Previous studies have shown that tweets conveying negative sentiment are likely to be retweeted more frequently. In this paper, we attempt to analyse tweets from politicians from different countries and explore if their tweets follow the same trend. Utilising state-of-the-art pre-trained language models we performed sentiment analysis on multilingual tweets collected from members of parliament of Greece, Spain and United Kingdom, including devolved administrations. We achieved this by systematically exploring and analysing the differences between influential and less popular tweets. Our analysis indicates that politicians' negatively charged tweets spread more widely, especially in more recent times, and highlights interesting trends in the intersection of sentiment and popularity.
翻訳日:2022-02-02 18:18:19 公開日:2022-02-01
# (参考訳) 音声認識システムにおける逆攻撃の言語依存性 [全文訳有]

Language Dependencies in Adversarial Attacks on Speech Recognition Systems ( http://arxiv.org/abs/2202.00399v1 )

ライセンス: CC BY 4.0
Karla Markert and Donika Mirdita and Konstantin B\"ottinger(参考訳) 自動音声認識 (asr) システムは, 日常的デバイスにおいてユビキタスに存在している。 敵の攻撃に対して脆弱で、操作された入力サンプルはASRシステムの認識を騙す。 様々な英語のASRシステムの逆例はすでに分析されているが、言語間比較脆弱性分析は存在しない。 我々は、Deepspeechを例として、ドイツ語と英語のASRシステムの攻撃可能性を比較した。 一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。 実験結果から, 対数実例の生成に要する計算労力の面では, 英語とドイツ語の統計的に有意な差異が示唆された。 この結果は、ASRのロバスト性解析における言語依存特性のさらなる研究を促進する。

Automatic speech recognition (ASR) systems are ubiquitously present in our daily devices. They are vulnerable to adversarial attacks, where manipulated input samples fool the ASR system's recognition. While adversarial examples for various English ASR systems have already been analyzed, there exists no inter-language comparative vulnerability analysis. We compare the attackability of a German and an English ASR system, taking Deepspeech as an example. We investigate if one of the language models is more susceptible to manipulations than the other. The results of our experiments suggest statistically significant differences between English and German in terms of computational effort necessary for the successful generation of adversarial examples. This result encourages further research in language-dependent characteristics in the robustness analysis of ASR.
翻訳日:2022-02-02 18:01:16 公開日:2022-02-01
# (参考訳) コンピュータビジョンのためのシリアルおよび並列マイカット/マックスフローアルゴリズムのレビュー [全文訳有]

Review of Serial and Parallel Min-Cut/Max-Flow Algorithms for Computer Vision ( http://arxiv.org/abs/2202.00418v1 )

ライセンス: CC BY 4.0
Patrick M. Jensen, Niels Jeppesen, Anders B. Dahl and Vedrana A. Dahl(参考訳) 最小カット/最大フロー (min-cut/max-flow) アルゴリズムはコンピュータビジョンの様々な問題を解決するために用いられ、高速のmin-cut/max-flowアルゴリズムの開発に多大な努力が払われている。 これにより、与えられた問題、特に完全比較されていない並列アルゴリズムに対して最適なアルゴリズムを選択することが困難になる。 本稿では,コンピュータビジョンにおける非構造化グラフに対する最先端のmin-cut/max-flowアルゴリズムについて述べる。 本稿では,一連のグラフカット問題に対する逐次アルゴリズムと並列アルゴリズムの様々な実装の実行時間性能とメモリ使用について評価する。 以上の結果から,Hochbaum擬似フローアルゴリズムは最も高速なシリアルアルゴリズムであり,Excesses Incremental Breadth First Searchアルゴリズムがそれに近づき,Boykov-Kolmogorovアルゴリズムは最もメモリ効率が高いことがわかった。 最良の並列アルゴリズムは、LiuとSunによる適応的なボトムアップマージアプローチである。 さらに,異なる実装間の性能が,低レベルの実装の重要さを強調した同じアルゴリズムで大きく変化することを示す。 最後に、既存の並列マイトカット/マックスフローアルゴリズムは、大問題ではシリアルアルゴリズムを著しく上回るが、中小問題ではオーバーヘッドが増大する。 すべてのアルゴリズムの実装はhttps://github.com/p atmjen/maxflow_algor ithmsで利用可能である。

Minimum cut / maximum flow (min-cut/max-flow) algorithms are used to solve a variety of problems in computer vision and thus significant effort has been put into developing fast min-cut/max-flow algorithms. This makes it difficult to choose an optimal algorithm for a given problem - especially for parallel algorithms, which have not been thoroughly compared. In this paper, we review the state-of-the-art min-cut/max-flow algorithms for unstructured graphs in computer vision. We evaluate run time performance and memory use of various implementations of both serial and parallel algorithms on a set of graph cut problems. Our results show that the Hochbaum pseudoflow algorithm is the fastest serial algorithm closely followed by the Excesses Incremental Breadth First Search algorithm, while the Boykov-Kolmogorov algorithm is the most memory efficient. The best parallel algorithm is the adaptive bottom-up merging approach by Liu and Sun. Additionally, we show significant variations in performance between different implementations the same algorithms highlighting the importance of low-level implementation details. Finally, we note that existing parallel min-cut/max-flow algorithms can significantly outperform serial algorithms on large problems but suffers from added overhead on small to medium problems. Implementations of all algorithms are available at https://github.com/p atmjen/maxflow_algor ithms
翻訳日:2022-02-02 17:48:27 公開日:2022-02-01
# (参考訳) 低複雑性正規化器の反復正則化

Iterative regularization for low complexity regularizers ( http://arxiv.org/abs/2202.00420v1 )

ライセンス: CC BY 4.0
Cesare Molinari and Mathurin Massias and Lorenzo Rosasco and Silvia Villa(参考訳) 反復正則化は最適化アルゴリズムの暗黙のバイアスを利用して不適切な問題を正則化する。 このような正則化機構を組み込んだアルゴリズムの構築は、逆問題だけでなく、現代の機械学習においても古典的な課題であり、アルゴリズム解析に対する新たな視点と、明示的な正則化と比較して大幅なスピードアップを提供する。 本研究では,非滑らかかつ非強凸汎関数によって記述されるバイアスを扱える最初の反復正規化手法を提案し,検討する。 提案手法は,元の問題が実現不可能な場合においても,収束特性と安定性特性を解析する原始双対アルゴリズムに基づいている。 一般的な結果は、$\ell_1$ペナルティを伴うスパース回復の特別な場合を考慮して示される。 我々の理論結果は、我々のアプローチの計算上の利点を示す実験によって補完される。

Iterative regularization exploits the implicit bias of an optimization algorithm to regularize ill-posed problems. Constructing algorithms with such built-in regularization mechanisms is a classic challenge in inverse problems but also in modern machine learning, where it provides both a new perspective on algorithms analysis, and significant speed-ups compared to explicit regularization. In this work, we propose and study the first iterative regularization procedure able to handle biases described by non smooth and non strongly convex functionals, prominent in low-complexity regularization. Our approach is based on a primal-dual algorithm of which we analyze convergence and stability properties, even in the case where the original problem is unfeasible. The general results are illustrated considering the special case of sparse recovery with the $\ell_1$ penalty. Our theoretical results are complemented by experiments showing the computational benefits of our approach.
翻訳日:2022-02-02 17:20:14 公開日:2022-02-01
# (参考訳) メモリベースのメッセージパッシング: 差別禁止のためのメッセージの分離 [全文訳有]

Memory-based Message Passing: Decoupling the Message for Propogation from Discrimination ( http://arxiv.org/abs/2202.00423v1 )

ライセンス: CC BY 4.0
Jie Chen, Weiqi Liu, Jian Pu(参考訳) メッセージパッシングは、グラフ表現学習の分野におけるグラフニューラルネットワークの基本的な手順である。 ホモフィリー仮定に基づいて、現在のメッセージパッシングは、グラフラプラシアン平滑化プロセスのような連結ノードの特徴を常に集約する。 しかし、実世界のグラフはノイズが多く、非滑らかである傾向がある。 ホモフィリー仮定は必ずしも成り立たないので、準最適結果をもたらす。 修正されたメッセージパッシングメソッドは、隣接ノードからメッセージを集約する場合、各ノードの識別能力を維持する必要がある。 この目的のために、各ノードのメッセージを識別のための自己埋め込み部と伝搬のためのメモリ部に分離するメモリベースのメッセージパッシング(MMP)手法を提案する。 さらに、各ノードに対するメモリ内のメッセージを吸収・排除する比率を制御するための制御機構と分離正規化を開発する。 さらに重要なのは、私たちのMMPは、従来のGNNのパフォーマンス向上に役立つ追加レイヤとして機能する一般的なスキルです。 相同比の異なる様々なデータセットに関する広範囲な実験により,提案手法の有効性とロバスト性が示された。

Message passing is a fundamental procedure for graph neural networks in the field of graph representation learning. Based on the homophily assumption, the current message passing always aggregates features of connected nodes, such as the graph Laplacian smoothing process. However, real-world graphs tend to be noisy and/or non-smooth. The homophily assumption does not always hold, leading to sub-optimal results. A revised message passing method needs to maintain each node's discriminative ability when aggregating the message from neighbors. To this end, we propose a Memory-based Message Passing (MMP) method to decouple the message of each node into a self-embedding part for discrimination and a memory part for propagation. Furthermore, we develop a control mechanism and a decoupling regularization to control the ratio of absorbing and excluding the message in the memory for each node. More importantly, our MMP is a general skill that can work as an additional layer to help improve traditional GNNs performance. Extensive experiments on various datasets with different homophily ratios demonstrate the effectiveness and robustness of the proposed method.
翻訳日:2022-02-02 17:19:15 公開日:2022-02-01
# (参考訳) 高エネルギー物理学のためのパラメトリックニューラルネットワークの改良 [全文訳有]

Improving Parametric Neural Networks for High-Energy Physics (and Beyond) ( http://arxiv.org/abs/2202.00424v1 )

ライセンス: CC BY 4.0
Luca Anzalone, Tommaso Diotalevi and Daniele Bonacorsi(参考訳) 信号背景分類は高エネルギー物理学の中心的な問題であり、新しい基本粒子の発見に重要な役割を果たしている。 最近の手法であるパラメトリックニューラルネットワーク(pNN)は、複数の信号質量仮説を付加的な入力特徴として利用して、個々の分類器の集合全体を効果的に置き換え、それぞれが単一の質量仮説に対して(原則として)最良の応答を提供する。 本研究は,実環境におけるpNNの理解を深めることを目的としている。 パラメトリックネットワークの特徴がいくつか発見され,直観,メトリクス,ガイドラインが得られた。 さらに、AffinePNNという新しいパラメトリゼーションニューラルネットワークアーキテクチャと、他の多くの一般的な改善点を提案する。 最後に、我々のモデルをHEPMASSデータセット上で広範囲に評価し、その不均衡バージョン(HEPMASS-IMBと呼ばれる)とともに、我々のアプローチをさらに検証するために、ここで初めて提供する。 その結果,提案する設計決定,分類性能,補間能力の影響について検討した。

Signal-background classification is a central problem in High-Energy Physics, that plays a major role for the discovery of new fundamental particles. A recent method -- the Parametric Neural Network (pNN) -- leverages multiple signal mass hypotheses as an additional input feature to effectively replace a whole set of individual classifier, each providing (in principle) the best response for a single mass hypothesis. In this work we aim at deepening the understanding of pNNs in light of real-world usage. We discovered several peculiarities of parametric networks, providing intuition, metrics, and guidelines to them. We further propose an alternative parametrization scheme, resulting in a new parametrized neural network architecture: the AffinePNN; along with many other generally applicable improvements. Finally, we extensively evaluate our models on the HEPMASS dataset, along its imbalanced version (called HEPMASS-IMB) we provide here for the first time to further validate our approach. Provided results are in terms of the impact of the proposed design decisions, classification performance, and interpolation capability as well.
翻訳日:2022-02-02 17:10:25 公開日:2022-02-01
# (参考訳) 動作単位検出のためのマルチオーダーネットワーク [全文訳有]

Multi-Order Networks for Action Unit Detection ( http://arxiv.org/abs/2202.00446v1 )

ライセンス: CC BY 4.0
Gauthier Tallec, Arnaud Dapogny and Kevin Bailly(参考訳) ひとつのネットワーク内で複数のタスクが学習されるディープマルチタスク手法が近年注目されている。 この注意の燃える点は、タスク間の関係を捉える能力です。 現在のアプローチでは、ウェイトシェアリングのみに依存するか、ベイズ連鎖則を用いてタスクジョイント分布を分解することで明示的な依存性モデリングを追加する。 後者の戦略が包括的なタスク間関係をモデル化するならば、任意の順序を未順序のタスクセットに含める必要がある。 最も重要なことは、このシーケンスオーダ選択がパフォーマンスの変動の重要な原因として特定されていることである。 本稿では,タスク順序を最適化したマルチタスク学習手法であるMulti-Order Network(MONET)を提案する。 MONETは、Birkhoffのポリトープ内のソフトオーダーモデリングに基づいて、最適な連鎖順序でタスクワイズリカレントモジュールを共同で学習するために、微分可能な順序選択を使用する。 さらに,秩序探索を奨励し,秩序選択を高めるために暖かみと秩序の低下を導入する。 実験では,まずMONETのキャパシティを検証し,玩具環境での最適順序を求める。 次に、属性検出シナリオを使用して、MONETが既存のマルチタスクベースラインを広範囲の依存性設定で上回ることを示す。 最後に,MONET が顔行動単位検出における最先端性能を著しく拡張することを示す。

Deep multi-task methods, where several tasks are learned within a single network, have recently attracted increasing attention. Burning point of this attention is their capacity to capture inter-task relationships. Current approaches either only rely on weight sharing, or add explicit dependency modelling by decomposing the task joint distribution using Bayes chain rule. If the latter strategy yields comprehensive inter-task relationships modelling, it requires imposing an arbitrary order into an unordered task set. Most importantly, this sequence ordering choice has been identified as a critical source of performance variations. In this paper, we present Multi-Order Network (MONET), a multi-task learning method with joint task order optimization. MONET uses a differentiable order selection based on soft order modelling inside Birkhoff's polytope to jointly learn task-wise recurrent modules with their optimal chaining order. Furthermore, we introduce warm up and order dropout to enhance order selection by encouraging order exploration. Experimentally, we first validate MONET capacity to retrieve the optimal order in a toy environment. Second, we use an attribute detection scenario to show that MONET outperforms existing multi-task baselines on a wide range of dependency settings. Finally, we demonstrate that MONET significantly extends state-of-the-art performance in Facial Action Unit detection.
翻訳日:2022-02-02 16:53:33 公開日:2022-02-01
# (参考訳) きめ細かい微分可能な物理--織物の糸レベルモデル

Fine-grained differentiable physics: a yarn-level model for fabrics ( http://arxiv.org/abs/2202.00504v1 )

ライセンス: CC BY 4.0
Deshan Gong, Zhanxing Zhu, Andrew J.Bulpitt, He Wang(参考訳) 微分可能な物理モデリングは、物理モデルと勾配に基づく学習を組み合わせて、モデル説明可能性とデータ効率を提供する。 ダイナミックスを学び、逆問題の解決と設計の促進に使われており、影響の発端にある。 現在の成功は、剛体や変形可能なシートなどの一般的な物理学モデルに集中し、比較的単純な構造や力を仮定している。 その粒度は本質的に粗く、複雑な物理現象をモデル化できない。 洗練された材料構造と勾配に基づく学習との強制的な相互作用を組み込むために、きめ細かいモデルがまだ開発されている。 この動機を活かし,繊維の粒度を考察し,糸とヤーンの相互作用をモデル化し,布などの複合材料に対する新しい微分可能な織物モデルを提案する。 この目的のために, 経験物理学では非微分可能となるいくつかの微分可能力を提案し, 勾配に基づく学習を容易にする。 これらの力は布に当てはまるが、様々な物理的システムにおいてユビキタスである。 総合的な評価と比較を通じて,本モデルが有意義な物理パラメータを学習する可能性,複雑な物理構造と異質な材料を組み込む場合の汎用性,学習におけるデータ効率,微妙なダイナミクスを捉える際の高忠実性を示す。

Differentiable physics modeling combines physics models with gradient-based learning to provide model explicability and data efficiency. It has been used to learn dynamics, solve inverse problems and facilitate design, and is at its inception of impact. Current successes have concentrated on general physics models such as rigid bodies, deformable sheets, etc., assuming relatively simple structures and forces. Their granularity is intrinsically coarse and therefore incapable of modelling complex physical phenomena. Fine-grained models are still to be developed to incorporate sophisticated material structures and force interactions with gradient-based learning. Following this motivation, we propose a new differentiable fabrics model for composite materials such as cloths, where we dive into the granularity of yarns and model individual yarn physics and yarn-to-yarn interactions. To this end, we propose several differentiable forces, whose counterparts in empirical physics are indifferentiable, to facilitate gradient-based learning. These forces, albeit applied to cloths, are ubiquitous in various physical systems. Through comprehensive evaluation and comparison, we demonstrate our model's explicability in learning meaningful physical parameters, versatility in incorporating complex physical structures and heterogeneous materials, data-efficiency in learning, and high-fidelity in capturing subtle dynamics.
翻訳日:2022-02-02 16:30:52 公開日:2022-02-01
# (参考訳) 分散確率分散還元超勾配法

Decentralized Stochastic Variance Reduced Extragradient Method ( http://arxiv.org/abs/2202.00509v1 )

ライセンス: CC BY 4.0
Luo Luo, Haishan Ye(参考訳) そこで$m$はエージェントの数であり、各局所関数は$f_i(x,y)=\frac{1}{n}\sum_{j=1}^n f_{i,j}(x,y)$と書くことができる。 本稿では,マルチコンセンサス確率分散低減法(multi-consensus stochastic variance reduced extragradient)と呼ばれる分散最適化アルゴリズムを提案する。 具体的には、各エージェントは$\mathcal O((n+\kappa\sqrt{n})\log(1/\varepsilon) )$ SFOコールは強凸-強凹問題であり、$\mathcal O((n+\sqrt{n}L/\varepsilon)\log(1 /\varepsilon))$ SFOコールは一般凸-凸問題で$\varepsilon$-accura te解を期待して、$\kappa$は条件数であり、$L$は滑らか性パラメータである。 数値実験により,提案手法はベースラインよりも優れた性能を示す。

This paper studies decentralized convex-concave minimax optimization problems of the form $\min_x\max_y f(x,y) \triangleq\frac{1}{m}\sum_{i=1}^m f_i(x,y)$, where $m$ is the number of agents and each local function can be written as $f_i(x,y)=\frac{1}{n}\sum_{j=1}^n f_{i,j}(x,y)$. We propose a novel decentralized optimization algorithm, called multi-consensus stochastic variance reduced extragradient, which achieves the best known stochastic first-order oracle (SFO) complexity for this problem. Specifically, each agent requires $\mathcal O((n+\kappa\sqrt{n})\log(1/\varepsilon) )$ SFO calls for strongly-convex-stro ngly-concave problem and $\mathcal O((n+\sqrt{n}L/\varepsilon)\log(1 /\varepsilon))$ SFO call for general convex-concave problem to achieve $\varepsilon$-accura te solution in expectation, where $\kappa$ is the condition number and $L$ is the smoothness parameter. The numerical experiments show the proposed method performs better than baselines.
翻訳日:2022-02-02 16:28:26 公開日:2022-02-01
# (参考訳) ラジカル化経路の低減に向けての次回勧告の見直し [全文訳有]

Rewiring What-to-Watch-Next Recommendations to Reduce Radicalization Pathways ( http://arxiv.org/abs/2202.00640v1 )

ライセンス: CC BY 4.0
Francesco Fabbri, Yanhao Wang, Francesco Bonchi, Carlos Castillo, Michael Mathioudakis(参考訳) レコメンダシステムは、通常、過去に消費したものに似たユーザーコンテンツを提案する。 もしユーザーが強く分極されたコンテンツに晒された場合、彼女はその後、より過激なコンテンツに向けて彼女を操るレコメンデーションを受け取り、最終的に私たちが「ラジカル化経路」と呼ぶものに閉じ込められるかもしれない。 本稿では,グラフベースアプローチによるラジカル化経路の緩和問題について検討する。 具体的には、"What-to-watch-next&q uot;レコメンデーションのセットを、ノードがコンテンツ項目、レコメンデーションへのリンク、ユーザセッションへのパスに対応するd-regular Directed graphとしてモデル化する。 我々は,過激化コンテンツを表すノードの「分離」スコアを,そのノードから非ラジカル化コンテンツを表すノードへのランダムウォークの予測長として測定する。 高い隔離スコアは、ユーザーを過激化経路に閉じ込めるチャンスの増加に関係している。 そこで我々は,複数のエッジを"リワイヤ"に選択することで,ラジカル化経路の頻度を低減し,すべてのノード間の分離スコアの最大化を図り,レコメンデーションの関連性を維持しながら課題を定めている。 rewireの最適な推奨セットを見つける問題は、任意の係数内で近似するnp-hardとnp-hardであることが証明される。 そこで,我々はヒューリスティックスに注意を向け,吸収ランダムウォーク理論に基づく効率的かつ効果的なグリーディアルゴリズムを提案する。 ビデオおよびニュースレコメンデーションの文脈における実世界のデータセットに関する実験により,提案の有効性が確認された。

Recommender systems typically suggest to users content similar to what they consumed in the past. If a user happens to be exposed to strongly polarized content, she might subsequently receive recommendations which may steer her towards more and more radicalized content, eventually being trapped in what we call a "radicalization pathway". In this paper, we study the problem of mitigating radicalization pathways using a graph-based approach. Specifically, we model the set of recommendations of a "what-to-watch-next&q uot; recommender as a d-regular directed graph where nodes correspond to content items, links to recommendations, and paths to possible user sessions. We measure the "segregation" score of a node representing radicalized content as the expected length of a random walk from that node to any node representing non-radicalized content. High segregation scores are associated to larger chances to get users trapped in radicalization pathways. Hence, we define the problem of reducing the prevalence of radicalization pathways by selecting a small number of edges to "rewire", so to minimize the maximum of segregation scores among all radicalized nodes, while maintaining the relevance of the recommendations. We prove that the problem of finding the optimal set of recommendations to rewire is NP-hard and NP-hard to approximate within any factor. Therefore, we turn our attention to heuristics, and propose an efficient yet effective greedy algorithm based on the absorbing random walk theory. Our experiments on real-world datasets in the context of video and news recommendations confirm the effectiveness of our proposal.
翻訳日:2022-02-02 16:26:48 公開日:2022-02-01
# 高精度磁場イメージングのための機械学習量子センサ

Machine-learning-enh anced quantum sensors for accurate magnetic field imaging ( http://arxiv.org/abs/2202.00380v1 )

ライセンス: Link先を確認
Moeta Tsukamoto, Shuji Ito, Kensuke Ogawa, Yuto Ashida, Kento Sasaki and Kensuke Kobayashi(参考訳) 磁場の局所検出はナノ材料やマイクロ材料の特徴付けに不可欠であり、様々な走査技術やダイヤモンド量子センサーを用いて実装されている。 ダイヤモンドナノ粒子(ナノダイヤモンド)は、表面に取り付けるだけで、わずか10nm以内で容易にターゲットに近づくことができるため、高い空間分解能を得る魅力的な機会を提供する。 このようなランダム指向ナノダイアモンドアンサンブル(NDE)の物理モデルが利用可能であるが、実際の実験条件の複雑さは依然として磁場の低減の精度を制限している。 ここでは、NDEと機械学習を物理モデルなしで組み合わせた1.8$\mu$Tの高精度な磁場イメージングを実演する。 また,nde信号の場方向依存性を発見し,ベクトル磁気計測の応用の可能性と既存モデルの改良を示唆した。 さらにNDEの性能を向上し, 原子層材料中のメソスコピック電流と磁気を可視化し, 生体を含む任意の形状の材料への適用性を高める。 この成果は、正確な測定のために機械学習と量子センシングを橋渡しする。

Local detection of magnetic fields is crucial for characterizing nano- and micro-materials and has been implemented using various scanning techniques or even diamond quantum sensors. Diamond nanoparticles (nanodiamonds) offer an attractive opportunity to chieve high spatial resolution because they can easily be close to the target within a few 10 nm simply by attaching them to its surface. A physical model for such a randomly oriented nanodiamond ensemble (NDE) is available, but the complexity of actual experimental conditions still limits the accuracy of deducing magnetic fields. Here, we demonstrate magnetic field imaging with high accuracy of 1.8 $\mu$T combining NDE and machine learning without any physical models. We also discover the field direction dependence of the NDE signal, suggesting the potential application for vector magnetometry and improvement of the existing model. Our method further enriches the performance of NDE to achieve the accuracy to visualize mesoscopic current and magnetism in atomic-layer materials and to expand the applicability in arbitrarily shaped materials, including living organisms. This achievement will bridge machine learning and quantum sensing for accurate measurements.
翻訳日:2022-02-02 16:02:08 公開日:2022-02-01
# 蛍光相関分光法によるがん患者由来細胞外小胞のマシンインテリジェンス駆動分類:試験的検討

Machine Intelligence-Driven Classification of Cancer Patients-Derived Extracellular Vesicles using Fluorescence Correlation Spectroscopy: Results from a Pilot Study ( http://arxiv.org/abs/2202.00495v1 )

ライセンス: Link先を確認
Abicumaran Uthamacumaran, Mohamed Abdouh, Kinshuk Sengupta, Zu-hua Gao, Stefano Forte, Thupten Tsering, Julia V Burnier, Goffredo Arena(参考訳) 複雑な生物学的貨物を含む患者由来の細胞外小胞(evs)は、早期発見、がんスクリーニング、精密なナノ治療に役立つ液体生検診断の貴重な源である。 本研究では,がん患者の血液由来EVと時間分解分光法と人工知能(AI)を結合させることで,がん検診と追跡ツールの確立が期待できた。 方法:24試料EVを用いた蛍光相関分光法(FCS)の測定を行った。 血液サンプルは癌15例(5種類の癌)と健常者9例(良性病変を含む)から得られた。 得られたFCS自己相関スペクトルをFast-Fourier Transformアルゴリズムを用いてパワースペクトルに処理し,正常な制御スペクトルから癌スペクトルを識別する各種機械学習アルゴリズムを適用した。 AdaBoost Random Forest (RF) 分類器, サポートベクターマシン, 多層パーセプトロンの性能をN=118パワースペクトルの選択周波数で試験した。 rf分類器は, 癌患者のfcsパワースペクトルと健常者との識別において, 90%の分類精度と高い感度と特異性を示した。 さらに、パワースペクトル画像に対して、画像畳み込みニューラルネットワーク(CNN)、ResNetネットワーク、量子CNNを追加の検証ツールとして評価した。 全ての画像ベースCNNは、ほぼ同等の分類性能を示し、精度はおよそ82%、感度と特異度は合理的に高い。 我々のパイロット研究は、AI-アルゴリズムと時間分解SFSパワースペクトルが、異なる組織サブタイプの異なるがんサンプルから、複雑な患者由来EVを正確に、微分的に分類できることを示した。

Patient-derived extracellular vesicles (EVs) that contains a complex biological cargo is a valuable source of liquid biopsy diagnostics to aid in early detection, cancer screening, and precision nanotherapeutics. In this study, we predicted that coupling cancer patient blood-derived EVs to time-resolved spectroscopy and artificial intelligence (AI) could provide a robust cancer screening and follow-up tools. Methods: Fluorescence correlation spectroscopy (FCS) measurements were performed on 24 blood samples-derived EVs. Blood samples were obtained from 15 cancer patients (presenting 5 different types of cancers), and 9 healthy controls (including patients with benign lesions). The obtained FCS autocorrelation spectra were processed into power spectra using the Fast-Fourier Transform algorithm and subjected to various machine learning algorithms to distinguish cancer spectra from healthy control spectra. Results and Applications: The performance of AdaBoost Random Forest (RF) classifier, support vector machine, and multilayer perceptron, were tested on selected frequencies in the N=118 power spectra. The RF classifier exhibited a 90% classification accuracy and high sensitivity and specificity in distinguishing the FCS power spectra of cancer patients from those of healthy controls. Further, an image convolutional neural network (CNN), ResNet network, and a quantum CNN were assessed on the power spectral images as additional validation tools. All image-based CNNs exhibited a nearly equal classification performance with an accuracy of roughly 82% and reasonably high sensitivity and specificity scores. Our pilot study demonstrates that AI-algorithms coupled to time-resolved FCS power spectra can accurately and differentially classify the complex patient-derived EVs from different cancer samples of distinct tissue subtypes.
翻訳日:2022-02-02 16:01:52 公開日:2022-02-01
# 深層学習によるパウリスピン遮断の同定

Identifying Pauli spin blockade using deep learning ( http://arxiv.org/abs/2202.00574v1 )

ライセンス: Link先を確認
Jonas Schuff, Dominic T. Lennon, Simon Geyer, David L. Craig, Federico Fedele, Florian Vigneau, Leon C. Camenzind, Andreas V. Kuhlmann, G. Andrew D. Briggs, Dominik M. Zumb\"uhl, Dino Sejdinovic, Natalia Ares(参考訳) パウリスピンブロック(psb)は、高温でもスピン量子ビットの初期化と読み出しのための優れた資源として利用できるが、識別は困難である。 電荷輸送測定を用いてPSBを自動的に識別できる機械学習アルゴリズムを提案する。 PSBデータの不足は、シミュレーションデータを用いてアルゴリズムを訓練し、デバイス間検証によって回避される。 シリコン電界効果トランジスタデバイスへのアプローチを実証し、異なるテストデバイス上で96%の精度を報告し、このアプローチがデバイス変動にロバストであることを示す。 このアプローチは、あらゆる種類の量子ドットデバイスで採用されることが期待される。

Pauli spin blockade (PSB) can be employed as a great resource for spin qubit initialisation and readout even at elevated temperatures but it can be difficult to identify. We present a machine learning algorithm capable of automatically identifying PSB using charge transport measurements. The scarcity of PSB data is circumvented by training the algorithm with simulated data and by using cross-device validation. We demonstrate our approach on a silicon field-effect transistor device and report an accuracy of 96% on different test devices, giving evidence that the approach is robust to device variability. The approach is expected to be employable across all types of quantum dot devices.
翻訳日:2022-02-02 16:01:21 公開日:2022-02-01
# 有限次元可換半単純代数上の一般化高次特異値分解による画像の近似

Approximation of Images via Generalized Higher Order Singular Value Decomposition over Finite-dimensional Commutative Semisimple Algebra ( http://arxiv.org/abs/2202.00450v1 )

ライセンス: Link先を確認
Liang Liao, Sen Lin, Lun Li, Xiuwei Zhang, Song Zhao, Yan Wang, Xinqiang Wang, Qi Gao, Jingyu Wang(参考訳) 特異値分解による画像の低ランク近似は、ビッグデータの時代においてよく認識される。 しかし、特異値分解(SVD)は2次データ(行列)に限られる。 高次入力をマトリックスに平らにするか、あるいは一連の2次スライスに分割することで、マルチスペクトル画像やsvdによるビデオといった高次データに取り組む必要がある。 高階特異値分解(HOSVD)はSVDを拡張し、少数のランク1成分の和を用いて高階データを近似することができる。 有限次元可換代数上でのHOSVDの一般化の問題を考える。 この代数はt-代数と呼ばれ、複素数の体を一般化する。 t-スカラーと呼ばれる代数の元は複素数の固定サイズの配列である。 t-スカラー上で行列やテンソルを一般化し、HOSVDを含む多くの標準行列やテンソルアルゴリズムを拡張して高性能版を得る。 HOSVDの一般化はTHOSVDと呼ばれる。 マルチウェイデータの近似性能は、交互アルゴリズムによりさらに向上することができる。 THOSVDはまた、幅広い主成分分析アルゴリズムを統一する。 画像の近似にt-スカラーを用いる一般化アルゴリズムの可能性を活用するために,画素近傍戦略を用いて各画素を「deeper-order」t-スカラーに変換する。 公開されている画像の実験では、THOSVDと呼ばれるt-スカラー上の一般化されたアルゴリズムが、標準のものと好意的に比較されている。

Low-rank approximation of images via singular value decomposition is well-received in the era of big data. However, singular value decomposition (SVD) is only for order-two data, i.e., matrices. It is necessary to flatten a higher order input into a matrix or break it into a series of order-two slices to tackle higher order data such as multispectral images and videos with the SVD. Higher order singular value decomposition (HOSVD) extends the SVD and can approximate higher order data using sums of a few rank-one components. We consider the problem of generalizing HOSVD over a finite dimensional commutative algebra. This algebra, referred to as a t-algebra, generalizes the field of complex numbers. The elements of the algebra, called t-scalars, are fix-sized arrays of complex numbers. One can generalize matrices and tensors over t-scalars and then extend many canonical matrix and tensor algorithms, including HOSVD, to obtain higher-performance versions. The generalization of HOSVD is called THOSVD. Its performance of approximating multi-way data can be further improved by an alternating algorithm. THOSVD also unifies a wide range of principal component analysis algorithms. To exploit the potential of generalized algorithms using t-scalars for approximating images, we use a pixel neighborhood strategy to convert each pixel to "deeper-order" t-scalar. Experiments on publicly available images show that the generalized algorithm over t-scalars, namely THOSVD, compares favorably with its canonical counterparts.
翻訳日:2022-02-02 15:59:29 公開日:2022-02-01
# (参考訳) 極小サイズ高次元データにおける組込み特徴選択のためのNested Cross-Validationと自動ハイパーパラメータ最適化の併用 [全文訳有]

Combined Pruning for Nested Cross-Validation to Accelerate Automated Hyperparameter Optimization for Embedded Feature Selection in High-Dimensional Data with Very Small Sample Sizes ( http://arxiv.org/abs/2202.00598v1 )

ライセンス: CC BY 4.0
Sigrun May, Sven Hartmann and Frank Klawonn(参考訳) 非常に小さなサンプルサイズを持つ高次元データの無関係な特徴を排除するためにツリーベースの組み込み特徴選択を適用するには、モデル構築プロセスに最適化されたハイパーパラメータが必要である。 さらに、バイアスドモデルのパフォーマンスを避けるために、ネストしたクロスバリデーションをこの種のデータに適用する必要がある。 結果としての長い計算時間をプルーニングで高速化することができる。 しかし, 標準的な刈り込みアルゴリズムは, 性能評価基準のばらつきが大きいため, 予測可能なハイパーパラメータ集合の計算を遅らせるか, リスクを回避しなければならない。 これを解決するために、最先端の半減期プルーナーの使用を適応させ、ドメインや事前知識に基づく2つの新しいプルーニング戦略と組み合わせる。 追加のプルーニング戦略は、選択されたハイパーパラメータの組み合わせに対する意味的に意味のない結果による試行の計算を直ちに停止する。 もう一つは、高分散のネストクロスバリデーションに適した外挿しきい値プルーニング戦略である。 提案する3層prunerは,最先端の非同期連続型halvingpruner単独と比較して,最大81,3%のモデル数を削減しながら,有望な試験を継続する。 我々の3層プルーナー実装(https://github.com/ sigrun-may/cv-pruner で利用可能)はデータ解析を高速化するか、あるいは同じ計算時間内でより深いハイパーパラメータ検索を可能にする。 これにより、時間とお金とエネルギーを節約し、CO2排出量を減らす。

Applying tree-based embedded feature selection to exclude irrelevant features in high-dimensional data with very small sample sizes requires optimized hyperparameters for the model building process. In addition, nested cross-validation must be applied for this type of data to avoid biased model performance. The resulting long computation time can be accelerated with pruning. However, standard pruning algorithms must prune late or risk aborting calculations of promising hyperparameter sets due to high variance in the performance evaluation metric. To address this, we adapt the usage of a state-of-the-art successive halving pruner and combine it with two new pruning strategies based on domain or prior knowledge. One additional pruning strategy immediately stops the computation of trials with semantically meaningless results for the selected hyperparameter combinations. The other is an extrapolating threshold pruning strategy suitable for nested-cross-validat ion with high variance. Our proposed combined three-layer pruner keeps promising trials while reducing the number of models to be built by up to 81,3% compared to using a state-of-the-art asynchronous successive halving pruner alone. Our three-layer pruner implementation(avail able at https://github.com/s igrun-may/cv-pruner) speeds up data analysis or enables deeper hyperparameter search within the same computation time. It consequently saves time, money and energy, reducing the CO2 footprint.
翻訳日:2022-02-02 15:58:11 公開日:2022-02-01
# MotifExplainer: Motifベースのグラフニューラルネットワーク説明器

MotifExplainer: a Motif-based Graph Neural Network Explainer ( http://arxiv.org/abs/2202.00519v1 )

ライセンス: Link先を確認
Zhaoning Yu, Hongyang Gao(参考訳) 本稿では,グラフニューラルネットワーク(gnns)の説明問題を考える。 既存のGNN説明手法の多くは、最も重要なエッジやノードを識別するが、グラフデータにとってより重要な部分構造を考慮できない。 部分グラフを考える唯一の方法は、可能なすべての部分グラフを探索し、最も重要な部分グラフを識別しようとすることである。 しかし、識別された部分グラフは再帰的あるいは統計的に重要ではない。 本研究では,グラフにおける重要なモチーフ,再帰的,統計的に重要なパターンを識別し,GNNを説明する手法であるMotifExplainerを提案する。 提案手法は,ノード,エッジ,正規部分グラフに基づく手法よりも,人間の理解しやすい説明を提供する。 入力グラフと事前学習GNNモデルが与えられた場合、まず、適切に設計されたモチーフ抽出規則を用いてグラフ内のモチーフを抽出する。 そして、事前学習したGNNにモチーフを供給することでモチーフ埋め込みを生成する。 最後に,最終予測結果に対する説明として,最も影響力のあるモチーフを特定するための注意に基づく手法を提案する。 合成データと実世界のデータの両方に関する実証研究により,本手法の有効性が示された。

We consider the explanation problem of Graph Neural Networks (GNNs). Most existing GNN explanation methods identify the most important edges or nodes but fail to consider substructures, which are more important for graph data. The only method that considers subgraphs tries to search all possible subgraphs and identify the most significant subgraphs. However, the subgraphs identified may not be recurrent or statistically important. In this work, we propose a novel method, known as MotifExplainer, to explain GNNs by identifying important motifs, recurrent and statistically significant patterns in graphs. Our proposed motif-based methods can provide better human-understandable explanations than methods based on nodes, edges, and regular subgraphs. Given an input graph and a pre-trained GNN model, our method first extracts motifs in the graph using well-designed motif extraction rules. Then we generate motif embedding by feeding motifs into the pre-trained GNN. Finally, we employ an attention-based method to identify the most influential motifs as explanations for the final prediction results. The empirical studies on both synthetic and real-world datasets demonstrate the effectiveness of our method.
翻訳日:2022-02-02 15:43:07 公開日:2022-02-01
# 不均一モチーフグラフ構築による分子グラフ表現学習

Molecular Graph Representation Learning via Heterogeneous Motif Graph Construction ( http://arxiv.org/abs/2202.00529v1 )

ライセンス: Link先を確認
Zhaoning Yu, Hongyang Gao(参考訳) 分子グラフの特徴表現学習問題を考察する。 グラフニューラルネットワークは分子グラフの特徴表現学習に広く用いられている。 しかし、既存の手法の多くは分子グラフを個別に扱うが、モチーフレベルの関係のような接続を無視する。 本稿では,異種モチーフグラフを構築した新しい分子グラフ表現学習法を提案する。 特に、モチーフノードと分子ノードを含む不均一モチーフグラフを構築する。 各モチーフノードは分子から抽出されたモチーフに対応する。 次に,不均質モチーフグラフにおける各ノードの特徴表現を学習するための不均質モチーフグラフニューラルネットワーク(hm-gnn)を提案する。 我々の異種モチーフグラフは、特に小さな分子データセットに対して効果的なマルチタスク学習を可能にする。 そこで本研究では,計算資源使用量を大幅に削減できるエッジサンプリング器を提案する。 実験結果から,我々のモデルは従来モデルより一貫して優れていたことがわかった。 マルチタスク環境では,複合データセットにおける提案手法の有望な性能が,小さな分子データセットのための新しい学習パラダイムに光を当てた。 最後に, エッジサンプリングを用いて, 計算資源を著しく削減し, 同様の性能を実現することを示す。

We consider feature representation learning problem of molecular graphs. Graph Neural Networks have been widely used in feature representation learning of molecular graphs. However, most existing methods deal with molecular graphs individually while neglecting their connections, such as motif-level relationships. We propose a novel molecular graph representation learning method by constructing a heterogeneous motif graph to address this issue. In particular, we build a heterogeneous motif graph that contains motif nodes and molecular nodes. Each motif node corresponds to a motif extracted from molecules. Then, we propose a Heterogeneous Motif Graph Neural Network (HM-GNN) to learn feature representations for each node in the heterogeneous motif graph. Our heterogeneous motif graph also enables effective multi-task learning, especially for small molecular datasets. To address the potential efficiency issue, we propose to use an edge sampler, which can significantly reduce computational resources usage. The experimental results show that our model consistently outperforms previous state-of-the-art models. Under multi-task settings, the promising performances of our methods on combined datasets shed light on a new learning paradigm for small molecular datasets. Finally, we show that our model achieves similar performances with significantly less computational resources by using our edge sampler.
翻訳日:2022-02-02 15:42:50 公開日:2022-02-01
# IDP-Z3:FO()の推論エンジン。

IDP-Z3: a reasoning engine for FO(.) ( http://arxiv.org/abs/2202.00343v1 )

ライセンス: Link先を確認
Pierre Carbonnelle, Simon Vandevelde, Joost Vennekens and Marc Denecker(参考訳) FO(.) (別名FO-dot) は古典的な一階述語論理を拡張した言語で、複雑な知識を自然で実験的な方法で表現できるようにする。 idp-z3はfo(.)言語のための新しい推論エンジンであり、fo(.)で表される知識を使って様々な汎用計算タスクを実行することができる。 従来のIDP3に取って代わり、実数に対する線形算術のサポートや概念上の定量化といった新機能を備える。 IDP-Z3は、様々な問題領域における対話型アプリケーションをサポートし、通常3秒未満の応答時間である。

FO(.) (aka FO-dot) is a language that extends classical first-order logic with constructs to allow complex knowledge to be represented in a natural and elaboration-tolerant way. IDP-Z3 is a new reasoning engine for the FO(.) language: it can perform a variety of generic computational tasks using knowledge represented in FO(.). It supersedes IDP3, its predecessor, with new capabilities such as support for linear arithmetic over reals and quantification over concepts. We present four knowledge-intensive industrial use cases, and show that IDP-Z3 delivers real value to its users at low development costs: it supports interactive applications in a variety of problem domains, with a response time typically below 3 seconds.
翻訳日:2022-02-02 15:42:33 公開日:2022-02-01
# DexVIP: ビデオから人間の手の動きを事前に学習する

DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from Video ( http://arxiv.org/abs/2202.00164v1 )

ライセンス: Link先を確認
Priyanka Mandikal and Kristen Grauman(参考訳) 奇抜なマルチフィンガーロボットハンドは、強力なアクションスペースを持っているが、人間の手と形態的な類似性は、ロボット学習を加速する大きな可能性を秘めている。 本研究は,youtubeの動画における人間と物体のインタラクションからロボットによる把握を学習する手法であるdexvipを提案する。 我々は,人間と物体のインタラクションビデオからの把握イメージをキュレートし,深層強化学習による把握を学習する際にエージェントの手のポーズに前置する。 本手法の重要な利点は,学習方針が自由形式の視覚データを活用できることである。 結果として、新しい物体に容易にスケールできるようになり、実験室で人間のデモを集めるという標準的な慣行を脇に置き、人間の専門知識を捉えるためのより高価で間接的な方法となる。 ロボットハンドを30-DoFで模擬した27の物体を実験した結果、手ポーズの無い既存のアプローチや、人間のデモンストレーションを得るための特殊な遠隔操作装置に頼らず、訓練の迅速さを実証した。 プロジェクトページ: https://vision.cs.ut exas.edu/projects/de xvip-dexterous-grasp -pose-prior

Dexterous multi-fingered robotic hands have a formidable action space, yet their morphological similarity to the human hand holds immense potential to accelerate robot learning. We propose DexVIP, an approach to learn dexterous robotic grasping from human-object interactions present in in-the-wild YouTube videos. We do this by curating grasp images from human-object interaction videos and imposing a prior over the agent's hand pose when learning to grasp with deep reinforcement learning. A key advantage of our method is that the learned policy is able to leverage free-form in-the-wild visual data. As a result, it can easily scale to new objects, and it sidesteps the standard practice of collecting human demonstrations in a lab -- a much more expensive and indirect way to capture human expertise. Through experiments on 27 objects with a 30-DoF simulated robot hand, we demonstrate that DexVIP compares favorably to existing approaches that lack a hand pose prior or rely on specialized tele-operation equipment to obtain human demonstrations, while also being faster to train. Project page: https://vision.cs.ut exas.edu/projects/de xvip-dexterous-grasp -pose-prior
翻訳日:2022-02-02 15:42:01 公開日:2022-02-01
# 変分深部画像を用いたブラインド画像デコンボリューション

Blind Image Deconvolution Using Variational Deep Image Prior ( http://arxiv.org/abs/2202.00179v1 )

ライセンス: Link先を確認
Dong Huo, Abbas Masoumzadeh, Rafsanjany Kushol, Yee-Hong Yang(参考訳) 従来のデコンボリューション法は、最適化を制約するために手作りのイメージプリエントを用いる。 ディープラーニングベースの手法では、エンドツーエンドトレーニングによる最適化が簡略化されているが、トレーニングデータセットで目に見えないぼやけにうまく一般化できていない。 したがって、画像固有モデルの訓練は、より高い一般化のために重要である。 Deep Image prior (DIP) は、1つの劣化した画像でランダムに初期化されたネットワークの重みを最大化して最適化する手法を提供する。 統計的に得られた従来の手作り画像と異なり、画像と対応するネットワークアーキテクチャの関係が不明確であるため、適切なネットワークアーキテクチャを見つけることは困難である。 その結果、ネットワークアーキテクチャは潜在シャープイメージに対して十分な制約を与えることができない。 本稿では,潜在シャープ画像に対する手作り画像の付加的プリエントを活用し,サブ最適解を避けるために各画素の分布を近似するブラインド画像デコンボリューションのための新しい変分深画像プリレント(vdip)を提案する。 数理解析の結果,提案手法は最適化をよりよく制約できることがわかった。 実験の結果, 生成した画像は, ベンチマークデータセットの元々のディップよりも品質が良いことがわかった。 VDIPのソースコードはhttps://github.com/D ong-Huo/VDIP-Deconvo lutionで公開されています。

Conventional deconvolution methods utilize hand-crafted image priors to constrain the optimization. While deep-learning-based methods have simplified the optimization by end-to-end training, they fail to generalize well to blurs unseen in the training dataset. Thus, training image-specific models is important for higher generalization. Deep image prior (DIP) provides an approach to optimize the weights of a randomly initialized network with a single degraded image by maximum a posteriori (MAP), which shows that the architecture of a network can serve as the hand-crafted image prior. Different from the conventional hand-crafted image priors that are statistically obtained, it is hard to find a proper network architecture because the relationship between images and their corresponding network architectures is unclear. As a result, the network architecture cannot provide enough constraint for the latent sharp image. This paper proposes a new variational deep image prior (VDIP) for blind image deconvolution, which exploits additive hand-crafted image priors on latent sharp images and approximates a distribution for each pixel to avoid suboptimal solutions. Our mathematical analysis shows that the proposed method can better constrain the optimization. The experimental results further demonstrate that the generated images have better quality than that of the original DIP on benchmark datasets. The source code of our VDIP is available at https://github.com/D ong-Huo/VDIP-Deconvo lution.
翻訳日:2022-02-02 15:40:12 公開日:2022-02-01
# sd-oct画像における網膜内嚢胞セグメンテーションのためのu-netモデルに基づく汎用的アプローチ

A generalizable approach based on U-Net model for automatic Intra retinal cyst segmentation in SD-OCT images ( http://arxiv.org/abs/2202.00465v1 )

ライセンス: Link先を確認
Razieh Ganjee, Mohsen Ebrahimi Moghaddam, Ramin Nourinia(参考訳) 網膜内液や嚢胞は黄斑病の重要な症状の1つであり、OCT画像で効率よく可視化される。 これらの異常の自動分割は医用画像処理研究で広く研究されている。 本稿では,従来のディープベース技術が直面する課題を改善するために,異なるベンダー間での網膜内嚢胞分節に対する新しいU-Netベースのアプローチを提案する。 提案手法は,1-事前情報埋め込みと入力データ調整,および2-IRCセグメンテーションモデルである。 最初のステップでは、情報をネットワークに注入することで、データの受信や重要な文脈知識の学習において、ネットワークの制限を克服します。 そして次のステップでは、エンコーダからデコーダへより効果的に情報を転送する標準u-netアーキテクチャのエンコーダとデコーダ間の接続モジュールを導入しました。 提案手法の評価にはOPTIMAとKERMANYという2つの公開データセットを用いた。 その結果,提案手法は,OPTIMAおよびKERMANYデータセットの平均Dice値0.78と0.81のIRCセグメンテーションに対して,効率的なベンダーに依存しないアプローチであることがわかった。

Intra retinal fluids or Cysts are one of the important symptoms of macular pathologies that are efficiently visualized in OCT images. Automatic segmentation of these abnormalities has been widely investigated in medical image processing studies. In this paper, we propose a new U-Net-based approach for Intra retinal cyst segmentation across different vendors that improves some of the challenges faced by previous deep-based techniques. The proposed method has two main steps: 1- prior information embedding and input data adjustment, and 2- IRC segmentation model. In the first step, we inject the information into the network in a way that overcomes some of the network limitations in receiving data and learning important contextual knowledge. And in the next step, we introduced a connection module between encoder and decoder parts of the standard U-Net architecture that transfers information more effectively from the encoder to the decoder part. Two public datasets namely OPTIMA and KERMANY were employed to evaluate the proposed method. Results showed that the proposed method is an efficient vendor-independent approach for IRC segmentation with mean Dice values of 0.78 and 0.81 on the OPTIMA and KERMANY datasets, respectively.
翻訳日:2022-02-02 15:39:47 公開日:2022-02-01
# 静止肯定:拡張現実のための非負画像合成

Stay Positive: Non-Negative Image Synthesis for Augmented Reality ( http://arxiv.org/abs/2202.00659v1 )

ライセンス: Link先を確認
Katie Luo, Guandao Yang, Wenqi Xian, Harald Haraldsson, Bharath Hariharan, Serge Belongie(参考訳) オプティカルシースルーやプロジェクター拡張現実のようなアプリケーションでは、画像を生成することは、既存の画像に光を加えることしかできない非負のイメージ生成を解決できる。 しかし、ほとんどの画像生成方法は、各ピクセルに任意の色を割り当てることができるという仮定で、この問題設定には不向きである。 実際、既存の手法は、MNIST桁のような単純なドメインでも、光を加えることでより暗いピクセルを作ることができないため、単純な適用では失敗する。 しかし、人間の視覚系は、ある空間的な明るさとコントラストの配置を含む錯視によって騙される可能性がある。 私たちの重要な洞察は、この動作を利用して、無視できるアーティファクトで高品質な画像を生成することができるということです。 例えば、周囲のピクセルを明るくすることで、より暗いパッチの錯覚を作り出すことができる。 意味的制約と非否定的制約の両方を満たす画像を生成するための新しい最適化手法を提案する。 提案手法は,既存の最先端手法を取り入れ,画像から画像への翻訳やスタイルの伝達など,様々なタスクにおいて高い性能を示す。

In applications such as optical see-through and projector augmented reality, producing images amounts to solving non-negative image generation, where one can only add light to an existing image. Most image generation methods, however, are ill-suited to this problem setting, as they make the assumption that one can assign arbitrary color to each pixel. In fact, naive application of existing methods fails even in simple domains such as MNIST digits, since one cannot create darker pixels by adding light. We know, however, that the human visual system can be fooled by optical illusions involving certain spatial configurations of brightness and contrast. Our key insight is that one can leverage this behavior to produce high quality images with negligible artifacts. For example, we can create the illusion of darker patches by brightening surrounding pixels. We propose a novel optimization procedure to produce images that satisfy both semantic and non-negativity constraints. Our approach can incorporate existing state-of-the-art methods, and exhibits strong performance in a variety of tasks including image-to-image translation and style transfer.
翻訳日:2022-02-02 15:38:53 公開日:2022-02-01
# Interactron: 身体的適応オブジェクト検出

Interactron: Embodied Adaptive Object Detection ( http://arxiv.org/abs/2202.00660v1 )

ライセンス: Link先を確認
Klemen Kotar, Roozbeh Mottaghi(参考訳) 近年,物体検出問題に対する様々な手法が提案されている。 最近我々は、強力なディープニューラルネットワークの出現により、この領域で大きな進歩を目の当たりにしている。 しかし、一般的にこれらのアプローチには2つの主要な仮定がある。 まず、モデルが一定のトレーニングセットでトレーニングされ、予め記録されたテストセットで評価される。 第2に、トレーニングフェーズ終了後はモデルが凍結されるため、トレーニング終了後にさらなる更新は行われない。 これら2つの仮定は、実世界の設定に適用性を制限する。 本稿では,インタラクティブな環境下での適応物体検出手法であるInteractronを提案する。 私たちのアイデアは、推論中のトレーニングを継続し、環境とのインタラクションを通じて明示的な監督なしにテスト時にモデルを適用することです。 我々の適応物体検出モデルは、最近の高性能物体検出器DETRよりもAP(およびAP50の19.1点)を11.8点改善する。 さらに, 物体検出モデルは, 外観特性が全く異なる環境に適応し, その性能は, その環境を十分に監視する訓練されたモデルと同等であることを示した。

Over the years various methods have been proposed for the problem of object detection. Recently, we have witnessed great strides in this domain owing to the emergence of powerful deep neural networks. However, there are typically two main assumptions common among these approaches. First, the model is trained on a fixed training set and is evaluated on a pre-recorded test set. Second, the model is kept frozen after the training phase, so no further updates are performed after the training is finished. These two assumptions limit the applicability of these methods to real-world settings. In this paper, we propose Interactron, a method for adaptive object detection in an interactive setting, where the goal is to perform object detection in images observed by an embodied agent navigating in different environments. Our idea is to continue training during inference and adapt the model at test time without any explicit supervision via interacting with the environment. Our adaptive object detection model provides a 11.8 point improvement in AP (and 19.1 points in AP50) over DETR, a recent, high-performance object detector. Moreover, we show that our object detection model adapts to environments with completely different appearance characteristics, and its performance is on par with a model trained with full supervision for those environments.
翻訳日:2022-02-02 15:38:35 公開日:2022-02-01
# ニューラルネットワークにおける畳み込み構造の創発

Data-driven emergence of convolutional structure in neural networks ( http://arxiv.org/abs/2202.00565v1 )

ライセンス: Link先を確認
Alessandro Ingrosso and Sebastian Goldt(参考訳) データ不変性の爆発は、人工神経回路と生物学的神経回路の両方で効率的な学習に不可欠である。 ニューラルネットワークが入力の基盤となる対称性を活用できる適切な表現を見つける方法を理解することは、機械学習と神経科学において重要である。 例えば畳み込みニューラルネットワークは、翻訳対称性を利用するように設計されており、その能力がディープラーニングの成功の最初の波を引き起こした。 しかし、完全に接続されたネットワークで翻訳不変データから直接畳み込みを学習することは、これまで実証されてきた。 ここでは、まず、識別タスクを解く完全連結ニューラルネットワークが、入力から直接畳み込み構造を学習し、局所化された空間型受容場を実現する方法を示す。 これらの受容場は同じタスクで訓練された畳み込みネットワークのフィルタと一致する。 視覚シーンのデータモデルを慎重に設計することにより、このパターンの出現は、長年自然画像の目印として認識されてきた入力の非ガウス的、高次局所構造によって引き起こされることを示す。 本稿では,この現象に責任を持つパターン形成機構の解析的,数値的特徴付けを行い,高次入力相関の受容場形成とテンソル分解との予期せぬ関係を導出する。 これらの結果は、様々な感覚様相の低レベル特徴検出器の開発に新たな展望を与え、ニューラルネットワークにおける学習に対する高次統計の影響を研究するための道を開く。

Exploiting data invariances is crucial for efficient learning in both artificial and biological neural circuits. Understanding how neural networks can discover appropriate representations capable of harnessing the underlying symmetries of their inputs is thus crucial in machine learning and neuroscience. Convolutional neural networks, for example, were designed to exploit translation symmetry and their capabilities triggered the first wave of deep learning successes. However, learning convolutions directly from translation-invarian t data with a fully-connected network has so far proven elusive. Here, we show how initially fully-connected neural networks solving a discrimination task can learn a convolutional structure directly from their inputs, resulting in localised, space-tiling receptive fields. These receptive fields match the filters of a convolutional network trained on the same task. By carefully designing data models for the visual scene, we show that the emergence of this pattern is triggered by the non-Gaussian, higher-order local structure of the inputs, which has long been recognised as the hallmark of natural images. We provide an analytical and numerical characterisation of the pattern-formation mechanism responsible for this phenomenon in a simple model, which results in an unexpected link between receptive field formation and the tensor decomposition of higher-order input correlations. These results provide a new perspective on the development of low-level feature detectors in various sensory modalities, and pave the way for studying the impact of higher-order statistics on learning in neural networks.
翻訳日:2022-02-02 15:37:53 公開日:2022-02-01
# 経済エージェントモデルに対するブラックボックスベイズ推定

Black-box Bayesian inference for economic agent-based models ( http://arxiv.org/abs/2202.00625v1 )

ライセンス: Link先を確認
Joel Dyer, Patrick Cannon, J. Doyne Farmer, Sebastian Schmon(参考訳) シミュレーションモデル、特にエージェントベースモデルが経済学で人気を集めている。 彼らが提供するかなりの柔軟性と、複雑なシステムの様々な経験的に観察された振る舞いを再現する能力は、幅広い魅力を与え、安価なコンピューティングパワーの可用性が高まり、その使用が実現可能になった。 しかし、現実のモデリングや意思決定のシナリオにおいて広く採用されているのは、そのようなモデルに対してパラメータ推定を行うのが難しいためである。 一般に、シミュレーションモデルは、標準的な統計推論技術の直接的な応用を妨げない、扱いやすい確率関数を欠いている。 いくつかの最近の研究は、パラメータ推定を観測データとシミュレーション出力とのある種の比較によって決定する、可能性のない推論手法の適用を通じてこの問題に対処しようとしている。 しかし これらのアプローチは (a)限定的な前提、及び/又は b)典型的には数十万のシミュレーションを必要とする。 これらの性質は、経済学における大規模シミュレーションには適さないものであり、そのようなシナリオにおいてこれらの推論手法の有効性に疑問を投げかけることができる。 本稿では,確率論的機械学習コミュニティにおいて最近注目されている2種類のブラックボックス近似ベイズ推論手法の有効性について検討する。 我々は,ニューラルネットワークに基づくブラックボックス手法が,経済シミュレーションモデルにおけるアートパラメータ推論の状態を提示し,汎用多変量時系列データと互換性があることを実証するベンチマーク実験を行った。 さらに,経済シミュレーションモデルの近似ベイズ推定手順の将来のベンチマークについて,適切な評価基準を提案する。

Simulation models, in particular agent-based models, are gaining popularity in economics. The considerable flexibility they offer, as well as their capacity to reproduce a variety of empirically observed behaviours of complex systems, give them broad appeal, and the increasing availability of cheap computing power has made their use feasible. Yet a widespread adoption in real-world modelling and decision-making scenarios has been hindered by the difficulty of performing parameter estimation for such models. In general, simulation models lack a tractable likelihood function, which precludes a straightforward application of standard statistical inference techniques. Several recent works have sought to address this problem through the application of likelihood-free inference techniques, in which parameter estimates are determined by performing some form of comparison between the observed data and simulation output. However, these approaches are (a) founded on restrictive assumptions, and/or (b) typically require many hundreds of thousands of simulations. These qualities make them unsuitable for large-scale simulations in economics and can cast doubt on the validity of these inference methods in such scenarios. In this paper, we investigate the efficacy of two classes of black-box approximate Bayesian inference methods that have recently drawn significant attention within the probabilistic machine learning community: neural posterior estimation and neural density ratio estimation. We present benchmarking experiments in which we demonstrate that neural network based black-box methods provide state of the art parameter inference for economic simulation models, and crucially are compatible with generic multivariate time-series data. In addition, we suggest appropriate assessment criteria for future benchmarking of approximate Bayesian inference procedures for economic simulation models.
翻訳日:2022-02-02 15:37:30 公開日:2022-02-01
# 0/1-多面体ゲームのためのカーネル化された乗算重み:多角形ゲームと正規形ゲームの間のギャップを埋める

Kernelized Multiplicative Weights for 0/1-Polyhedral Games: Bridging the Gap Between Learning in Extensive-Form and Normal-Form Games ( http://arxiv.org/abs/2202.00237v1 )

ライセンス: Link先を確認
Gabriele Farina, Chung-Wei Lee, Haipeng Luo, Christian Kroer(参考訳) 広角形式ゲーム(EFG)は正規形式ゲーム(NFG)に変換できるが、戦略空間の指数的な爆発のコストがかかる。 したがって、NFGsとEFGsの進歩は歴史的に別途続き、EFGコミュニティはより大きなNFGコミュニティからの進歩(例えば、最終段階の収束と予測的後悔境界)に追いつく必要がある。 本稿では,楽観的乗法重み更新(omwu)アルゴリズム -- nfgs の初等学習アルゴリズム -- を,カーネルトリックを用いてゲームツリーサイズの反復時間当たりの efg と等価な正規形式上でシミュレートできることを示す。 結果として得られたアルゴリズムである Kernelized OMWU (KOMWU) は、カーネルを効率的に評価できる限り、戦略空間が0/1積分頂点を持つポリトープである全ての凸ゲームに広く適用される。 EFG の特定の場合において、KoMWU は NFG と EFG の学習の間にいくつかの定常的なギャップを埋め、これまで NFG でのみ達成できることが知られていた学習力学の望ましい性質の EFG への直接的、ブラックボックス転送を可能にした。 特に、KoMWUは、前回の収束を同時に保証する最初のアルゴリズム、ゲームツリーのサイズへの依存度を以前の全てのアルゴリズムより低くするアルゴリズム、そして全てのプレイヤーが続くと後悔する$\tilde{\mathcal{O}}(1)を与える。

While extensive-form games (EFGs) can be converted into normal-form games (NFGs), doing so comes at the cost of an exponential blowup of the strategy space. So, progress on NFGs and EFGs has historically followed separate tracks, with the EFG community often having to catch up with advances (e.g., last-iterate convergence and predictive regret bounds) from the larger NFG community. In this paper we show that the Optimistic Multiplicative Weights Update (OMWU) algorithm -- the premier learning algorithm for NFGs -- can be simulated on the normal-form equivalent of an EFG in linear time per iteration in the game tree size using a kernel trick. The resulting algorithm, Kernelized OMWU (KOMWU), applies more broadly to all convex games whose strategy space is a polytope with 0/1 integral vertices, as long as the kernel can be evaluated efficiently. In the particular case of EFGs, KOMWU closes several standing gaps between NFG and EFG learning, by enabling direct, black-box transfer to EFGs of desirable properties of learning dynamics that were so far known to be achievable only in NFGs. Specifically, KOMWU gives the first algorithm that guarantees at the same time last-iterate convergence, lower dependence on the size of the game tree than all prior algorithms, and $\tilde{\mathcal{O}}(1)$ regret when followed by all players.
翻訳日:2022-02-02 15:33:32 公開日:2022-02-01
# 混乱による位相遷移としての絡み合いの学習

Learning entanglement breakdown as a phase transition by confusion ( http://arxiv.org/abs/2202.00348v1 )

ライセンス: Link先を確認
M.A. Gavreev, A.S. Mastiukova, E.O. Kiktenko, A.K. Fedorov(参考訳) 量子技術は、絡み合った多粒子状態の準備と操作の方法を必要とする。 しかし、与えられた量子状態が絡み合うか分離可能であるかを決定する問題は一般にnp問題であることが知られており、与えられた量子状態のクラスに対する絡み合い分解を検出する作業でさえ困難である。 本研究では,「混乱による学習」として知られる機械学習技術を用いて,絡み合いの分解を明らかにする手法を開発する。 量子状態の族を考えると、この族の中に分離および絡み合った1つの臨界値分割状態が存在するようにパラメータ化される。 我々は「混乱による学習」スキームが臨界値を決定することを実証する。 具体的には,標準的な絡み合い対策が効果的に機能しない2量子,2量子,2量子の絡み合い状態に対する手法の性能について検討する。 さらに,混乱の枠組みにおける局所分極特性と一般化振幅減衰チャネルについて検討した。 w の形状を構成するための特別な軌道のパラメータ化のアプローチの中で、量子チャネルの絡み合い分解'位相図'を求め、絡み合い(分離可能)状態の領域と絡み合い破壊領域を示す。 次に,任意の状態が絡み合っているか分離可能であるかを認識するための「混乱による学習」スキームの使用方法を拡張する。 提案手法は, 正部分転位 (PPT) を持つ絡み合った状態を含む, 様々な状態に対して正しい回答を提供する。 また,ノイズ中規模量子(nisq)デバイスにおける絡み合い破壊の研究に適した,より実用的な手法を提案する。 我々は、利用可能なクラウドベースのibm量子プロセッサを用いてその性能を実証する。

Quantum technologies require methods for preparing and manipulating entangled multiparticle states. However, the problem of determining whether a given quantum state is entangled or separable is known to be an NP-hard problem in general, and even the task of detecting entanglement breakdown for a given class of quantum states is difficult. In this work, we develop an approach for revealing entanglement breakdown using a machine learning technique, which is known as 'learning by confusion'. We consider a family of quantum states, which is parameterized such that there is a single critical value dividing states within this family on separate and entangled. We demonstrate the 'learning by confusion' scheme allows determining the critical value. Specifically, we study the performance of the method for the two-qubit, two-qutrit, and two-ququart entangled state, where the standard entanglement measures do not work efficiently. In addition, we investigate the properties of the local depolarization and the generalized amplitude damping channel in the framework of the confusion scheme. Within our approach and setting the parameterization of special trajectories to construct W shapes, we obtain an entanglement-breakdo wn 'phase diagram' of a quantum channel, which indicates regions of entangled (separable) states and the entanglement-breakdo wn region. Then we extend the way of using the 'learning by confusion' scheme for recognizing whether an arbitrary given state is entangled or separable. We show that the developed method provides correct answers for a variety of states, including entangled states with positive partial transpose (PPT). We also present a more practical version of the method, which is suitable for studying entanglement breakdown in noisy intermediate-scale quantum (NISQ) devices. We demonstrate its performance using an available cloud-based IBM quantum processor.
翻訳日:2022-02-02 15:32:59 公開日:2022-02-01
# 量子パターン認識と軽量CNNアーキテクチャを用いたフォトプレソグラム信号の信号品質評価

Signal Quality Assessment of Photoplethysmogram Signals using Quantum Pattern Recognition and lightweight CNN Architecture ( http://arxiv.org/abs/2202.00606v1 )

ライセンス: Link先を確認
Tamaghno Chatterjee, Aayushman Ghosh and Sayan Sarkar(参考訳) photoplethysmography (ppg) 信号は、心肺の健康に関連する生理的情報を含んでいる。 しかし、記録中、これらのppg信号は運動アーチファクトや体の動きによって容易に破壊され、ノイズが濃厚で品質の悪い信号に繋がる。 したがって、呼吸情報を正確に抽出するには高品質な信号を確保する必要がある。 PPG信号の品質評価にはルールベースと機械学習(ML)ベースのアプローチがいくつか存在するが、アルゴリズムの有効性には疑問がある。 そこで本研究では,新しい量子パターン認識(QPR)技術を用いた信号品質評価のための軽量CNNアーキテクチャを提案する。 提案アルゴリズムはクイーンズランド大学データベースから手動で得られた注釈付きデータに基づいて検証される。 合計28366, 5s信号セグメントは前処理され、20×500ピクセルの画像ファイルに変換される。 画像ファイルは、2D CNNアーキテクチャの入力として扱われる。 開発したモデルは、ppg信号を99.3%の感度、94.5%の特異性、98.9%のf1-scoreを持つ98.3%の精度で‘good’または‘bad’と分類する。 最後に,提案フレームワークの性能を,<Welltory app' 収集 PPG データベースのノイズに対して検証する。 ノイズの多い環境でも、提案されたアーキテクチャはその能力を示した。 実験解析により,スリムアーキテクチャと新しい時空間パターン認識技術によりシステムの性能が向上した。 したがって,提案手法は,資源に制約のあるウェアラブル実装のための良質なppg信号と悪質なppg信号の分類に有用である。

Photoplethysmography (PPG) signal comprises physiological information related to cardiorespiratory health. However, while recording, these PPG signals are easily corrupted by motion artifacts and body movements, leading to noise enriched, poor quality signals. Therefore ensuring high-quality signals is necessary to extract cardiorespiratory information accurately. Although there exists several rule-based and Machine-Learning (ML) - based approaches for PPG signal quality estimation, those algorithms' efficacy is questionable. Thus, this work proposes a lightweight CNN architecture for signal quality assessment employing a novel Quantum pattern recognition (QPR) technique. The proposed algorithm is validated on manually annotated data obtained from the University of Queensland database. A total of 28366, 5s signal segments are preprocessed and transformed into image files of 20 x 500 pixels. The image files are treated as an input to the 2D CNN architecture. The developed model classifies the PPG signal as `good' or `bad' with an accuracy of 98.3% with 99.3% sensitivity, 94.5% specificity and 98.9% F1-score. Finally, the performance of the proposed framework is validated against the noisy `Welltory app' collected PPG database. Even in a noisy environment, the proposed architecture proved its competence. Experimental analysis concludes that a slim architecture along with a novel Spatio-temporal pattern recognition technique improve the system's performance. Hence, the proposed approach can be useful to classify good and bad PPG signals for a resource-constrained wearable implementation.
翻訳日:2022-02-02 15:29:35 公開日:2022-02-01
# 進化に触発された社会ロボットの報酬機能

A General, Evolution-Inspired Reward Function for Social Robotics ( http://arxiv.org/abs/2202.00617v1 )

ライセンス: Link先を確認
Thomas Kingsford(参考訳) 社会ロボット工学の分野は、デザインされた行動と模倣学習のパラダイムから離れ、ロボットが人間と流動的で効果的に対話できるように、現代的な強化学習(RL)手法を採用する必要があるだろう。 本稿では,(1)ソーシャルロボットにおけるrlエージェントの展開に必要なリアルタイムかつ高密度な報酬機能,(2)異なるソーシャルロボットの有効性を比較するための標準化された客観的指標を提供するためのメカニズムとして,ソーシャル報酬機能を提案する。 社会的報酬機能は、単純で安定で文化に依存しない報酬機能を提供するために、人間の遺伝的に付与された社会的知覚能力を密接に模倣するように設計されている。 現在、社会ロボティクスで使用されるデータセットは、社会ロボティクスに関して、小さくも著しくドメイン外である。 ソーシャル・リワード・ファンクション(Social Reward Function)を使用することで、より大きなドメイン内のデータセットを社会ロボットの行動ポリシーに近く収集することができる。 これが将来、効果的なソーシャルロボットを開発するための鍵となると信じています。

The field of social robotics will likely need to depart from a paradigm of designed behaviours and imitation learning and adopt modern reinforcement learning (RL) methods to enable robots to interact fluidly and efficaciously with humans. In this paper, we present the Social Reward Function as a mechanism to provide (1) a real-time, dense reward function necessary for the deployment of RL agents in social robotics, and (2) a standardised objective metric for comparing the efficacy of different social robots. The Social Reward Function is designed to closely mimic those genetically endowed social perception capabilities of humans in an effort to provide a simple, stable and culture-agnostic reward function. Presently, datasets used in social robotics are either small or significantly out-of-domain with respect to social robotics. The use of the Social Reward Function will allow larger in-domain datasets to be collected close to the behaviour policy of social robots, which will allow both further improvements to reward functions and to the behaviour policies of social robots. We believe this will be the key enabler to developing efficacious social robots in the future.
翻訳日:2022-02-02 15:29:12 公開日:2022-02-01
# CLA-NeRF:カテゴリーレベルArticulated Neural Radiance Field

CLA-NeRF: Category-Level Articulated Neural Radiance Field ( http://arxiv.org/abs/2202.00181v1 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Hung-Ju Liao, Yen-Chen Lin, Min Sun(参考訳) cla-nerf -- 視点合成、部分セグメンテーション、明瞭なポーズ推定が可能な、カテゴリレベルのarticulated neural radiance fieldを提案する。 cla-nerfはcadモデルと奥行きを使わずにオブジェクトのカテゴリレベルでトレーニングされるが、グラインド・トゥルート・カメラのポーズと部分セグメントを備えたrgbイメージのセットである。 推論中は、既知のカテゴリ内の未知の3DオブジェクトインスタンスのいくつかのRGBビュー(すなわち、数ショット)しか必要とせず、対象部分のセグメンテーションと神経放射場を推測する。 入力として調音されたポーズが与えられた場合、CLA-NeRFは調音対応ボリュームレンダリングを行い、任意のカメラポーズで対応するRGB画像を生成する。 さらに、物体の明瞭なポーズを逆レンダリングによって推定することができる。 実験では,合成データと実世界データの両方において,5つのカテゴリにわたるフレームワークを評価した。 いずれの場合も,本手法は現実的な変形結果と正確なポーズ推定を示す。 本研究は,ロボットが未確認の物体を知覚し,操作する上で,撮影対象のレンダリングとポーズ推定の両方がオープンドアであると考えている。

We propose CLA-NeRF -- a Category-Level Articulated Neural Radiance Field that can perform view synthesis, part segmentation, and articulated pose estimation. CLA-NeRF is trained at the object category level using no CAD models and no depth, but a set of RGB images with ground truth camera poses and part segments. During inference, it only takes a few RGB views (i.e., few-shot) of an unseen 3D object instance within the known category to infer the object part segmentation and the neural radiance field. Given an articulated pose as input, CLA-NeRF can perform articulation-aware volume rendering to generate the corresponding RGB image at any camera pose. Moreover, the articulated pose of an object can be estimated via inverse rendering. In our experiments, we evaluate the framework across five categories on both synthetic and real-world data. In all cases, our method shows realistic deformation results and accurate articulated pose estimation. We believe that both few-shot articulated object rendering and articulated pose estimation open doors for robots to perceive and interact with unseen articulated objects.
翻訳日:2022-02-02 15:28:54 公開日:2022-02-01
# CAESR:学習空間スケーラビリティのための条件付きオートエンコーダと超解法

CAESR: Conditional Autoencoder and Super-Resolution for Learned Spatial Scalability ( http://arxiv.org/abs/2202.00416v1 )

ライセンス: Link先を確認
Charles Bonnineau, Wassim Hamidouche, Jean-Fran\c{c}ois Travers, Naty Sidaty, Jean-Yves Aubi\'e, Olivier Deforges(参考訳) 本稿では,多目的ビデオ符号化(VVC)標準に基づく空間スケーラビリティのためのハイブリッド学習に基づく符号化手法CAESRを提案する。 本フレームワークでは,VVCイントラモードをベース層(BL)として符号化した低分解能信号と,高優先度(AE-HP)を用いたディープコンディショニングオートエンコーダを拡張層(EL)モデルとして検討する。 ELエンコーダは、スケールアップされたBL再構成と原画像の両方を入力として取る。 本手法は,ソースと拡張bl画像の最適な混合を学習し,残差符号化よりも優れた性能を実現する条件付き符号化に依拠する。 デコーダ側では、高分解能の詳細を回復し、条件付きコーディングプロセスを反転させるためにスーパーレゾリューション(sr)モジュールが使用される。 実験の結果,本ソリューションはスケーラブルなvvcフルレゾリューションイントラコーディングと競合することがわかった。

In this paper, we present CAESR, an hybrid learning-based coding approach for spatial scalability based on the versatile video coding (VVC) standard. Our framework considers a low-resolution signal encoded with VVC intra-mode as a base-layer (BL), and a deep conditional autoencoder with hyperprior (AE-HP) as an enhancement-layer (EL) model. The EL encoder takes as inputs both the upscaled BL reconstruction and the original image. Our approach relies on conditional coding that learns the optimal mixture of the source and the upscaled BL image, enabling better performance than residual coding. On the decoder side, a super-resolution (SR) module is used to recover high-resolution details and invert the conditional coding process. Experimental results have shown that our solution is competitive with the VVC full-resolution intra coding while being scalable.
翻訳日:2022-02-02 15:28:32 公開日:2022-02-01
# 頭部運動の除去が音声・視覚音声強調に与える影響

The impact of removing head movements on audio-visual speech enhancement ( http://arxiv.org/abs/2202.00538v1 )

ライセンス: Link先を確認
Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda, Jacob Donley and Anurag Kumar(参考訳) 本稿では,頭部運動が音声・視覚音声強調(AVSE)に与える影響について検討する。 彼らはしばしば、クリーンで前頭、安定した顔画像で訓練されたモデルのパフォーマンスを劣化させるため、今日の学習ベースの手法に挑戦している。 この問題を軽減するために、可変オートエンコーダ(VAE)モデルに基づくAVSE法と組み合わせて、頑健な顔のフロンダライゼーション(RFF)を提案する。 提案するパイプラインの基本成分を簡潔に説明し,最近リリースされた視聴覚データセットを用いて実験を行う。 これらの実験を踏まえ、STOI, PESQ, SI-SDRの3つの標準指標に基づき、RFFはAVSEの性能をかなり向上させると結論付けた。

This paper investigates the impact of head movements on audio-visual speech enhancement (AVSE). Although being a common conversational feature, head movements have been ignored by past and recent studies: they challenge today's learning-based methods as they often degrade the performance of models that are trained on clean, frontal, and steady face images. To alleviate this problem, we propose to use robust face frontalization (RFF) in combination with an AVSE method based on a variational auto-encoder (VAE) model. We briefly describe the basic ingredients of the proposed pipeline and we perform experiments with a recently released audio-visual dataset. In the light of these experiments, and based on three standard metrics, namely STOI, PESQ and SI-SDR, we conclude that RFF improves the performance of AVSE by a considerable margin.
翻訳日:2022-02-02 15:28:15 公開日:2022-02-01
# (参考訳) マルチタスク推論エージェント内のプランナー・リゾナ [全文訳有]

Planner-Reasoner Inside a Multi-task Reasoning Agent ( http://arxiv.org/abs/2202.00531v1 )

ライセンス: CC BY 4.0
Daoming Lyu, Bo Liu, and Jianshu Chen(参考訳) エージェントが(一階述語)論理推論によって複数のタスクを解くことができるマルチタスク推論(MTR)の問題を考察する。 この能力は、強力な一般化性と複数のタスクを扱うための単純さのため、人間のような知性に欠かせない。 しかし、効果的なMTRを開発する上での大きな課題は、推論能力と効率の本質的な衝突である。 MTR対応エージェントは、多様なタスクに取り組むために大量の"スキル"をマスターする必要がありますが、推論段階で特定のタスクを実行するには、すぐに関連するスキルの小さなサブセットしか必要ありません。 広い推論能力と効率的な特定タスクのパフォーマンスを維持するにはどうすればいいのか? この問題に対処するために,最先端のMTR能力と高効率を実現するPlanner-Reasonerフレームワークを提案する。 Reasonerモデルは共有可能な(一階の)論理推論ルールであり、Plannerはサブセットを選択して効率的な推論パスを構成する。 モデル全体は、深層強化学習を用いてエンドツーエンドで訓練され、様々な領域に関する実験的研究がその有効性を検証する。

We consider the problem of multi-task reasoning (MTR), where an agent can solve multiple tasks via (first-order) logic reasoning. This capability is essential for human-like intelligence due to its strong generalizability and simplicity for handling multiple tasks. However, a major challenge in developing effective MTR is the intrinsic conflict between reasoning capability and efficiency. An MTR-capable agent must master a large set of "skills" to tackle diverse tasks, but executing a particular task at the inference stage requires only a small subset of immediately relevant skills. How can we maintain broad reasoning capability and also efficient specific-task performance? To address this problem, we propose a Planner-Reasoner framework capable of state-of-the-art MTR capability and high efficiency. The Reasoner models shareable (first-order) logic deduction rules, from which the Planner selects a subset to compose into efficient reasoning paths. The entire model is trained in an end-to-end manner using deep reinforcement learning, and experimental studies over a variety of domains validate its effectiveness.
翻訳日:2022-02-02 15:25:20 公開日:2022-02-01
# 連続ドメインを最適化する学習のための償却最適化のチュートリアル

Tutorial on amortized optimization for learning to optimize over continuous domains ( http://arxiv.org/abs/2202.00665v1 )

ライセンス: Link先を確認
Brandon Amos(参考訳) 最適化はユビキタスなモデリングツールであり、同じ問題を繰り返し解決する設定にしばしばデプロイされる。 償却最適化手法は、学習を用いてこれらの設定における問題の解を予測する。 これは同様の問題インスタンス間の共有構造を利用する。 このチュートリアルでは、大まかに分類して、償却最適化の背後にある重要な設計選択について論じる。 1) 完全同化および半同化アプローチへのモデル、及び 2)回帰ベースおよび客観的ベースへの学習方法 次に、これらの基盤を通して既存のアプリケーションを見て、多様体最適化、変分推論、スパースコーディング、メタ学習、制御、強化学習、凸最適化、ディープ平衡ネットワークなど、それらの間の接続を描く。 このフレーミングにより、例えば、変分オートエンコーダの償却推論が、客観的な損失を伴う完全修飾モデルを使用するため、制御および強化学習における値勾配と概念的に同一であることを容易に確認できる。 このチュートリアルのソースコードはhttps://www.github.c om/facebookresearch/ amortized-optimizati on-tutorialで入手できる。

Optimization is a ubiquitous modeling tool that is often deployed in settings that repeatedly solve similar instances of the same problem. Amortized optimization methods use learning to predict the solutions to problems in these settings. This leverages the shared structure between similar problem instances. In this tutorial, we will discuss the key design choices behind amortized optimization, roughly categorizing 1) models into fully-amortized and semi-amortized approaches, and 2) learning methods into regression-based and objective-based. We then view existing applications through these foundations to draw connections between them, including for manifold optimization, variational inference, sparse coding, meta-learning, control, reinforcement learning, convex optimization, and deep equilibrium networks. This framing enables us easily see, for example, that the amortized inference in variational autoencoders is conceptually identical to value gradients in control and reinforcement learning as they both use fully-amortized models with a objective-based loss. The source code for this tutorial is available at https://www.github.c om/facebookresearch/ amortized-optimizati on-tutorial
翻訳日:2022-02-02 14:51:28 公開日:2022-02-01
# $\ell_0$-$\ell_2$正規化によるロジスティック回帰の安全なスクリーニング

Safe Screening for Logistic Regression with $\ell_0$-$\ell_2$ Regularization ( http://arxiv.org/abs/2202.00467v1 )

ライセンス: Link先を確認
Anna Deza, Alper Atamturk(参考訳) ロジスティック回帰では、特に利用可能なラベルに比べて多数の機能を持つ問題に対して、スパースソリューションを促進するために正規化を利用することが望ましいことが多い。 本稿では,ロジスティック回帰から問題解決前に$\ell_0-\ell_2$正規化を安全に除去するスクリーニングルールを提案する。 提案した安全なスクリーニングルールは、ロジスティック回帰問題の強い円錐緩和のフェンシェル双対による下界に基づいている。 実データと合成データを用いた数値実験により、高いパーセンテージの機能が効果的かつ安全に apriori を除去できることが示され、計算の高速化に繋がる。

In logistic regression, it is often desirable to utilize regularization to promote sparse solutions, particularly for problems with a large number of features compared to available labels. In this paper, we present screening rules that safely remove features from logistic regression with $\ell_0-\ell_2$ regularization before solving the problem. The proposed safe screening rules are based on lower bounds from the Fenchel dual of strong conic relaxations of the logistic regression problem. Numerical experiments with real and synthetic data suggest that a high percentage of the features can be effectively and safely removed apriori, leading to substantial speed-up in the computations.
翻訳日:2022-02-02 14:50:53 公開日:2022-02-01
# Performative Feedback を用いたレグレト最小化

Regret Minimization with Performative Feedback ( http://arxiv.org/abs/2202.00628v1 )

ライセンス: Link先を確認
Meena Jagadeesan, Tijana Zrnic, Celestine Mendler-D\"unner(参考訳) 実行予測では、予測モデルのデプロイがデータ分散のシフトをトリガーする。 これらのシフトは通常、事前に未知であるため、学習者は、それが引き起こす分布に関するフィードバックを得るためにモデルをデプロイする必要がある。 再現性を維持しつつ, ほぼ最適モデルを求める問題について検討した。 表面的には、この問題はバンディット問題と等価に思えるかもしれない。 しかし、基本的にはよりリッチなフィードバック構造を示しており、我々はパフォーマンス的なフィードバックと呼ぶ: デプロイのたびに、学習者は報酬に関する盗聴フィードバックだけでなく、シフトした分布からサンプルを受け取る。 我々の主な貢献は、分配シフトの複雑さにのみスケールする後悔境界であり、報酬関数のそれではない。 鍵となるアルゴリズムのアイデアは、未探索モデルのリスクに基づいた新しい信頼境界の構築を知らせる分布シフトを慎重に探索することである。 構造はシフトの滑らかさにのみ依存し、凸性を仮定しない。 より広範に、我々の研究は、演奏的フィードバックによる後悔の最小化を目的として、盗賊文献からツールを活用するための概念的アプローチを確立している。

In performative prediction, the deployment of a predictive model triggers a shift in the data distribution. As these shifts are typically unknown ahead of time, the learner needs to deploy a model to get feedback about the distribution it induces. We study the problem of finding near-optimal models under performativity while maintaining low regret. On the surface, this problem might seem equivalent to a bandit problem. However, it exhibits a fundamentally richer feedback structure that we refer to as performative feedback: after every deployment, the learner receives samples from the shifted distribution rather than only bandit feedback about the reward. Our main contribution is regret bounds that scale only with the complexity of the distribution shifts and not that of the reward function. The key algorithmic idea is careful exploration of the distribution shifts that informs a novel construction of confidence bounds on the risk of unexplored models. The construction only relies on smoothness of the shifts and does not assume convexity. More broadly, our work establishes a conceptual approach for leveraging tools from the bandits literature for the purpose of regret minimization with performative feedback.
翻訳日:2022-02-02 14:50:38 公開日:2022-02-01
# ISNet: 深層分類のためのコストレス画像分割と新型コロナウイルス検出への応用

ISNet: Costless and Implicit Image Segmentation for Deep Classifiers, with Application in COVID-19 Detection ( http://arxiv.org/abs/2202.00232v1 )

ライセンス: Link先を確認
Pedro R.A.S. Bassi(参考訳) 本研究では,2つのネットワークの共通パイプラインを1つのモデルで置換し,画像分割と分類の課題を解決する新しいディープニューラルネットワーク(dnn)アーキテクチャisnetを提案する。 私たちは、ISNetを高い柔軟性とパフォーマンスのために設計しました。これは、事実上あらゆる分類されたニューラルネットワークアーキテクチャが、まるで以前セグメンテーションされたかのように、共通のイメージを分析することができます。 さらに、元の分類器に関して、ISNetは実行時に計算コストやアーキテクチャの変更を発生させることはない。 そこで本研究では,レイヤワイズ・アソシエーション・プロパゲーション (lrp) によって作成されたヒートマップにおいて,関連性セグメント化のためのdnnを最適化する手法を提案する。 胸部X線におけるCOVID-19検出の課題を解決するために,DenseNet121分類器に基づくISNetを適用した。 DenseNet121 と DenseNet121 を併用した U-net (performing lung segmentation) と,DenseNet121 とを比較した。 暗黙的な分割のため、isnetは肺外のx線領域を正確に無視し、外部データベースによる94.5 +/-4.1%の平均精度を達成し、強力な一般化能力を示し、他のモデルの性能を6から7.9%上回った。 ISNetはセグメント化に先立って分類を行うための高速で軽量な手法を提供するが、標準パイプラインよりも正確である。

In this work we propose a novel deep neural network (DNN) architecture, ISNet, to solve the task of image segmentation followed by classification, substituting the common pipeline of two networks by a single model. We designed the ISNet for high flexibility and performance: it allows virtually any classification neural network architecture to analyze a common image as if it had been previously segmented. Furthermore, in relation to the original classifier, the ISNet does not cause any increment in computational cost or architectural changes at run-time. To accomplish this, we introduce the concept of optimizing DNNs for relevance segmentation in heatmaps created by Layer-wise Relevance Propagation (LRP), which proves to be equivalent to the classification of previously segmented images. We apply an ISNet based on a DenseNet121 classifier to solve the task of COVID-19 detection in chest X-rays. We compare the model to a U-net (performing lung segmentation) followed by a DenseNet121, and to a standalone DenseNet121. Due to the implicit segmentation, the ISNet precisely ignored the X-ray regions outside of the lungs; it achieved 94.5 +/-4.1% mean accuracy with an external database, showing strong generalization capability and surpassing the other models' performances by 6 to 7.9%. ISNet presents a fast and light methodology to perform classification preceded by segmentation, while also being more accurate than standard pipelines.
翻訳日:2022-02-02 14:48:31 公開日:2022-02-01
# Laplacian2Mesh: Laplacianベースのメッシュ理解

Laplacian2Mesh: Laplacian-Based Mesh Understanding ( http://arxiv.org/abs/2202.00307v1 )

ライセンス: Link先を確認
Qiujie Dong, Zixiong Wang, Junjie Gao, Shuangmin Chen, Zhenyu Shu, Shiqing Xin(参考訳) 幾何学的深層学習は、形状分類や3次元幾何学曲面のセマンティックセグメンテーションといった形状理解タスクを行うコンピュータグラフィックスへの関心が高まっている。 以前の研究では、三角形メッシュ上の畳み込みとプーリングの操作を定義することで、重要な方向を検討したが、ほとんどの方法はメッシュのグラフ接続構造を明示的に利用していた。 幾何学的スペクトル表面再構成理論に動機づけられ、ユークリッド空間のメッシュの特徴を2次元cnnのマルチレゾリューション入力に類似した多次元ラプラシアン・ベルトラミ空間にマッピングする、ラプラシアン2meshと呼ばれる新しい柔軟な畳み込みニューラルネットワーク(cnn)モデルを導入した。 メッシュプーリングは、表面トポロジーを保持するラプラシアンの多空間変換により、ネットワークの受容場を拡張するために適用され、新しい空間にチャネル自己注意畳み込みを適用する。 メッシュの固有測地接続を隣接行列を介して暗黙的に使用するので、頂点の隣人の数を考慮せず、異なる頂点数のメッシュデータを入力することができる。 3次元メッシュに適用した様々な学習タスクの実験は、lalacian2meshの有効性と効率を示している。

Geometric deep learning has sparked a rising interest in computer graphics to perform shape understanding tasks, such as shape classification and semantic segmentation on three-dimensional (3D) geometric surfaces. Previous works explored the significant direction by defining the operations of convolution and pooling on triangle meshes, but most methods explicitly utilized the graph connection structure of the mesh. Motivated by the geometric spectral surface reconstruction theory, we introduce a novel and flexible convolutional neural network (CNN) model, called Laplacian2Mesh, for 3D triangle mesh, which maps the features of mesh in the Euclidean space to the multi-dimensional Laplacian-Beltrami space, which is similar to the multi-resolution input in 2D CNN. Mesh pooling is applied to expand the receptive field of the network by the multi-space transformation of Laplacian which retains the surface topology, and channel self-attention convolutions are applied in the new space. Since implicitly using the intrinsic geodesic connections of the mesh through the adjacency matrix, we do not consider the number of the neighbors of the vertices, thereby mesh data with different numbers of vertices can be input. Experiments on various learning tasks applied to 3D meshes demonstrate the effectiveness and efficiency of Laplacian2Mesh.
翻訳日:2022-02-02 14:48:03 公開日:2022-02-01
# 形状優先を用いた生成逆数ネットワークによるシングラム強調

Sinogram Enhancement with Generative Adversarial Networks using Shape Priors ( http://arxiv.org/abs/2202.00419v1 )

ライセンス: Link先を確認
Emilien Valat, Katayoun Farrahi, Thomas Blumensath(参考訳) 計算モデルからそれらを推測することで、不足測定を補正することは、不測の逆問題に対処する方法である。 我々は, 生成モデルを用いて一連の取得を完了し, スキャン対象を事前に把握することで, 限られた角度トモグラフィに取り組む。 モデルとしてジェネレーティブ・アドバイサル・ネットワークを用い,コンピュータ支援設計データを形状として用いることにより,他の最先端手法よりも定量的かつ質的な手法の利点を示す。 連続した測定結果の欠如を推測することで、我々は、我々の研究に対する満足な回答を得られていない他の画像塗布技術に代わる手段を提供する: 測定結果の欠如を推測するために、生成モデルを用いてX線露光を低減できるか?

Compensating scarce measurements by inferring them from computational models is a way to address ill-posed inverse problems. We tackle Limited Angle Tomography by completing the set of acquisitions using a generative model and prior-knowledge about the scanned object. Using a Generative Adversarial Network as model and Computer-Assisted Design data as shape prior, we demonstrate a quantitative and qualitative advantage of our technique over other state-of-the-art methods. Inferring a substantial number of consecutive missing measurements, we offer an alternative to other image inpainting techniques that fall short of providing a satisfying answer to our research question: can X-Ray exposition be reduced by using generative models to infer lacking measurements?
翻訳日:2022-02-02 14:47:40 公開日:2022-02-01
# 勾配拡大による大規模連合学習におけるユーザデータの釣り

Fishing for User Data in Large-Batch Federated Learning via Gradient Magnification ( http://arxiv.org/abs/2202.00580v1 )

ライセンス: Link先を確認
Yuxin Wen, Jonas Geiping, Liam Fowl, Micah Goldblum, Tom Goldstein(参考訳) フェデレートラーニング(FL)は、プライバシーと効率性の約束により急速に人気が高まっている。 以前の作業では、グラデーション更新からユーザデータを復元することで、flパイプラインのプライバシの脆弱性を露呈している。 しかし、既存の攻撃は現実的な設定に対処できない。 1)非常に小さなバッチサイズを持つ 'toy' 設定が必要です。 2)非現実的で目立ったアーキテクチャの変更が必要です。 アーキテクチャの変更なしに、任意のサイズのバッチで運用するために既存の攻撃を劇的に高める新しい戦略を導入する。 我々のモデルに依存しない戦略は、多くのシナリオにおいて現実的な脅威モデルであるユーザに送るモデルパラメータの変更のみを必要とする。 クロスデバイスおよびクロスサイロ・フェデレーション学習において,高忠実度データを抽出し,大規模設定に挑戦する戦略を実証する。

Federated learning (FL) has rapidly risen in popularity due to its promise of privacy and efficiency. Previous works have exposed privacy vulnerabilities in the FL pipeline by recovering user data from gradient updates. However, existing attacks fail to address realistic settings because they either 1) require a `toy' settings with very small batch sizes, or 2) require unrealistic and conspicuous architecture modifications. We introduce a new strategy that dramatically elevates existing attacks to operate on batches of arbitrarily large size, and without architectural modifications. Our model-agnostic strategy only requires modifications to the model parameters sent to the user, which is a realistic threat model in many scenarios. We demonstrate the strategy in challenging large-scale settings, obtaining high-fidelity data extraction in both cross-device and cross-silo federated learning.
翻訳日:2022-02-02 14:47:24 公開日:2022-02-01
# メッセージパッシンググラフニューラルネットワークの安定性と一般化機能

Stability and Generalization Capabilities of Message Passing Graph Neural Networks ( http://arxiv.org/abs/2202.00645v1 )

ライセンス: Link先を確認
Sohir Maskey, Yunseok Lee, Ron Levie, Gitta Kutyniok(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフ構造化データへの畳み込みニューラルネットワークの一般化として導入されて以来、急速に人気が高まっている。 グラフ分類におけるMPNNの一般化能力について検討する。 異なるクラスのグラフは異なるランダムグラフモデルからサンプリングされると仮定する。 このデータ分布に基づいて、経験的損失と統計的損失の間の一般化ギャップの非漸近境界を導出し、グラフが大きくなるにつれてゼロに減少する。 これは、グラフに適用されたMPNNが、グラフが識別する幾何学モデルに適用されたMPNNに近似することを示して証明される。

Message passing neural networks (MPNN) have seen a steep rise in popularity since their introduction as generalizations of convolutional neural networks to graph structured data, and are now considered state-of-the-art tools for solving a large variety of graph-focused problems. We study the generalization capabilities of MPNNs in graph classification. We assume that graphs of different classes are sampled from different random graph models. Based on this data distribution, we derive a non-asymptotic bound on the generalization gap between the empirical and statistical loss, that decreases to zero as the graphs become larger. This is proven by showing that a MPNN, applied on a graph, approximates the MPNN applied on the geometric model that the graph discretizes.
翻訳日:2022-02-02 14:47:13 公開日:2022-02-01
# webformer: 構造情報抽出のためのwebページトランスフォーマ

WebFormer: The Web-page Transformer for Structure Information Extraction ( http://arxiv.org/abs/2202.00217v1 )

ライセンス: Link先を確認
Qifan Wang, Yi Fang, Anirudh Ravula, Fuli Feng, Xiaojun Quan, Dongfang Liu(参考訳) 構造情報抽出とは、ウェブページから構造化テキストフィールドを抽出する作業のことであり、商品タイトル、説明、ブランド、価格を含むショッピングページから商品提供物を抽出する。 文書理解とWeb検索で広く研究されている重要な研究テーマである。 シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を示している。 しかし、非構造化webページからトークンを効果的にシリアライズすることは、様々なwebレイアウトパターンのため、実際には困難である。 限られた作業は、テキストフィールドを抽出するためのWebレイアウトのモデリングに焦点を当てている。 本稿では,Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。 まず,HTML の各 DOM ノードに対する HTML トークンを,近隣のトークンからの表現をグラフアテンションに埋め込むことで設計する。 第2に,html トークンとテキストトークン間の集中度の高いパターンを構築し,web レイアウトを効果的に注意重み計算に活用する。 swde と common crawl ベンチマークに関する広範囲な実験を行った。 実験結果は,提案手法が最先端手法よりも優れていることを示した。

Structure information extraction refers to the task of extracting structured text fields from web pages, such as extracting a product offer from a shopping page including product title, description, brand and price. It is an important research topic which has been widely studied in document understanding and web search. Recent natural language models with sequence modeling have demonstrated state-of-the-art performance on web information extraction. However, effectively serializing tokens from unstructured web pages is challenging in practice due to a variety of web layout patterns. Limited work has focused on modeling the web layout for extracting the text fields. In this paper, we introduce WebFormer, a Web-page transFormer model for structure information extraction from web documents. First, we design HTML tokens for each DOM node in the HTML by embedding representations from their neighboring tokens through graph attention. Second, we construct rich attention patterns between HTML tokens and text tokens, which leverages the web layout for effective attention weight computation. We conduct an extensive set of experiments on SWDE and Common Crawl benchmarks. Experimental results demonstrate the superior performance of the proposed approach over several state-of-the-art methods.
翻訳日:2022-02-02 14:46:34 公開日:2022-02-01
# xalign: 低リソース言語のための言語間ファクトツーテキストアライメントと生成

XAlign: Cross-lingual Fact-to-Text Alignment and Generation for Low-Resource Languages ( http://arxiv.org/abs/2202.00291v1 )

ライセンス: Link先を確認
Tushar Abhishek, Shivprasad Sagare, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta and Vasudeva Varma(参考訳) 英語のInfoboxに与えられたウィキペディアテキスト生成のような)複数の重要なシナリオでは、英語のファクトトリプルから低リソース(LR)言語で記述テキストを自動的に生成する必要がある。 これまでの研究は、英語のファクト・トゥ・テキスト(F2T)生成に焦点を当ててきた。 我々の知る限りでは、LR言語に対する言語間アライメントや生成の試みは、これまでなかった。 効果的な言語間F2T (XF2T) システムの構築には、英語の構造化事実とLR文のアライメントが必要となる。 言語間アライメントのための教師なし手法を2つ提案する。 XALIGNは8言語で0.45万ペアのXF2Tデータセットで、5402ペアが手動で注釈付けされている。 また、XAlignデータセット上で強力なベースラインXF2T生成モデルをトレーニングする。

Multiple critical scenarios (like Wikipedia text generation given English Infoboxes) need automated generation of descriptive text in low resource (LR) languages from English fact triples. Previous work has focused on English fact-to-text (F2T) generation. To the best of our knowledge, there has been no previous attempt on cross-lingual alignment or generation for LR languages. Building an effective cross-lingual F2T (XF2T) system requires alignment between English structured facts and LR sentences. We propose two unsupervised methods for cross-lingual alignment. We contribute XALIGN, an XF2T dataset with 0.45M pairs across 8 languages, of which 5402 pairs have been manually annotated. We also train strong baseline XF2T generation models on the XAlign dataset.
翻訳日:2022-02-02 14:46:17 公開日:2022-02-01
# 最大文字確率と強化学習を用いたWordleの最適人文戦略の探索

Finding the optimal human strategy for Wordle using maximum correct letter probabilities and reinforcement learning ( http://arxiv.org/abs/2202.00557v1 )

ライセンス: Link先を確認
Benton J. Anderson, Jesse G. Meyer(参考訳) Wordleは2022年1月に普及したオンラインパズルゲームである。 目標は、隠れた5文字の単語を推測することだ。 それぞれの推測の後、プレイヤーは、推測された文字が単語の中に存在するか、正しい位置にあるかの情報を得る。 多くのブログが推測戦略と、勝利の可能性を高める単語リストの開始を提案している。 最適化されたアルゴリズムは、6つの許容試験のうち5つでゲームの100%を勝ち取ることができる。 しかし、全ての既知の5文字単語を完全にリコールし、情報ゲインを最適化する複雑な計算を行うことができないため、人間のプレイヤーはこれらのアルゴリズムを使用することができない。 本稿では,強化学習に基づく最適な人間戦略を発見するための枠組みとともに,単語選択のための2つの異なる手法を提案する。 人間のWordleプレーヤーは、私たちが発見するルールを使って勝利のチャンスを最適化することができる。

Wordle is an online word puzzle game that gained viral popularity in January 2022. The goal is to guess a hidden five letter word. After each guess, the player gains information about whether the letters they guessed are present in the word, and whether they are in the correct position. Numerous blogs have suggested guessing strategies and starting word lists that improve the chance of winning. Optimized algorithms can win 100% of games within five of the six allowed trials. However, it is infeasible for human players to use these algorithms due to an inability to perfectly recall all known 5-letter words and perform complex calculations that optimize information gain. Here, we present two different methods for choosing starting words along with a framework for discovering the optimal human strategy based on reinforcement learning. Human Wordle players can use the rules we discover to optimize their chance of winning.
翻訳日:2022-02-02 14:45:53 公開日:2022-02-01
# 時系列ワークフローのためのクラウドコンピューティングサービスのセマンティック

Semantic of Cloud Computing services for Time Series workflows ( http://arxiv.org/abs/2202.00609v1 )

ライセンス: Link先を確認
Manuel Parra-Roy\'on, Francisco Baldan, Ghislain Atemezing, J.M. Benitez(参考訳) 時系列(TS)は多くの知識、研究、工学の分野に存在している。 tsの処理および分析は,データから知識を抽出し,予測および予測保守タスクに取り組むために不可欠であり,tsのモデリングは難しい課題であり,データマイニング(dm)と機械学習(ml)手法の適用に関する優れた知識だけでなく,高い統計知識を必要とする。 TSの全体的な作業は、いくつかのテクニックの線形アプリケーションに限らず、メソッドとテストのオープンワークフローで構成されている。 これらのワークフローは、主にプログラミング言語に基づいて開発され、クラウドコンピューティング(CC)環境を含むさまざまなシステム上で実行および実行するのに複雑である。 CCの採用により、サービスの統合とポータビリティが促進され、インターネット技術(IT)産業化に向けたソリューションが採用される。 tsのworkflow servicesの定義と説明は、cc環境におけるこの種の問題の導入における複雑さの低減に関する、新たな可能性のセットを開く。 この意味で、我々は、CCサービスとしての時系列モデリングのためのワークフローの完全な記述を提供する意味モデリング(または語彙)に基づく効果的な提案を設計した。 我々の提案には、最も拡張されたオペレーションの幅広いスペクトルが含まれており、タイムシリーズの分類、回帰、クラスタリング問題に適用されるワークフロー、評価指標、情報、テスト、機械学習アルゴリズムなどが含まれる。

Time series (TS) are present in many fields of knowledge, research, and engineering. The processing and analysis of TS are essential in order to extract knowledge from the data and to tackle forecasting or predictive maintenance tasks among others The modeling of TS is a challenging task, requiring high statistical expertise as well as outstanding knowledge about the application of Data Mining(DM) and Machine Learning (ML) methods. The overall work with TS is not limited to the linear application of several techniques, but is composed of an open workflow of methods and tests. These workflow, developed mainly on programming languages, are complicated to execute and run effectively on different systems, including Cloud Computing (CC) environments. The adoption of CC can facilitate the integration and portability of services allowing to adopt solutions towards services Internet Technologies (IT) industrialization. The definition and description of workflow services for TS open up a new set of possibilities regarding the reduction of complexity in the deployment of this type of issues in CC environments. In this sense, we have designed an effective proposal based on semantic modeling (or vocabulary) that provides the full description of workflow for Time Series modeling as a CC service. Our proposal includes a broad spectrum of the most extended operations, accommodating any workflow applied to classification, regression, or clustering problems for Time Series, as well as including evaluation measures, information, tests, or machine learning algorithms among others.
翻訳日:2022-02-02 14:45:38 公開日:2022-02-01
# 議論段階的意味論の逆問題

The Inverse Problem for Argumentation Gradual Semantics ( http://arxiv.org/abs/2202.00294v1 )

ライセンス: Link先を確認
Nir Oren and Bruno Yun and Srdjan Vesic and Murilo Baptista(参考訳) 抽象的な議論を伴う段階的な意味論は、各引数にその受容性を反映したスコアを与える。 文学において、様々な段階的な意味論が提案され、それぞれ異なる原則に従い、異なる議論のランキングを生み出している。 このような意味論のサブクラス、いわゆる重み付き意味論は、グラフ構造に加えて、引数に対する初期重みのセットを入力として取り、これらの重みは結果の引数ランキングに影響を与える。 本研究では,このような重み付き意味論に対する逆問題を考える。 すなわち、議論の枠組みと望ましい議論のランキングが与えられた場合、特定の意味論が与えられたランキングを生成するような初期重みが存在するかどうかを問う。 本論文の貢献は,(1)この問題に答えるアルゴリズム,(2)アルゴリズムを動作させるためには段階的意味論が満たさなければならない特性のキャラクタリゼーション,(3)提案アルゴリズムの実証的評価である。

Gradual semantics with abstract argumentation provide each argument with a score reflecting its acceptability, i.e. how "much" it is attacked by other arguments. Many different gradual semantics have been proposed in the literature, each following different principles and producing different argument rankings. A sub-class of such semantics, the so-called weighted semantics, takes, in addition to the graph structure, an initial set of weights over the arguments as input, with these weights affecting the resultant argument ranking. In this work, we consider the inverse problem over such weighted semantics. That is, given an argumentation framework and a desired argument ranking, we ask whether there exist initial weights such that a particular semantics produces the given ranking. The contribution of this paper are: (1) an algorithm to answer this problem, (2) a characterisation of the properties that a gradual semantics must satisfy for the algorithm to operate, and (3) an empirical evaluation of the proposed algorithm.
翻訳日:2022-02-02 14:45:16 公開日:2022-02-01
# 歪み補正と高精度特徴検出を用いた学習型カメラ校正フレームワーク

Learning-Based Framework for Camera Calibration with Distortion Correction and High Precision Feature Detection ( http://arxiv.org/abs/2202.00158v1 )

ライセンス: Link先を確認
Yesheng Zhang, Xu Zhao and Dahong Qian(参考訳) カメラキャリブレーションは多くのロボットシステムの性能に大きな影響を及ぼす重要な技術である。 堅牢性と高精度は、常に多様な校正方法の追求である。 しかし、Zhangの手法に基づく最先端のキャリブレーション技術は、環境ノイズ、ラジアルレンズ歪み、準最適パラメータ推定に悩まされている。 そこで本稿では,学習に基づくアプローチと,これらのボトルネックに対処する従来の手法を組み合わせたハイブリッドカメラキャリブレーションフレームワークを提案する。 特にこのフレームワークは、効率的な歪み補正とロバストなチェスボードコーナー座標符号化を行うために学習に基づくアプローチを利用する。 コーナー検出のサブピクセル精度向上のために,組込み外乱除去機構を備えた特別設計座標復号アルゴリズムを提案する。 提案手法は, RANSACアルゴリズムによる従来のパラメータ推定を改良し, 安定した結果を得る。 広範に使われている2つのカメラキャリブレーションツールボックスと比較して、実データと合成データの両方の実験結果は、提案フレームワークのより良い堅牢性と高い精度を示す。 大規模な合成データセットは、当社のフレームワークの十分なパフォーマンスの基礎であり、https://github.com/E asonyesheng/CCS.comのコードとともに公開されます。

Camera calibration is a crucial technique which significantly influences the performance of many robotic systems. Robustness and high precision have always been the pursuit of diverse calibration methods. State-of-the-art calibration techniques based on classical Zhang's method, however, still suffer from environmental noise, radial lens distortion and sub-optimal parameter estimation. Therefore, in this paper, we propose a hybrid camera calibration framework which combines learning-based approaches with traditional methods to handle these bottlenecks. In particular, this framework leverages learning-based approaches to perform efficient distortion correction and robust chessboard corner coordinate encoding. For sub-pixel accuracy of corner detection, a specially-designed coordinate decoding algorithm with embed outlier rejection mechanism is proposed. To avoid sub-optimal estimation results, we improve the traditional parameter estimation by RANSAC algorithm and achieve stable results. Compared with two widely-used camera calibration toolboxes, experiment results on both real and synthetic datasets manifest the better robustness and higher precision of the proposed framework. The massive synthetic dataset is the basis of our framework's decent performance and will be publicly available along with the code at https://github.com/E asonyesheng/CCS.
翻訳日:2022-02-02 14:44:12 公開日:2022-02-01
# オブジェクトガイド型クロスモーダルキャリブレーション・セマンティクスによる人間と物体の相互作用の検出

Detecting Human-Object Interactions with Object-Guided Cross-Modal Calibrated Semantics ( http://arxiv.org/abs/2202.00259v1 )

ライセンス: Link先を確認
Hangjie Yuan, Mang Wang, Dong Ni and Liangpeng Xu(参考訳) ヒューマン・オブジェクト・インタラクション(HOI)検出は、きめ細かい視点から人間中心の画像を理解するために不可欠なタスクである。 エンドツーエンドのhoi検出モデルは繁栄するが、並列人間/オブジェクト検出と動詞クラス予測のパラダイムは、2段階のメソッドのメリットを失う。 1つの hoi triplet のオブジェクトは、予測される動詞の直接の手がかりを与える。 本稿では,オブジェクト指向統計モデルを用いたエンドツーエンドモデルの構築を目標とする。 具体的には,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る。 HOIデータセットの事前値に合わせてVSMを最適化するために、類似性KL(SKL)損失が提案されている。 静的意味埋め込み問題を克服するために, クロスモーダルキャリブレーション(cmc)により, 相互モダリティを認識できる視覚および意味的特徴を生成することを提案する。 上記のモジュールは、オブジェクト指向のクロスモーダルキャリブレーションネットワーク(OCN)を構成する。 2つの一般的なHOI検出ベンチマークで実施された実験は、統計的事前知識を取り入れ、最先端のパフォーマンスを生み出すことの重要性を示している。 より詳細な分析では、提案するモジュールはより強力な動詞予測器であり、より優れた事前知識を利用する方法であることを示している。 コードは \url{https://github.com/J acobYuan7/OCN-HOI-Be nchmark} で公開されている。

Human-Object Interaction (HOI) detection is an essential task to understand human-centric images from a fine-grained perspective. Although end-to-end HOI detection models thrive, their paradigm of parallel human/object detection and verb class prediction loses two-stage methods' merit: object-guided hierarchy. The object in one HOI triplet gives direct clues to the verb to be predicted. In this paper, we aim to boost end-to-end models with object-guided statistical priors. Specifically, We propose to utilize a Verb Semantic Model (VSM) and use semantic aggregation to profit from this object-guided hierarchy. Similarity KL (SKL) loss is proposed to optimize VSM to align with the HOI dataset's priors. To overcome the static semantic embedding problem, we propose to generate cross-modality-aware visual and semantic features by Cross-Modal Calibration (CMC). The above modules combined composes Object-guided Cross-modal Calibration Network (OCN). Experiments conducted on two popular HOI detection benchmarks demonstrate the significance of incorporating the statistical prior knowledge and produce state-of-the-art performances. More detailed analysis indicates proposed modules serve as a stronger verb predictor and a more superior method of utilizing prior knowledge. The codes are available at \url{https://github.com/J acobYuan7/OCN-HOI-Be nchmark}.
翻訳日:2022-02-02 14:43:52 公開日:2022-02-01
# 説明からセグメンテーションへ:画像セグメンテーションに説明可能なAIを使う

From Explanations to Segmentation: Using Explainable AI for Image Segmentation ( http://arxiv.org/abs/2202.00315v1 )

ライセンス: Link先を確認
Clemens Seibold, Johannes K\"unzel, Anna Hilsmann, Peter Eisert(参考訳) ディープニューラルネットワーク(dnn)のパワーを活用した新たなイメージセグメンテーションの時代には、価格タグが付いている。 ピクセル単位のセグメンテーションのためにニューラルネットワークをトレーニングするには、大量のトレーニングサンプルをピクセル精度で手作業でラベル付けする必要がある。 本研究では,これを間接解法に従うことで解決する。 我々は、説明可能なAI(XAI)コミュニティの進歩の上に構築し、分類ネットワークの決定を説明するレイヤワイド関連伝搬(LRP)の出力から画素ワイドバイナリセグメンテーションを抽出する。 既存のu-netセグメンテーションアーキテクチャと比較して同様の結果が得られたが、トレーニングデータの生成は大幅に単純化された。 提案手法は,トレーニングサンプルを画像レベルでのみラベル付けすると同時に,セグメンテーションマスクの出力を可能にするため,弱教師付き方式でトレーニングすることができる。 これは特に、退屈なピクセルレベルのラベリングがしばしば不可能な、広範囲の実際のアプリケーションに適用できる。

The new era of image segmentation leveraging the power of Deep Neural Nets (DNNs) comes with a price tag: to train a neural network for pixel-wise segmentation, a large amount of training samples has to be manually labeled on pixel-precision. In this work, we address this by following an indirect solution. We build upon the advances of the Explainable AI (XAI) community and extract a pixel-wise binary segmentation from the output of the Layer-wise Relevance Propagation (LRP) explaining the decision of a classification network. We show that we achieve similar results compared to an established U-Net segmentation architecture, while the generation of the training data is significantly simplified. The proposed method can be trained in a weakly supervised fashion, as the training samples must be only labeled on image-level, at the same time enabling the output of a segmentation mask. This makes it especially applicable to a wider range of real applications where tedious pixel-level labelling is often not possible.
翻訳日:2022-02-02 14:42:36 公開日:2022-02-01
# セマンティクスセグメンテーションにおけるインクリメンタル学習のための連続的注意融合

Continual Attentive Fusion for Incremental Learning in Semantic Segmentation ( http://arxiv.org/abs/2202.00432v1 )

ライセンス: Link先を確認
Guanglei Yang, Enrico Fini, Dan Xu, Paolo Rota, Mingli Ding, Hao Tang, Xavier Alameda-Pineda, Elisa Ricci(参考訳) 過去数年間、コンピュータビジョンにおける多くのタスクと同様にセマンティックセグメンテーションは、ディープニューラルネットワークの進歩から恩恵を受け、パフォーマンスが大幅に向上した。 しかし、勾配に基づく手法で訓練された深いアーキテクチャは破滅的な忘れ込みに悩まされ、これは新しいタスクを学習しながら学習した知識を忘れる傾向にある。 この効果に対抗する戦略を考案することを目指して、インクリメンタルな学習アプローチがここ数年で人気を集めている。 しかし、意味セグメンテーションのための最初のインクリメンタルな学習方法が最近登場した。 効果的ではあるが、これらのアプローチはピクセルレベルの密集した予測問題、すなわち注意メカニズムの役割において重要な側面を考慮しない。 このギャップを埋めるため,本稿では,空間的およびチャネルレベルの意味的依存関係を考慮しつつ,壊滅的忘れを緩和する新しい注意的特徴蒸留手法を提案する。 さらに,新しいタスクの特徴を学習しながら,新しいタスクと古いタスクから得られた注意を生かした,連続的注意融合構造を提案する。 最後に,蒸留損失の背景クラスを考慮し,バイアスド予測を防止するための新しい戦略を提案する。 われわれはPascal-VOC 2012 とADE20K を広範囲に評価し,本手法の有効性を実証した。

Over the past years, semantic segmentation, as many other tasks in computer vision, benefited from the progress in deep neural networks, resulting in significantly improved performance. However, deep architectures trained with gradient-based techniques suffer from catastrophic forgetting, which is the tendency to forget previously learned knowledge while learning new tasks. Aiming at devising strategies to counteract this effect, incremental learning approaches have gained popularity over the past years. However, the first incremental learning methods for semantic segmentation appeared only recently. While effective, these approaches do not account for a crucial aspect in pixel-level dense prediction problems, i.e. the role of attention mechanisms. To fill this gap, in this paper we introduce a novel attentive feature distillation approach to mitigate catastrophic forgetting while accounting for semantic spatial- and channel-level dependencies. Furthermore, we propose a {continual attentive fusion} structure, which takes advantage of the attention learned from the new and the old tasks while learning features for the new task. Finally, we also introduce a novel strategy to account for the background class in the distillation loss, thus preventing biased predictions. We demonstrate the effectiveness of our approach with an extensive evaluation on Pascal-VOC 2012 and ADE20K, setting a new state of the art.
翻訳日:2022-02-02 14:42:18 公開日:2022-02-01
# HCSC:階層的コントラスト選択符号化

HCSC: Hierarchical Contrastive Selective Coding ( http://arxiv.org/abs/2202.00455v1 )

ライセンス: Link先を確認
Yuanfan Guo, Minghao Xu, Jiawen Li, Bingbing Ni, Xuanyu Zhu, Zhenbang Sun, Yi Xu(参考訳) 階層的セマンティック構造は自然にイメージデータセットに存在し、いくつかのセマンティックなイメージクラスタを、粗いセマンティックスを持つより大きなクラスタに統合することができる。 このような構造を画像表現でキャプチャすることは、様々な下流タスクのセマンティック理解に大きな恩恵をもたらす。 既存のコントラスト表現学習手法には、そのような重要なモデル能力がない。 さらに、これらの手法で用いられる負対は意味的に区別されることが保証されないため、学習された画像表現の構造的正しさをさらに阻害する可能性がある。 これらの制約に対処するために,階層的コントラスト選択符号化 (HCSC) と呼ばれる新しいコントラスト学習フレームワークを提案する。 このフレームワークでは、一連の階層型プロトタイプが構築され、動的に更新され、潜在空間におけるデータの基盤となる階層型セマンティック構造を表現する。 画像表現をそのような意味構造に合致させるため、より精巧なペア選択スキームを通じて、従来のインスタンスワイズおよびプロトタイプ的コントラスト学習を取り入れ、さらに改善する。 このスキームは、類似のセマンティクスを持つより多様な正のペアと、真に異なるセマンティクスを持つより正確な負のペアを選択することを目指している。 大規模ダウンストリームタスクでは,最先端のコントラスト法に比べてHCSCの優れた性能が検証され,多くの解析研究により主要モデル成分の有効性が証明された。 ソースコードとモデルの重み付けはhttps://github.com/g yfastas/HCSCで確認できる。

Hierarchical semantic structures naturally exist in an image dataset, in which several semantically relevant image clusters can be further integrated into a larger cluster with coarser-grained semantics. Capturing such structures with image representations can greatly benefit the semantic understanding on various downstream tasks. Existing contrastive representation learning methods lack such an important model capability. In addition, the negative pairs used in these methods are not guaranteed to be semantically distinct, which could further hamper the structural correctness of learned image representations. To tackle these limitations, we propose a novel contrastive learning framework called Hierarchical Contrastive Selective Coding (HCSC). In this framework, a set of hierarchical prototypes are constructed and also dynamically updated to represent the hierarchical semantic structures underlying the data in the latent space. To make image representations better fit such semantic structures, we employ and further improve conventional instance-wise and prototypical contrastive learning via an elaborate pair selection scheme. This scheme seeks to select more diverse positive pairs with similar semantics and more precise negative pairs with truly distinct semantics. On extensive downstream tasks, we verify the superior performance of HCSC over state-of-the-art contrastive methods, and the effectiveness of major model components is proved by plentiful analytical studies. Our source code and model weights are available at https://github.com/g yfastas/HCSC
翻訳日:2022-02-02 14:41:53 公開日:2022-02-01
# 半構造化Ayurvedicテキストに基づく意味アノテーションとクエリフレームワーク

Semantic Annotation and Querying Framework based on Semi-structured Ayurvedic Text ( http://arxiv.org/abs/2202.00216v1 )

ライセンス: Link先を確認
Hrishikesh Terdalkar, Arnab Bhattacharya, Madhulika Dubey, Ramamurthy S, Bhavna Naneria Singh(参考訳) 知識ベース(KB)は多くの自然言語処理(NLP)や情報検索(IR)タスクにおいて重要なリソースである。 また、テキストから情報を得ようとする研究者にも役立ちます。 しかし残念なことに、sanskrit nlpの最先端技術では、ツールやメソッドの精度が不十分なため、知識ベースの自動構築は許可されていない。 そこで本研究では,知識グラフ(KG)作成を目的としたサンスクリットテキストのマニュアルアノテーションに関する取り組みについて述べる。 ayurvedic text bhavaprakasha の bhavaprakashanighant u から dhanyavarga の章を注釈として選択する。 構築された知識グラフは、410のエンティティと764の関係を含んでいる。 bhavaprakashanighant uは、異なる物質の様々な特性を記述する技術用語集であるので、テキストに存在するエンティティと関係型のセマンティクスを捉えるための精巧なオントロジーを開発する。 知識グラフを問合せするために、一般的な質問パターンのほとんどをカバーする31のクエリテンプレートを設計する。 手動のアノテーションとクエリについては、以前私たちが開発したSangrahakaフレームワークをカスタマイズします。 データセットを含むシステム全体は、https://sanskrit.iit k.ac.in/ayurveda/から利用できる。 手動のアノテーションやその後のキュレーションを通じて作成した知識グラフが,将来的にNLPツールの開発とテスト,さらにはBhavaprakasanighantu テキストの研究に役立ちたいと思っています。

Knowledge bases (KB) are an important resource in a number of natural language processing (NLP) and information retrieval (IR) tasks, such as semantic search, automated question-answering etc. They are also useful for researchers trying to gain information from a text. Unfortunately, however, the state-of-the-art in Sanskrit NLP does not yet allow automated construction of knowledge bases due to unavailability or lack of sufficient accuracy of tools and methods. Thus, in this work, we describe our efforts on manual annotation of Sanskrit text for the purpose of knowledge graph (KG) creation. We choose the chapter Dhanyavarga from Bhavaprakashanighant u of the Ayurvedic text Bhavaprakasha for annotation. The constructed knowledge graph contains 410 entities and 764 relationships. Since Bhavaprakashanighant u is a technical glossary text that describes various properties of different substances, we develop an elaborate ontology to capture the semantics of the entity and relationship types present in the text. To query the knowledge graph, we design 31 query templates that cover most of the common question patterns. For both manual annotation and querying, we customize the Sangrahaka framework previously developed by us. The entire system including the dataset is available from https://sanskrit.iit k.ac.in/ayurveda/ . We hope that the knowledge graph that we have created through manual annotation and subsequent curation will help in development and testing of NLP tools in future as well as studying of the Bhavaprakasanighantu text.
翻訳日:2022-02-02 14:41:16 公開日:2022-02-01
# トランスに基づく音声用テキスト正規化モデル

Transformer-based Models of Text Normalization for Speech Applications ( http://arxiv.org/abs/2202.00153v1 )

ライセンス: Link先を確認
Jae Hun Ro, Felix Stahlberg, Ke Wu, Shankar Kumar(参考訳) テキスト正規化(テキスト正規化、英: Text normalization)とは、テキストから音声合成(TTS)などの音声応用において重要である。 ttsでは、システムは "1995" を "19 ninety five" を "born in 1995" として、あるいは "1 thousand nine hundred ninety five" を "page 1995" として、動詞化するかどうかを決定する必要がある。 本稿では,トランスフォーマーを用いたテキスト正規化のシーケンス・ツー・シーケンス(seq2seq)モデルを実験的に比較し,その正規化音声形式に整合したテキストのさまざまなデータセット上で評価する。 これらのモデルには、Zhang et al. (2019) によって導入された2段階の RNN ベースのタグ付け/seq2seq アーキテクチャの変種が含まれており、1つ以上のステージで RNN を Transformer に置き換えるだけでなく、編集シーケンスの文字列表現を出力するvanilla Transformer も含んでいる。 提案手法では,2段階モデルにおける文文脈エンコーディングに Transformer を用いることで,細調整したBERTエンコーダが最高の性能を得ることができた。

Text normalization, or the process of transforming text into a consistent, canonical form, is crucial for speech applications such as text-to-speech synthesis (TTS). In TTS, the system must decide whether to verbalize "1995" as "nineteen ninety five" in "born in 1995" or as "one thousand nine hundred ninety five" in "page 1995". We present an experimental comparison of various Transformer-based sequence-to-sequence (seq2seq) models of text normalization for speech and evaluate them on a variety of datasets of written text aligned to its normalized spoken form. These models include variants of the 2-stage RNN-based tagging/seq2seq architecture introduced by Zhang et al. (2019), where we replace the RNN with a Transformer in one or more stages, as well as vanilla Transformers that output string representations of edit sequences. Of our approaches, using Transformers for sentence context encoding within the 2-stage model proved most effective, with the fine-tuned BERT encoder yielding the best performance.
翻訳日:2022-02-02 14:38:48 公開日:2022-02-01
# フェデレートアクティブラーニング(F-AL):フェデレートラーニングのための効果的なアノテーション戦略

Federated Active Learning (F-AL): an Efficient Annotation Strategy for Federated Learning ( http://arxiv.org/abs/2202.00195v1 )

ライセンス: Link先を確認
Jin-Hyun Ahn, Kyungsang Kim, Jeongwan Koh, Quanzheng Li(参考訳) 連合学習(federated learning, ffl)は、コミュニケーション効率、プライバシー、公平性の観点から集中的に研究されてきた。 しかし、現実のFLアプリケーションでは問題となる効率的なアノテーションは研究されていない。 本稿では,FLフレームワークにアクティブラーニング(AL)とサンプリング戦略を適用し,アノテーションの作業量を削減することを提案する。 alとflは相補的に相互のパフォーマンスを向上させることを期待する。 提案手法では,F-AL(Federated Active Learning, F-AL)をクライアントが共同で実装し,分散最適化方式でFLに情報を与えるインスタンスを得る。 本研究では,従来のランダムサンプリング戦略,クライアントレベルの分離AL(S-AL),提案するF-ALを用いて,グローバルFLモデルの精度を比較する。 画像分類タスクにおいて,F-ALがベースライン法より優れていることを示す。

Federated learning (FL) has been intensively investigated in terms of communication efficiency, privacy, and fairness. However, efficient annotation, which is a pain point in real-world FL applications, is less studied. In this project, we propose to apply active learning (AL) and sampling strategy into the FL framework to reduce the annotation workload. We expect that the AL and FL can improve the performance of each other complementarily. In our proposed federated active learning (F-AL) method, the clients collaboratively implement the AL to obtain the instances which are considered as informative to FL in a distributed optimization manner. We compare the test accuracies of the global FL models using the conventional random sampling strategy, client-level separate AL (S-AL), and the proposed F-AL. We empirically demonstrate that the F-AL outperforms baseline methods in image classification tasks.
翻訳日:2022-02-02 14:38:25 公開日:2022-02-01
# Factorized-FL:カーネルファクトリゼーションと類似性マッチングを併用したAgnostic Personalized Federated Learning

Factorized-FL: Agnostic Personalized Federated Learning with Kernel Factorization & Similarity Matching ( http://arxiv.org/abs/2202.00270v1 )

ライセンス: Link先を確認
Wonyong Jeong, Sung Ju Hwang(参考訳) 実世界のフェデレートされた学習シナリオでは、参加者は異なるラベルの置換を使用したり、まったく異なるタスクやドメインに対処するため、他のクライアントと互換性のない独自のラベルを持つことができる。 しかしながら、既存のFLアプローチのほとんどは、(1)全ての参加者が同期されたラベルセットを使用し、(2)同じドメインから同じタスクでトレーニングしていると仮定するので、このような非常に異種なシナリオに効果的に対処することはできない。 本研究では、これらの課題に対処するために、モデルパラメータを2つのベクトルに分解することで、ラベルとタスクを効果的に対応できるFactized-FLを導入し、各ローカルモデルが取り組んだタスクに特有の知識を各ラベルとタスクにまたがる共通知識をキャプチャする。 さらに、クライアント固有のベクトル空間の距離に基づいて、Facterized-FLは選択的なアグリゲーションスキームを実行し、関連する参加者からの知識のみをクライアントごとに活用する。 提案手法はラベルとドメインのヘテロゲネス設定の両方において広範囲に検証し,その効果を検証した。

In real-world federated learning scenarios, participants could have their own personalized labels which are incompatible with those from other clients, due to using different label permutations or tackling completely different tasks or domains. However, most existing FL approaches cannot effectively tackle such extremely heterogeneous scenarios since they often assume that (1) all participants use a synchronized set of labels, and (2) they train on the same task from the same domain. In this work, to tackle these challenges, we introduce Factorized-FL, which allows to effectively tackle label- and task-heterogeneous federated learning settings by factorizing the model parameters into a pair of vectors, where one captures the common knowledge across different labels and tasks and the other captures knowledge specific to the task each local model tackles. Moreover, based on the distance in the client-specific vector space, Factorized-FL performs selective aggregation scheme to utilize only the knowledge from the relevant participants for each client. We extensively validate our method on both label- and domain-heterogeneous settings, on which it outperforms the state-of-the-art personalized federated learning methods.
翻訳日:2022-02-02 14:38:10 公開日:2022-02-01
# 物理-粒子相互作用の学習

Learning Physics-Consistent Particle Interactions ( http://arxiv.org/abs/2202.00299v1 )

ライセンス: Link先を確認
Zhichao Han, David S. Kammer, Olga Fink(参考訳) 相互作用粒子系は科学と工学において重要な役割を果たしている。 制御粒子相互作用法則へのアクセスは、そのようなシステムの完全な理解に不可欠である。 しかし、固有のシステムの複雑さは、多くのケースで粒子の相互作用を隠している。 機械学習手法は、実験とデータ分析法を組み合わせることで、相互作用する粒子システムの振る舞いを学習する可能性がある。 しかし、既存のアルゴリズムのほとんどは粒子レベルでの運動学の学習に焦点を当てている。 ペアワイズ相互作用、例えばペアワイズ力やペアワイズポテンシャルエネルギーの学習は、依然としてオープンな課題である。 本稿では,グラフネットワークフレームワークを適応させるアルゴリズムを提案する。このアルゴリズムは,一対の相互作用を学習するためのエッジ部分と,粒子レベルでのダイナミクスをモデル化するためのノード部分を含む。 ニューラルネットワークを両部分で使用する既存のアプローチとは異なり、ノード部に決定論的演算子を設計する。 ノード上の設計された物理演算子は、エッジニューラルネットワークの出力空間を正確にペアの相互作用に制限する。 我々は,提案手法を複数データセット上でテストし,既存の純粋データ駆動モデルよりも基礎となる物理値と一致しつつ,ペアインタラクションを正しく推論することで,かなり優れた性能を実現することを実証する。 基礎となる粒子相互作用の法則をよりよく理解し、発見し、そのため、対象特性を持つ材料の設計を導くことができる。

Interacting particle systems play a key role in science and engineering. Access to the governing particle interaction law is fundamental for a complete understanding of such systems. However, the inherent system complexity keeps the particle interaction hidden in many cases. Machine learning methods have the potential to learn the behavior of interacting particle systems by combining experiments with data analysis methods. However, most existing algorithms focus on learning the kinetics at the particle level. Learning pairwise interaction, e.g., pairwise force or pairwise potential energy, remains an open challenge. Here, we propose an algorithm that adapts the Graph Networks framework, which contains an edge part to learn the pairwise interaction and a node part to model the dynamics at particle level. Different from existing approaches that use neural networks in both parts, we design a deterministic operator in the node part. The designed physics operator on the nodes restricts the output space of the edge neural network to be exactly the pairwise interaction. We test the proposed methodology on multiple datasets and demonstrate that it achieves considerably better performance in inferring correctly the pairwise interactions while also being consistent with the underlying physics on all the datasets than existing purely data-driven models. The developed methodology can support a better understanding and discovery of the underlying particle interaction laws, and hence guide the design of materials with targeted properties.
翻訳日:2022-02-02 14:37:48 公開日:2022-02-01
# 右潜在因子に対する権利:絡み合いによる生成モデルの偏り

Right for the Right Latent Factors: Debiasing Generative Models via Disentanglement ( http://arxiv.org/abs/2202.00391v1 )

ライセンス: Link先を確認
Xiaoting Shao, Karl Stelzner, Kristian Kersting(参考訳) ほとんどの統計的機械学習手法の重要な前提は、テスト時に遭遇するデータの分布から独立したサンプルにアクセスすることである。 したがって、これらの手法はしばしばバイアスデータに直面して性能が悪く、この仮定を破る。 特に機械学習モデルは、巧妙なハンスのような振る舞いを示すことが示されており、トレーニングセットにおけるスプリアス相関が不注意に学習されることを意味する。 深い分類器を修正して適切な相関関係を学習するために、多くの研究が提案されている。 しかし、現在まで生成モデルは見過ごされている。 生成モデルもまた、Clever-Hansのような振る舞いをしがちである。 この問題に対処するために,人間のフィードバックによって達成される内部表現を解消し,生成モデルをデバイアス化する手法を提案する。 実験の結果,人間のフィードバックが所望の分布のごく一部をカバーしている場合でも,バイアスの除去に有効であることがわかった。 また,近年の手法と定量的に比較した結果を得た。

A key assumption of most statistical machine learning methods is that they have access to independent samples from the distribution of data they encounter at test time. As such, these methods often perform poorly in the face of biased data, which breaks this assumption. In particular, machine learning models have been shown to exhibit Clever-Hans-like behaviour, meaning that spurious correlations in the training set are inadvertently learnt. A number of works have been proposed to revise deep classifiers to learn the right correlations. However, generative models have been overlooked so far. We observe that generative models are also prone to Clever-Hans-like behaviour. To counteract this issue, we propose to debias generative models by disentangling their internal representations, which is achieved via human feedback. Our experiments show that this is effective at removing bias even when human feedback covers only a small fraction of the desired distribution. In addition, we achieve strong disentanglement results in a quantitative comparison with recent methods.
翻訳日:2022-02-02 14:37:31 公開日:2022-02-01
# 機械学習を用いた企業関係性

Firm-based relatedness using machine learning ( http://arxiv.org/abs/2202.00458v1 )

ライセンス: Link先を確認
Giambattista Albora, Andrea Zaccaria(参考訳) 経済行為者(例えば国や会社)と製品との間の関係性は、その経済活動の実現可能性の尺度である。 そのため、民間・機関レベルでの投資の原動力となっている。 伝統的に、関係性は国レベルの共起によって導かれる複雑なネットワークアプローチを用いて測定される。 本研究では、国と企業の両方で訓練された複雑なネットワークと機械学習アルゴリズムを比較した。 関連度を定量的に比較するために,より多くの関連商品が近い将来に輸出される可能性が高いと仮定して,国・企業レベルでの将来輸出予測に使用する。 その結果,関係性はスケール依存型であることが示され,予測したいデータと同一の型で機械学習を用いて最良の評価が得られた。 また、国別データに基づく関連措置は企業には適さないが、企業レベルのデータも国の発展を予測する上で非常に有益である。 この意味では、企業データに基づいて構築されたモデルは、国レベルのデータに関する関連性をよりよく評価する。 また,ネットワークベースのベンチマークをはるかに上回る予測性能を維持しつつ,高いブロック数に分割することで計算時間を短縮できることを示すことで,コミュニティ検出アルゴリズムとパラメータ最適化の効果について考察した。

The relatedness between an economic actor (for instance a country, or a firm) and a product is a measure of the feasibility of that economic activity. As such, it is a driver for investments both at a private and institutional level. Traditionally, relatedness is measured using complex networks approaches derived by country-level co-occurrences. In this work, we compare complex networks and machine learning algorithms trained on both country and firm-level data. In order to quantitatively compare the different measures of relatedness, we use them to predict the future exports at country and firm-level, assuming that more related products have higher likelihood to be exported in the near future. Our results show that relatedness is scale-dependent: the best assessments are obtained by using machine learning on the same typology of data one wants to predict. Moreover, while relatedness measures based on country data are not suitable for firms, firm-level data are quite informative also to predict the development of countries. In this sense, models built on firm data provide a better assessment of relatedness with respect to country-level data. We also discuss the effect of using community detection algorithms and parameter optimization, finding that a partition into a higher number of blocks decreases the computational time while maintaining a prediction performance that is well above the network based benchmarks.
翻訳日:2022-02-02 14:37:16 公開日:2022-02-01
# (参考訳) 現代ニューラルネットワークのフラットミニマ最適化への疑問 [全文訳有]

Questions for Flat-Minima Optimization of Modern Neural Networks ( http://arxiv.org/abs/2202.00661v1 )

ライセンス: CC BY 4.0
Jean Kaddour, Linqing Liu, Ricardo Silva, Matt J. Kusner(参考訳) ニューラルネットワークのトレーニングでは、一様低損失(フラットミニマ)近傍のパラメータを求めるフラットミニマオプティマイザが、確率的および適応的勾配に基づく手法により改善することが示されている。 平らなミニマを見つけるための2つの方法が際立っている。 1.平均化方法(確率ウェイト平均化、SWA)及び 2.ミニマックス法(シャープネス認識最小化、SAM) しかし、同様の動機にもかかわらず、その性質に関する調査は限られており、両者の包括的比較は行われていない。 本研究では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの体系的ベンチマークによる損失面について検討する。 どちらのアプローチも直交的な方法で平坦な解を見つけるので、それらを組み合わせることでさらに一般化が改善されるはずだ。 42例中39例において,フラットミニマアプローチによる改善が確認できた。 そうでなければ、潜在的な説明を提供する。 画像、グラフ、テキストデータにわたる結果が、研究者がディープラーニングオプティマイザを改善するのに役立つことを期待しています。

For training neural networks, flat-minima optimizers that seek to find parameters in neighborhoods having uniformly low loss (flat minima) have been shown to improve upon stochastic and adaptive gradient-based methods. Two methods for finding flat minima stand out: 1. Averaging methods (i.e., Stochastic Weight Averaging, SWA), and 2. Minimax methods (i.e., Sharpness Aware Minimization, SAM). However, despite similar motivations, there has been limited investigation into their properties and no comprehensive comparison between them. In this work, we investigate the loss surfaces from a systematic benchmarking of these approaches across computer vision, natural language processing, and graph learning tasks. This leads us to a hypothesis: since both approaches find flat solutions in orthogonal ways, combining them should improve generalization even further. We verify this improves over either flat-minima approach in 39 out of 42 cases. When it does not, we provide potential explanations. We hope our results across image, graph, and text data will help researchers to improve deep learning optimizers, and practitioners to pinpoint the optimizer for the problem at hand.
翻訳日:2022-02-02 14:36:00 公開日:2022-02-01
# Few-Bit Backward:メモリフットプリント削減のためのアクティベーション関数の量子化勾配

Few-Bit Backward: Quantized Gradients of Activation Functions for Memory Footprint Reduction ( http://arxiv.org/abs/2202.00441v1 )

ライセンス: Link先を確認
Georgii Novikov, Daniel Bershatsky, Julia Gusak, Alex Shonenkov, Denis Dimitrov, and Ivan Oseledets(参考訳) メモリフットプリントは、大規模なニューラルネットワークトレーニングの主要な制限要因のひとつだ。 バックプロパゲーションでは、計算グラフ内の各演算に入力を格納する必要がある。 現代のすべてのニューラルネットワークモデルは、そのアーキテクチャにおいてかなりいくつかのポイントワイズな非線形性を持ち、そのような操作は、私たちが示すように、勾配の量子化によって大幅に削減できる追加のメモリコストを誘導する。 本稿では,各要素あたり数ビットしか持たない点次非線形関数の残留勾配の最適量子化を求める体系的手法を提案する。 このような近似は、動的プログラミングによって実現できるアクティベーション関数の微分の最適一貫した近似を計算することで実現できることを示す。 ドロップイン置換はすべての一般的な非線形性に対して実装されており、既存のパイプラインで使用することができる。 いくつかのオープンベンチマークでメモリ削減と同じ収束を確認した。

Memory footprint is one of the main limiting factors for large neural network training. In backpropagation, one needs to store the input to each operation in the computational graph. Every modern neural network model has quite a few pointwise nonlinearities in its architecture, and such operation induces additional memory costs which -- as we show -- can be significantly reduced by quantization of the gradients. We propose a systematic approach to compute optimal quantization of the retained gradients of the pointwise nonlinear functions with only a few bits per each element. We show that such approximation can be achieved by computing optimal piecewise-constant approximation of the derivative of the activation function, which can be done by dynamic programming. The drop-in replacements are implemented for all popular nonlinearities and can be used in any existing pipeline. We confirm the memory reduction and the same convergence on several open benchmarks.
翻訳日:2022-02-02 14:00:01 公開日:2022-02-01
# 無限幅限界を超えるニューラルタンジェントカーネル:深さと初期化の影響

Neural Tangent Kernel Beyond the Infinite-Width Limit: Effects of Depth and Initialization ( http://arxiv.org/abs/2202.00553v1 )

ライセンス: Link先を確認
Mariia Seleznova, Gitta Kutyniok(参考訳) ニューラル・タンジェント・カーネル(ntk)は、(jacot et al., 2018):無限幅限界において、トレーニング中にntkが決定論的かつ定数であることから、過パラメータ化されたニューラルネットワークを分析するために広く使われている。 しかし、深さと幅が同時に無限になる場合、一般には保持されないため、この結果はディープネットワークの挙動を説明することができない。 本稿では,幅に匹敵する深さを持つ完全接続型ReLUネットワークのNTKについて検討する。 NTK特性は初期化時のパラメータの深さ-幅比と分布に大きく依存することを示す。 実際、我々の結果は(poole et al., 2016)で同定された超パラメータ空間における3つの位相の重要性を示している:順序、カオス、カオスのエッジ(eoc)。 これら3つの位相の無限深度および幅制限におけるNTK分散の正確な式を導出し,EOCおよびカオス相においてNTK変動は指数関数的に増大するが,順序相では変化しないと結論付けた。 また, 深層ネットワークのNTKは, トレーニング中にのみ一定であり, トレーニング中にNTK行列の構造がどのように変化するかについて議論する。

Neural Tangent Kernel (NTK) is widely used to analyze overparametrized neural networks due to the famous result by (Jacot et al., 2018): in the infinite-width limit, the NTK is deterministic and constant during training. However, this result cannot explain the behavior of deep networks, since it generally does not hold if depth and width tend to infinity simultaneously. In this paper, we study the NTK of fully-connected ReLU networks with depth comparable to width. We prove that the NTK properties depend significantly on the depth-to-width ratio and the distribution of parameters at initialization. In fact, our results indicate the importance of the three phases in the hyperparameter space identified in (Poole et al., 2016): ordered, chaotic and the edge of chaos (EOC). We derive exact expressions for the NTK dispersion in the infinite-depth-and-w idth limit in all three phases and conclude that the NTK variability grows exponentially with depth at the EOC and in the chaotic phase but not in the ordered phase. We also show that the NTK of deep networks may stay constant during training only in the ordered phase and discuss how the structure of the NTK matrix changes during training.
翻訳日:2022-02-02 13:59:47 公開日:2022-02-01
# 強化学習によるスケーラブルフラグメントに基づく3次元分子設計

Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning ( http://arxiv.org/abs/2202.00658v1 )

ライセンス: Link先を確認
Daniel Flam-Shepherd, Alexander Zhigalin and Al\'an Aspuru-Guzik(参考訳) 機械学習は分子設計を自動化し、新しい機能性化合物の発見を劇的に加速する可能性がある。 この目的のために、文字列とグラフ表現を用いた生成モデルと強化学習(RL)が新しい分子の探索に成功している。 しかしながら、これらのアプローチは分子の3次元構造を無視するため制限されている。 実際、幾何は逆分子設計、特に創薬において多くの応用において重要な役割を果たす。 したがって、プロパティ指向幾何学的制約に基づいて3次元空間で分子構造を生成できるモデルを構築することが重要である。 これを解決するために、1つのアプローチは、空間上の位置に原子を逐次配置することで3Dポイントの雲として分子を生成することである。 しかし、個々の原子を配置することで探索が不要に深くなり、生成可能な分子の複雑さが制限されるため、このアプローチは非効率である。 さらに、分子を最適化する際、有機化学と医薬化学は、単一の原子ではなく既知の断片と官能基を用いる。 本稿では,スケーラブルな3d設計のための新しいrlフレームワークについて紹介する。3d空間に分子構造を順次配置することにより,分子設計の分野における既存の人間の知識を基盤とする階層的エージェントを用いた分子構築を行う。 異なるサブ構造を持つ様々な実験において、我々のエージェントはエネルギーだけを考慮し、薬物様分子、有機led分子、生体分子を含む多くの分布から100以上の原子を持つ分子を効率的に生成できることを示しました。

Machine learning has the potential to automate molecular design and drastically accelerate the discovery of new functional compounds. Towards this goal, generative models and reinforcement learning (RL) using string and graph representations have been successfully used to search for novel molecules. However, these approaches are limited since their representations ignore the three-dimensional (3D) structure of molecules. In fact, geometry plays an important role in many applications in inverse molecular design, especially in drug discovery. Thus, it is important to build models that can generate molecular structures in 3D space based on property-oriented geometric constraints. To address this, one approach is to generate molecules as 3D point clouds by sequentially placing atoms at locations in space -- this allows the process to be guided by physical quantities such as energy or other properties. However, this approach is inefficient as placing individual atoms makes the exploration unnecessarily deep, limiting the complexity of molecules that can be generated. Moreover, when optimizing a molecule, organic and medicinal chemists use known fragments and functional groups, not single atoms. We introduce a novel RL framework for scalable 3D design that uses a hierarchical agent to build molecules by placing molecular substructures sequentially in 3D space, thus attempting to build on the existing human knowledge in the field of molecular design. In a variety of experiments with different substructures, we show that our agent, guided only by energy considerations, can efficiently learn to produce molecules with over 100 atoms from many distributions including drug-like molecules, organic LED molecules, and biomolecules.
翻訳日:2022-02-02 13:59:22 公開日:2022-02-01
# フェデレーション学習におけるリサイクリングモデル更新:勾配部分空間は低ランクか?

Recycling Model Updates in Federated Learning: Are Gradient Subspaces Low-Rank? ( http://arxiv.org/abs/2202.00280v1 )

ライセンス: Link先を確認
Sheikh Shams Azam, Seyyedali Hosseinalipour, Qiang Qiu, Christopher Brinton(参考訳) 本稿では,フェデレート学習中に分散システムを介して大量のパラメータを伝播する根拠を疑問視する。 まず, 集中型モデル学習において, エポックにまたがる勾配(つまり勾配空間)にまたがる部分空間のランク特性を調べ, この勾配空間は, 説明された分散の圧倒的多数(95~99%)を占めるいくつかの主要な主成分から構成されていることを観察した。 そこで我々は,この低ランク性を利用して,フェデレート学習のモデル更新ラウンド間の勾配リサイクルを実現し,大きなパラメータの送信を単一スカラーに削減する「Look-back Gradient Multiplier(LBGM)」アルゴリズムを提案する。 我々は,LBGMの収束挙動を解析的に特徴付け,通信貯蓄とモデル性能のトレードオフの性質を明らかにする。 実験の結果,LBGMは複数のデータセットや深層学習モデルにおいて,従来のフェデレーション学習に比べて通信オーバーヘッドが向上することを示した。 さらに,LBGMは,既存の分散モデルトレーニングのためのスペーシフィケーション技術の上に,スタンドアロンあるいは積み重ねて使用可能な汎用的なプラグアンドプレイアルゴリズムであることを示す。

In this paper, we question the rationale behind propagating large numbers of parameters through a distributed system during federated learning. We start by examining the rank characteristics of the subspace spanned by gradients across epochs (i.e., the gradient-space) in centralized model training, and observe that this gradient-space often consists of a few leading principal components accounting for an overwhelming majority (95-99%) of the explained variance. Motivated by this, we propose the "Look-back Gradient Multiplier" (LBGM) algorithm, which exploits this low-rank property to enable gradient recycling between model update rounds of federated learning, reducing transmissions of large parameters to single scalars for aggregation. We analytically characterize the convergence behavior of LBGM, revealing the nature of the trade-off between communication savings and model performance. Our subsequent experimental results demonstrate the improvement LBGM obtains in communication overhead compared to conventional federated learning on several datasets and deep learning models. Additionally, we show that LBGM is a general plug-and-play algorithm that can be used standalone or stacked on top of existing sparsification techniques for distributed model training.
翻訳日:2022-02-02 13:58:43 公開日:2022-02-01
# 私のディープネットワークのパフォーマンスは、本当になるには良くないのでしょうか? 二項分類におけるベイズ誤差の直接推定法

Is the Performance of My Deep Network Too Good to Be True? A Direct Approach to Estimating the Bayes Error in Binary Classification ( http://arxiv.org/abs/2202.00395v1 )

ライセンス: Link先を確認
Takashi Ishida, Ikko Yamane, Nontawat Charoenphakdee, Gang Niu, Masashi Sugiyama(参考訳) 予測対象の必然的な不確実性のため、機械学習モデルが達成できる予測性能には、基本的な制限がある。 分類問題において、これは任意の分類器で達成可能な最良の誤りであるベイズ誤差によって特徴づけられる。 ベイズ誤差は、最先端のパフォーマンスで分類器を評価する基準として使用することができ、テストセットのオーバーフィッティングを検出するために使用することができる。 我々は単純で直接的なベイズ誤差推定器を提案する。ここでは、クラスが \emph{uncertainty} を示すラベルの平均を取る。 我々の柔軟なアプローチは、弱い教師付きデータでもベイズ誤差を推定できる。 他の方法とは対照的に、我々の手法はモデルフリーであり、インスタンスフリーである。 さらに、ハイパーパラメータを持たず、分類器ベースのベースラインよりも正確にベイズ誤差を推定する。 この手法を用いた実験により、最近提案された分類器であるvision transformerが、特定のベンチマークデータセットのベイズ誤差に達している可能性が示唆された。

There is a fundamental limitation in the prediction performance that a machine learning model can achieve due to the inevitable uncertainty of the prediction target. In classification problems, this can be characterized by the Bayes error, which is the best achievable error with any classifier. The Bayes error can be used as a criterion to evaluate classifiers with state-of-the-art performance and can be used to detect test set overfitting. We propose a simple and direct Bayes error estimator, where we just take the mean of the labels that show \emph{uncertainty} of the classes. Our flexible approach enables us to perform Bayes error estimation even for weakly supervised data. In contrast to others, our method is model-free and even instance-free. Moreover, it has no hyperparameters and gives a more accurate estimate of the Bayes error than classifier-based baselines. Experiments using our method suggest that a recently proposed classifier, the Vision Transformer, may have already reached the Bayes error for certain benchmark datasets.
翻訳日:2022-02-02 13:58:18 公開日:2022-02-01
# グラフノード埋め込みのためのメッセージパッシングを満足する次元リダクション

Dimensionality Reduction Meets Message Passing for Graph Node Embeddings ( http://arxiv.org/abs/2202.00408v1 )

ライセンス: Link先を確認
Krzysztof Sadowski, Micha{\l} Szarmach, Eddie Mattia(参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析から分子の化学的性質のモデル化まで、様々な用途で一般的なアプローチとなっている。 GNNは、しばしば公開データセットで顕著なパフォーマンスを示すが、過剰なスムーシングと過剰な監視傾向のため、データ内の長距離依存関係を学ぶのに苦労する可能性がある。 そこで本研究では,主成分分析 (pca) とメッセージパッシングを組み合わせることでノード埋め込みを教師なしな方法で生成し,分類タスクに勾配強調決定木を利用する手法であるpcapassを提案する。 提案手法は, ノード分類ベンチマークで人気の高いGNNと比較して, 距離の長い地域からの情報を収集しながら, 競争性能が向上することを示す。 本研究は,グラフ構造化データの長距離依存性を集約するための有望なメカニズムとして,メッセージパッシングとスキップ接続による次元縮小を適用することを実証する。

Graph Neural Networks (GNNs) have become a popular approach for various applications, ranging from social network analysis to modeling chemical properties of molecules. While GNNs often show remarkable performance on public datasets, they can struggle to learn long-range dependencies in the data due to over-smoothing and over-squashing tendencies. To alleviate this challenge, we propose PCAPass, a method which combines Principal Component Analysis (PCA) and message passing for generating node embeddings in an unsupervised manner and leverages gradient boosted decision trees for classification tasks. We show empirically that this approach provides competitive performance compared to popular GNNs on node classification benchmarks, while gathering information from longer distance neighborhoods. Our research demonstrates that applying dimensionality reduction with message passing and skip connections is a promising mechanism for aggregating long-range dependencies in graph structured data.
翻訳日:2022-02-02 13:58:03 公開日:2022-02-01
# 失われたDGを見つける:モデル複雑性による領域一般化の説明

Finding lost DG: Explaining domain generalization via model complexity ( http://arxiv.org/abs/2202.00563v1 )

ライセンス: Link先を確認
Da Li, Henry Gouk, Timothy Hospedales(参考訳) ドメイン一般化(DG)問題設定では、複数の既知のデータ分布で訓練されたモデルが、見えないデータ分布をうまく一般化する。 その実用的重要性から、この問題に対処するために多くの方法が提案されている。 しかし、DG問題の公式なモデル化が困難であるため、汎用的なDGの作業の多くはヒューリスティックに動機付けられており、最近の評価は、特に十分に調整された経験的リスク最小化ベースラインと比較して、既存の手法の実用性に疑問を投げかけている。 本稿では,モデルのラデマッハ複雑性の観点から,未認識領域の一般化性能を制限したdgの学習理論上の新しい一般化について述べる。 これに基づいて,既存の手法の有効性や欠如は,経験的リスク対予測的複雑性トレードオフによって大部分的に決定され,これらの用語でその性能変動が説明できることを示す。 アルゴリズムにより,領域の一般化は,領域間相互検証を目的とし,規則化されたERMを実行するだけで達成できることを示す。 DomainBedベンチマークの実証結果は、これを裏付けている。

The domain generalization (DG) problem setting challenges a model trained on multiple known data distributions to generalise well on unseen data distributions. Due to its practical importance, a large number of methods have been proposed to address this challenge. However much of the work in general purpose DG is heuristically motivated, as the DG problem is hard to model formally; and recent evaluations have cast doubt on existing methods' practical efficacy -- in particular compared to a well tuned empirical risk minimisation baseline. We present a novel learning-theoretic generalisation bound for DG that bounds unseen domain generalisation performance in terms of the model's Rademacher complexity. Based on this, we conjecture that existing methods' efficacy or lack thereof is largely determined by an empirical risk vs predictor complexity trade-off, and demonstrate that their performance variability can be explained in these terms. Algorithmically, this analysis suggests that domain generalisation should be achieved by simply performing regularised ERM with a leave-one-domain-out cross-validation objective. Empirical results on the DomainBed benchmark corroborate this.
翻訳日:2022-02-02 13:56:30 公開日:2022-02-01
# タスク境界のないオンラインメタ学習

Fully Online Meta-Learning Without Task Boundaries ( http://arxiv.org/abs/2202.00263v1 )

ライセンス: Link先を確認
Jathushan Rajasegaran, Chesea Finn, Sergey Levine(参考訳) ディープネットワークは分類器、検出器、トラッカーなどの複雑な機能を学ぶことができるが、多くのアプリケーションは入力分布の変化、タスクの変化、環境条件の変化に継続的に適応するモデルを必要とする。 実際、知識を継続的に探求し、過去の経験を使って継続的に新しいタスクを素早く学習する能力は、インテリジェントシステムの重要な特性の1つです。 複雑で高次元の問題は、勾配降下のような標準的な学習アルゴリズムでモデルを継続的に更新するだけで、適応が遅くなる可能性がある。 メタラーニングは適応を加速する強力なツールを提供するが、従来はバッチ設定で研究されている。 本稿では,この性質のオンライン問題にメタラーニングを適用し,タスクや入力分布の変化に適応し,モデルにメタトレーニングを施して,より迅速な適応を実現する方法について検討する。 メタラーニングをオンライン環境に拡張することは、独自の課題を示し、いくつかの先行した手法が関連する問題を研究してきたが、一般にはタスクの離散的な概念を必要とする。 このようなメソッドは通常、タスク間で連続的に適応するのではなく、タスク間でモデルをリセットする。 多くの現実世界では、そのような離散境界は利用できず、存在すらしない。 これらの設定に対処するために、タスク境界に関する基礎的な真理知識を必要とせず、トレーニング済みの重みに戻すことなく完全にオンラインに留まる完全オンラインメタラーニング(FOML)アルゴリズムを提案する。 我々の実験によると、FOMLはRainbow-MNIST、CIFAR100、CELEBAデータセットの最先端のオンライン学習手法よりも早く新しいタスクを学習できた。

While deep networks can learn complex functions such as classifiers, detectors, and trackers, many applications require models that continually adapt to changing input distributions, changing tasks, and changing environmental conditions. Indeed, this ability to continuously accrue knowledge and use past experience to learn new tasks quickly in continual settings is one of the key properties of an intelligent system. For complex and high-dimensional problems, simply updating the model continually with standard learning algorithms such as gradient descent may result in slow adaptation. Meta-learning can provide a powerful tool to accelerate adaptation yet is conventionally studied in batch settings. In this paper, we study how meta-learning can be applied to tackle online problems of this nature, simultaneously adapting to changing tasks and input distributions and meta-training the model in order to adapt more quickly in the future. Extending meta-learning into the online setting presents its own challenges, and although several prior methods have studied related problems, they generally require a discrete notion of tasks, with known ground-truth task boundaries. Such methods typically adapt to each task in sequence, resetting the model between tasks, rather than adapting continuously across tasks. In many real-world settings, such discrete boundaries are unavailable, and may not even exist. To address these settings, we propose a Fully Online Meta-Learning (FOML) algorithm, which does not require any ground truth knowledge about the task boundaries and stays fully online without resetting back to pre-trained weights. Our experiments show that FOML was able to learn new tasks faster than the state-of-the-art online learning methods on Rainbow-MNIST, CIFAR100 and CELEBA datasets.
翻訳日:2022-02-02 13:56:10 公開日:2022-02-01
# StyleGAN-XL:StyleGAN の大規模分散データセットへのスケーリング

StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets ( http://arxiv.org/abs/2202.00273v1 )

ライセンス: Link先を確認
Axel Sauer, Katja Schwarz, Andreas Geiger(参考訳) コンピュータグラフィックスは、フォトリアリスティックで制御可能なコンテンツ作成のためのデータ中心のアプローチが最近急増している。 styleganは特に、画像品質と制御可能性に関する生成モデリングの新しい標準を設定している。 しかし、styleganのパフォーマンスはimagenetのような大きな非構造化データセットで著しく低下する。 StyleGANは制御性のために設計されたため、以前の研究は制限的な設計が多様なデータセットに適さないと推測していた。 対照的に、私たちは現在のトレーニング戦略の主な制限要因を見つけます。 最近導入されたProjected GANパラダイムに従い、強力なニューラルネットワークプリエントと進歩的な成長戦略を活用して、ImageNet上で最新のStyleGAN3ジェネレータをトレーニングしました。 最後のモデルであるStyleGAN-XLは、大規模な画像合成に新たな最先端を設定でき、そのようなデータセットスケールで1024^2$の解像度で画像を生成できる最初のモデルです。 このモデルは、ポートレートの狭い領域や特定のオブジェクトクラスを越えて、画像を反転および編集できることを実証する。

Computer graphics has experienced a recent surge of data-centric approaches for photorealistic and controllable content creation. StyleGAN in particular sets new standards for generative modeling regarding image quality and controllability. However, StyleGAN's performance severely degrades on large unstructured datasets such as ImageNet. StyleGAN was designed for controllability; hence, prior works suspect its restrictive design to be unsuitable for diverse datasets. In contrast, we find the main limiting factor to be the current training strategy. Following the recently introduced Projected GAN paradigm, we leverage powerful neural network priors and a progressive growing strategy to successfully train the latest StyleGAN3 generator on ImageNet. Our final model, StyleGAN-XL, sets a new state-of-the-art on large-scale image synthesis and is the first to generate images at a resolution of $1024^2$ at such a dataset scale. We demonstrate that this model can invert and edit images beyond the narrow domain of portraits or specific object classes.
翻訳日:2022-02-02 13:55:40 公開日:2022-02-01
# Filtered-CoPhy: ピクセル空間における非教師なしの対物物理学習

Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel Space ( http://arxiv.org/abs/2202.00368v1 )

ライセンス: Link先を確認
Steeven Janny, Fabien Baradel, Natalia Neverova, Madiha Nadri, Greg Mori, Christian Wolf(参考訳) 高次元データ(画像、ビデオ)で因果関係を学ぶことは難しい作業であり、それらはしばしば低次元多様体上で定義され、データの外観、照明、テクスチャ、そしてスプリアス相関によって支配される複雑な信号から抽出されなければならない。 本稿では,初期条件に対する介入の影響を予測するため,画素空間における物理過程の反実的推論を学習する手法を提案する。 構造的関係の同定を超えて、長い地平線上で生動画を予測するという困難な問題に対処する。 本手法は基礎的真理位置や他の対象やシーン特性の知識や監督を必要としない。 本モデルは,高密度特徴,2次元キーポイントの集合,およびキーポイント当たりの付加潜在ベクトルの組み合わせに基づいて,適切なハイブリッド潜在表現を学習し,作用する。 これは、純粋に密度が高いあるいは疎い表現よりも、物理過程のダイナミクスを捉えるのがよいことを示す。 我々は,画素空間における予測と物理に着想を得たMLとビデオ予測における強いベースラインを上回り,挑戦的で慎重に設計された反実的ベンチマークを導入する。

Learning causal relationships in high-dimensional data (images, videos) is a hard task, as they are often defined on low dimensional manifolds and must be extracted from complex signals dominated by appearance, lighting, textures and also spurious correlations in the data. We present a method for learning counterfactual reasoning of physical processes in pixel space, which requires the prediction of the impact of interventions on initial conditions. Going beyond the identification of structural relationships, we deal with the challenging problem of forecasting raw video over long horizons. Our method does not require the knowledge or supervision of any ground truth positions or other object or scene properties. Our model learns and acts on a suitable hybrid latent representation based on a combination of dense features, sets of 2D keypoints and an additional latent vector per keypoint. We show that this better captures the dynamics of physical processes than purely dense or sparse representations. We introduce a new challenging and carefully designed counterfactual benchmark for predictions in pixel space and outperform strong baselines in physics-inspired ML and video prediction.
翻訳日:2022-02-02 13:55:23 公開日:2022-02-01
# 特徴属性の評価:情報理論の視点から

Evaluating Feature Attribution: An Information-Theoreti c Perspective ( http://arxiv.org/abs/2202.00449v1 )

ライセンス: Link先を確認
Yao Rong, Tobias Leemann, Vadim Borisov, Gjergji Kasneci, Enkelejda Kasneci(参考訳) 近年, 様々な特徴帰属手法が提案されているため, フォローアップ研究はいくつかの評価戦略を提案した。 異なる帰属技法における帰属品質を評価するために、画像領域におけるこれらの評価戦略で最も人気のあるのは画素摂動である。 しかし、近年の進歩により、異なる評価戦略が帰属方法の矛盾するランキングを生み出し、計算に不当にコストがかかることが判明した。 本研究では,画素摂動に基づく評価戦略の情報理論解析について述べる。 その結果, 異なる評価手法による出力は, 実際の値と対照的に, 除去画素の形状による情報漏洩の影響が強いことがわかった。 まず,共同設立者の影響を緩和し,評価戦略の整合性を高めることを目的とした,新たな評価フレームワークであるRemove and Debias(ROAD)を提案する。 第二に、ROADは計算的に高価な再訓練ステップを必要とせず、最先端技術と比較して計算コストを最大99%削減する。 ソースコードはhttps://github.com/t leemann/road_evaluat ionで入手できます。

With a variety of local feature attribution methods being proposed in recent years, follow-up work suggested several evaluation strategies. To assess the attribution quality across different attribution techniques, the most popular among these evaluation strategies in the image domain use pixel perturbations. However, recent advances discovered that different evaluation strategies produce conflicting rankings of attribution methods and can be prohibitively expensive to compute. In this work, we present an information-theoreti c analysis of evaluation strategies based on pixel perturbations. Our findings reveal that the results output by different evaluation strategies are strongly affected by information leakage through the shape of the removed pixels as opposed to their actual values. Using our theoretical insights, we propose a novel evaluation framework termed Remove and Debias (ROAD) which offers two contributions: First, it mitigates the impact of the confounders, which entails higher consistency among evaluation strategies. Second, ROAD does not require the computationally expensive retraining step and saves up to 99% in computational costs compared to the state-of-the-art. Our source code is available at https://github.com/t leemann/road_evaluat ion.
翻訳日:2022-02-02 13:53:27 公開日:2022-02-01
# 深層カーネル化密度幾何マッチング

Deep Kernelized Dense Geometric Matching ( http://arxiv.org/abs/2202.00667v1 )

ライセンス: Link先を確認
Johan Edstedt, M{\aa}rten Wadenb\"ack, Michael Felsberg(参考訳) デンス幾何マッチングはコンピュータビジョンの課題であり、低テクスチャ領域であっても、視点と照明の極端な変化の下で正確な対応を必要とする。 この課題では、後の精練段階において正確なグローバル対応を見つけることが不可欠である。 現在の学習に基づくパラダイムは、グローバルな固定サイズ相関を実行し、次いで、対応を予測するためのフラット化と畳み込みを行う。 本研究では,この問題を異なる視点から検討し,大域対応推定をディープカーネルを用いた連続確率回帰タスクとして定式化し,密接な対応を学習するための新しいアプローチを提案する。 我々の完全なアプローチである \textbf{D}eep \textbf{K}ernelized \textbf{M}atching は、競争力のあるHPatches と YFCC100m ベンチマークの最先端と比較して大幅に改善され、徹底的なアブレーション研究における私たちの貢献の成果を識別する。

Dense geometric matching is a challenging computer vision task, requiring accurate correspondences under extreme variations in viewpoint and illumination, even for low-texture regions. In this task, finding accurate global correspondences is essential for later refinement stages. The current learning based paradigm is to perform global fixed-size correlation, followed by flattening and convolution to predict correspondences. In this work, we consider the problem from a different perspective and propose to formulate global correspondence estimation as a continuous probabilistic regression task using deep kernels, yielding a novel approach to learning dense correspondences. Our full approach, \textbf{D}eep \textbf{K}ernelized \textbf{M}atching, achieves significant improvements compared to the state-of-the-art on the competitive HPatches and YFCC100m benchmarks, and we dissect the gains of our contributions in a thorough ablation study.
翻訳日:2022-02-02 13:53:09 公開日:2022-02-01
# ATEK:屋内レイアウト合成のエキスパート知識によるトランスフォーマーの強化

ATEK: Augmenting Transformers with Expert Knowledge for Indoor Layout Synthesis ( http://arxiv.org/abs/2202.00185v1 )

ライセンス: Link先を確認
Kurt Leimer, Paul Guerrero, Tomer Weiss, Przemyslaw Musialski(参考訳) 本稿では,コンピュータグラフィックス研究の継続課題である屋内レイアウト合成の問題に対処する。 最新の研究はデータ駆動生成法を使って大きな進歩を遂げたが、これらのアプローチは適切なデータセットに依存している。 実際には、データセットには望ましいレイアウトプロパティが存在しない場合がある。 本稿では,例えばエルゴノミクスに関する知識と,一般的なTransformerアーキテクチャに基づくデータ駆動型ジェネレータを組み合わせる手法を提案する。 知識は微分可能なスカラー関数として与えられ、これは重み付けや損失関数の項として使うことができる。 この知識を用いることで、データセットにこれらの特性が存在しない場合でも、合成されたレイアウトは望ましい特性を示すためにバイアスを受けることができる。 弊社のアプローチは、データの欠如やデータの欠陥の問題も軽減できる。 本研究の目的は、設計者やアマチュアのための新しいツールを内部レイアウト作成の問題に対して提供し、モデリングのための生成機械学習を改善することである。

We address the problem of indoor layout synthesis, which is a topic of continuing research interest in computer graphics. The newest works made significant progress using data-driven generative methods; however, these approaches rely on suitable datasets. In practice, desirable layout properties may not exist in a dataset, for instance, specific expert knowledge can be missing in the data. We propose a method that combines expert knowledge, for example, knowledge about ergonomics, with a data-driven generator based on the popular Transformer architecture. The knowledge is given as differentiable scalar functions, which can be used both as weights or as additional terms in the loss function. Using this knowledge, the synthesized layouts can be biased to exhibit desirable properties, even if these properties are not present in the dataset. Our approach can also alleviate problems of lack of data and imperfections in the data. Our work aims to improve generative machine learning for modeling and provide novel tools for designers and amateurs for the problem of interior layout creation.
翻訳日:2022-02-02 13:52:49 公開日:2022-02-01
# Sim2Real Object-Centric Keypoint Detection and Description

Sim2Real Object-Centric Keypoint Detection and Description ( http://arxiv.org/abs/2202.00448v1 )

ライセンス: Link先を確認
Chengliang Zhong, Chao Yang, Jinshan Qi, Fuchun Sun, Huaping Liu, Xiaodong Mu, Wenbing Huang(参考訳) キーポイント検出と説明はコンピュータビジョンにおいて中心的な役割を果たす。 既存のメソッドのほとんどは、異なるキーポイントのオブジェクトクラスを返すことなく、シーンレベルの予測の形式である。 本稿では,従来の設定を超えて,各関心点が属する対象をさらに識別するオブジェクト中心の定式化を提案する。 このような詳細な情報によって,クラスタ環境におけるオブジェクトレベルのマッチングやポーズ推定といった,より下流的なポテンシャルが実現されるのです。 実世界におけるラベル収集の難しさを回避するため,シミュレーションで訓練されたモデルを実世界アプリケーションに一般化できるsim2現実のコントラスト学習機構を開発した。 我々の訓練方法の目新しさは3つある。 (i)不確実性を学習フレームワークに統合し、例えば、テキストの少ないパッチや対称パッチなど、ハードケースの特徴記述を改善する。 (ii)オブジェクトディスクリプタを2つの出力ブランチに分離する(オブジェクト内サリアンスとオブジェクト間区別性)。 (iii)表現学習におけるロバスト性を高めるために、横断的意味的一貫性を強制する。 画像マッチングと6次元ポーズ推定に関する総合実験により,シミュレーションから現実に至るまでの手法の一般化能力を検証する。 特に6次元ポーズ推定では,本手法は一般的な教師なし/シミュリアルな手法よりも優れており,完全に教師付きされた手法とのギャップが深くなっている。

Keypoint detection and description play a central role in computer vision. Most existing methods are in the form of scene-level prediction, without returning the object classes of different keypoints. In this paper, we propose the object-centric formulation, which, beyond the conventional setting, requires further identifying which object each interest point belongs to. With such fine-grained information, our framework enables more downstream potentials, such as object-level matching and pose estimation in a clustered environment. To get around the difficulty of label collection in the real world, we develop a sim2real contrastive learning mechanism that can generalize the model trained in simulation to real-world applications. The novelties of our training method are three-fold: (i) we integrate the uncertainty into the learning framework to improve feature description of hard cases, e.g., less-textured or symmetric patches; (ii) we decouple the object descriptor into two output branches -- intra-object salience and inter-object distinctness, resulting in a better pixel-wise description; (iii) we enforce cross-view semantic consistency for enhanced robustness in representation learning. Comprehensive experiments on image matching and 6D pose estimation verify the encouraging generalization ability of our method from simulation to reality. Particularly for 6D pose estimation, our method significantly outperforms typical unsupervised/sim2rea l methods, achieving a closer gap with the fully supervised counterpart.
翻訳日:2022-02-02 13:52:33 公開日:2022-02-01
# コネクショニストネットワークにおける幸運な期待

Fortuitous Forgetting in Connectionist Networks ( http://arxiv.org/abs/2202.00155v1 )

ライセンス: Link先を確認
Hattie Zhou, Ankit Vani, Hugo Larochelle, Aaron Courville(参考訳) 忘れることはしばしば、人間と機械学習の両方において望ましくない特徴と見なされる。 しかし,本研究では,忘れることが学習に有利なことを提案する。 ニューラルネットワークの学習軌跡を形作るための強力なパラダイムとして,"forget-and-relearn&q uot;を導入する。 この過程で、忘れるステップは、モデルから好ましくない情報を選択的に取り除き、再学習ステップは、異なる条件下で一貫して有用な特徴を補強する。 このフレームワークは,画像分類や言語出現文献において,既存の反復学習アルゴリズムを統一し,望ましくない情報の忘れ方の観点から,これらのアルゴリズムの成功を理解することができる。 我々は、この理解を利用して既存のアルゴリズムを改善する。 私たちの分析から得られた洞察は、ニューラルネットワークにおける反復的トレーニングのダイナミクスに関するコヒーレントな見解を提供し、パフォーマンス改善に向けた明確な道筋を提供する。

Forgetting is often seen as an unwanted characteristic in both human and machine learning. However, we propose that forgetting can in fact be favorable to learning. We introduce "forget-and-relearn&q uot; as a powerful paradigm for shaping the learning trajectories of artificial neural networks. In this process, the forgetting step selectively removes undesirable information from the model, and the relearning step reinforces features that are consistently useful under different conditions. The forget-and-relearn framework unifies many existing iterative training algorithms in the image classification and language emergence literature, and allows us to understand the success of these algorithms in terms of the disproportionate forgetting of undesirable information. We leverage this understanding to improve upon existing algorithms by designing more targeted forgetting operations. Insights from our analysis provide a coherent view on the dynamics of iterative training in neural networks and offer a clear path towards performance improvements.
翻訳日:2022-02-02 13:51:49 公開日:2022-02-01
# (参考訳) BEA-Base: 自発ハンガリーのASRベンチマーク [全文訳有]

BEA-Base: A Benchmark for ASR of Spontaneous Hungarian ( http://arxiv.org/abs/2202.00601v1 )

ライセンス: CC BY 4.0
P. Mihajlik, A. Balog, T. E. Gr\'aczi, A. Koh\'ari, B. Tarj\'an and K. M\'ady(参考訳) ハンガリー語は1500万人によって話されていますが、asr(asr)ベンチマークデータセット(特に自発的な音声)は事実上利用できませんでした。 本稿では,主に140人の話者の自発的な発話を含むBEA音声ハンガリー語データベースのサブセットであるBEA-Baseを紹介する。 ASR(主に会話型AIアプリケーション)を評価するために開発された。 音声認識サブセットとタスクを定義した後、オープンソースのツールキットを用いて、古典的HMM-DNNハイブリッドやエンドツーエンドのアプローチを含むいくつかのベースラインを開発する。 得られた最良の結果は、外部言語モデルや追加の教師付きデータを適用することなく、従来の手法と比較して45%の認識誤差率の削減を達成する多言語自己教師付き事前学習に基づいている。 その結果,beaベースを用いたハンガリー音声認識システムの学習と評価が可能となった。

Hungarian is spoken by 15 million people, still, easily accessible Automatic Speech Recognition (ASR) benchmark datasets - especially for spontaneous speech - have been practically unavailable. In this paper, we introduce BEA-Base, a subset of the BEA spoken Hungarian database comprising mostly spontaneous speech of 140 speakers. It is built specifically to assess ASR, primarily for conversational AI applications. After defining the speech recognition subsets and task, several baselines - including classic HMM-DNN hybrid and end-to-end approaches augmented by cross-language transfer learning - are developed using open-source toolkits. The best results obtained are based on multilingual self-supervised pretraining, achieving a 45% recognition error rate reduction as compared to the classical approach - without the application of an external language model or additional supervised data. The results show the feasibility of using BEA-Base for training and evaluation of Hungarian speech recognition systems.
翻訳日:2022-02-02 13:51:06 公開日:2022-02-01
# 言葉と関係表現の理論的理解に向けて

Towards a Theoretical Understanding of Word and Relation Representation ( http://arxiv.org/abs/2202.00486v1 )

ライセンス: Link先を確認
Carl Allen(参考訳) ベクトルまたは埋め込みによる単語の表現は、計算推論を可能にし、自然言語タスクの自動化の基礎となる。 例えば、類似した単語の単語埋め込みが類似した値を含む場合、単語の類似度は容易に評価できるが、その綴りからはしばしば不可能(例えば猫/ネコ)であり、すべての単語間の類似度をあらかじめ判断し保存することは、時間的消費、記憶集約的、主観的である。 テキストコーパスと知識グラフから学習した単語埋め込みに注目した。 いくつかのよく知られたアルゴリズムは、word2vecやgloveなど、各単語の周囲で発生する単語を予測することによって、教師なしのテキストから単語埋め込みを学習する。 このような単語埋め込みのパラメータは単語共起統計を反映していることが知られているが、意味的意味の捉え方は不明確である。 知識グラフ表現モデルは、エンティティ(単語、人、場所など)とそれらの関係の両方の表現を学習する。 実際の予測精度は着実に改善されているものの、これを可能にする潜在構造についてはほとんど理解されていない。 潜在意味構造が単語埋め込みや知識グラフ表現の幾何学にどのようにエンコードされているかの限定的な理解は、その性能、信頼性、解釈性を改善する原則的な手段である。 1) 単語2vecやGloVeのようなアルゴリズムによって学習された単語埋め込み間の特定の幾何学的関係が単語間の意味的関係に対応するという経験的観察を理論的に正当化し、2) 意味論と幾何学的対応を知識グラフの実体と関係に拡張し、単語埋め込みと関連する知識グラフ表現の潜在構造モデルを提供する。

Representing words by vectors, or embeddings, enables computational reasoning and is foundational to automating natural language tasks. For example, if word embeddings of similar words contain similar values, word similarity can be readily assessed, whereas judging that from their spelling is often impossible (e.g. cat /feline) and to predetermine and store similarities between all words is prohibitively time-consuming, memory intensive and subjective. We focus on word embeddings learned from text corpora and knowledge graphs. Several well-known algorithms learn word embeddings from text on an unsupervised basis by learning to predict those words that occur around each word, e.g. word2vec and GloVe. Parameters of such word embeddings are known to reflect word co-occurrence statistics, but how they capture semantic meaning has been unclear. Knowledge graph representation models learn representations both of entities (words, people, places, etc.) and relations between them, typically by training a model to predict known facts in a supervised manner. Despite steady improvements in fact prediction accuracy, little is understood of the latent structure that enables this. The limited understanding of how latent semantic structure is encoded in the geometry of word embeddings and knowledge graph representations makes a principled means of improving their performance, reliability or interpretability unclear. To address this: 1. we theoretically justify the empirical observation that particular geometric relationships between word embeddings learned by algorithms such as word2vec and GloVe correspond to semantic relations between words; and 2. we extend this correspondence between semantics and geometry to the entities and relations of knowledge graphs, providing a model for the latent structure of knowledge graph representation linked to that of word embeddings.
翻訳日:2022-02-02 13:36:37 公開日:2022-02-01
# 拡散モデルの高速サンプリングのための進行蒸留

Progressive Distillation for Fast Sampling of Diffusion Models ( http://arxiv.org/abs/2202.00512v1 )

ライセンス: Link先を確認
Tim Salimans and Jonathan Ho(参考訳) 拡散モデルは最近、生成モデル、知覚的品質におけるGAN、密度推定における自己回帰モデルに優れることを示す。 高品質なサンプルを生成するには、数百から数千のモデル評価が必要になります。 まず、少数のサンプリングステップを使用する場合の安定性を高める拡散モデルの新しいパラメータ化を提案する。 第2に,訓練された決定論的拡散サンプラーを,多くのステップを用いて,サンプリングステップの半分を要する新しい拡散モデルに蒸留する方法を提案する。 そして、この蒸留手順を段階的にモデルに適用し、必要なサンプリングステップの数を毎回半減させます。 cifar-10、imagenet、lsunのような標準的な画像生成ベンチマークでは、最先端のサンプラーは最大8192ステップを踏んでおり、知覚的品質を損なうことなく、最大4ステップのモデルに蒸留することができる。 最後に,完全プログレッシブ蒸留法が元のモデルを訓練するのに要する時間よりも長くはかからないことを示した。

Diffusion models have recently shown great promise for generative modeling, outperforming GANs on perceptual quality and autoregressive models at density estimation. A remaining downside is their slow sampling time: generating high quality samples takes many hundreds or thousands of model evaluations. Here we make two contributions to help eliminate this downside: First, we present new parameterizations of diffusion models that provide increased stability when using few sampling steps. Second, we present a method to distill a trained deterministic diffusion sampler, using many steps, into a new diffusion model that takes half as many sampling steps. We then keep progressively applying this distillation procedure to our model, halving the number of required sampling steps each time. On standard image generation benchmarks like CIFAR-10, ImageNet, and LSUN, we start out with state-of-the-art samplers taking as many as 8192 steps, and are able to distill down to models taking as few as 4 steps without losing much perceptual quality; achieving, for example, a FID of 3.0 on CIFAR-10 in 4 steps. Finally, we show that the full progressive distillation procedure does not take more time than it takes to train the original model, thus representing an efficient solution for generative modeling using diffusion at both train and test time.
翻訳日:2022-02-02 13:35:41 公開日:2022-02-01
# シーケンス決定のためのメタ学習仮説空間

Meta-Learning Hypothesis Spaces for Sequential Decision-making ( http://arxiv.org/abs/2202.00602v1 )

ライセンス: Link先を確認
Parnian Kassraie, Jonas Rothfuss, Andreas Krause(参考訳) 予測関数(仮説)に対する信頼性が高く適応的な信頼セットを得ることは、バンディットやモデルベースの強化学習のような逐次的な意思決定タスクにおいて中心的な課題である。 これらの信頼集合は通常、仮説空間(例えば、再生ケルネルヒルベルト空間(RKHS)の既知の核)に先行仮定に依存する。 このようなカーネルのハンドデザインはエラーを起こしやすく、誤特定は性能の低下や安全性の低下につながる可能性がある。 本研究では,オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。 未知のカーネルが既知のベースカーネルの組み合わせである場合、構造的空間性に基づく推定器を開発する。 穏やかな条件下では、推定されたRKHSが正当性を持つことを保証し、オフラインデータの量が増加するにつれて、真の未知のカーネルが与えられたものと同じくらい厳密になる。 我々は、カーネル化された帯域幅問題(すなわちベイズ最適化)に対する我々のアプローチを実証し、真のカーネルが与えられたものと競合する後悔境界を確立する。 また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。

Obtaining reliable, adaptive confidence sets for prediction functions (hypotheses) is a central challenge in sequential decision-making tasks, such as bandits and model-based reinforcement learning. These confidence sets typically rely on prior assumptions on the hypothesis space, e.g., the known kernel of a Reproducing Kernel Hilbert Space (RKHS). Hand-designing such kernels is error prone, and misspecification may lead to poor or unsafe performance. In this work, we propose to meta-learn a kernel from offline data (Meta-KeL). For the case where the unknown kernel is a combination of known base kernels, we develop an estimator based on structured sparsity. Under mild conditions, we guarantee that our estimated RKHS yields valid confidence sets that, with increasing amounts of offline data, become as tight as those given the true unknown kernel. We demonstrate our approach on the kernelized bandit problem (a.k.a.~Bayesian optimization), where we establish regret bounds competitive with those given the true kernel. We also empirically evaluate the effectiveness of our approach on a Bayesian optimization task.
翻訳日:2022-02-02 13:35:17 公開日:2022-02-01
# データモデル:トレーニングデータから予測予測

Datamodels: Predicting Predictions from Training Data ( http://arxiv.org/abs/2202.00622v1 )

ライセンス: Link先を確認
Andrew Ilyas, Sung Min Park, Logan Engstrom, Guillaume Leclerc, Aleksander Madry(参考訳) 本稿では、トレーニングデータの観点からモデルクラスの振る舞いを分析するための概念的フレームワークであるdatamodelingを提案する。 固定された"ターゲット"の例の場合、$x$、トレーニングセット$S$、学習アルゴリズムの場合、データモデルはパラメータ化関数 $2^S \to \mathbb{R}$ であり、$S' \subset S$ の任意のサブセットの場合、$S'$ に含まれる例のどれかの情報のみを使用し、$S'$ のモデルトレーニングの結果を予測し、$x$ で評価する。 基礎となるプロセスの潜在的な複雑さ(例えば、ディープニューラルネットワークのエンドツーエンドのトレーニングと評価)にもかかわらず、単純な線形データモデルでさえモデル出力をうまく予測できることが示される。 次に、データモデルは、データセットの反事実の影響を正確に予測し、脆い予測を識別し、セマンティックに類似した例を見つけ、トレイン・テストのリークを定量化し、データをよく理解され機能豊富な表現空間に埋め込み、様々な応用をもたらすことを実証した。 この論文のデータ(事前計算されたデータモデルと400万の訓練されたディープニューラルネットワークの生の予測を含む)はhttps://github.com/M adryLab/datamodels-d ataで公開されている。

We present a conceptual framework, datamodeling, for analyzing the behavior of a model class in terms of the training data. For any fixed "target" example $x$, training set $S$, and learning algorithm, a datamodel is a parameterized function $2^S \to \mathbb{R}$ that for any subset of $S' \subset S$ -- using only information about which examples of $S$ are contained in $S'$ -- predicts the outcome of training a model on $S'$ and evaluating on $x$. Despite the potential complexity of the underlying process being approximated (e.g., end-to-end training and evaluation of deep neural networks), we show that even simple linear datamodels can successfully predict model outputs. We then demonstrate that datamodels give rise to a variety of applications, such as: accurately predicting the effect of dataset counterfactuals; identifying brittle predictions; finding semantically similar examples; quantifying train-test leakage; and embedding data into a well-behaved and feature-rich representation space. Data for this paper (including pre-computed datamodels as well as raw predictions from four million trained deep neural networks) is available at https://github.com/M adryLab/datamodels-d ata .
翻訳日:2022-02-02 13:34:12 公開日:2022-02-01
# Retrieval Augmented Conditional Prompt Tuningを用いた新規制御パラフレーズ生成

Novelty Controlled Paraphrase Generation with Retrieval Augmented Conditional Prompt Tuning ( http://arxiv.org/abs/2202.00535v1 )

ライセンス: Link先を確認
Jishnu Ray Chowdhury, Yong Zhuang, Shuyi Wang(参考訳) パラフレーズ生成は自然言語処理における基本的かつ長年の課題である。 本稿では,(1)大規模事前学習言語モデルによるパラフラーゼ生成をパラメータ効率良く行う手法としてrapt( search augmented prompt tuning)を提案し,(2)難解性条件付きrapt(nc-rapt)を,語彙レベルの異なるパラフラーゼ生成制御のための特殊なプロンプトトークンを用いた簡易なモデル非依存手法として提案する。 提案手法は,4つのデータセットについて広範な実験を行い,テキストのセマンティックな内容を維持しつつ,語彙的新規性を誘導する手法の有効性を実証する。

Paraphrase generation is a fundamental and long-standing task in natural language processing. In this paper, we concentrate on two contributions to the task: (1) we propose Retrieval Augmented Prompt Tuning (RAPT) as a parameter-efficient method to adapt large pre-trained language models for paraphrase generation; (2) we propose Novelty Conditioned RAPT (NC-RAPT) as a simple model-agnostic method of using specialized prompt tokens for controlled paraphrase generation with varying levels of lexical novelty. By conducting extensive experiments on four datasets, we demonstrate the effectiveness of the proposed approaches for retaining the semantic content of the original text while inducing lexical novelty in the generation.
翻訳日:2022-02-02 13:33:16 公開日:2022-02-01
# 自然言語生成のための典型的復号

Typical Decoding for Natural Language Generation ( http://arxiv.org/abs/2202.00666v1 )

ライセンス: Link先を確認
Clara Meister, Tiago Pimentel, Gian Wiher, Ryan Cotterell(参考訳) 無限の自然言語コーパスにおいて驚くほど低い難易度を達成しているにもかかわらず、今日の言語モデルは、テキストを生成するときにしばしば性能が劣っている。 この二分法がここ数年、言語生成コミュニティを混乱させてきた。 本稿では,コミュニケーションチャネルとしての自然言語の抽象化(1948年)が,確率的言語生成器の振る舞い,例えば高確率テキストが退屈あるいは反復的である理由について,新たな洞察を与えることができると仮定する。 人間は、情報を伝達する手段として言語を使用し、効率的かつ誤りを最小化する方法で、この目的を念頭に置いて、文字列中の各単語を選択する。 確率モデルからの生成はこの振る舞いを模倣すべきである。 低シャノン情報コンテンツを有する分布の高確率領域から常に単語を選択するのではなく、我々は、その期待値に近い情報内容を持つ単語の集合から、すなわち、モデルの条件エントロピーに近い単語をサンプリングした。 この決定基準は、典型的なサンプリングと呼ばれる単純で効率的な実装によって実現できる。 自動的および人為的評価は、核とトップkサンプリングと比較して、典型的なサンプリングは品質の点で競争性能を提供し、縮退繰り返しの回数を一貫して減少させることを示している。

Despite achieving incredibly low perplexities on myriad natural language corpora, today's language models still often underperform when used to generate text. This dichotomy has puzzled the language generation community for the last few years. In this work, we posit that the abstraction of natural language as a communication channel (\`a la Shannon, 1948) can provide new insights into the behaviors of probabilistic language generators, e.g., why high-probability texts can be dull or repetitive. Humans use language as a means of communicating information, and do so in an efficient yet error-minimizing manner, choosing each word in a string with this (perhaps subconscious) goal in mind. We propose that generation from probabilistic models should mimic this behavior. Rather than always choosing words from the high-probability region of the distribution--which have a low Shannon information content--we sample from the set of words with an information content close to its expected value, i.e., close to the conditional entropy of our model. This decision criterion can be realized through a simple and efficient implementation, which we call typical sampling. Automatic and human evaluations show that, in comparison to nucleus and top-k sampling, typical sampling offers competitive performance in terms of quality while consistently reducing the number of degenerate repetitions.
翻訳日:2022-02-02 13:32:58 公開日:2022-02-01
# セマンティクスセグメンテーションのための拡張連続確率場

Dilated Continuous Random Field for Semantic Segmentation ( http://arxiv.org/abs/2202.00162v1 )

ライセンス: Link先を確認
Xi Mo, Xiangyu Chen, Cuncong Zhong, Rui Li, Kaidong Li, Usman Sajid(参考訳) 平均場近似法は、セマンティックセグメンテーションの洗練のための現代連続ランダム場(CRF)ベースのソリューションの基礎を築いた。 本稿では,各ノードのエネルギー項を確率的グラフィカルモデルから最小化し,拡張スパース畳み込みモジュール(DSConv)を用いた大域的最適化により,平均場近似の制約を緩和することを提案する。 さらに、完全連結層の置換として、適応的グローバル平均プールと適応的グローバル最大プールを実装した。 DSConvを統合するために、我々はエンドツーエンドで時間効率の良いDilatedCRFパイプラインを設計する。 一元的エネルギー項は、プレソフトマックスとポストソフトマックスの特徴、または従来の分類器を用いた予測割当マップから派生しており、様々な分類器にDilatedCRFを実装するのが容易である。 また,他のCRF法と比較して,吸入データセットに対する提案手法の優れた実験結果を示す。

Mean field approximation methodology has laid the foundation of modern Continuous Random Field (CRF) based solutions for the refinement of semantic segmentation. In this paper, we propose to relax the hard constraint of mean field approximation - minimizing the energy term of each node from probabilistic graphical model, by a global optimization with the proposed dilated sparse convolution module (DSConv). In addition, adaptive global average-pooling and adaptive global max-pooling are implemented as replacements of fully connected layers. In order to integrate DSConv, we design an end-to-end, time-efficient DilatedCRF pipeline. The unary energy term is derived either from pre-softmax and post-softmax features, or the predicted affordance map using a conventional classifier, making it easier to implement DilatedCRF for varieties of classifiers. We also present superior experimental results of proposed approach on the suction dataset comparing to other CRF-based approaches.
翻訳日:2022-02-02 13:32:34 公開日:2022-02-01
# トランスフォーマーを用いた自然言語からコードへの変換

Natural Language to Code Using Transformers ( http://arxiv.org/abs/2202.00367v1 )

ライセンス: Link先を確認
Uday Kusupati and Venkata Ravi Teja Ailavarapu(参考訳) 我々は、CoNaLaデータセットを用いて自然言語記述からコードスニペットを生成する問題に取り組む。 自己アテンションに基づくトランスフォーマアーキテクチャを用いて,リカレント注意型エンコーダデコーダよりも優れた性能を示す。 さらに,バックエンド翻訳の修正形式を開発し,モデルのエンドツーエンドなトレーニングに一貫したサイクルの損失を使用する。 BLEUスコアは16.99で、これまでに報告されたCoNaLaチャレンジのベースラインを上回ります。

We tackle the problem of generating code snippets from natural language descriptions using the CoNaLa dataset. We use the self-attention based transformer architecture and show that it performs better than recurrent attention-based encoder decoder. Furthermore, we develop a modified form of back translation and use cycle consistent losses to train the model in an end-to-end fashion. We achieve a BLEU score of 16.99 beating the previously reported baseline of the CoNaLa challenge.
翻訳日:2022-02-02 13:32:05 公開日:2022-02-01
# 機械翻訳のための言語モデルアーキテクチャのスケーリングと転送の検討

Examining Scaling and Transfer of Language Model Architectures for Machine Translation ( http://arxiv.org/abs/2202.00528v1 )

ライセンス: Link先を確認
Biao Zhang, Behrooz Ghorbani, Ankur Bapna, Yong Cheng, Xavier Garcia, Jonathan Shen, Orhan Firat(参考訳) 自然言語の理解と生成モデルは、2つの主要なアーキテクチャパラダイムの1つである: 言語モデル(LM)は1つのレイヤで連結シーケンスを処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。 機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。 本研究では,多言語・多言語・ゼロショット翻訳タスクにおけるLMの性能に対するアーキテクチャ設計選択の役割を,データ条件とモデルサイズを体系的に変化させることで,徹底的に検討する。 結果はこう示しています (i)異なるLMは異なるスケーリング特性を持ち、アーキテクチャの違いは小さなスケールでのモデル性能に大きな影響を与えることが多いが、パラメータの数が増えるにつれて性能差は狭まる。 (二 ソースシーケンスの因果マスキング及び言語モデル目的を含むいくつかの設計選択が翻訳品質に有害な影響を及ぼすこと。) 三 ソースシーケンスのフル可視マスキングと組み合わせたときは、教師付きバイリンガルおよび多言語翻訳タスクにおいてEncDecと同等に動作し、オフターゲット翻訳の削減を容易にし、ゼロショット方向を大幅に改善することができる。

Natural language understanding and generation models follow one of the two dominant architectural paradigms: language models (LMs) that process concatenated sequences in a single stack of layers, and encoder-decoder models (EncDec) that utilize separate layer stacks for input and output processing. In machine translation, EncDec has long been the favoured approach, but with few studies investigating the performance of LMs. In this work, we thoroughly examine the role of several architectural design choices on the performance of LMs on bilingual, (massively) multilingual and zero-shot translation tasks, under systematic variations of data conditions and model sizes. Our results show that: (i) Different LMs have different scaling properties, where architectural differences often have a significant impact on model performance at small scales, but the performance gap narrows as the number of parameters increases, (ii) Several design choices, including causal masking and language-modeling objectives for the source sequence, have detrimental effects on translation quality, and (iii) When paired with full-visible masking for source sequences, LMs could perform on par with EncDec on supervised bilingual and multilingual translation tasks, and improve greatly on zero-shot directions by facilitating the reduction of off-target translations.
翻訳日:2022-02-02 13:31:56 公開日:2022-02-01
# 継続的学習における建築問題

Architecture Matters in Continual Learning ( http://arxiv.org/abs/2202.00275v1 )

ライセンス: Link先を確認
Seyed Iman Mirzadeh, Arslan Chaudhry, Dong Yin, Timothy Nguyen, Razvan Pascanu, Dilan Gorur, Mehrdad Farajtabar(参考訳) 連続学習における大規模な研究は、分散シフトにロバストな新しいアルゴリズムを設計することによって、ニューラルネットワークの破滅的な忘れを克服することに注力している。 しかしながら、これらの研究の大部分は、"固定されたニューラルネットワークアーキテクチャ"に対する継続的学習の"アルゴリズム"部分に厳密に焦点を合わせており、異なるアーキテクチャを使用することによる影響はほとんど無視されている。 モデルを変更する数少ない既存の連続学習方法でさえも、固定されたアーキテクチャを仮定し、学習経験を通してモデルを効率的に利用するアルゴリズムの開発を目指している。 しかし,本研究では,アーキテクチャの選択が連続的な学習性能に大きく影響することを示し,異なるアーキテクチャが過去のタスクを記憶する能力と新しいタスクを学習する能力のトレードオフを生じさせる。 さらに, 各種アーキテクチャ決定の影響について検討し, 継続的な学習性能を向上させるためのベストプラクティスと勧告について検討した。

A large body of research in continual learning is devoted to overcoming the catastrophic forgetting of neural networks by designing new algorithms that are robust to the distribution shifts. However, the majority of these works are strictly focused on the "algorithmic" part of continual learning for a "fixed neural network architecture", and the implications of using different architectures are mostly neglected. Even the few existing continual learning methods that modify the model assume a fixed architecture and aim to develop an algorithm that efficiently uses the model throughout the learning experience. However, in this work, we show that the choice of architecture can significantly impact the continual learning performance, and different architectures lead to different trade-offs between the ability to remember previous tasks and learning new ones. Moreover, we study the impact of various architectural decisions, and our findings entail best practices and recommendations that can improve the continual learning performance.
翻訳日:2022-02-02 13:28:57 公開日:2022-02-01
# (参考訳) グラフ畳み込みネットワークの過平滑化効果 [全文訳有]

Over-smoothing Effect of Graph Convolutional Networks ( http://arxiv.org/abs/2201.12830v2 )

ライセンス: CC BY-SA 4.0
Fang Sun(参考訳) オーバースムーシングはグラフ畳み込みネットワークの深さを制限する深刻な問題である。 本稿では,グラフ畳み込みネットワークの背後にあるメカニズムとオーバースムーシング効果の包括的解析を行う。 この記事では、オーバースムーシングの背後にある重要な要因についての洞察を提供する、オーバースムーシングの発生の上限を提案する。 本稿では,過度なスムーシングを緩和するアルゴリズムの実現可能性について述べる。

Over-smoothing is a severe problem which limits the depth of Graph Convolutional Networks. This article gives a comprehensive analysis of the mechanism behind Graph Convolutional Networks and the over-smoothing effect. The article proposes an upper bound for the occurrence of over-smoothing, which offers insight into the key factors behind over-smoothing. The results presented in this article successfully explain the feasibility of several algorithms that alleviate over-smoothing.
翻訳日:2022-02-02 12:24:35 公開日:2022-02-01
# 大きな線形層によるメモリ効率のよいバックプロパゲーション

Memory-Efficient Backpropagation through Large Linear Layers ( http://arxiv.org/abs/2201.13195v2 )

ライセンス: Link先を確認
Daniel Bershatsky, Aleksandr Mikhalev, Alexandr Katrutsa, Julia Gusak, Daniil Merkulov and Ivan Oseledets(参考訳) Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。 本研究では,線形層を介してバックプロパゲーションを行うためのメモリ削減手法を提案する。 線形層の勾配は行列の乗算によって計算されるため、ランダム化行列の乗算の手法を検討し、テスト精度を緩やかに低下させることなく、少ないメモリを必要とすることを示す。 また,ランダム化行列の乗算によって引き起こされる勾配推定のばらつきについて検討する。 このばらつきを,サンプルのバッチに基づく勾配推定から得られるばらつきと比較する。 GLUEタスク上で事前学習したRoBERTaモデルの微調整における提案手法の利点を示す。

In modern neural networks like Transformers, linear layers require significant memory to store activations during backward pass. This study proposes a memory reduction approach to perform backpropagation through linear layers. Since the gradients of linear layers are computed by matrix multiplications, we consider methods for randomized matrix multiplications and demonstrate that they require less memory with a moderate decrease of the test accuracy. Also, we investigate the variance of the gradient estimate induced by the randomized matrix multiplication. We compare this variance with the variance coming from gradient estimation based on the batch of samples. We demonstrate the benefits of the proposed method on the fine-tuning of the pre-trained RoBERTa model on GLUE tasks.
翻訳日:2022-02-02 12:17:13 公開日:2022-02-01
# 回転物体検出のためのKFIoU損失

The KFIoU Loss for Rotated Object Detection ( http://arxiv.org/abs/2201.12558v2 )

ライセンス: Link先を確認
Xue Yang, Yue Zhou, Gefan Zhang, Jirui Yang, Wentao Wang, Junchi Yan, Xiaopeng Zhang, Qi Tian(参考訳) コンピュータフレンドリーなIoUベースの損失が容易に採用され,検出基準に適合する,高度に発達した水平物体検出領域から逸脱する。 対照的に、回転検出器は勾配に基づく訓練に不都合なSkewIoUに基づくより複雑な損失を伴うことが多い。 本稿では,厳密な価値水準の同一性ではなく,スキューiouの損失とトレンドレベルの整合を実現できる近似的損失を考案する有効な方法の1つを論じる。 具体的には、対象をガウス分布としてモデル化し、カルマンフィルタを用いてSkewIoUのメカニズムを本質的に模倣し、トレンドレベルでSkewIoUとの整合を示す。 これは、最近のガウスモデルに基づく回転検出器、例えば、超パラメータチューニングを必要とする人間の特定分布距離メトリックを含むkldとは対照的である。 KFIoUと呼ばれる新たな損失は実装が簡単で、重複しないケースをフルに識別できるため、正確なSkewIoUよりもうまく動作する。 さらに,この手法を2次元検出と同じ問題に直面する3次元ケースにも拡張した。 2-d/3-d,air aerial/text/face image) とベース検出器の異なる各種公開データセットの詳細な結果は,本手法の有効性を示している。

Differing from the well-developed horizontal object detection area whereby the computing-friendly IoU based loss is readily adopted and well fits with the detection metrics. In contrast, rotation detectors often involve a more complicated loss based on SkewIoU which is unfriendly to gradient-based training. In this paper, we argue that one effective alternative is to devise an approximate loss who can achieve trend-level alignment with SkewIoU loss instead of the strict value-level identity. Specifically, we model the objects as Gaussian distribution and adopt Kalman filter to inherently mimic the mechanism of SkewIoU by its definition, and show its alignment with the SkewIoU at trend-level. This is in contrast to recent Gaussian modeling based rotation detectors e.g. GWD, KLD that involves a human-specified distribution distance metric which requires additional hyperparameter tuning. The resulting new loss called KFIoU is easier to implement and works better compared with exact SkewIoU, thanks to its full differentiability and ability to handle the non-overlapping cases. We further extend our technique to the 3-D case which also suffers from the same issues as 2-D detection. Extensive results on various public datasets (2-D/3-D, aerial/text/face images) with different base detectors show the effectiveness of our approach.
翻訳日:2022-02-02 12:17:03 公開日:2022-02-01
# セマンティックセグメンテーションのための自己半教師型ニューラルネットワーク探索

Self Semi Supervised Neural Architecture Search for Semantic Segmentation ( http://arxiv.org/abs/2201.12646v2 )

ライセンス: Link先を確認
Lo\"ic Pauletto and Massih-Reza Amini and Nicolas Winckler(参考訳) 本稿では,セマンティックセグメンテーションタスクのための自己管理と半教師付き学習に基づくニューラルアーキテクチャ探索戦略を提案する。 提案手法は,未ラベル学習データ上で自己教師付き学習によって発見されたジグソー述語タスクを共同で解き,未ラベルデータの構造を半教師付き学習で活用することにより,このタスクに最適化されたニューラルネットワーク(NN)モデルを構築する。 NNモデルのアーキテクチャの探索は勾配降下アルゴリズムを用いて動的ルーティングによって行われる。 CityscapesとPASCAL VOC 2012データセットの実験では、発見されたニューラルネットワークは、浮動小数点演算の4倍少ない最先端の手作りNNモデルよりも効率的であることが示されている。

In this paper, we propose a Neural Architecture Search strategy based on self supervision and semi-supervised learning for the task of semantic segmentation. Our approach builds an optimized neural network (NN) model for this task by jointly solving a jigsaw pretext task discovered with self-supervised learning over unlabeled training data, and, exploiting the structure of the unlabeled data with semi-supervised learning. The search of the architecture of the NN model is performed by dynamic routing using a gradient descent algorithm. Experiments on the Cityscapes and PASCAL VOC 2012 datasets demonstrate that the discovered neural network is more efficient than a state-of-the-art hand-crafted NN model with four times less floating operations.
翻訳日:2022-02-02 12:16:42 公開日:2022-02-01
# マルチエージェント制御への後悔最小化アプローチ

A Regret Minimization Approach to Multi-Agent Control ( http://arxiv.org/abs/2201.13288v2 )

ライセンス: Link先を確認
Udaya Ghai, Udari Madhushani, Naomi Leonard, Elad Hazan(参考訳) 本研究では,動的システムのマルチエージェント制御の問題点について考察する。 本研究は,中央集権的な事前計算を行なわない最適制御に焦点をあて,安定化制御のみを備えた異なるエージェントに対する適応制御ポリシーを提案する。 我々は、任意の(標準的な)後悔の少ない制御方法を分散アルゴリズムに還元する。 この削減により、得られた分散アルゴリズムは、最適な事前計算された共同ポリシに対して、後悔の少ないことが保証される。 提案手法は,オンライン凸最適化をマルチエージェント設定に一般化し,非定型制御からの最近のツールを適用することを含む。 本手法は過度に作動する航空機のモデルを用いて実験的に評価する。 分散手法は, 障害に対して頑健であり, ダイナミックスにおける逆摂動に対して頑健であることを示す。

We study the problem of multi-agent control of a dynamical system with known dynamics and adversarial disturbances. Our study focuses on optimal control without centralized precomputed policies, but rather with adaptive control policies for the different agents that are only equipped with a stabilizing controller. We give a reduction from any (standard) regret minimizing control method to a distributed algorithm. The reduction guarantees that the resulting distributed algorithm has low regret relative to the optimal precomputed joint policy. Our methodology involves generalizing online convex optimization to a multi-agent setting and applying recent tools from nonstochastic control derived for a single agent. We empirically evaluate our method on a model of an overactuated aircraft. We show that the distributed method is robust to failure and to adversarial perturbations in the dynamics.
翻訳日:2022-02-02 12:16:29 公開日:2022-02-01
# GARNET:ロバストでスケーラブルなグラフニューラルネットワークのための低ランクトポロジー学習

GARNET: Reduced-Rank Topology Learning for Robust and Scalable Graph Neural Networks ( http://arxiv.org/abs/2201.12741v2 )

ライセンス: Link先を確認
Chenhui Deng, Xiuyu Li, Zhuo Feng, Zhiru Zhang(参考訳) グラフニューラルネットワーク(GNN)は、非ユークリッドデータでの学習を含むさまざまなアプリケーションにますます導入されている。 しかし、近年の研究では、GNNはグラフ敵攻撃に弱いことが示されている。 敵成分を除去することでGNNの堅牢性を改善するための防御手法はいくつか存在するが、GNNトレーニングに寄与する基礎となるクリーングラフ構造を損なう可能性もある。 加えて、計算の複雑さとメモリ使用量が高いため、大規模なグラフにスケールできる防衛モデルはほとんどない。 本稿では,GNNモデルの対角的ロバスト性を高めるため,スケーラブルなスペクトル法であるGARNETを提案する。 GARNETはまず、重み付きスペクトル埋め込みを利用してベースグラフを構築する。 次に、GARNETは確率的グラフィカルモデルに基づいて、追加の非クリティカルエッジをプルーニングすることで、ベースグラフをさらに洗練する。 GARNETは、数百万のノードを持つ大きなグラフを含む、さまざまなデータセットで評価されている。 GARNETは,最先端のGNNモデルに対して,それぞれ最大13.27%,14.7倍の精度向上と実行速度向上を実現している。

Graph neural networks (GNNs) have been increasingly deployed in various applications that involve learning on non-Euclidean data. However, recent studies show that GNNs are vulnerable to graph adversarial attacks. Although there are several defense methods to improve GNN robustness by eliminating adversarial components, they may also impair the underlying clean graph structure that contributes to GNN training. In addition, few of those defense models can scale to large graphs due to their high computational complexity and memory usage. In this paper, we propose GARNET, a scalable spectral method to boost the adversarial robustness of GNN models. GARNET first leverages weighted spectral embedding to construct a base graph, which is not only resistant to adversarial attacks but also contains critical (clean) graph structure for GNN training. Next, GARNET further refines the base graph by pruning additional uncritical edges based on probabilistic graphical model. GARNET has been evaluated on various datasets, including a large graph with millions of nodes. Our extensive experiment results show that GARNET achieves adversarial accuracy improvement and runtime speedup over state-of-the-art GNN (defense) models by up to 13.27% and 14.7x, respectively.
翻訳日:2022-02-02 12:16:16 公開日:2022-02-01
# 物理インフォームドニューラルネットワークによる複数の電気解剖学的マップからの心臓線維配向の学習

Physics-informed neural networks to learn cardiac fiber orientation from multiple electroanatomical maps ( http://arxiv.org/abs/2201.12362v2 )

ライセンス: Link先を確認
Carlos Ruiz Herrera, Thomas Grandits, Gernot Plank, Paris Perdikaris, Francisco Sahli Costabal and Simone Pezzuto(参考訳) 本研究では, 複数のカテーテル記録からヒト心房の心線維構造をin-vivoで推定するfibernetを提案する。 心臓線維は心臓の電気機械機能において中心的な役割を担っているが、生体内決定が困難であり、それゆえ、既存の心臓モデルにおいて真に患者特異的であることは稀である。 逆問題は、スパース活性化マップの集合から心臓伝播モデルの伝導速度テンソルを特定することである。 局所繊維角を含む伝導速度テンソルの全ての成分を同時に同定し, 合成2次元および3次元例, 拡散テンソル繊維, 患者特有の場合についてfibernetを広範囲にテストした。 3つの地図は繊維を正確に捉えるのに十分であり、ノイズの予測にも十分であることを示す。 地図が少なければ、正規化の役割は顕著になる。 さらに, 適応モデルにより, 目に見えないアクティベーションマップを頑健に再現できることを示す。 FiberNetはパーソナライズされた医療のための患者固有のモデルを作成するのに役立つことを期待しています。

We propose FiberNet, a method to estimate in-vivo the cardiac fiber architecture of the human atria from multiple catheter recordings of the electrical activation. Cardiac fibers play a central rolein the electro-mechanical function of the heart, yet they aredifficult to determine in-vivo, and hence rarely truly patient-specificin existing cardiac models.FiberNet learns the fibers arrangement by solvingan inverse problem with physics-informed neural networks. The inverse problem amounts to identifyingthe conduction velocity tensor of a cardiac propagation modelfrom a set of sparse activation maps. The use of multiple mapsenables the simultaneous identification of all the componentsof the conduction velocity tensor, including the local fiber angle.We extensively test FiberNet on synthetic 2-D and 3-D examples, diffusion tensor fibers, and a patient-specific case. We show that 3 maps are sufficient to accurately capture the fibers, also in thepresence of noise. With fewer maps, the role of regularization becomesprominent. Moreover, we show that the fitted model can robustlyreproduce unseen activation maps. We envision that FiberNet will help the creation of patient-specific models for personalized medicine.The full code is available at http://github.com/fs ahli/FiberNet.
翻訳日:2022-02-02 12:15:59 公開日:2022-02-01
# 探索の克服:時間論理の仕様から複雑な環境での深層強化学習

Overcoming Exploration: Deep Reinforcement Learning in Complex Environments from Temporal Logic Specifications ( http://arxiv.org/abs/2201.12231v2 )

ライセンス: Link先を確認
Mingyu Cai, Erfan Aasi, Calin Belta, Cristian-Ioan Vasile(参考訳) 大規模複雑な環境に展開する未知の連続時間ダイナミクスを持つタスク誘導型ロボットに対して,深層強化学習(drl)アルゴリズムを提案する。 リニア時間論理(LTL)は、リッチなロボット仕様を表現するために用いられる。 環境問題に対処するため,我々は,未知のロボット力学により計算された幾何学的経路が実現不可能な状態空間に密接な経路計画誘導型報酬スキームを提案する。 提案手法は,LTLミッションを分散DRLを用いて解いたサブタスクに分解し,そのサブタスクをDeep Policy Gradientアルゴリズムを用いて並列にトレーニングする。 本フレームワークは,大規模複雑な環境下での複雑なミッションをこなすロボットの性能(有効性,効率)を著しく向上させる。

We present a Deep Reinforcement Learning (DRL) algorithm for a task-guided robot with unknown continuous-time dynamics deployed in a large-scale complex environment. Linear Temporal Logic (LTL) is applied to express a rich robotic specification. To overcome the environmental challenge, we propose a novel path planning-guided reward scheme that is dense over the state space, and crucially, robust to infeasibility of computed geometric paths due to the unknown robot dynamics. To facilitate LTL satisfaction, our approach decomposes the LTL mission into sub-tasks that are solved using distributed DRL, where the sub-tasks are trained in parallel, using Deep Policy Gradient algorithms. Our framework is shown to significantly improve performance (effectiveness, efficiency) and exploration of robots tasked with complex missions in large-scale complex environments.
翻訳日:2022-02-02 12:15:40 公開日:2022-02-01