このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211029となっている論文です。

PDF登録状況(公開日: 20211029)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) トレーサブルな数学的推論に向けて : 数学語問題解決への挑戦,戦略,機会 [全文訳有]

Towards Tractable Mathematical Reasoning: Challenges, Strategies, and Opportunities for Solving Math Word Problems ( http://arxiv.org/abs/2111.05364v1 )

ライセンス: CC BY-SA 4.0
Keyur Faldu, Amit Sheth, Prashant Kikani, Manas Gaur, Aditi Avasthi(参考訳) 数学的推論は、人工知能が大きな進歩を遂げる次のフロンティアの1つである。 数学語問題(MWP)を解き、より良い数学的推論能力を達成するために進行中の急上昇は、今後の研究の鍵となるものとなるだろう。 自然言語を用いた数学単語問題の解法として,非神経的・神経的手法を検証した。 また,これらの手法が一般化可能であり,数学的に合理的であり,解釈可能であり,説明可能であることも強調する。 本稿では,mwpの解法として,(1)直接解答生成,(2)推論のための表現木生成,(3)解答計算のためのテンプレート検索の3つの手法に注目した。 さらに,技術アプローチを議論し,mwpを解くための直感的設計選択の進化をレビューし,数学的推論能力について検討する。 MWPの解決には,外部知識と知識注入学習の必要性を保証できるいくつかのギャップがある。

Mathematical reasoning would be one of the next frontiers for artificial intelligence to make significant progress. The ongoing surge to solve math word problems (MWPs) and hence achieve better mathematical reasoning ability would continue to be a key line of research in the coming time. We inspect non-neural and neural methods to solve math word problems narrated in a natural language. We also highlight the ability of these methods to be generalizable, mathematically reasonable, interpretable, and explainable. Neural approaches dominate the current state of the art, and we survey them highlighting three strategies to MWP solving: (1) direct answer generation, (2) expression tree generation for inferring answers, and (3) template retrieval for answer computation. Moreover, we discuss technological approaches, review the evolution of intuitive design choices to solve MWPs, and examine them for mathematical reasoning ability. We finally identify several gaps that warrant the need for external knowledge and knowledge-infused learning, among several other opportunities in solving MWPs.
翻訳日:2021-11-14 16:31:15 公開日:2021-10-29
# (参考訳) AIに基づく言語学習ツールのシステムレビュー [全文訳有]

Systematic Review for AI-based Language Learning Tools ( http://arxiv.org/abs/2111.04455v1 )

ライセンス: CC BY-SA 4.0
Jin Ha Woo, Heeyoul Choi(参考訳) 第2言語習得分野は、個別化学習と人工知能(AI)の急速な発展に重点が置かれている。 コンピュータ支援言語学習分野へのaiの適用により,適応型言語学習ツールの開発が進んでいるが,不十分な情報や教師準備が懸念されている。 これらのツールを効果的に活用するには、最近開発されたAIベースの言語学習ツールの詳細な概要が必要である。 そこで、このレビューは2017年から2020年にかけて開発されたAIツールに関する情報を合成した。 これらのツールの大部分は機械学習と自然言語処理を利用しており、エラーを特定し、フィードバックを提供し、言語能力を評価するために使用された。 これらのツールを使用した後、学習者は言語能力と知識の向上を示した。 このレビューは、AIベースの言語学習ツールの将来の研究において、教育的意味と新たなテーマを提示して結論付ける。

The Second Language Acquisition field has been significantly impacted by a greater emphasis on individualized learning and rapid developments in artificial intelligence (AI). Although increasingly adaptive language learning tools are being developed with the application of AI to the Computer Assisted Language Learning field, there have been concerns regarding insufficient information and teacher preparation. To effectively utilize these tools, teachers need an in-depth overview on recently developed AI-based language learning tools. Therefore, this review synthesized information on AI tools that were developed between 2017 and 2020. A majority of these tools utilized machine learning and natural language processing, and were used to identify errors, provide feedback, and assess language abilities. After using these tools, learners demonstrated gains in their language abilities and knowledge. This review concludes by presenting pedagogical implications and emerging themes in the future research of AI-based language learning tools.
翻訳日:2021-11-14 16:12:24 公開日:2021-10-29
# RF-Net: RF対応ワンショット人間活動認識のための統一メタ学習フレームワーク

RF-Net: a Unified Meta-learning Framework for RF-enabled One-shot Human Activity Recognition ( http://arxiv.org/abs/2111.04566v1 )

ライセンス: Link先を確認
Shuya Ding, Zhe Chen, Tianyue Zheng, Jun Luo(参考訳) RF(Radio-Frequency)ベースのデバイスフリーなヒューマンアクティビティ認識(HAR)は、多くのアプリケーションにとって有望なソリューションである。 しかし、デバイスなし(または非接触)センシングは、デバイスベース(またはウェアラブル)センシングよりも環境変化に敏感であることが多い。 また、RFデータセットは、人間の解釈を利用してオフラインラベリングを行う画像やテキストデータコレクションと大きく異なる、収集中のオンラインラベリングを厳密に要求する。 したがって、RF-HARに対する既存のソリューションは、新しい環境に適応するための厳しいデータ収集プロセスを必要とする。 この目的のために,一発のRF-HARに対するメタラーニングに基づくアプローチとしてRF-Netを提案する。 具体的には,まず3つの代表的なRFセンシング手法と2つの主要なメタラーニング手法について検討する。 結果は2つのデザインで 革新する動機を与えます 一 時間及び周波数領域が空間的及び注意に基づく時間的特徴を含む強力なRF特徴を学習することに専念する二重パスベースHARネットワーク 二 残差分類モジュールとともに、rf固有の計量モジュールを含む、ベースネットワークの迅速な適応能力を高めるための計量ベースのメタ学習フレームワーク。 実世界の屋内環境における3つのRFセンシング技術に基づく広範囲な実験を行い, RF-Netの有効性を最先端のベースラインと比較して強く実証した。

Radio-Frequency (RF) based device-free Human Activity Recognition (HAR) rises as a promising solution for many applications. However, device-free (or contactless) sensing is often more sensitive to environment changes than device-based (or wearable) sensing. Also, RF datasets strictly require on-line labeling during collection, starkly different from image and text data collections where human interpretations can be leveraged to perform off-line labeling. Therefore, existing solutions to RF-HAR entail a laborious data collection process for adapting to new environments. To this end, we propose RF-Net as a meta-learning based approach to one-shot RF-HAR; it reduces the labeling efforts for environment adaptation to the minimum level. In particular, we first examine three representative RF sensing techniques and two major meta-learning approaches. The results motivate us to innovate in two designs: i) a dual-path base HAR network, where both time and frequency domains are dedicated to learning powerful RF features including spatial and attention-based temporal ones, and ii) a metric-based meta-learning framework to enhance the fast adaption capability of the base network, including an RF-specific metric module along with a residual classification module. We conduct extensive experiments based on all three RF sensing techniques in multiple real-world indoor environments; all results strongly demonstrate the efficacy of RF-Net compared with state-of-the-art baselines.
翻訳日:2021-11-14 15:27:07 公開日:2021-10-29
# (参考訳) ディープキーフレーズの完成 [全文訳有]

Deep Keyphrase Completion ( http://arxiv.org/abs/2111.01910v1 )

ライセンス: CC BY 4.0
Yu Zhao, Jia Song, Huali Feng, Fuzhen Zhuang, Qing Li, Xiaojie Wang, Ji Liu(参考訳) Keyphraseは、非常にコンパクトで簡潔で意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。 従来の研究はキーフレーズの自動抽出と生成に多大な努力をしてきたが、驚くべきことに \textit{keyphrase completion} (kpc) に関する研究はほとんど行われていない。 KPCは、文書コンテンツと非常に限られた数の既知のキーフレーズを利用して、文書(例えば、科学出版物)のためのより多くのキーフレーズを生成することを目的としており、テキストインデックスシステムの改善などに応用できる。 本稿では,エンコーダデコーダフレームワークを用いた新しいKPC手法を提案する。 DKPC (textit{deep keyphrase completion}) という名前は、ディープラーニングフレームワークを通じて、既知のキーフレーズとともに文書の内容の深い意味をキャプチャしようとするものである。 特に、dkpcのエンコーダとデコーダは、既知のキーフレーズをフル活用するために異なる役割を担っている。 前者は、既知のキーフレーズの情報をコンテキストに集約するキーフレーズ誘導因子を考える。 対照的に、後者はキーフラーゼ阻害因子を意味的に反復されたキーフラーゼ生成を阻害すると考えている。 ベンチマークデータセットの大規模な実験により,提案モデルの有効性が示された。

Keyphrase provides accurate information of document content that is highly compact, concise, full of meanings, and widely used for discourse comprehension, organization, and text retrieval. Though previous studies have made substantial efforts for automated keyphrase extraction and generation, surprisingly, few studies have been made for \textit{keyphrase completion} (KPC). KPC aims to generate more keyphrases for document (e.g. scientific publication) taking advantage of document content along with a very limited number of known keyphrases, which can be applied to improve text indexing system, etc. In this paper, we propose a novel KPC method with an encoder-decoder framework. We name it \textit{deep keyphrase completion} (DKPC) since it attempts to capture the deep semantic meaning of the document content together with known keyphrases via a deep learning framework. Specifically, the encoder and the decoder in DKPC play different roles to make full use of the known keyphrases. The former considers the keyphrase-guiding factors, which aggregates information of known keyphrases into context. On the contrary, the latter considers the keyphrase-inhibited factor to inhibit semantically repeated keyphrase generation. Extensive experiments on benchmark datasets demonstrate the efficacy of our proposed model.
翻訳日:2021-11-07 11:59:12 公開日:2021-10-29
# (参考訳) 正規概念計算のための拡張ビットアレイに基づく新しいアルゴリズム [全文訳有]

A New Algorithm based on Extent Bit-array for Computing Formal Concepts ( http://arxiv.org/abs/2111.00003v1 )

ライセンス: CC BY 4.0
Jianqin Zhou, Sichun Yang, Xifeng Wang and Wanquan Liu(参考訳) データ解析手法としての形式概念解析(FCA)の出現により,形式概念を迅速に計算できるアルゴリズムの開発の必要性が高まっている。 現在のfcaの効率的なアルゴリズムは、in-close2、in-close3、in-close4などのcbo(close-by-one)アルゴリズムの変種である。 本稿では,in-close4アルゴリズムに基づいて,in-close5と呼ばれるコンテキストの垂直記憶に基づく新しいアルゴリズムを提案し,in-close4アルゴリズムの時間的複雑さと空間的複雑さの両方を著しく低減する。 技術的には、新しいアルゴリズムは概念のコンテキストと範囲の両方を垂直ビットアレイとして保存するが、in-close4アルゴリズムではコンテキストは水平ビットアレイとしてのみ保存される。 実験の結果,提案アルゴリズムはin-close4アルゴリズムよりもはるかに有効であること,およびin-close4アルゴリズムでは解決できない問題を解くことができる形式概念の計算における適用範囲が広いことが判明した。

The emergence of Formal Concept Analysis (FCA) as a data analysis technique has increased the need for developing algorithms which can compute formal concepts quickly. The current efficient algorithms for FCA are variants of the Close-By-One (CbO) algorithm, such as In-Close2, In-Close3 and In-Close4, which are all based on horizontal storage of contexts. In this paper, based on algorithm In-Close4, a new algorithm based on the vertical storage of contexts, called In-Close5, is proposed, which can significantly reduce both the time complexity and space complexity of algorithm In-Close4. Technically, the new algorithm stores both context and extent of a concept as a vertical bit-array, while within In-Close4 algorithm the context is stored only as a horizontal bit-array, which is very slow in finding the intersection of two extent sets. Experimental results demonstrate that the proposed algorithm is much more effective than In-Close4 algorithm, and it also has a broader scope of applicability in computing formal concept in which one can solve the problems that cannot be solved by the In-Close4 algorithm.
翻訳日:2021-11-05 05:29:37 公開日:2021-10-29
# (参考訳) 複合概念に基づく顆粒記述 [全文訳有]

Granule Description based on Compound Concepts ( http://arxiv.org/abs/2111.00004v1 )

ライセンス: CC BY 4.0
Jianqin Zhou, Sichun Yang, Xifeng Wang and Wanquan Liu(参考訳) 粒状粒状体に対する簡潔な粒状記述と、相容れない粒状体の記述方法の接近は、粒状計算において困難かつ重要な課題である。 共通属性のみを持つ概念は、しばしば研究されている。 そこで本論文では, 顆粒の特殊性を調べるために, バイポーラ概念と共通・必要概念という2つの新しい概念を提案する。 概念形成操作の定義に基づいて、論理式は形式的概念、三方向的概念、オブジェクト指向的概念、双極的概念、および共通および必要概念の各種類の概念に対して導出される。 さらに, 様々な概念間の論理的な関係を利用して, 記述可能顆粒の簡潔かつ統一的な等価条件を導出し, 5種類の概念すべてに対して記述不能顆粒の記述法に近づいた。

Concise granule descriptions for describable granules and approaching description methods for indescribable granules are challenging and important issues in granular computing. The concept with only common attributes has been frequently studied. To investigate the granules with some special needs, we propose two new types of compound concepts in this paper: bipolar concept and common-and-necessary concept. Based on the definitions of concept-forming operations, the logical formulas are derived for each of the following types of concepts: formal concept, three-way concept, object oriented concept, bipolar concept and common-and-necessary concept. Furthermore, by utilizing the logical relationship among various concepts, we have derived concise and unified equivalent conditions for describable granules and approaching description methods for indescribable granules for all five kinds of concepts.
翻訳日:2021-11-05 05:14:40 公開日:2021-10-29
# (参考訳) 形式概念の長方形理論に基づく概念と属性の削減 [全文訳有]

Concept and Attribute Reduction Based on Rectangle Theory of Formal Concept ( http://arxiv.org/abs/2111.00005v1 )

ライセンス: CC BY 4.0
Jianqin Zhou, Sichun Yang, Xifeng Wang and Wanquan Liu(参考訳) 本稿では,形式的概念と集合被覆理論の長方形理論に基づいて,二元関係を保存する概念還元について検討する。 形式概念には、中核概念、相対的必要概念、不要概念の3種類が存在することが知られている。 まず,比較的必要な概念と不要な概念に対する新たな判断結果を示す。 第二に、相対的必要概念の最大数と不要概念の最大数の両方の限界を導出し、二項関係を保存する概念の縮小や決定形式的文脈の属性の縮小など、形式的概念からの形式的文脈の計算は難しい問題である。 第3に、形式概念の矩形理論に基づいて、複数のコンテキストセルを単一の32ビットまたは64ビット演算子で処理できる拡張ビットアレイ技術を用いて、形式概念の集合の拡張を保存しながら属性を減少させる高速アルゴリズムを提案する。 技術的には、新しいアルゴリズムは、概念の形式的コンテキストと範囲の両方をビットアレイとして格納することができ、ビット演算を使用してセット操作「or」と「and」を処理できる。 もう1つの利点は、新しいアルゴリズムは、概念格子の他の概念を考慮せずに、従って、アルゴリズムは、理解し、高速である。 実験により,新しいアルゴリズムは属性還元の計算に有効であることが示された。

Based on rectangle theory of formal concept and set covering theory, the concept reduction preserving binary relations is investigated in this paper. It is known that there are three types of formal concepts: core concepts, relative necessary concepts and unnecessary concepts. First, we present the new judgment results for relative necessary concepts and unnecessary concepts. Second, we derive the bounds for both the maximum number of relative necessary concepts and the maximum number of unnecessary concepts and it is a difficult problem as either in concept reduction preserving binary relations or attribute reduction of decision formal contexts, the computation of formal contexts from formal concepts is a challenging problem. Third, based on rectangle theory of formal concept, a fast algorithm for reducing attributes while preserving the extensions for a set of formal concepts is proposed using the extension bit-array technique, which allows multiple context cells to be processed by a single 32-bit or 64-bit operator. Technically, the new algorithm could store both formal context and extent of a concept as bit-arrays, and we can use bit-operations to process set operations "or" as well as "and". One more merit is that the new algorithm does not need to consider other concepts in the concept lattice, thus the algorithm is explicit to understand and fast. Experiments demonstrate that the new algorithm is effective in the computation of attribute reductions.
翻訳日:2021-11-05 04:49:00 公開日:2021-10-29
# (参考訳) 雑音ラベルを用いた適応的階層的類似度メトリック学習 [全文訳有]

Adaptive Hierarchical Similarity Metric Learning with Noisy Labels ( http://arxiv.org/abs/2111.00006v1 )

ライセンス: CC BY 4.0
Jiexi Yan, Lei Luo, Cheng Deng and Heng Huang(参考訳) ディープラーニング(DML)は、さまざまな機械学習タスクにおいて重要な役割を果たす。 しかし,2値類似性を持つ既存のディープメトリック学習手法の多くは,実世界のデータに広く見られるノイズラベルに敏感である。 これらのノイズラベルは、しばしば深刻な性能劣化を引き起こすため、DMLの堅牢性と一般化能力を高めることが重要である。 本稿では,適応型階層的類似度メトリック学習法を提案する。 ノイズに敏感な2つの情報、‘textit{i.e.}, class-wise divergence, sample-wise consistency を考える。 特に、クラス毎の分岐は双曲的メトリック学習を活用し、モデリングにおいて二項を超えてよりリッチな類似性情報を効果的に抽出することができるが、サンプル毎の一貫性はコントラスト拡張を用いたモデルの一般化能力をさらに向上させることができる。 さらに重要なことは、この情報を統一的な視点に統合するための適応戦略を設計することです。 新しいメソッドが任意のペアベースのメトリック損失に拡張できることは注目に値する。 ベンチマークデータセットの広範な実験結果から,本手法が現在のディープラーニング手法と比較して最先端のパフォーマンスを達成できることが分かる。

Deep Metric Learning (DML) plays a critical role in various machine learning tasks. However, most existing deep metric learning methods with binary similarity are sensitive to noisy labels, which are widely present in real-world data. Since these noisy labels often cause severe performance degradation, it is crucial to enhance the robustness and generalization ability of DML. In this paper, we propose an Adaptive Hierarchical Similarity Metric Learning method. It considers two noise-insensitive information, \textit{i.e.}, class-wise divergence and sample-wise consistency. Specifically, class-wise divergence can effectively excavate richer similarity information beyond binary in modeling by taking advantage of Hyperbolic metric learning, while sample-wise consistency can further improve the generalization ability of the model using contrastive augmentation. More importantly, we design an adaptive strategy to integrate this information in a unified view. It is noteworthy that the new method can be extended to any pair-based metric loss. Extensive experimental results on benchmark datasets demonstrate that our method achieves state-of-the-art performance compared with current deep metric learning approaches.
翻訳日:2021-11-05 04:34:22 公開日:2021-10-29
# (参考訳) カーネル学習者としてのニューラルネットワーク:サイレントアライメント効果 [全文訳有]

Neural Networks as Kernel Learners: The Silent Alignment Effect ( http://arxiv.org/abs/2111.00034v1 )

ライセンス: CC BY 4.0
Alexander Atanasov, Blake Bordelon, Cengiz Pehlevan(参考訳) 遅延トレーニング体制におけるニューラルネットワークは、カーネルマシンに収束する。 リッチな機能学習体制のニューラルネットワークは、データ依存のカーネルを持つカーネルマシンを学習できるだろうか? ネットワークの接する核は、小さくて、損失が確実に減少する前の固有構造で進化し、その後、全体的な規模でしか成長しない。 このような効果は、小さな初期化と白化データを持つ同種ニューラルネットワークにおいて起こることを示す。 線形ネットワークの場合、この効果を解析的に処理する。 一般に、カーネルはトレーニングの初期段階において低ランクなコントリビューションを発達させ、その後全体規模で進化し、最終的なネットワークの接するカーネルとカーネル回帰解に相当する関数を生成する。 カーネルの初期スペクトル学習は、各層における深さと相対的な学習率の両方に依存する。 また,非白化データは無声アライメント効果を弱めることを示した。

Neural networks in the lazy training regime converge to kernel machines. Can neural networks in the rich feature learning regime learn a kernel machine with a data-dependent kernel? We demonstrate that this can indeed happen due to a phenomenon we term silent alignment, which requires that the tangent kernel of a network evolves in eigenstructure while small and before the loss appreciably decreases, and grows only in overall scale afterwards. We show that such an effect takes place in homogenous neural networks with small initialization and whitened data. We provide an analytical treatment of this effect in the linear network case. In general, we find that the kernel develops a low-rank contribution in the early phase of training, and then evolves in overall scale, yielding a function equivalent to a kernel regression solution with the final network's tangent kernel. The early spectral learning of the kernel depends on both depth and on relative learning rates in each layer. We also demonstrate that non-whitened data can weaken the silent alignment effect.
翻訳日:2021-11-05 04:12:28 公開日:2021-10-29
# (参考訳) オンデバイスリアルタイムハンドジェスチャ認識 [全文訳有]

On-device Real-time Hand Gesture Recognition ( http://arxiv.org/abs/2111.00038v1 )

ライセンス: CC BY 4.0
George Sung, Kanstantsin Sokal, Esha Uboweja, Valentin Bazarevsky, Jonathan Baccash, Eduard Gabriel Bazavan, Chuo-Ling Chang, Matthias Grundmann(参考訳) 本稿では,単一のrgbカメラから予め定義された静的ジェスチャを検知するオンデバイスリアルタイムハンドジェスチャ認識(hgr)システムを提案する。 システムはハンドスケルトントラッカーとジェスチャー分類器の2つの部分で構成される。 ハンドスケルトントラッカーの基礎としてMediaPipe Handsを使用し、キーポイント精度を改善し、世界距離空間における3次元キーポイントの推定を追加する。 ヒューリスティックスとニューラルネットワーク(NN)を用いた2つの異なるジェスチャー分類器を作成する。

We present an on-device real-time hand gesture recognition (HGR) system, which detects a set of predefined static gestures from a single RGB camera. The system consists of two parts: a hand skeleton tracker and a gesture classifier. We use MediaPipe Hands as the basis of the hand skeleton tracker, improve the keypoint accuracy, and add the estimation of 3D keypoints in a world metric space. We create two different gesture classifiers, one based on heuristics and the other using neural networks (NN).
翻訳日:2021-11-05 03:38:45 公開日:2021-10-29
# (参考訳) 新しい多変量ランク統計を用いた有効なノックオフのための生成モデル学習 [全文訳有]

Learning generative models for valid knockoffs using novel multivariate-rank based statistics ( http://arxiv.org/abs/2111.00043v1 )

ライセンス: CC BY 4.0
Shoaib Bin Masud, Shuchin Aeron(参考訳) 我々は,任意のモデル選択手順に対して偽発見率を保証する統計的手法であるノックオフフィルタリングに対して有効なノックオフを生成する問題を考える。 この目的のために,モンジュの最適輸送(OT)問題における最適写像を特徴付ける理論的結果を用いて導出した,多変量分布自由良性試験,すなわちランクエネルギー(RE)の最近の進歩を動機としている。 しかし, 生成モデルの学習にREを直接使用することは, 計算量やサンプル数が多いこと, 分布間の大きな支持差による飽和, 生成パラメータの非微分性などにより実現不可能である。 これらを緩和するために、モンジュのOT問題のエントロピー正規化を用いて、ソフトランクエネルギー(sRE)と呼ばれるREの変種と、そのカーネル変種をソフトランク最大平均誤差(sRMMD)として提案することから始める。 次に、深いノックオフを生成するためにsRMMDを使用し、有効なノックオフを生成したり、同等に達成したり、場合によっては検出パワーVs偽発見間のトレードオフを改善したりするための新規で効果的な方法であることを示す。

We consider the problem of generating valid knockoffs for knockoff filtering which is a statistical method that provides provable false discovery rate guarantees for any model selection procedure. To this end, we are motivated by recent advances in multivariate distribution-free goodness-of-fit tests namely, the rank energy (RE), that is derived using theoretical results characterizing the optimal maps in the Monge's Optimal Transport (OT) problem. However, direct use of use RE for learning generative models is not feasible because of its high computational and sample complexity, saturation under large support discrepancy between distributions, and non-differentiabilit y in generative parameters. To alleviate these, we begin by proposing a variant of the RE, dubbed as soft rank energy (sRE), and its kernel variant called as soft rank maximum mean discrepancy (sRMMD) using entropic regularization of Monge's OT problem. We then use sRMMD to generate deep knockoffs and show via extensive evaluation that it is a novel and effective method to produce valid knockoffs, achieving comparable, or in some cases improved tradeoffs between detection power Vs false discoveries.
翻訳日:2021-11-05 03:33:10 公開日:2021-10-29
# (参考訳) 新しい多変量ランクエネルギーGoFテストによるロバストかつ効率的な変化点検出 [全文訳有]

Robust and efficient change point detection using novel multivariate rank-energy GoF test ( http://arxiv.org/abs/2111.00047v1 )

ライセンス: CC BY 4.0
Shoaib Bin Masud(参考訳) 本稿では,多変量時系列データにおける非パラメトリックかつ教師なし変化点検出(CPD)のための最適輸送(OT)理論であるRange Energy(RE)[1]をベースとした,最近提案された多変量分布自由グッドネス・オブ・フィット(GoF)テストのさらなる展開と展開を行う。 reを直接使用すると、非常に小さな分布の変化(高い誤ったアラームを発生させる)に対して高い感度が得られ、大量のサンプルの複雑さと膨大な計算コストが必要となる。 これらの欠点を軽減するために,エントロピー正規化OTをベースとした新しいGoFテスト統計法であるSoft-Rank Energy(sRE)を提案する。 本稿では,RE よりも sRE を用いることの利点について議論し,提案した sRE ベースの CPD が,実データおよび合成データセット上で,AUC (Area Under the Curve) と F1-score の両面で既存の手法よりも優れていることを示す。

In this paper, we use and further develop upon a recently proposed multivariate, distribution-free Goodness-of-Fit (GoF) test based on the theory of Optimal Transport (OT) called the Rank Energy (RE) [1], for non-parametric and unsupervised Change Point Detection (CPD) in multivariate time series data. We show that directly using RE leads to high sensitivity to very small changes in distributions (causing high false alarms) and it requires large sample complexity and huge computational cost. To alleviate these drawbacks, we propose a new GoF test statistic called as soft-Rank Energy (sRE) that is based on entropy regularized OT and employ it towards CPD. We discuss the advantages of using sRE over RE and demonstrate that the proposed sRE based CPD outperforms all the existing methods in terms of Area Under the Curve (AUC) and F1-score on real and synthetic data sets.
翻訳日:2021-11-05 03:06:36 公開日:2021-10-29
# (参考訳) トピックモデリングのための単語埋め込み:経済政策の不確実性指標の推定への応用

Word embeddings for topic modeling: an application to the estimation of the economic policy uncertainty index ( http://arxiv.org/abs/2111.00057v1 )

ライセンス: CC BY 4.0
Hairo U. Miranda Belmonte and Victor Mu\~niz-S\'anchez and Francisco Corona(参考訳) 経済不確実性の定量化は、国内総生産(GDP)などのマクロ経済変数の予測の鍵となる概念であり、通常、異なる構造や頻度で大量の時系列データを必要とする場合の、現在放送のようなリアルタイムまたは短時間の予測手法に特に関係している。 データのほとんどが政府機関統計と非公共機関からのものだが、前述の従来のデータだけに当てはまると、いくつかの欠点がある。 一つは、経済の不確実性は金融やマクロ経済のデータのみに基づいた適切な方法では表現できない、またもうひとつは、現在の新型コロナウイルス(covid-19)のパンデミックのような異常な出来事による情報不足の影響を受けやすいことだ。 これらの理由から、現在では、公式資料の伝統的なデータに加えて、ソーシャルネットワークやデジタル新聞など、さまざまな情報源の非伝統的なデータを使用するのが一般的である。 経済政策不確実性指数(EPU)は、不確実性の定量化に最も使用される新聞ベースの指標であり、新聞のトピック・モデリングに基づいている。 本稿では,単語埋め込みによる意味的クラスタリングに基づく,デジタルニュースのトピックモデリングのための高速かつ効率的な手法を組み込んだepuインデックスの推定手法を提案する。 提案手法によってインデックスを更新でき、トピックへの新規文書割り当てに必要な時間を大幅に短縮できることを示す。

Quantification of economic uncertainty is a key concept for the prediction of macro economic variables such as gross domestic product (GDP), and it becomes particularly relevant on real-time or short-time predictions methodologies, such as nowcasting, where it is required a large amount of time series data, commonly with different structures and frequencies. Most of the data comes from the official agencies statistics and non-public institutions, however, relying our estimates in just the traditional data mentioned before, have some disadvantages. One of them is that economic uncertainty could not be represented or measured in a proper way based solely in financial or macroeconomic data, another one, is that they are susceptible to lack of information due to extraordinary events, such as the current COVID-19 pandemic. For these reasons, it is very common nowadays to use some non-traditional data from different sources, such as social networks or digital newspapers, in addition to the traditional data from official sources. The economic policy uncertainty (EPU) index, is the most used newspaper-based indicator to quantify the uncertainty, and is based on topic modeling of newspapers. In this paper, we propose a methodology to estimate the EPU index, which incorporates a fast and efficient method for topic modeling of digital news based on semantic clustering with word embeddings, allowing to update the index in real-time, which is a drawback with another proposals that use computationally intensive methods for topic modeling, such as Latent Dirichlet Allocation (LDA). We show that our proposal allow us to update the index and significantly reduces the time required for new document assignation into topics.
翻訳日:2021-11-05 02:55:00 公開日:2021-10-29
# (参考訳) 超幾何学的テールインバージョンを用いたVCクラスの一般化境界の改善

Improving Generalization Bounds for VC Classes Using the Hypergeometric Tail Inversion ( http://arxiv.org/abs/2111.00062v1 )

ライセンス: CC BY 4.0
Jean-Samuel Leboeuf, Fr\'ed\'eric LeBlanc and Mario Marchand(参考訳) 2つの主要なアイデアを用いて、VCクラスの一般化境界を大幅に改善する。 まず,極端に一様でない分布に依存しないVCクラスのリスク上限を得るために,超幾何学的尾インバージョンを考える。 第2に、ゴーストサンプルのトリックを最適化し、さらに無視できないゲインを得る。 これらの改善は、相対的な偏差境界、マルチクラスマージン境界、および下位バウンダリを導出するために使用される。 数値的な比較では、新しい境界はほとんど空でないことが示され、すべての合理的データセットサイズに対して他のVC境界よりも厳密である。

We significantly improve the generalization bounds for VC classes by using two main ideas. First, we consider the hypergeometric tail inversion to obtain a very tight non-uniform distribution-indepen dent risk upper bound for VC classes. Second, we optimize the ghost sample trick to obtain a further non-negligible gain. These improvements are then used to derive a relative deviation bound, a multiclass margin bound, as well as a lower bound. Numerical comparisons show that the new bound is nearly never vacuous, and is tighter than other VC bounds for all reasonable data set sizes.
翻訳日:2021-11-05 02:53:59 公開日:2021-10-29
# (参考訳) 自己監督型マルチスケール近傍予測によるノード特徴抽出 [全文訳有]

Node Feature Extraction by Self-Supervised Multi-scale Neighborhood Prediction ( http://arxiv.org/abs/2111.00064v1 )

ライセンス: CC BY 4.0
Eli Chien, Wei-Cheng Chang, Cho-Jui Hsieh, Hsiang-Fu Yu, Jiong Zhang, Olgica Milenkovic, Inderjit S Dhillon(参考訳) グラフでの学習は多くの現実世界のアプリケーションのために、学習コミュニティで大きな注目を集めている。 特に、数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(gnns)は、さまざまなグラフ関連学習タスクにおいて最先端のパフォーマンスを実現することが示されている。 近年,GNNの性能向上のために,自己教師付き学習による数値ノード特徴とグラフ構造との相関関係について検討している。 しかし、生データから数値ノードの特徴を抽出する手法は、標準GNNパイプラインではグラフに依存しない。 このプラクティスは、グラフトポロジとノード属性の間の潜在的な相関を完全に活用できないため、準最適である。 この問題を軽減するために,新たな自己教師型学習フレームワークであるGraph Information Aided Node feature exTraction (GIANT)を提案する。 giantはextreme multi-label classification (xmc)形式を採用しており、グラフ情報に基づく言語モデルの微調整に不可欠であり、大規模なデータセットにスケールする。 また,リンク予測におけるXMCの使用を正当化する理論解析を行い,XMC問題を解決する強力な方法であるXR変換器をGIANTフレームワークに統合する動機付けを行う。 Open Graph Benchmarkデータセット上で、GIANTの標準的なGNNパイプラインよりも優れたパフォーマンスを示す。 例えば、最上位のメソッドであるGAMLPの精度を68.25\%$から69.67\%$に改善し、SGCを63.29\%$から6.10\%$に改善し、MLPを47.24\%から6.10\%に改善します。

Learning on graphs has attracted significant attention in the learning community due to numerous real-world applications. In particular, graph neural networks (GNNs), which take numerical node features and graph structure as inputs, have been shown to achieve state-of-the-art performance on various graph-related learning tasks. Recent works exploring the correlation between numerical node features and graph structure via self-supervised learning have paved the way for further performance improvements of GNNs. However, methods used for extracting numerical node features from raw data are still graph-agnostic within standard GNN pipelines. This practice is sub-optimal as it prevents one from fully utilizing potential correlations between graph topology and node attributes. To mitigate this issue, we propose a new self-supervised learning framework, Graph Information Aided Node feature exTraction (GIANT). GIANT makes use of the eXtreme Multi-label Classification (XMC) formalism, which is crucial for fine-tuning the language model based on graph information, and scales to large datasets. We also provide a theoretical analysis that justifies the use of XMC over link prediction and motivates integrating XR-Transformers, a powerful method for solving XMC problems, into the GIANT framework. We demonstrate the superior performance of GIANT over the standard GNN pipeline on Open Graph Benchmark datasets: For example, we improve the accuracy of the top-ranked method GAMLP from $68.25\%$ to $69.67\%$, SGC from $63.29\%$ to $66.10\%$ and MLP from $47.24\%$ to $61.10\%$ on the ogbn-papers100M dataset by leveraging GIANT.
翻訳日:2021-11-05 02:53:00 公開日:2021-10-29
# (参考訳) 社会的心理的要因に基づく機械学習によるテキストの公平度測定

Measuring a Texts Fairness Dimensions Using Machine Learning Based on Social Psychological Factors ( http://arxiv.org/abs/2111.00086v1 )

ライセンス: CC BY 4.0
A. Izzidien, J. Watson, B. Loe, P. Romero, S. Fitz, D. Stillwell(参考訳) 公正は、世界中の文明で見られる主要な社会的価値である。 この表現は、しばしば契約などのテキストで記述される社会的合意に現れている。 しかし、そのような傾向にもかかわらず、社会行為を記述する文章の公平度基準は依然として望まれている。 この問題に対処するため、我々は第一原理に基づく問題を考えるために一歩後退する。 ルールやテンプレートを使う代わりに、社会心理学の文献を使って、公正評価を行う際に人間が使う主要な要因を判断します。 次に,多次元文レベルのフェアネス知覚ベクトルへの単語埋め込みを用いて,これらをデジタル化し,フェアネス知覚の近似化を試みる。 この方法は単語埋め込み内の社会的バイアスを利用してf1=81.0を得る。 第2のアプローチは、上記のフェアネス近似ベクトルに基づくPCAとMLを使い、F1スコアは86.2である。 フェアネスのサブスペース表現に埋め込んだ文のプロジェクションを組み込む手法として,提案手法で実現可能な改善点を詳述する。

Fairness is a principal social value that can be observed in civilisations around the world. A manifestations of this is in social agreements, often described in texts, such as contracts. Yet, despite the prevalence of such, a fairness metric for texts describing a social act remains wanting. To address this, we take a step back to consider the problem based on first principals. Instead of using rules or templates, we utilise social psychology literature to determine the principal factors that humans use when making a fairness assessment. We then attempt to digitise these using word embeddings into a multi-dimensioned sentence level fairness perceptions vector to serve as an approximation for these fairness perceptions. The method leverages a pro-social bias within word embeddings, for which we obtain an F1= 81.0. A second approach, using PCA and ML based on the said fairness approximation vector produces an F1 score of 86.2. We details improvements that can be made in the methodology to incorporate the projection of sentence embedding on to a subspace representation of fairness.
翻訳日:2021-11-05 02:30:12 公開日:2021-10-29
# (参考訳) 肥大化前再生による胎児MRI : 妊娠年齢予測への応用 [全文訳有]

Fetal MRI by robust deep generative prior reconstruction and diffeomorphic registration: application to gestational age prediction ( http://arxiv.org/abs/2111.00102v1 )

ライセンス: CC BY 4.0
Lucilio Cordero-Grande, Juan Enrique Ortu\~no-Fisac, Alena Uus, Maria Deprez, Andr\'es Santos, Joseph V. Hajnal, Mar\'ia Jes\'us Ledesma-Carbayo(参考訳) 胎児と胎盤の磁気共鳴イメージングは、子宮に影響を及ぼす異なる運動源によって制限される。 通常、走査技術では、異なるスライスの解剖学的情報が異なる変形、コントラスト変動、アーティファクトにさらされるシングルショットのマルチスライスシーケンスを用いる。 これらの要因を正すために, 体積再構成法が提案されているが, 非均一・非等方的サンプリングを適応しなければならないため, 正規化が必要である。 そこで本稿では, 拡散型ボリュームと一体化してスライス登録を行う頑健なボリューム再構成のための, 深い生成前手法を提案する。 私たちの貢献を検証するために実験を行い、妊娠年齢20~36週間の範囲で胎児のデータセット722ドルのコホートでアートメソッドの状況と比較します。 その結果,画像の解像度が向上し,スキャン時の妊娠年齢の予測精度が向上することが示唆された。 さらに,脳以外の臓器の情報を統合した場合の妊娠年齢予測は,既存の脳のアプローチと良好に比較でき,精度が向上した。 すなわち、胎児の脳とトランクの情報を組み合わせる際に、平均絶対誤差が0.618$ weeks(R^2=0.958$)となる。

Magnetic resonance imaging of whole fetal body and placenta is limited by different sources of motion affecting the womb. Usual scanning techniques employ single-shot multi-slice sequences where anatomical information in different slices may be subject to different deformations, contrast variations or artifacts. Volumetric reconstruction formulations have been proposed to correct for these factors, but they must accommodate a non-homogeneous and non-isotropic sampling, so regularization becomes necessary. Thus, in this paper we propose a deep generative prior for robust volumetric reconstructions integrated with a diffeomorphic volume to slice registration method. Experiments are performed to validate our contributions and compare with a state of the art method in a cohort of $72$ fetal datasets in the range of $20-36$ weeks gestational age. Results suggest improved image resolution and more accurate prediction of gestational age at scan when comparing to a state of the art reconstruction method. In addition, gestational age prediction results from our volumetric reconstructions compare favourably with existing brain-based approaches, with boosted accuracy when integrating information of organs other than the brain. Namely, a mean absolute error of $0.618$ weeks ($R^2=0.958$) is achieved when combining fetal brain and trunk information.
翻訳日:2021-11-05 02:29:11 公開日:2021-10-29
# (参考訳) 機械学習によるテキストの公平性測定のためのヒューリスティックとしての黄金律

The Golden Rule as a Heuristic to Measure the Fairness of Texts Using Machine Learning ( http://arxiv.org/abs/2111.00107v1 )

ライセンス: CC BY 4.0
A. Izzidien, J. Watson, B. Loe, P. Romero, S. Fitz, D. Stillwell(参考訳) 他者を治療対象として扱うことは、黄金規則(GR)の共通の定式化である。 しかし、歴史を通じて公理として普及しているにもかかわらず、道徳哲学のデジタル化は存在しない。 本稿では,「少年が少女を傷つけ,公平か不公平かを分類する」などの文を計測するために,デジタル化する方法について検討する。 GRに対する批判に対するレビューと回答を行う。 GRのデジタル化のためのコードを共有し、文のリストでそれをテストします。 1つはUSEを使い、もう1つはALBERTを使います。 F1スコアはそれぞれ78.0、85.0である。 言葉埋め込みにおける不公平な偏見を避けるためにこの技術がどのように実装されるかを示す提案がなされ、例えば人種差別のような不公平な行為が、コーパスが賞賛に値すると判断されるかどうかに関わらず、個人が不公平な行為の終りにいることを望まないと仮定される。

To treat others as one would wish to be treated is a common formulation of the Golden Rule (GR). Yet, despite its prevalence as an axiom throughout history, no digitisation of the moral philosophy exists. In this paper we consider how to digitise it so that it may be used to measure sentences such as: the boy harmed the girl, and categorise them as fair or unfair. A review and reply to criticisms of the GR is made. We share the code for the digitisation of the GR, and test it with a list of sentences. Implementing two approaches, one using the USE, and a second using ALBERT. We find F1 scores of 78.0, 85.0, respectively. A suggestion of how the technology may be implemented to avoid unfair biases in word embeddings is made - given that individuals would typically not wish to be on the receiving end of an unfair act, such as racism, irrespective of whether the corpus being used deems such discrimination as praiseworthy.
翻訳日:2021-11-05 02:07:14 公開日:2021-10-29
# (参考訳) 機械学習を用いた数種の価格要因に基づくジュジュベ果実の分類 [全文訳有]

Classification of jujube fruit based on several pricing factors using machine learning methods ( http://arxiv.org/abs/2111.00112v1 )

ライセンス: CC BY 4.0
Abdollah Zakeri, Ruhollah Hedayati, Mohammad Khedmati, Mehran Taghipour-Gorjikolai e(参考訳) インド、中国、イランで主に栽培されている果実で、多くの健康上の利益がある。 生鮮と乾燥の両方で販売されている。 重み、しわ、欠陥など、十住ベの価格にはいくつかの要因がある。 一部の重兵衛農家は、適切な仕分けや分類なしに、平均価格で一度に製品を販売している。 当社の研究と経験から,製品が仕分けプロセス後に販売された場合,その利益は著しく増加することが分かりました。 果汁を乾燥させる伝統的な選別法はいくつかあるが、高価で時間もかかり、人為的な誤りのため不正確である。 今日では、コンピュータビジョンと機械学習の手法が組み合わさって、食品産業においてソートや分類の目的で使われ、伝統的なソート手法の多くの問題を解決している。 本稿では,重要な価格要因のほとんどを考慮し,農家の利益向上に活用できる機械学習手法を用いて,ジューベ果実の採点をコンピュータビジョンベースで行う手法を提案する。 本手法では,まず異なるサンプルから複数の画像を取得し,色特徴,形状,大きさ,テクスチャ特徴,欠陥,ひび割れ特徴などの視覚的特徴を抽出し,PCAやCFSなどの特徴選択アルゴリズムを用いて最も有用な特徴を選択する。 各サンプルに対して特徴ベクトルが得られ、これらのベクトルを用いて分類器を訓練し、各サンプルに対して対応する事前定義されたグループを指定することができる。 最適な結果を得るために異なる分類器と訓練方法を用い,決定木を用いて98.8%の精度で分類を行うことができた。

Jujube is a fruit mainly cultivated in India, China and Iran and has many health benefits. It is sold both fresh and dried. There are several factors in jujube pricing such as weight, wrinkles and defections. Some jujube farmers sell their product all at once, without any proper sorting or classification, for an average price. Our studies and experiences show that their profit can increase significantly if their product is sold after the sorting process. There are some traditional sorting methods for dried jujube fruit but they are costly, time consuming and can be inaccurate due to human error. Nowadays, computer vision combined with machine learning methods, is used increasingly in food industry for sorting and classification purposes and solve many of the traditional sorting methods' problems. In this paper we are proposing a computer vision-based method for grading jujube fruits using machine learning techniques which will take most of the important pricing factors into account and can be used to increase the profit of farmers. In this method we first acquire several images from different samples and then extract their visual features such as color features, shape and size features, texture features, defection and wrinkle features and then we select the most useful features using feature selection algorithms like PCA and CFS. A feature vector is obtained for each sample and we use these vectors to train our classifiers to be able to specify the corresponding pre-defined group for each of the samples. We used different classifiers and training methods in order to obtain the best result and by using decision tree we could reach 98.8% accuracy of the classification.
翻訳日:2021-11-05 02:05:43 公開日:2021-10-29
# (参考訳) 公開データとプライベートデータを組み合わせる [全文訳有]

Combining Public and Private Data ( http://arxiv.org/abs/2111.00115v1 )

ライセンス: CC BY 4.0
Cecilia Ferrando, Jennifer Gillenwater, Alex Kulesza(参考訳) 差分プライバシーは、データ分析において証明可能なプライバシー保証を提供するために広く採用されている。 総合的な統計量の推定には,公開データとプライベートデータ(より一般的には,異質なプライバシニーズを持つデータ)を組み合わせる問題を考える。 分散を最小化するために最適化された平均の混合推定器を導入する。 当社のメカニズムは,ユーザのプライバシニーズに比例してデータをサブサンプリングすることにより,個人のプライバシを保護する手法よりも望ましいと論じている。 同様に,指数関数機構に基づく混合中央値推定器を提案する。 Jorgensenらによって提案された手法と比較した。 [2015]. 我々の実験は、我々のメカニズムがベースライン法より優れているという実証的な証拠を提供する。

Differential privacy is widely adopted to provide provable privacy guarantees in data analysis. We consider the problem of combining public and private data (and, more generally, data with heterogeneous privacy needs) for estimating aggregate statistics. We introduce a mixed estimator of the mean optimized to minimize the variance. We argue that our mechanism is preferable to techniques that preserve the privacy of individuals by subsampling data proportionally to the privacy needs of users. Similarly, we present a mixed median estimator based on the exponential mechanism. We compare our mechanisms to the methods proposed in Jorgensen et al. [2015]. Our experiments provide empirical evidence that our mechanisms often outperform the baseline methods.
翻訳日:2021-11-05 01:59:38 公開日:2021-10-29
# (参考訳) 幼児の顔認識におけるマスクとノーマスクの縦断解析 [全文訳有]

Longitudinal Analysis of Mask and No-Mask on Child Face Recognition ( http://arxiv.org/abs/2111.00121v1 )

ライセンス: CC BY 4.0
Praveen Kumar Chandaliya, Zahid Akhtar and Neeta Nain(参考訳) faceは、多くの大規模アプリケーションでも、人物認識に最も広く使われている特徴の1つである。 顔認識システムの技術的進歩にもかかわらず、ポーズ、表現、閉塞、老化による障害に直面している。 新型コロナウイルス(covid-19)のパンデミックにより、コンタクトレス認証は極めて不可欠になっている。 パンデミックを抑えるため、人々はフェイスマスクを使い始めた。 近年, 顔認証システムに対するフェイスマスクの効果に関する研究はほとんど行われていない。 しかし, フェイスマスクによる加齢が子どもの認知に与える影響は十分に調査されていない。 そこで本研究の目的は,顔認識システムにおける幼児の縦方向衝撃を,顔マスクなどの共変量と共に分析することである。 具体的には, 人工マスクと無マスクのサンプルを用いて, 幼児の年齢差の検証と識別設定下において, 市販の3種類の顔認証システムと, 市販の市販顔認証システム(COTS)を比較した。 さらに,マスクとノーマスクによる眼鏡の経年的結果についても検討した。 この研究は、非マスクの縦型児童顔データセット(つまり、拡張されたインド児童縦型顔データセット)を利用しており、平均335ドルの期間にわたって、年齢グループで7,473ドルの被験者の顔画像が26,258ドル含まれている。 実験の結果,顔認証における顔マスクの問題点は加齢変化によって複雑化することが判明した。

Face is one of the most widely employed traits for person recognition, even in many large-scale applications. Despite technological advancements in face recognition systems, they still face obstacles caused by pose, expression, occlusion, and aging variations. Owing to the COVID-19 pandemic, contactless identity verification has become exceedingly vital. To constrain the pandemic, people have started using face mask. Recently, few studies have been conducted on the effect of face mask on adult face recognition systems. However, the impact of aging with face mask on child subject recognition has not been adequately explored. Thus, the main objective of this study is analyzing the child longitudinal impact together with face mask and other covariates on face recognition systems. Specifically, we performed a comparative investigation of three top performing publicly available face matchers and a post-COVID-19 commercial-off-the-s helf (COTS) system under child cross-age verification and identification settings using our generated synthetic mask and no-mask samples. Furthermore, we investigated the longitudinal consequence of eyeglasses with mask and no-mask. The study exploited no-mask longitudinal child face dataset (i.e., extended Indian Child Longitudinal Face Dataset) that contains $26,258$ face images of $7,473$ subjects in the age group of $[2, 18]$ over an average time span of $3.35$ years. Experimental results showed that problem of face mask on automated face recognition is compounded by aging variate.
翻訳日:2021-11-04 12:40:19 公開日:2021-10-29
# (参考訳) 大西洋における多段階変動予測 [全文訳有]

Predicting Atlantic Multidecadal Variability ( http://arxiv.org/abs/2111.00124v1 )

ライセンス: CC BY 4.0
Glenn Liu, Peidong Wang, Matthew Beveridge, Young-Oh Kwon, Iddo Drori(参考訳) アトランティック・マルチデカダル変動(Atlantic Multidecadal Variability、AMV)は、北大西洋の海面温度の変動を60年から70年周期で表している。 AMVは北米と欧州の地域気候に強く影響し、AMVの予測、特に極端な価値は、地域気候変動の理解と対応のために非常に社会的に有用である。 この研究は、北大西洋地域の海面温度、塩分濃度、海面圧力のマップから、AMV予測の状態を改善するために、複数の機械学習モデルをテストする。 私たちは、3,440年のデータを持つ最先端の気候モデルであるCommunity Earth System Model 1 Large Ensemble Projectのデータを使用します。 我々の結果は、私たちが使用しているすべてのモデルが従来の永続化予測ベースラインを上回っていることを示している。 AMVの予測は、ヨーロッパと北米で25年先まで、将来の極端な気温と降水量、およびハリケーン活動を特定するために重要である。

Atlantic Multidecadal Variability (AMV) describes variations of North Atlantic sea surface temperature with a typical cycle of between 60 and 70 years. AMV strongly impacts local climate over North America and Europe, therefore prediction of AMV, especially the extreme values, is of great societal utility for understanding and responding to regional climate change. This work tests multiple machine learning models to improve the state of AMV prediction from maps of sea surface temperature, salinity, and sea level pressure in the North Atlantic region. We use data from the Community Earth System Model 1 Large Ensemble Project, a state-of-the-art climate model with 3,440 years of data. Our results demonstrate that all of the models we use outperform the traditional persistence forecast baseline. Predicting the AMV is important for identifying future extreme temperatures and precipitation, as well as hurricane activity, in Europe and North America up to 25 years in advance.
翻訳日:2021-11-04 12:13:03 公開日:2021-10-29
# 円形隠れ量子マルコフモデルの学習:テンソルネットワークによるアプローチ

Learning Circular Hidden Quantum Markov Models: A Tensor Network Approach ( http://arxiv.org/abs/2111.01536v1 )

ライセンス: Link先を確認
Mohammad Ali Javidian, Vaneet Aggarwal, Zubin Jacob(参考訳) 本稿では,量子データセット(古典的データセットを特殊な場合とする)の時間データモデリングに適用可能な,円状隠れ量子マルコフモデル(c-HQMM)を提案する。 c-HQMMs は、制約付きテンソルネットワーク(より正確には、正の半有限分解を持つ局所精製状態)モデルと等価であることを示す。 この等価性により、c-hqmmsの効率的な学習モデルを提供できる。 提案手法は6つの実データセットで評価され, HQMM, 円形HMM, HMMと比較して, 複数データセットにおけるc-HQMMの利点を示す。

In this paper, we propose circular Hidden Quantum Markov Models (c-HQMMs), which can be applied for modeling temporal data in quantum datasets (with classical datasets as a special case). We show that c-HQMMs are equivalent to a constrained tensor network (more precisely, circular Local Purified State with positive-semidefinit e decomposition) model. This equivalence enables us to provide an efficient learning model for c-HQMMs. The proposed learning approach is evaluated on six real datasets and demonstrates the advantage of c-HQMMs on multiple datasets as compared to HQMMs, circular HMMs, and HMMs.
翻訳日:2021-11-03 14:34:51 公開日:2021-10-29
# 大規模過渡調査における異常のリアルタイム検出

Real-time detection of anomalies in large-scale transient surveys ( http://arxiv.org/abs/2111.00036v1 )

ライセンス: Link先を確認
Daniel Muthukrishna, Kaisey S. Mandel, Michelle Lochner, Sara Webb, Gautham Narayan(参考訳) Rubin Observatory Legacy Survey of Space and Time (LSST)のような新しい時間領域のサーベイでは、毎晩何百万もの過渡的な警報を観測し、新しい興味深い過渡期を視覚的に特定する標準的なアプローチを作成する。 本稿では,異常な過渡光曲線をリアルタイムに自動検出する2つの新しい手法を提案する。 どちらの方法も、既知の過渡数の光曲線を正確にモデル化できるなら、モデル予測からの逸脱はおそらく異常である、という単純な考え方に基づいている。 第1のモデリングアプローチは、時間畳み込みネットワーク(TCN)を用いて構築された確率論的ニューラルネットワークであり、第2のモデルは過渡性の解釈可能なベイズパラメトリックモデルである。 我々は,Zwicky Transient Facilityの光曲線の時間関数として異常スコアを提供する手法の能力を実証した。 ニューラルネットワークの柔軟性は、多くの回帰タスクにそのような強力なツールを与える特性であり、パラメトリックモデルと比較して異常検出にはあまり適さないことを示す。 パラメトリックモデルは、キロノワ、潮流破壊事象、中間光度過渡現象、ペア不安定超新星など、ほとんどの希少クラスにおいて、受信操作特性(roc)曲線(auc)の下の領域に到達する、低い偽の異常率と高い真の異常率を持つ一般的な超新星クラスに関する異常を識別することができる。 異常を識別する能力は、光曲線の寿命よりも向上する。 当社のフレームワークは,トランジェント分類器と連携して,新たな大規模調査から異常なトランジェントを迅速かつ優先的に追跡可能にする。

New time-domain surveys, such as the Rubin Observatory Legacy Survey of Space and Time (LSST), will observe millions of transient alerts each night, making standard approaches of visually identifying new and interesting transients infeasible. We present two novel methods of automatically detecting anomalous transient light curves in real-time. Both methods are based on the simple idea that if the light curves from a known population of transients can be accurately modelled, any deviations from model predictions are likely anomalies. The first modelling approach is a probabilistic neural network built using Temporal Convolutional Networks (TCNs) and the second is an interpretable Bayesian parametric model of a transient. We demonstrate our methods' ability to provide anomaly scores as a function of time on light curves from the Zwicky Transient Facility. We show that the flexibility of neural networks, the attribute that makes them such a powerful tool for many regression tasks, is what makes them less suitable for anomaly detection when compared with our parametric model. The parametric model is able to identify anomalies with respect to common supernova classes with low false anomaly rates and high true anomaly rates achieving Area Under the Receive Operating Characteristic (ROC) Curve (AUC) scores above 0.8 for most rare classes such as kilonovae, tidal disruption events, intermediate luminosity transients, and pair-instability supernovae. Our ability to identify anomalies improves over the lifetime of the light curves. Our framework, used in conjunction with transient classifiers, will enable fast and prioritised follow-up of unusual transients from new large-scale surveys.
翻訳日:2021-11-02 18:04:40 公開日:2021-10-29
# フィードバック遅延と非線形切替コストを考慮したオンライン最適化

Online Optimization with Feedback Delay and Nonlinear Switching Cost ( http://arxiv.org/abs/2111.00095v1 )

ライセンス: Link先を確認
Weici Pan, Guanya Shi, Yiheng Lin, Adam Wierman(参考訳) そこで本研究では, 学習者が最大コストについて$k$-round $\textit{delayed feedback}$を受け取り, 複数ステップの非線形スイッチングコスト, すなわち, 従来の複数の動作に非線形な方法で依存するコストが存在するオンライン最適化の変種について検討する。 本結果から,新しい反復正規化オンラインバランス Descent (iROBD) アルゴリズムは,スイッチングコストのリプシッツ定数である$O(L^{2k})$が一定で,次元自由な競合比を持つことを示した。 さらに、リプシッツ条件が要求され、$k$と$L$への依存が厳密であることを示す低い境界を提供する。 最後に,iROBDが直接競合するオンラインポリシーを提供する場合,遅延,非線形ダイナミクス,および敵の障害を伴うオンライン制御問題に密接に関連していることを示す。

We study a variant of online optimization in which the learner receives $k$-round $\textit{delayed feedback}$ about hitting cost and there is a multi-step nonlinear switching cost, i.e., costs depend on multiple previous actions in a nonlinear manner. Our main result shows that a novel Iterative Regularized Online Balanced Descent (iROBD) algorithm has a constant, dimension-free competitive ratio that is $O(L^{2k})$, where $L$ is the Lipschitz constant of the switching cost. Additionally, we provide lower bounds that illustrate the Lipschitz condition is required and the dependencies on $k$ and $L$ are tight. Finally, via reductions, we show that this setting is closely related to online control problems with delay, nonlinear dynamics, and adversarial disturbances, where iROBD directly offers constant-competitive online policies.
翻訳日:2021-11-02 18:04:10 公開日:2021-10-29
# 遺伝子型逆予測による高次元多形質gwa

High-dimensional multi-trait GWAS by reverse prediction of genotypes ( http://arxiv.org/abs/2111.00108v1 )

ライセンス: Link先を確認
Muhammad Ammar Malik, Adriaan-Alexander Ludl, Tom Michoel(参考訳) 多形質ゲノムワイド・アソシエーション(GWAS)研究は、多変量統計法を用いて、遺伝的変異と複数の相関形質の関連を同時に同定し、形質の独立な単変量解析よりも高い統計力を有する。 遺伝子変異の遺伝子型が複数の形質に同時に回帰するリバースレグレッションは、多形質gwaをサンプル数を超える高次元環境で実行するための有望なアプローチとして登場した。 我々は,DREAM5 SysGen Challengeからの遺伝子型,遺伝子発現データ,接地構造転写制御ネットワーク,および2つの酵母株間の交叉を用いて,異なる機械学習手法(尾根回帰,ランダムフォレスト,サポートベクターマシン)を用いて,GWASの逆回帰を解析し,評価を行った。 その結果、遺伝子型予測性能は、ルート平均二乗誤差(RMSE)で高い転写活性と低い転写活性を持つゲノム領域を区別できることがわかった。 さらに, モデル特徴係数は変種と個々の形質の関連性の強さと相関し, 真のeQTL標的遺伝子を予測し, 相補的な解析を行った。

Multi-trait genome-wide association studies (GWAS) use multi-variate statistical methods to identify associations between genetic variants and multiple correlated traits simultaneously, and have higher statistical power than independent univariate analysis of traits. Reverse regression, where genotypes of genetic variants are regressed on multiple traits simultaneously, has emerged as a promising approach to perform multi-trait GWAS in high-dimensional settings where the number of traits exceeds the number of samples. We extended this approach and analyzed different machine learning methods (ridge regression, random forests and support vector machines)for reverse regression in multi-trait GWAS, using genotypes, gene expression data and ground-truth transcriptional regulatory networks from the DREAM5 SysGen Challenge and from a cross between two yeast strains to evaluate methods. We found that genotype prediction performance, in terms of root mean squared error (RMSE), allowed to distinguish between genomic regions with high and low transcriptional activity. Moreover, model feature coefficients correlated with the strength of association between variants and individual traits, and were predictive of true trans-eQTL target genes, with complementary findings across methods.
翻訳日:2021-11-02 18:03:53 公開日:2021-10-29
# エッジ独立グラフモデルの力について

On the Power of Edge Independent Graph Models ( http://arxiv.org/abs/2111.00048v1 )

ライセンス: Link先を確認
Sudhanshu Chanpuriya, Cameron Musco, Konstantinos Sotiropoulos, and Charalampos E. Tsourakakis(参考訳) 現代のニューラルネットワークベースのグラフ生成モデルは、なぜ高三角密度のような典型的な実世界のネットワーク特性を再現できないのか? 本研究では,各辺を確率的に独立にグラフに追加する,エッジ独立なランダムグラフモデルの限界について検討する。 そのようなモデルには、古典的な erd\"{o}s-r\'{e}nyi と確率ブロックモデルの両方と、netgan、変分グラフオートエンコーダ、セルといった現代的な生成モデルの両方が含まれる。 モデルが単に1つのグラフを記憶しないことを保証する有界重なり条件の下では、エッジ独立モデルは本質的に高い三角形やその他の部分グラフ密度を持つグラフを生成する能力に制限される。 特に、そのような高い密度は、現実世界のソーシャルネットワークや他のグラフに現れることが知られている。 我々は、重なり合いと精度のバランスをとる単純な生成モデルで負の結果を補完し、多くのグラフ統計を再構成する際に、より複雑なモデルに相容れない性能を発揮する。

Why do many modern neural-network-based graph generative models fail to reproduce typical real-world network characteristics, such as high triangle density? In this work we study the limitations of edge independent random graph models, in which each edge is added to the graph independently with some probability. Such models include both the classic Erd\"{o}s-R\'{e}nyi and stochastic block models, as well as modern generative models such as NetGAN, variational graph autoencoders, and CELL. We prove that subject to a bounded overlap condition, which ensures that the model does not simply memorize a single graph, edge independent models are inherently limited in their ability to generate graphs with high triangle and other subgraph densities. Notably, such high densities are known to appear in real-world social networks and other graphs. We complement our negative results with a simple generative model that balances overlap and accuracy, performing comparably to more complex models in reconstructing many graph statistics.
翻訳日:2021-11-02 17:12:05 公開日:2021-10-29
# 時間的バックプロパゲーションを用いた時空間超解像による潜在ダイナミクスの深い推論

Deep inference of latent dynamics with spatio-temporal super-resolution using selective backpropagation through time ( http://arxiv.org/abs/2111.00070v1 )

ライセンス: Link先を確認
Feng Zhu, Andrew R. Sedler, Harrison A. Grier, Nauman Ahad, Mark A. Davenport, Matthew T. Kaufman, Andrea Giovannucci, Chethan Pandarinath(参考訳) 現代の神経インターフェイスは、脳回路内の最大100万のニューロンの活動にアクセスできる。 しかし、帯域幅制限は、より大きな空間サンプリング(より多くのチャンネルやピクセル)とサンプリングの時間周波数の間のトレードオフを生じることが多い。 ここでは,潜在低次元個体群動態に埋め込まれたニューロン間の関係を利用して,ニューロン時系列における時空間的超解像が得られることを示す。 新しいニューラルネットワークトレーニング戦略であるsbtt(elective backpropagation through time)は、観測された変数の集合が各時間ステップで変化するデータから、潜在ダイナミクスの深い生成モデルの学習を可能にする。 得られたモデルは、観測と学習された潜在力学を組み合わせることで、行方不明サンプルの活性を推測することができる。 我々はsbttをシーケンシャルオートエンコーダに適用し,電気生理学的およびカルシウムイメージングデータにおける神経集団動態のより効率的かつ高忠実性を示す。 電気生理学において、SBTTは、低帯域幅のニューロン集団動態の正確な推定を可能にし、移植された神経電子界面に対する重要な省電力への道を提供する。 2光子カルシウムイメージングへの応用において、SBTTは神経集団活動に基づく高周波の時間構造を正確に発見し、現在の最先端を著しく上回る。 最後に,sbttを用いて,sparsely-sampledデータにこれらのモデルを適用することにより,帯域幅の制限されたサンプリングにより,さらに性能が向上することを示す。

Modern neural interfaces allow access to the activity of up to a million neurons within brain circuits. However, bandwidth limits often create a trade-off between greater spatial sampling (more channels or pixels) and the temporal frequency of sampling. Here we demonstrate that it is possible to obtain spatio-temporal super-resolution in neuronal time series by exploiting relationships among neurons, embedded in latent low-dimensional population dynamics. Our novel neural network training strategy, selective backpropagation through time (SBTT), enables learning of deep generative models of latent dynamics from data in which the set of observed variables changes at each time step. The resulting models are able to infer activity for missing samples by combining observations with learned latent dynamics. We test SBTT applied to sequential autoencoders and demonstrate more efficient and higher-fidelity characterization of neural population dynamics in electrophysiological and calcium imaging data. In electrophysiology, SBTT enables accurate inference of neuronal population dynamics with lower interface bandwidths, providing an avenue to significant power savings for implanted neuroelectronic interfaces. In applications to two-photon calcium imaging, SBTT accurately uncovers high-frequency temporal structure underlying neural population activity, substantially outperforming the current state-of-the-art. Finally, we demonstrate that performance could be further improved by using limited, high-bandwidth sampling to pretrain dynamics models, and then using SBTT to adapt these models for sparsely-sampled data.
翻訳日:2021-11-02 17:11:48 公開日:2021-10-29
# 局所微分プライベート機構の最適圧縮

Optimal Compression of Locally Differentially Private Mechanisms ( http://arxiv.org/abs/2111.00092v1 )

ライセンス: Link先を確認
Abhin Shah, Wei-Ning Chen, Johannes Balle, Peter Kairouz, Lucas Theis(参考訳) epsilon-locally differentially private (ldp) ランダム化器の出力を圧縮すると、最善の用途がもたらされる。 本研究では,共有ランダム性を用いてデータを圧縮・民営化する方式を用いることの利点を実証する。 特に,最小のランダムコーディング(havasi et al., 2019)に基づくスキームのファミリーを調査し,最適なプライバシー・正確性・通信トレードオフを提供することを実証する。 提案手法は,プライバシと精度の保証を維持しつつ,平均および周波数推定のための最もよく知られたldpアルゴリズムであるprivunit (bhowmick et al., 2018) とサブセットセレクション (ye et al., 2018) を,\epsilonビットの通信順に圧縮できることを示す。

Compressing the output of \epsilon-locally differentially private (LDP) randomizers naively leads to suboptimal utility. In this work, we demonstrate the benefits of using schemes that jointly compress and privatize the data using shared randomness. In particular, we investigate a family of schemes based on Minimal Random Coding (Havasi et al., 2019) and prove that they offer optimal privacy-accuracy-com munication tradeoffs. Our theoretical and empirical findings show that our approach can compress PrivUnit (Bhowmick et al., 2018) and Subset Selection (Ye et al., 2018), the best known LDP algorithms for mean and frequency estimation, to to the order of \epsilon-bits of communication while preserving their privacy and accuracy guarantees.
翻訳日:2021-11-02 17:11:23 公開日:2021-10-29
# IoTエコシステムにおけるパラメータ化可能なマルウェアを用いたルータ異常検出器の評価

Evaluation of an Anomaly Detector for Routers using Parameterizable Malware in an IoT Ecosystem ( http://arxiv.org/abs/2111.00097v1 )

ライセンス: Link先を確認
John Carter and Spiros Mancoridis(参考訳) 本研究では、IoT(Internet of Things)エコシステムにおけるカスタムメイドのパラメータ化可能なマルウェアを用いた機械学習異常検出システムの評価について検討する。 図1に示すように、マルウェアが感染し、ネットワーク上の他のデバイスにサービスを提供するLinuxルータに存在していると仮定される。 このIoTエコシステムは,動作に基づく異常検出装置の有効性を評価するテストベッドとして開発された。 このマルウェアは、ランサムウェア、暗号通貨、キーロガーの3種類のカスタムメイドマルウェアで構成されており、いずれもネットワークへのフィルター機能を備えている。 マルウェアのパラメータ化により、マルウェアは複数の自由度をサンプリングする。 異常検知器はシステムコールとネットワークトラフィックから作られた機能セットを使用し、動作に基づく異常検出にSVM(Support Vector Machine)を使用する。 カスタムメイドのマルウェアは、SVMが有効である状況や効果がない状況を評価するために使用される。

This work explores the evaluation of a machine learning anomaly detector using custom-made parameterizable malware in an Internet of Things (IoT) Ecosystem. It is assumed that the malware has infected, and resides on, the Linux router that serves other devices on the network, as depicted in Figure 1. This IoT Ecosystem was developed as a testbed to evaluate the efficacy of a behavior-based anomaly detector. The malware consists of three types of custom-made malware: ransomware, cryptominer, and keylogger, which all have exfiltration capabilities to the network. The parameterization of the malware gives the malware samples multiple degrees of freedom, specifically relating to the rate and size of data exfiltration. The anomaly detector uses feature sets crafted from system calls and network traffic, and uses a Support Vector Machine (SVM) for behavioral-based anomaly detection. The custom-made malware is used to evaluate the situations where the SVM is effective, as well as the situations where it is not effective.
翻訳日:2021-11-02 17:11:06 公開日:2021-10-29
# 自律視覚ナビゲーションのためのポリライン型生成ナビゲーション空間セグメンテーション

Polyline Based Generative Navigable Space Segmentation for Autonomous Visual Navigation ( http://arxiv.org/abs/2111.00063v1 )

ライセンス: Link先を確認
Zheng Chen, Zhengming Ding, David Crandall, Lantao Liu(参考訳) ナビゲーション可能な空間の検出は、未知または未熟な環境での移動ロボットの基本的な機能である。 本研究では,視覚的ナビゲーション可能な空間セグメント化をシーン分解問題として扱うとともに,ロボットが教師なしでナビゲーション可能な空間セグメント化を学習できるようにする表現学習ベースのフレームワークであるPolyline Segmentation Variational AutoEncoder Networks (PSV-Nets)を提案する。 現在のセグメンテーション技術は、大量のピクセルレベルの注釈画像を必要とする教師付き学習戦略に大きく依存している。 対照的に、提案フレームワークは、可変オートエンコーダ (VAE) とオートエンコーダ (AE) という生成モデルを利用して、所望の空間境界を教師なしの方法でコンパクトにアウトラインするポリライン表現を学習する。 また,学習可能なナビゲート空間とスケールドユークリッド距離場(sedf)を用いて,明示的な地図を使わずに自律的なナビゲーションを実現する視覚反射地平線計画手法を提案する。 広範な実験により,提案するpsv-netは1つのラベルがなくても高い精度で視覚ナビゲート空間を学習できることを検証した。 また、PSV-Netの予測は、少数のラベル(利用可能であれば)でさらに改善され、最先端の完全教師付き学習に基づくセグメンテーション手法よりも大幅に優れていることを示す。

Detecting navigable space is a fundamental capability for mobile robots navigating in unknown or unmapped environments. In this work, we treat the visual navigable space segmentation as a scene decomposition problem and propose Polyline Segmentation Variational AutoEncoder Networks (PSV-Nets), a representation-learn ing-based framework to enable robots to learn the navigable space segmentation in an unsupervised manner. Current segmentation techniques heavily rely on supervised learning strategies which demand a large amount of pixel-level annotated images. In contrast, the proposed framework leverages a generative model - Variational AutoEncoder (VAE) and an AutoEncoder (AE) to learn a polyline representation that compactly outlines the desired navigable space boundary in an unsupervised way. We also propose a visual receding horizon planning method that uses the learned navigable space and a Scaled Euclidean Distance Field (SEDF) to achieve autonomous navigation without an explicit map. Through extensive experiments, we have validated that the proposed PSV-Nets can learn the visual navigable space with high accuracy, even without any single label. We also show that the prediction of the PSV-Nets can be further improved with a small number of labels (if available) and can significantly outperform the state-of-the-art fully supervised-learning- based segmentation methods.
翻訳日:2021-11-02 16:56:36 公開日:2021-10-29
# IRA:一般原子パターンの認識と比較のための形状マッチングアプローチ

IRA: A shape matching approach for recognition and comparison of generic atomic patterns ( http://arxiv.org/abs/2111.00939v1 )

ライセンス: Link先を確認
Miha Gunde and Nicolas Salles and Anne H\'emeryck and Layla Martin-Samos(参考訳) 本稿では,形状整合問題の解法として,原子配置が予め分かっていない場合の原子構造の文脈で,多用途でパラメータレスなアプローチを提案する。 このアルゴリズムは、回転原子中心の参照フレームとアサインメント(Iterative Rotations and Assignments, IRA)を反復的に提案する。 置換不変な集合距離、すなわちハウスドルフ距離が最小値を返すフレームは、マッチング問題の解として選択される。 IRAは、原子の配列やパターンが周期的かどうかに関わらず、原子の数が異なる構造間の剛性回転、反射、翻訳、置換を見つけることができる。 構造の間に歪みが存在する場合、標準特異値分解法を適用して最適な回転と変換を求める。 本研究では,1対1の割当制約の下で原子の割当を計算するために,制約付き短距離割当(CShDA)アルゴリズムを開発した。 全体的なアプローチは、歪んだ構造断片を含むいくつかの構造で広範囲にテストされている。 提案アルゴリズムの効率性は,他の2つの形状マッチングアルゴリズムとのベンチマーク比較として示す。 そこで本研究では,シアン分子の複製交換軌道がデータクラスタリングのための関連する集団座標の探索にどのように役立つかを示す例と,歪みスコアを計算し,古典的歪に基づくポテンシャルと比較するsio$_2$アモルファスモデルを用いて,構造とフラグメントの同定と比較を行う。 ソースコードとベンチマークデータは \url{https://github.com/m ammasmias/iterativer otationsassignments} で入手できる。

We propose a versatile, parameter-less approach for solving the shape matching problem, specifically in the context of atomic structures when atomic assignments are not known a priori. The algorithm Iteratively suggests Rotated atom-centered reference frames and Assignments (Iterative Rotations and Assignments, IRA). The frame for which a permutationally invariant set-set distance, namely the Hausdorff distance, returns minimal value is chosen as the solution of the matching problem. IRA is able to find rigid rotations, reflections, translations, and permutations between structures with different numbers of atoms, for any atomic arrangement and pattern, periodic or not. When distortions are present between the structures, optimal rotation and translation are found by further applying a standard Singular Value Decomposition-based method. To compute the atomic assignments under the one-to-one assignment constraint, we develop our own algorithm, Constrained Shortest Distance Assignments (CShDA). The overall approach is extensively tested on several structures, including distorted structural fragments. Efficiency of the proposed algorithm is shown as a benchmark comparison against two other shape matching algorithms. We discuss the use of our approach for the identification and comparison of structures and structural fragments through two examples: a replica exchange trajectory of a cyanine molecule, in which we show how our approach could aid the exploration of relevant collective coordinates for clustering the data; and an SiO$_2$ amorphous model, in which we compute distortion scores and compare them with a classical strain-based potential. The source code and benchmark data are available at \url{https://github.com/m ammasmias/IterativeR otationsAssignments}.
翻訳日:2021-11-02 16:52:17 公開日:2021-10-29
# プレトラクティブ・ジェネレーション・ディバイサル・ネットワークを用いた高輝度単一画像からのSVBRDFの復元

SVBRDF Recovery From a Single Image With Highlights using a Pretrained Generative Adversarial Network ( http://arxiv.org/abs/2111.00943v1 )

ライセンス: Link先を確認
Tao Wen and Beibei Wang and Lei Zhang and Jie Guo and Nicolas Holzschuch(参考訳) 空間的に異なる双方向反射率分布関数(SVBRDF)は、デザイナーが新しい素材を仮想シーンに組み込むことが重要であり、よりリアルに見えます。 SVBRDFの再構築は長年の課題である。 既存の手法は、広範な取得システムに依存するか、取得するのは簡単ではない巨大なデータセットを必要とする。 我々は、データセットなしで単一の画像からsvbrdfを復元することを目指している。 1枚の画像にはSVBRDFに関する不完全な情報が含まれており、復元作業は非常に不適切である。 また、データセットから事前の知識がなくても、材料によって引き起こされる色の変化と照明によって引き起こされる色の変化を区別することは困難である。 本稿では,教師なし生成型逆向ニューラルネットワーク(gan)を用いて,単一の画像を入力としてsvbrdfsマップを復元する。 物質による影響から照明による効果をより明確に分離するために,物質が定常であるという仮説を加え,フーリエ係数に基づく新たな損失関数を導入し,この定常性を強制する。 効率的にネットワークをトレーニングするには、トレーニングされたモデルを再利用してsvbrdfを初期化し、入力イメージに基づいて微調整する。 本手法は,単一の入力写真から高品質なsvbrdfsマップを生成し,より鮮明なレンダリング結果を提供する。 2段階のトレーニングによってランタイムのパフォーマンスが向上し、以前の作業の8倍高速になった。

Spatially-varying bi-directional reflectance distribution functions (SVBRDFs) are crucial for designers to incorporate new materials in virtual scenes, making them look more realistic. Reconstruction of SVBRDFs is a long-standing problem. Existing methods either rely on extensive acquisition system or require huge datasets which are nontrivial to acquire. We aim to recover SVBRDFs from a single image, without any datasets. A single image contains incomplete information about the SVBRDF, making the reconstruction task highly ill-posed. It is also difficult to separate between the changes in color that are caused by the material and those caused by the illumination, without the prior knowledge learned from the dataset. In this paper, we use an unsupervised generative adversarial neural network (GAN) to recover SVBRDFs maps with a single image as input. To better separate the effects due to illumination from the effects due to the material, we add the hypothesis that the material is stationary and introduce a new loss function based on Fourier coefficients to enforce this stationarity. For efficiency, we train the network in two stages: reusing a trained model to initialize the SVBRDFs and fine-tune it based on the input image. Our method generates high-quality SVBRDFs maps from a single input photograph, and provides more vivid rendering results compared to previous work. The two-stage training boosts runtime performance, making it 8 times faster than previous work.
翻訳日:2021-11-02 16:51:50 公開日:2021-10-29
# 強化作業負荷分布公正性

Reinforced Workload Distribution Fairness ( http://arxiv.org/abs/2111.00008v1 )

ライセンス: Link先を確認
Zhiyuan Yao, Zihan Ding, Thomas Heide Clausen(参考訳) ネットワークロードバランサはデータセンタの中心的なコンポーネントであり、ワークロードを複数のサーバに分散することで、スケーラブルなサービスの提供に貢献する。 しかしながら、ロードバランサがアプリケーションサーバ負荷の監視に制限のある動的環境で動作する場合、公平性とパフォーマンスのために手動構成を必要とするヒューリスティックアルゴリズムに依存する。 そこで本研究では,アクティブなロードバランサ状態監視と限られたネットワーク観測を伴わない分散非同期強化学習機構を提案し,負荷バランサによる負荷分散の公平性を改善する。 提案手法の性能をシミュレータの最先端負荷分散アルゴリズムと比較し, 複雑化が進行する構成条件下で評価した。 予備的な結果は、RLベースのロードバランシングアルゴリズムの有望性を示し、報酬関数の設計やモデルのスケーラビリティなど、さらなる課題と今後の研究方向性を特定する。

Network load balancers are central components in data centers, that distributes workloads across multiple servers and thereby contribute to offering scalable services. However, when load balancers operate in dynamic environments with limited monitoring of application server loads, they rely on heuristic algorithms that require manual configurations for fairness and performance. To alleviate that, this paper proposes a distributed asynchronous reinforcement learning mechanism to-with no active load balancer state monitoring and limited network observations-improve the fairness of the workload distribution achieved by a load balancer. The performance of proposed mechanism is evaluated and compared with stateof-the-art load balancing algorithms in a simulator, under configurations with progressively increasing complexities. Preliminary results show promise in RLbased load balancing algorithms, and identify additional challenges and future research directions, including reward function design and model scalability.
翻訳日:2021-11-02 16:49:38 公開日:2021-10-29
# 農業導入支援のためのICTのWebデータ診断

Diagnosing Web Data of ICTs to Provide Focused Assistance in Agricultural Adoptions ( http://arxiv.org/abs/2111.00052v1 )

ライセンス: Link先を確認
Ashwin Singh, Mallika Subramanian, Anmol Agarwal, Pratyush Priyadarshi, Shrey Gupta, Kiran Garimella, Sanjeev Kumar, Ritesh Kumar, Lokesh Garg, Erica Arya, Ponnurangam Kumaraguru(参考訳) 過去10年間、インドの農村部における技術所有の急速な増加を目の当たりにしており、ICTイニシアチブが農村部の家庭に力を与える可能性を示唆している。 私たちの研究では、2008年に始まったICT-Digital GreenのWebインフラストラクチャに焦点を当てています。 コンテンツ生産への参加的アプローチの後、Digital Greenは小作農の指導的農業映像を人的仲介者を通じて小作農に配布し、農業慣行の採用を改善する。 同社のWebベースのデータトラッカーCoCoは、これらのプロセスに関連するデータをキャプチャし、3大陸と12カ国の230万人以上の農家の参加と採用の記録を保存している。 このデータを用いて、農家の過去の参加適応行動、ビデオの内容、インドの5州における彼らの人口動態などのDigital Greenエコシステムの構成要素をモデル化する。 我々は統計検査を用いて、より高い採用率の農家を区別する異なる要因を特定し、彼らがなぜ他の農家よりも多く採用するのかを理解する。 調査の結果,導入率の高い農家は短い期間の動画を取り入れ,小さな村落に属していることがわかった。 農家のコ・アタクタンスとコ・アダプション・ネットワークは、同じビデオのプラクティスを採用することに関して、村やグループからの動画の過去の採用者から大きな恩恵を受けていることを示している。 分析の結果、ビデオからの実践の導入を予測問題としてモデル化し、各5州で採用の課題に直面している農夫を特定し支援する。 異なるモデルアーキテクチャを実験し,ランダムフォレスト分類器を用いて79%から89%までのマクロf1スコアを達成する。 最後に,shap値を用いて異なる特徴の重要性を測定し,インドの5州にまたがる百万近い農家の採用率の向上に寄与する。

The past decade has witnessed a rapid increase in technology ownership across rural areas of India, signifying the potential for ICT initiatives to empower rural households. In our work, we focus on the web infrastructure of one such ICT - Digital Green that started in 2008. Following a participatory approach for content production, Digital Green disseminates instructional agricultural videos to smallholder farmers via human mediators to improve the adoption of farming practices. Their web-based data tracker, CoCo, captures data related to these processes, storing the attendance and adoption logs of over 2.3 million farmers across three continents and twelve countries. Using this data, we model the components of the Digital Green ecosystem involving the past attendance-adoption behaviours of farmers, the content of the videos screened to them and their demographic features across five states in India. We use statistical tests to identify different factors which distinguish farmers with higher adoption rates to understand why they adopt more than others. Our research finds that farmers with higher adoption rates adopt videos of shorter duration and belong to smaller villages. The co-attendance and co-adoption networks of farmers indicate that they greatly benefit from past adopters of a video from their village and group when it comes to adopting practices from the same video. Following our analysis, we model the adoption of practices from a video as a prediction problem to identify and assist farmers who might face challenges in adoption in each of the five states. We experiment with different model architectures and achieve macro-f1 scores ranging from 79% to 89% using a Random Forest classifier. Finally, we measure the importance of different features using SHAP values and provide implications for improving the adoption rates of nearly a million farmers across five states in India.
翻訳日:2021-11-02 16:49:24 公開日:2021-10-29
# クラス分散ミスマッチを用いたフェデレーション半教師付き学習

Federated Semi-Supervised Learning with Class Distribution Mismatch ( http://arxiv.org/abs/2111.00010v1 )

ライセンス: Link先を確認
Zhiguo Wang, Xintong Wang, Ruoyu Sun and Tsung-Hui Chang(参考訳) 既存のフェデレーション学習(fl)アルゴリズムの多くは、クライアントが所有するローカルデータが適切にラベル付けされていると仮定して、教師付き学習タスクのために設計されている。 しかし、多くの実践的な状況において、完全なデータラベルを取得することは困難で費用がかかる可能性がある。 フェデレート半教師付き学習(Fed-SSL)はラベル付きデータとラベルなしデータの両方を完全に活用するための魅力的なソリューションである。 フェデレートされた教師付き学習で遭遇したのと同様、ラベル付き/ラベルなしデータのクラス分布はクライアント間で非i.d.になる可能性がある。 さらに、各クライアントでは、ラベル付きデータのクラス分布はラベル付きデータと区別される可能性がある。 残念ながら、どちらもFLパフォーマンスをひどく損なう可能性がある。 このような課題に対処するために,フェデレーションsslにおけるクラス分布ミスマッチ問題を効果的に緩和できる2つの適切な正規化項を導入する。 さらに,非i.i.d.データを克服するため,分散低減法と正規化平均化法を用いて新しいfeed-sslアルゴリズムを開発した。 理論的には、提案手法が$\mathcal{o}(1/\sqrt{t})$という収束率を持つことが証明される。 私たちの知る限りでは、Fed-SSL問題に対する最初の正式な収束結果である。 MNISTデータとCIFAR-10データに基づく数値実験により,提案手法はベースラインに比べて分類精度を大幅に向上できることを示した。

Many existing federated learning (FL) algorithms are designed for supervised learning tasks, assuming that the local data owned by the clients are well labeled. However, in many practical situations, it could be difficult and expensive to acquire complete data labels. Federated semi-supervised learning (Fed-SSL) is an attractive solution for fully utilizing both labeled and unlabeled data. Similar to that encountered in federated supervised learning, class distribution of labeled/unlabeled data could be non-i.i.d. among clients. Besides, in each client, the class distribution of labeled data may be distinct from that of unlabeled data. Unfortunately, both can severely jeopardize the FL performance. To address such challenging issues, we introduce two proper regularization terms that can effectively alleviate the class distribution mismatch problem in Fed-SSL. In addition, to overcome the non-i.i.d. data, we leverage the variance reduction and normalized averaging techniques to develop a novel Fed-SSL algorithm. Theoretically, we prove that the proposed method has a convergence rate of $\mathcal{O}(1/\sqrt{T})$, where $T$ is the number of communication rounds, even when the data distribution are non-i.i.d. among clients. To the best of our knowledge, it is the first formal convergence result for Fed-SSL problems. Numerical experiments based on MNIST data and CIFAR-10 data show that the proposed method can greatly improve the classification accuracy compared to baselines.
翻訳日:2021-11-02 16:29:10 公開日:2021-10-29
# グラフニューラルネットワークに基づくスケーラブルなAutoMLアプローチ

A Scalable AutoML Approach Based on Graph Neural Networks ( http://arxiv.org/abs/2111.00083v1 )

ライセンス: Link先を確認
Mossad Helali, Essam Mansour, Ibrahim Abdelaziz, Julian Dolby, Kavitha Srinivas(参考訳) AutoMLシステムは、有効なデータ変換と学習者に対する探索と、学習者毎のハイパーパラメータ最適化によって、機械学習モデルを自動的に構築する。 We present a system called KGpip for the selection of transformations and learners, which (1) builds a database of datasets and corresponding historically used pipelines using effective static analysis instead of the typical use of actual runtime information, (2) uses dataset embeddings to find similar datasets in the database based on its content instead of metadata-based features, (3) models AutoML pipeline creation as a graph generation problem, to succinctly characterize the diverse pipelines seen for a single dataset. KGpipはAutoMLシステムのサブコンポーネントとして設計されている。 KGpipを2つのAutoMLシステムに統合することにより,既存の最先端システムの性能を大幅に向上させることを示す。

AutoML systems build machine learning models automatically by performing a search over valid data transformations and learners, along with hyper-parameter optimization for each learner. We present a system called KGpip for the selection of transformations and learners, which (1) builds a database of datasets and corresponding historically used pipelines using effective static analysis instead of the typical use of actual runtime information, (2) uses dataset embeddings to find similar datasets in the database based on its content instead of metadata-based features, (3) models AutoML pipeline creation as a graph generation problem, to succinctly characterize the diverse pipelines seen for a single dataset. KGpip is designed as a sub-component for AutoML systems. We demonstrate this ability via integrating KGpip with two AutoML systems and show that it does significantly enhance the performance of existing state-of-the-art systems.
翻訳日:2021-11-02 16:27:14 公開日:2021-10-29
# ReSkin:多用途、交換可能、持続性のある触覚皮膚

ReSkin: versatile, replaceable, lasting tactile skins ( http://arxiv.org/abs/2111.00071v1 )

ライセンス: Link先を確認
Raunaq Bhirangi, Tess Hellebrekers, Carmel Majidi and Abhinav Gupta(参考訳) ソフトセンサーは、材料特性からの受動的適合接触とセンサー特性からのアクティブ接触データの両方を可能にするため、ロボット工学への関心が高まっている。 しかし, 等角接触特性は同じで, 軟弱センサの劣化が早くなり, 応答特性の経時的変化が大きくなり, 長寿命化や交換性が阻害される。 ReSkinは、機械学習と磁気センサーを利用して、低コストで多様なコンパクトなソリューションを長期使用に提供する触覚ソフトセンサーだ。 磁気センシングは、電子回路を受動的インタフェースから分離し、様々なフォームファクターを許容しながら、摩耗するインターフェースを交換しやすくする。 機械学習により、製造や時間の変動に頑健なセンサ応答モデルを学ぶことができ、我々の自己教師型学習アルゴリズムは、小型で安価なデータ収集手順で、より詳細なパフォーマンス向上を可能にする。 ReSkinは、既存の代替製品よりも多用途でスケーラブルで安価な触覚モジュールの扉を開くと信じている。

Soft sensors have continued growing interest in robotics, due to their ability to enable both passive conformal contact from the material properties and active contact data from the sensor properties. However, the same properties of conformal contact result in faster deterioration of soft sensors and larger variations in their response characteristics over time and across samples, inhibiting their ability to be long-lasting and replaceable. ReSkin is a tactile soft sensor that leverages machine learning and magnetic sensing to offer a low-cost, diverse and compact solution for long-term use. Magnetic sensing separates the electronic circuitry from the passive interface, making it easier to replace interfaces as they wear out while allowing for a wide variety of form factors. Machine learning allows us to learn sensor response models that are robust to variations across fabrication and time, and our self-supervised learning algorithm enables finer performance enhancement with small, inexpensive data collection procedures. We believe that ReSkin opens the door to more versatile, scalable and inexpensive tactile sensation modules than existing alternatives.
翻訳日:2021-11-02 16:19:36 公開日:2021-10-29
# CvS:小さなデータセットのセグメンテーションによる分類

CvS: Classification via Segmentation For Small Datasets ( http://arxiv.org/abs/2111.00042v1 )

ライセンス: Link先を確認
Nooshin Mojab, Philip S. Yu, Joelle A. Hallak, Darvin Yi(参考訳) ディープラーニングモデルは、さまざまなドメインにわたる幅広いコンピュータビジョンアプリケーションで有望な結果を示している。 ディープラーニング手法の成功は、大量のデータの可用性に大きく依存しています。 深層ニューラルネットワークは、データが不足している場合に過剰に適合しがちである。 この問題は、ほんの数データポイントしかアクセスしない分類ヘッドを持つニューラルネットワークにとってさらに深刻になる。 しかし、大規模なデータセットを取得することは、いくつかのドメインでは非常に困難、困難、あるいは不可能です。 したがって、小さなデータレジームでうまく機能する分類器の開発は、限られたデータを持つアプリケーションにとって不可欠である。 本稿では,分類ラベルをセグメントマップの予測から導出した小型データセットのコスト効率の高い分類器CvSを提案する。 ラベル伝搬法を用いて,手作業による断片化データのみを用いて,完全セグメント化データセットを実現する。 我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。

Deep learning models have shown promising results in a wide range of computer vision applications across various domains. The success of deep learning methods relies heavily on the availability of a large amount of data. Deep neural networks are prone to overfitting when data is scarce. This problem becomes even more severe for neural network with classification head with access to only a few data points. However, acquiring large-scale datasets is very challenging, laborious, or even infeasible in some domains. Hence, developing classifiers that are able to perform well in small data regimes is crucial for applications with limited data. This paper presents CvS, a cost-effective classifier for small datasets that derives the classification labels from predicting the segmentation maps. We employ the label propagation method to achieve a fully segmented dataset with only a handful of manually segmented data. We evaluate the effectiveness of our framework on diverse problems showing that CvS is able to achieve much higher classification results compared to previous methods when given only a handful of examples.
翻訳日:2021-11-02 15:18:06 公開日:2021-10-29
# ニューラル誘導型遺伝的プログラミング集団シードによるシンボリック回帰

Symbolic Regression via Neural-Guided Genetic Programming Population Seeding ( http://arxiv.org/abs/2111.00053v1 )

ライセンス: Link先を確認
T. Nathan Mundhenk and Mikel Landajuela and Ruben Glatt and Claudio P. Santiago and Daniel M. Faissol and Brenden K. Petersen(参考訳) シンボリック回帰(英: symbolic regression)とは、ブラックボックスプロセスから観測された出力に適合する数式を特定する過程である。 これは一般にnpハードであると考えられる離散最適化問題である。 この問題を解決する以前のアプローチには、ニューラルネットワークによる探索(強化学習など)と遺伝的プログラミングがある。 本研究では,記号回帰や他の組合せ最適化問題に対するハイブリッド型ニューラルネットワーク/遺伝的プログラミング手法を提案する。 本稿では、ランダムに再起動する遺伝的プログラミングコンポーネントの開始集団をシードし、徐々に開始集団を学習する神経誘導成分を提案する。 データセットから基礎となる式を復元する多くのベンチマークタスクでは、同じ実験設定で最近公開されたトップパフォーマンスモデルよりも65%多く表現を復元する。 神経誘導成分の相互依存なしに多くの遺伝的プログラミング世代を走らせることは、両者がより強く結合された代替の定式化よりも象徴的回帰に優れていることを示す。 最後に,既存のベンチマークよりも難易度が高い22のシンボリック回帰ベンチマーク問題について紹介する。 ソースコードはwww.github.com/brend enpetersen/deep-symb olic-optimizationで提供されている。

Symbolic regression is the process of identifying mathematical expressions that fit observed output from a black-box process. It is a discrete optimization problem generally believed to be NP-hard. Prior approaches to solving the problem include neural-guided search (e.g. using reinforcement learning) and genetic programming. In this work, we introduce a hybrid neural-guided/geneti c programming approach to symbolic regression and other combinatorial optimization problems. We propose a neural-guided component used to seed the starting population of a random restart genetic programming component, gradually learning better starting populations. On a number of common benchmark tasks to recover underlying expressions from a dataset, our method recovers 65% more expressions than a recently published top-performing model using the same experimental setup. We demonstrate that running many genetic programming generations without interdependence on the neural-guided component performs better for symbolic regression than alternative formulations where the two are more strongly coupled. Finally, we introduce a new set of 22 symbolic regression benchmark problems with increased difficulty over existing benchmarks. Source code is provided at www.github.com/brend enpetersen/deep-symb olic-optimization.
翻訳日:2021-11-02 14:29:05 公開日:2021-10-29
# クラスレベル勾配操作による一般化データ重み付け

Generalized Data Weighting via Class-level Gradient Manipulation ( http://arxiv.org/abs/2111.00056v1 )

ライセンス: Link先を確認
Can Chen, Shuhao Zheng, Xi Chen, Erqun Dong, Xue Liu, Hao Liu, Dejing Dou(参考訳) ラベルノイズとクラス不均衡は、現実世界のデータセットに共存する2つの大きな問題である。 2つの問題を緩和するために、最先端のメソッドは、少量のクリーンで偏りのないデータを活用することで、各インスタンスを再重み付けする。 しかし、これらのメソッドは各インスタンス内のクラスレベルの情報を見落とし、パフォーマンスを向上させるためにさらに活用することができる。 そこで本稿では,クラスレベルの勾配を操作することで,ラベルノイズとクラス不均衡を同時に緩和する汎用データ重み付け(GDW)を提案する。 具体的には、GDWはチェーンルールによってクラスレベルの勾配に損失勾配をアンロールし、各勾配の流れを個別に重み付けする。 このようにして、GDWは両方の問題において顕著なパフォーマンス改善を実現します。 性能向上の他に、gdwはインスタンス重み付け法と比較して計算コストを増すことなく、効率的にクラスレベルの重み付けを得る。 特に、gdwは、中間勾配のみに依存するクラスレベルの重み付けに対して勾配降下ステップを実行する。 各種実験によりgdwの有効性が検証された。 例えば、GDW は CIFAR10 の均一ノイズ設定において、最先端の手法を 2.56 %$ で上回る。 私たちのコードはhttps://github.com/G Gchen1997/GDW-NIPS20 21で公開されています。

Label noise and class imbalance are two major issues coexisting in real-world datasets. To alleviate the two issues, state-of-the-art methods reweight each instance by leveraging a small amount of clean and unbiased data. Yet, these methods overlook class-level information within each instance, which can be further utilized to improve performance. To this end, in this paper, we propose Generalized Data Weighting (GDW) to simultaneously mitigate label noise and class imbalance by manipulating gradients at the class level. To be specific, GDW unrolls the loss gradient to class-level gradients by the chain rule and reweights the flow of each gradient separately. In this way, GDW achieves remarkable performance improvement on both issues. Aside from the performance gain, GDW efficiently obtains class-level weights without introducing any extra computational cost compared with instance weighting methods. Specifically, GDW performs a gradient descent step on class-level weights, which only relies on intermediate gradients. Extensive experiments in various settings verify the effectiveness of GDW. For example, GDW outperforms state-of-the-art methods by $2.56\%$ under the $60\%$ uniform noise setting in CIFAR10. Our code is available at https://github.com/G Gchen1997/GDW-NIPS20 21.
翻訳日:2021-11-02 14:26:22 公開日:2021-10-29
# 交通密度推定のための交通監視カメラをインテリジェントセンサに変える

Turning Traffic Monitoring Cameras into Intelligent Sensors for Traffic Density Estimation ( http://arxiv.org/abs/2111.00941v1 )

ライセンス: Link先を確認
Zijian Hu, William H.K. Lam, S.C. Wong, Andy H.F. Chow, Wei Ma(参考訳) 知的交通システム(ITS)において、正確な交通状況情報は重要な役割を担っており、信号調整や交通流予測といった様々なスマートモビリティアプリケーションに不可欠な入力である。 交通状態情報を取得する現在の慣行はループ検出器や速度カメラなどの特殊なセンサーによるものである。 多くの都市圏では、道路や高速道路の交通状況を監視するために交通監視カメラが設置されており、収集されたビデオや画像は主に交通技術者による視覚検査に使用されている。 残念ながら、交通監視カメラから収集されたデータは、4Lの特徴である低フレームレート、低解像度、注釈付きデータの欠如、複雑な道路環境にある。 したがって、交通監視カメラの大きな可能性にもかかわらず、4L特性は交通状況情報(例えば、速度、流れ、密度)の提供を妨げている。 本稿では,様々な交通監視システムに適用可能な交通密度推定問題に焦点を当てた。 私たちの知る限りでは、4l特性に対処し、交通監視カメラデータからトラフィック密度情報を抽出するための包括的枠組みが欠如している。 そこで本研究では,4l特性を有する非キャリブトトラヒック監視カメラを用いたトラヒック密度推定手法を提案する。 提案するフレームワークは,カメラキャリブレーションと車両検出という2つの主要コンポーネントで構成されている。 カメラキャリブレーション法は、画像とビデオ中の画素間の実際の長さを推定し、深層学習に基づく車両検出法から車両数を抽出する。 2つのコンポーネントを組み合わせることで、高グラニュラートラフィック密度を推定できる。 この枠組みを検証するため、香港とサクラメントで2つのケーススタディが実施された。 その結果, カメラキャリブレーションにおける平均絶対誤差(mae)は6mから0.2m以下であり, 各種条件下での車両検出精度は約90%であることがわかった。 推定密度のmaeは、香港では9.04 veh/km/lane、サクラメントでは1.30 veh/km/laneである。 研究成果は, 速度密度基本図の校正に利用することができ, 提案フレームワークは, センサを追加することなく, 正確なリアルタイム交通情報を提供できる。

Accurate traffic state information plays a pivotal role in the Intelligent Transportation Systems (ITS), and it is an essential input to various smart mobility applications such as signal coordination and traffic flow prediction. The current practice to obtain the traffic state information is through specialized sensors such as loop detectors and speed cameras. In most metropolitan areas, traffic monitoring cameras have been installed to monitor the traffic conditions on arterial roads and expressways, and the collected videos or images are mainly used for visual inspection by traffic engineers. Unfortunately, the data collected from traffic monitoring cameras are affected by the 4L characteristics: Low frame rate, Low resolution, Lack of annotated data, and Located in complex road environments. Therefore, despite the great potentials of the traffic monitoring cameras, the 4L characteristics hinder them from providing useful traffic state information (e.g., speed, flow, density). This paper focuses on the traffic density estimation problem as it is widely applicable to various traffic surveillance systems. To the best of our knowledge, there is a lack of the holistic framework for addressing the 4L characteristics and extracting the traffic density information from traffic monitoring camera data. In view of this, this paper proposes a framework for estimating traffic density using uncalibrated traffic monitoring cameras with 4L characteristics. The proposed framework consists of two major components: camera calibration and vehicle detection. The camera calibration method estimates the actual length between pixels in the images and videos, and the vehicle counts are extracted from the deep-learning-based vehicle detection method. Combining the two components, high-granular traffic density can be estimated. To validate the proposed framework, two case studies were conducted in Hong Kong and Sacramento. The results show that the Mean Absolute Error (MAE) in camera calibration is less than 0.2 meters out of 6 meters, and the accuracy of vehicle detection under various conditions is approximately 90%. Overall, the MAE for the estimated density is 9.04 veh/km/lane in Hong Kong and 1.30 veh/km/lane in Sacramento. The research outcomes can be used to calibrate the speed-density fundamental diagrams, and the proposed framework can provide accurate and real-time traffic information without installing additional sensors.
翻訳日:2021-11-02 14:08:00 公開日:2021-10-29
# ドキュメントインテリジェンスのためのドメイン非依存な少数ショット学習

Domain Agnostic Few-Shot Learning For Document Intelligence ( http://arxiv.org/abs/2111.00007v1 )

ライセンス: Link先を確認
Jaya Krishna Mandivarapu, Eric bunch, Glenn fung(参考訳) ほとんどショット学習は、クラスラベルを持つ少数のサンプルだけで、新しいクラスに一般化することを目的としていない。 少数ショット学習の研究は、移動学習、メートル法学習、メタラーニング、ベイズ的手法などの技術を借りている。 これらの手法はまた、限られたトレーニングサンプルからモデルを訓練することを目的としており、パフォーマンスを奨励する一方で、しばしば新しい領域への一般化に失敗している。 既存のメタ学習メソッドの多くは、ベースクラスがメタテストに使われる新しいクラスと同じドメインからサンプリングされるトレーニングデータに依存している。 しかし、文書分類などの業界における多くのアプリケーションでは、メタ学習のための大量のデータ収集は不可能か不可能である。 クロスドメインの少数ショット学習の分野での研究は存在するが、ほとんどはコンピュータビジョンに限られている。 私たちの知る限り、ビジネスワークフロー(フォーム、レター、請求書など)の一部として生成された半構造化文書(書類のスキャン)の分類に、少額の学習を用いることを調べる作業はまだありません。 ここでは、ドメインシフトが重要で、自然画像から興味のある半構造化ドキュメントに移行します。 本稿では,ドメインシフト下での文書画像分類の問題点について述べる。 既存の手法との比較により研究成果を評価する。 実験により,提案手法はドメインシフト下でのショット分類性能を一貫した改善を示した。

Few-shot learning aims to generalize to novel classes with only a few samples with class labels. Research in few-shot learning has borrowed techniques from transfer learning, metric learning, meta-learning, and Bayesian methods. These methods also aim to train models from limited training samples, and while encouraging performance has been achieved, they often fail to generalize to novel domains. Many of the existing meta-learning methods rely on training data for which the base classes are sampled from the same domain as the novel classes used for meta-testing. However, in many applications in the industry, such as document classification, collecting large samples of data for meta-learning is infeasible or impossible. While research in the field of the cross-domain few-shot learning exists, it is mostly limited to computer vision. To our knowledge, no work yet exists that examines the use of few-shot learning for classification of semi-structured documents (scans of paper documents) generated as part of a business workflow (forms, letters, bills, etc.). Here the domain shift is significant, going from natural images to the semi-structured documents of interest. In this work, we address the problem of few-shot document image classification under domain shift. We evaluate our work by extensive comparisons with existing methods. Experimental results demonstrate that the proposed method shows consistent improvements on the few-shot classification performance under domain shift.
翻訳日:2021-11-02 13:58:34 公開日:2021-10-29
# セマンティックセグメンテーションにおける深い決定論的不確かさ

Deep Deterministic Uncertainty for Semantic Segmentation ( http://arxiv.org/abs/2111.00079v1 )

ライセンス: Link先を確認
Jishnu Mukhoti, Joost van Amersfoort, Philip H.S. Torr, Yarin Gal(参考訳) 特徴空間密度を用いた不確実性推定手法であるDeep Deterministic Uncertainity (DDU) をセマンティックセグメンテーションに拡張する。 DDUは、モデルを通る1つの前方通過において、てんかんと動脈の不確実性の定量化と解離を可能にする。 同一クラスにおける異なる場所における画素の特徴表現の類似性を検討した結果,ddu位置を独立して適用することは可能であり,画素依存型dduと比較してメモリ消費が大幅に減少することがわかった。 Pascal VOC 2012のDeepLab-v3+アーキテクチャを使って、DDUはMC DropoutとDeep Ensemblesで改善され、計算が大幅に高速であることを示す。

We extend Deep Deterministic Uncertainty (DDU), a method for uncertainty estimation using feature space densities, to semantic segmentation. DDU enables quantifying and disentangling epistemic and aleatoric uncertainty in a single forward pass through the model. We study the similarity of feature representations of pixels at different locations for the same class and conclude that it is feasible to apply DDU location independently, which leads to a significant reduction in memory consumption compared to pixel dependent DDU. Using the DeepLab-v3+ architecture on Pascal VOC 2012, we show that DDU improves upon MC Dropout and Deep Ensembles while being significantly faster to compute.
翻訳日:2021-11-02 13:58:10 公開日:2021-10-29
# FC2T2: ビジョンとグラフィックスを応用した高速連続畳み込みテイラー変換

FC2T2: The Fast Continuous Convolutional Taylor Transform with Applications in Vision and Graphics ( http://arxiv.org/abs/2111.00110v1 )

ライセンス: Link先を確認
Henning Lange, J. Nathan Kutz(参考訳) 数世紀にわたって、一連の拡張は応用数学と工学の基盤となった。 本稿では,現代の機械学習の観点からTaylorシリーズの拡張を再考する。 具体的には,FMM(Fast Multipole Method)の変種であるFC2T2(Fast Continuous Convolutional Taylor Transform)を導入し,連続空間における低次元畳み込み作用素の効率的な近似を可能にする。 我々は、N体問題の計算複雑性をO(NM)からO(N+M)に還元する近似アルゴリズムであるFMMを構築し、例えば粒子シミュレーションに適用する。 中間段階として、fmmはグリッド上の各セルに対して系列展開を生成し、この表現に直接作用するアルゴリズムを導入する。 これらのアルゴリズムは解析的にではあるが、バックプロパゲーションアルゴリズムの前後通過に必要な量をほぼ計算し、ニューラルネットワークの(単純な)層として利用できる。 具体的には,表面の正規分布と物体距離を出力するルート単純層と,3次元ポーズを与えられた放射場の描画を出力する積分単純層を導入する。 機械学習の文脈では、n$ と $m$ はそれぞれモデルパラメータの数とモデル評価として理解することができ、コンピュータビジョンやグラフィックスに広く使われている繰り返し関数評価を必要とするアプリケーションでは、通常のニューラルネットワークとは異なり、この手法はパラメーターを優雅にスケールする。 応用によっては、FLOPの200倍の削減が達成され、最先端のアプローチでは精度が低下する。

Series expansions have been a cornerstone of applied mathematics and engineering for centuries. In this paper, we revisit the Taylor series expansion from a modern Machine Learning perspective. Specifically, we introduce the Fast Continuous Convolutional Taylor Transform (FC2T2), a variant of the Fast Multipole Method (FMM), that allows for the efficient approximation of low dimensional convolutional operators in continuous space. We build upon the FMM which is an approximate algorithm that reduces the computational complexity of N-body problems from O(NM) to O(N+M) and finds application in e.g. particle simulations. As an intermediary step, the FMM produces a series expansion for every cell on a grid and we introduce algorithms that act directly upon this representation. These algorithms analytically but approximately compute the quantities required for the forward and backward pass of the backpropagation algorithm and can therefore be employed as (implicit) layers in Neural Networks. Specifically, we introduce a root-implicit layer that outputs surface normals and object distances as well as an integral-implicit layer that outputs a rendering of a radiance field given a 3D pose. In the context of Machine Learning, $N$ and $M$ can be understood as the number of model parameters and model evaluations respectively which entails that, for applications that require repeated function evaluations which are prevalent in Computer Vision and Graphics, unlike regular Neural Networks, the techniques introduce in this paper scale gracefully with parameters. For some applications, this results in a 200x reduction in FLOPs compared to state-of-the-art approaches at a reasonable or non-existent loss in accuracy.
翻訳日:2021-11-02 13:28:20 公開日:2021-10-29
# ラテントトラバーサルによる畳み込みニューラルネットワークの視覚的説明

Visual Explanations for Convolutional Neural Networks via Latent Traversal ( http://arxiv.org/abs/2111.00116v1 )

ライセンス: Link先を確認
Amil Dravid, Aggelos K. Katsaggelos(参考訳) 人工知能、特にディープニューラルネットワークにおける説明可能性の欠如は、実際にモデルを実装する上でのボトルネックである。 Grad-CAM(Grad-Headed Class Activation Mapping)のような一般的なテクニックは、画像内の健全な特徴の粗いマップを提供し、畳み込みニューラルネットワーク(CNN)が学んだことの全体を伝えることはめったにない。 新型コロナウイルスの胸部X線を用いて,GAN(Generative Adversarial Networks)を用いてCNNが学んだことを解釈する手法を提案する。 我々のganフレームワークは、covid-19の特徴から肺構造を分離する。 このGANを用いて、GANの潜伏空間に補間することにより、胸部X線写真中の一対の陰性肺からCOVID陽性肺への移行を可視化し、CNNが肺内の様々な特徴にどのように反応するかを詳細に可視化する。

Lack of explainability in artificial intelligence, specifically deep neural networks, remains a bottleneck for implementing models in practice. Popular techniques such as Gradient-weighted Class Activation Mapping (Grad-CAM) provide a coarse map of salient features in an image, which rarely tells the whole story of what a convolutional neural network (CNN) learned. Using COVID-19 chest X-rays, we present a method for interpreting what a CNN has learned by utilizing Generative Adversarial Networks (GANs). Our GAN framework disentangles lung structure from COVID-19 features. Using this GAN, we can visualize the transition of a pair of COVID negative lungs in a chest radiograph to a COVID positive pair by interpolating in the latent space of the GAN, which provides fine-grained visualization of how the CNN responds to varying features within the lungs.
翻訳日:2021-11-02 13:27:53 公開日:2021-10-29
# DeepDoseNet:放射線治療における3次元線量予測のためのディープラーニングモデル

DeepDoseNet: A Deep Learning model for 3D Dose Prediction in Radiation Therapy ( http://arxiv.org/abs/2111.00077v1 )

ライセンス: Link先を確認
Mumtaz Hussain Soomro, Victor Gabriel Leandro Alves, Hamidreza Nourzadeh, Jeffrey V. Siebers(参考訳) ResNetとDilated DenseNetに基づくDeepDoseNetの3次元線量予測モデルを提案する。 2020 AAPM OpenKBPチャレンジの340のヘッド・アンド・ネックデータセットが利用され、200のトレーニング、40のバリデーション、100のテストが行われた。 組織には56Gy、63Gy、70Gy PTV、脳幹、脊髄、右耳下腺、左耳下腺、喉頭、食道、下顎OARが含まれる。 平均二乗誤差 (mse) 損失, 平均絶対誤差 (mae) 損失, および mae plus dose-volume histogram (dvh) に基づく損失関数について検討した。 各モデルのパフォーマンスは、3d線量スコアである$\bar{s_{d}}$(基底真理と予測された3d線量分布の絶対差)と、dvhスコアである$\bar{s_{dvh}}$(基底真理と予測線量容積の絶対差)を用いて比較された。 さらに,OARではDVH測定値がMean[Gy],D0.1cc[Gy],D99%,D95%,D1%,PTVではD1%であった。 MAEとDVHに基づく損失関数を持つDeepDoseNetは、OpenKBPエントリの最高線量スコア性能を示した。 mae+dvhモデルが最も低い予測誤差(p<0.0001, wilcoxon test)は検証とテストデータセット(validation: $\bar{s_{d}}$=2.3gy, $\bar{s_{dvh}}$=1.9gy; test: $\bar{s_{d}}$=2.0gy, $\bar{s_{dvh}}$=1.6gy)であり、maeモデル(validation: $\bar{s_{d}}$=3.6gy, $\bar{s_{dvh}}$=2.4gy; test: $\bar{s_{d}}$3.5gy, $\bar{s_{dvh}}$2.3gy)であった。 MSEモデルは最も高い予測誤差を持っていた(検証: $\bar{S_{D}}$=3.7Gy, $\bar{S_{DVH}}$=3.2Gy; test: $\bar{S_{D}}$=3.6Gy, $\bar{S_{DVH}}$=3.0Gy)。 平均[Gy]モデルでは有意差は認められなかったが,D0.1cc[Gy]モデルではMAE+DVHモデルがMAEモデルとMSEモデルより有意に優れており,特に下顎骨と耳下腺はP<0.01)データセットとテスト(P<0.0001)データセットの両方で有意差が認められた。 mae+dvh は d99%, d95%, d1% で (p<0.0001) を上回った。 MAE+DVHは$\bar{S_{D}}$を60%、$\bar{S_{DVH}}$を~70%削減した。

The DeepDoseNet 3D dose prediction model based on ResNet and Dilated DenseNet is proposed. The 340 head-and-neck datasets from the 2020 AAPM OpenKBP challenge were utilized, with 200 for training, 40 for validation, and 100 for testing. Structures include 56Gy, 63Gy, 70Gy PTVs, and brainstem, spinal cord, right parotid, left parotid, larynx, esophagus, and mandible OARs. Mean squared error (MSE) loss, mean absolute error (MAE) loss, and MAE plus dose-volume histogram (DVH) based loss functions were investigated. Each model's performance was compared using a 3D dose score, $\bar{S_{D}}$, (mean absolute difference between ground truth and predicted 3D dose distributions) and a DVH score, $\bar{S_{DVH}}$ (mean absolute difference between ground truth and predicted dose-volume metrics).Furthermore , DVH metrics Mean[Gy] and D0.1cc [Gy] for OARs and D99%, D95%, D1% for PTVs were computed. DeepDoseNet with the MAE plus DVH-based loss function had the best dose score performance of the OpenKBP entries. MAE+DVH model had the lowest prediction error (P<0.0001, Wilcoxon test) on validation and test datasets (validation: $\bar{S_{D}}$=2.3Gy, $\bar{S_{DVH}}$=1.9Gy; test: $\bar{S_{D}}$=2.0Gy, $\bar{S_{DVH}}$=1.6Gy) followed by the MAE model (validation: $\bar{S_{D}}$=3.6Gy, $\bar{S_{DVH}}$=2.4Gy; test: $\bar{S_{D}}$=3.5Gy, $\bar{S_{DVH}}$=2.3Gy). The MSE model had the highest prediction error (validation: $\bar{S_{D}}$=3.7Gy, $\bar{S_{DVH}}$=3.2Gy; test: $\bar{S_{D}}$=3.6Gy, $\bar{S_{DVH}}$=3.0Gy). No significant difference was found among models in terms of Mean [Gy], but the MAE+DVH model significantly outperformed the MAE and MSE models in terms of D0.1cc[Gy], particularly for mandible and parotids on both validation (P<0.01) and test (P<0.0001) datasets. MAE+DVH outperformed (P<0.0001) in terms of D99%, D95%, D1% for targets. MAE+DVH reduced $\bar{S_{D}}$ by ~60% and $\bar{S_{DVH}}$ by ~70%.
翻訳日:2021-11-02 13:24:32 公開日:2021-10-29
# Skyformer: Gaussian Kernel と Nystr\"om 法による自己認識のモデル化

Skyformer: Remodel Self-Attention with Gaussian Kernel and Nystr\"om Method ( http://arxiv.org/abs/2111.00035v1 )

ライセンス: Link先を確認
Yifan Chen, Qi Zeng, Heng Ji, Yun Yang(参考訳) トランスフォーマーは、自己保持機構の2次時間と空間の複雑さのために、訓練に費用がかかる。 一方、カーネルマシンは、ペアワイズドット製品において同じ計算ボトルネックに苦しんでいるが、精度を犠牲にすることなく計算コストを大幅に削減するためにいくつかの近似スキームが組み込まれている。 本研究では,計算コストの低減のためにカーネルマシンの計算手法を活用し,モデルトレーニングを安定化するためにソフトマックス構造をガウスカーネルに置き換え,nystr\"om法を非正の半定値行列に適用して計算を高速化するskyformerを導入する。 さらに,提案手法の行列近似誤差がスペクトルノルムにおいて小さいことを示すことにより,理論解析を行う。 Long Range Arenaベンチマークの実験では、提案手法は計算資源を少なくしながら、完全な自己注意よりも同等あるいはそれ以上の性能を得るのに十分であることが示された。

Transformers are expensive to train due to the quadratic time and space complexity in the self-attention mechanism. On the other hand, although kernel machines suffer from the same computation bottleneck in pairwise dot products, several approximation schemes have been successfully incorporated to considerably reduce their computational cost without sacrificing too much accuracy. In this work, we leverage the computation methods for kernel machines to alleviate the high computational cost and introduce Skyformer, which replaces the softmax structure with a Gaussian kernel to stabilize the model training and adapts the Nystr\"om method to a non-positive semidefinite matrix to accelerate the computation. We further conduct theoretical analysis by showing that the matrix approximation error of our proposed method is small in the spectral norm. Experiments on Long Range Arena benchmark show that the proposed method is sufficient in getting comparable or even better performance than the full self-attention while requiring fewer computation resources.
翻訳日:2021-11-02 12:58:49 公開日:2021-10-29
# サンプル再利用による一般化近位政策最適化

Generalized Proximal Policy Optimization with Sample Reuse ( http://arxiv.org/abs/2111.00072v1 )

ライセンス: Link先を確認
James Queeney, Ioannis Ch. Paschalidis, Christos G. Cassandras(参考訳) 実世界の意思決定タスクでは、データ駆動型強化学習手法が安定かつサンプル効率の両方で重要である。 オンポリシーメソッドは通常、トレーニングを通して信頼できるポリシー改善を生成するが、オフポリシーメソッドはサンプル再利用を通じてデータをより効率的に利用する。 本研究では,オンポリシーアルゴリズムの理論的に支持される安定性の利点とオフポリシーアルゴリズムのサンプル効率を組み合わせる。 我々は、オフポリシー設定に適したポリシー改善保証を開発し、これらの境界を近位政策最適化に使用されるクリッピング機構に接続する。 これは、我々がGeneralized Proximal Policy Optimization with Sample Reuseと呼ぶ、一般的なアルゴリズムの非政治的バージョンを動機付けます。 我々は,安定性とサンプル効率の競合する目標を効果的にバランスさせることにより,アルゴリズムが優れた性能をもたらすことを理論的および実証的に証明する。

In real-world decision making tasks, it is critical for data-driven reinforcement learning methods to be both stable and sample efficient. On-policy methods typically generate reliable policy improvement throughout training, while off-policy methods make more efficient use of data through sample reuse. In this work, we combine the theoretically supported stability benefits of on-policy algorithms with the sample efficiency of off-policy algorithms. We develop policy improvement guarantees that are suitable for the off-policy setting, and connect these bounds to the clipping mechanism used in Proximal Policy Optimization. This motivates an off-policy version of the popular algorithm that we call Generalized Proximal Policy Optimization with Sample Reuse. We demonstrate both theoretically and empirically that our algorithm delivers improved performance by effectively balancing the competing goals of stability and sample efficiency.
翻訳日:2021-11-02 12:58:15 公開日:2021-10-29
# AEVA:逆極値解析を用いたブラックボックスバックドア検出

AEVA: Black-box Backdoor Detection Using Adversarial Extreme Value Analysis ( http://arxiv.org/abs/2110.14880v2 )

ライセンス: Link先を確認
Junfeng Guo and Ang Li and Cong Liu(参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱であることが証明されている。 バックドアは、トレーニング例にバックドアトリガを注入することで、ターゲットのDNNにバックドアトリガが付いた入力を誤分類する可能性があるため、ターゲットのDNNをターゲットのDNNに組み込むことが多い。 既存のバックドア検出手法では、オリジナルの有毒なトレーニングデータ、ターゲットのDNNのパラメータ、および各入力に対する予測信頼性へのアクセスを必要とすることが多い。 我々は、DNNが完全にブラックボックスであり、最終的な出力ラベルのみがアクセス可能なブラックボックスハードラベルバックドア検出問題に対処する。 最適化の観点からこの問題にアプローチし,バックドア検出の目的が敵の目的に拘束されていることを示す。 さらに理論的、実証的な研究により、この対向目的が高度に歪んだ分布を持つ解をもたらすことが明らかとなり、バックドア感染例の対向写像において特異性がしばしば観察される。 そこで本研究では,ブラックボックスニューラルネットワークのバックドア検出のための逆極値解析(AEVA)を提案する。 AEVAはモンテカルロ勾配推定から計算した逆写像の極端な値解析に基づいている。 複数の一般的なタスクやバックドアアタックに対する広範な実験により,ブラックボックスのハードラベルシナリオ下でのバックドアアタックの検出に有効であることが確認された。

Deep neural networks (DNNs) are proved to be vulnerable against backdoor attacks. A backdoor is often embedded in the target DNNs through injecting a backdoor trigger into training examples, which can cause the target DNNs misclassify an input attached with the backdoor trigger. Existing backdoor detection methods often require the access to the original poisoned training data, the parameters of the target DNNs, or the predictive confidence for each given input, which are impractical in many real-world applications, e.g., on-device deployed DNNs. We address the black-box hard-label backdoor detection problem where the DNN is fully black-box and only its final output label is accessible. We approach this problem from the optimization perspective and show that the objective of backdoor detection is bounded by an adversarial objective. Further theoretical and empirical studies reveal that this adversarial objective leads to a solution with highly skewed distribution; a singularity is often observed in the adversarial map of a backdoor-infected example, which we call the adversarial singularity phenomenon. Based on this observation, we propose the adversarial extreme value analysis(AEVA) to detect backdoors in black-box neural networks. AEVA is based on an extreme value analysis of the adversarial map, computed from the monte-carlo gradient estimation. Evidenced by extensive experiments across multiple popular tasks and backdoor attacks, our approach is shown effective in detecting backdoor attacks under the black-box hard-label scenarios.
翻訳日:2021-11-02 11:20:28 公開日:2021-10-29
# (参考訳) 高齢者における手のジェスチャー検出 [全文訳有]

Hand gesture detection in tests performed by older adults ( http://arxiv.org/abs/2110.14461v2 )

ライセンス: CC BY 4.0
Guan Huang and Son N. Tran and Quan Bai and Jane Alty(参考訳) 我々のチームは、研究センターから遠隔で完了できる老化に伴う手の動きの特徴を分析する新しいオンラインテストを開発している。 手の動きの特徴を得るために、参加者は自分のコンピューターカメラを使って様々な手のジェスチャーを依頼される。 しかし、特にitのバックグラウンドを持たない高齢者を対象に、高品質な手の動き動画データを集めることは困難である。 データ収集プロセスの間、重要なステップの1つは、参加者がテスト手順を正しく守っているかどうかを検知し、異なるデバイスから同様のジェスチャーを検出することである。 さらに、何千人もの参加者がテストの完了を期待するので、このプロセスは自動化され、正確になる必要があります。 また,手の動きを検知するハンドジェスチャ検出装置を実装し,その検出マップは0.782であり,最新技術よりも優れている。 本研究では,手の動きテストから収集した2万枚の画像を処理し,手の動きの異なる手の動きを検出するために6450枚の画像にラベル付けした。 本論文には以下の3つの貢献がある。 まず,ハンドジェスチャ検出のための異なるネットワーク構造の性能を比較分析した。 第2に,モデルの精度を向上させる試みを数多く行ない,注意層を実装することで,同様のジェスチャの分類精度の向上に成功している。 第3に、私たちは2つのデータセットを作成し、そのデータセットにぼやけた画像の20%を含んで、ノイズの多いデータによって異なるネットワーク構造がどのように影響を受けるかを調査しました。

Our team are developing a new online test that analyses hand movement features associated with ageing that can be completed remotely from the research centre. To obtain hand movement features, participants will be asked to perform a variety of hand gestures using their own computer cameras. However, it is challenging to collect high quality hand movement video data, especially for older participants, many of whom have no IT background. During the data collection process, one of the key steps is to detect whether the participants are following the test instructions correctly and also to detect similar gestures from different devices. Furthermore, we need this process to be automated and accurate as we expect many thousands of participants to complete the test. We have implemented a hand gesture detector to detect the gestures in the hand movement tests and our detection mAP is 0.782 which is better than the state-of-the-art. In this research, we have processed 20,000 images collected from hand movement tests and labelled 6,450 images to detect different hand gestures in the hand movement tests. This paper has the following three contributions. Firstly, we compared and analysed the performance of different network structures for hand gesture detection. Secondly, we have made many attempts to improve the accuracy of the model and have succeeded in improving the classification accuracy for similar gestures by implementing attention layers. Thirdly, we have created two datasets and included 20 percent of blurred images in the dataset to investigate how different network structures were impacted by noisy data, our experiments have also shown our network has better performance on the noisy dataset.
翻訳日:2021-11-02 02:32:24 公開日:2021-10-29
# (参考訳) 反事実推論のためのサイクルバランス表現学習 [全文訳有]

Cycle-Balanced Representation Learning For Counterfactual Inference ( http://arxiv.org/abs/2110.15484v1 )

ライセンス: CC BY 4.0
Guanglin Zhou and Lina Yao and Xiwei Xu and Chen Wang and Liming Zhu(参考訳) 観察データの広範囲な蓄積により、研究者はランダムに制御された試行(rcts)なしで多くの領域(医療や計算広告など)で反事実効果を学ぶ新しい方向を得る。 しかし, 観察データは, 本質的に欠落した反事実的結果と, 行動嗜好による治療群と対照群との分布差に悩まされている。 ドメイン適応の分野での表現学習の最近の進歩に触発され、我々は上記の問題を解決するためにCycle-Balanced Representation Learning for counterfactual Inference (CBRE) に基づく新しいフレームワークを提案する。 具体的には,異なるグループに対するロバストバランス表現を敵意的訓練を用いて実現し,一方,元のデータ特性を周期的に保存し,データを潜在表現空間に変換する際の情報損失を低減させる情報ループを構築する。

With the widespread accumulation of observational data, researchers obtain a new direction to learn counterfactual effects in many domains (e.g., health care and computational advertising) without Randomized Controlled Trials(RCTs). However, observational data suffer from inherent missing counterfactual outcomes, and distribution discrepancy between treatment and control groups due to behaviour preference. Motivated by recent advances of representation learning in the field of domain adaptation, we propose a novel framework based on Cycle-Balanced REpresentation learning for counterfactual inference (CBRE), to solve above problems. Specifically, we realize a robust balanced representation for different groups using adversarial training, and meanwhile construct an information loop, such that preserve original data properties cyclically, which reduces information loss when transforming data into latent representation space.Experimental results on three real-world datasets demonstrate that CBRE matches/outperforms the state-of-the-art methods, and it has a great potential to be applied to counterfactual inference.
翻訳日:2021-11-01 23:15:03 公開日:2021-10-29
# (参考訳) DOCKSTRING:分子ドッキングはリガンド設計のためのより良いベンチマークをもたらす

DOCKSTRING: easy molecular docking yields better benchmarks for ligand design ( http://arxiv.org/abs/2110.15486v1 )

ライセンス: CC BY 4.0
Miguel Garc\'ia-Orteg\'on, Gregor N. C. Simm, Austin J. Tripp, Jos\'e Miguel Hern\'andez-Lobato, Andreas Bender and Sergio Bacallado(参考訳) 薬物発見のための機械学習の分野は、新しい方法の爆発を目撃している。 これらの手法は、溶解度や一般的な薬物類似性のような単純な物理化学的性質でしばしばベンチマークされ、容易に計算できる。 しかしながら、これらの性質は、主にターゲットとの相互作用に依存しないため、薬物設計における客観的機能の悪い代表である。 対照的に、分子ドッキングは結合親和性を推定する薬物発見において広く成功した方法である。 しかし、ドッキングシミュレーションは正しく設定するためにかなりの量のドメイン知識を必要とし、採用を妨げている。 そこで本研究では,(1)ドッキングスコアの簡単な計算のためのオープンソースのPythonパッケージ,(2)ドッキングスコアの広範なデータセットと58の医療関連目標に対する260Kリガンドのポーズ,(3)レグレッション,仮想スクリーニング,デノボデザインを含む医薬関連ベンチマークタスクのセットの3つのコンポーネントからなる,MLモデルの有意義かつ堅牢な比較のためのバンドルであるDOCKSTRINGを提案する。 pythonパッケージはロバストなリガンドとターゲット準備プロトコルを実装しており、非専門家が有意義なドッキングスコアを得ることができる。 当社のデータセットは、ドッキングポーズと、フルマトリックスである最初のサイズを含む最初のものなので、多目的最適化と転送学習の実験が容易になります。 その結果,ドッキングスコアは単純な物理化学的特性よりも適切な評価対象であり,より現実的なベンチマークタスクや分子候補が得られた。

The field of machine learning for drug discovery is witnessing an explosion of novel methods. These methods are often benchmarked on simple physicochemical properties such as solubility or general druglikeness, which can be readily computed. However, these properties are poor representatives of objective functions in drug design, mainly because they do not depend on the candidate's interaction with the target. By contrast, molecular docking is a widely successful method in drug discovery to estimate binding affinities. However, docking simulations require a significant amount of domain knowledge to set up correctly which hampers adoption. To this end, we present DOCKSTRING, a bundle for meaningful and robust comparison of ML models consisting of three components: (1) an open-source Python package for straightforward computation of docking scores; (2) an extensive dataset of docking scores and poses of more than 260K ligands for 58 medically-relevant targets; and (3) a set of pharmaceutically-rel evant benchmark tasks including regression, virtual screening, and de novo design. The Python package implements a robust ligand and target preparation protocol that allows non-experts to obtain meaningful docking scores. Our dataset is the first to include docking poses, as well as the first of its size that is a full matrix, thus facilitating experiments in multiobjective optimization and transfer learning. Overall, our results indicate that docking scores are a more appropriate evaluation objective than simple physicochemical properties, yielding more realistic benchmark tasks and molecular candidates.
翻訳日:2021-11-01 23:03:42 公開日:2021-10-29
# (参考訳) GalilAI: 安全な移動RLのための因果能動実験による外面分布検出 [全文訳有]

GalilAI: Out-of-Task Distribution Detection using Causal Active Experimentation for Safe Transfer RL ( http://arxiv.org/abs/2110.15489v1 )

ライセンス: CC BY 4.0
Sumedh A Sontakke, Stephen Iota, Zizhao Hu, Arash Mehrjou, Laurent Itti, Bernhard Sch\"olkopf(参考訳) アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。 しかし、教師付き学習手法の成功を強化学習(rl)設定に拡張することは、データ生成プロセスによって困難である。 したがって、エージェントは、そのポリシーが移行した環境の側面を探求しなかった場合、環境の変化を無視することができる。 したがって、rlにおける安全で堅牢な一般化を達成するためには、アクティブな実験によるood検出の必要性が十分にある。 ここでは,まず,野生の rl エージェントが遭遇する ood シナリオや環境の因果フレームワークを定義することで,この lacuna の橋渡しを試みる。 そこで我々は,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。 実験環境において積極的に実験を行い,ootdか否かを判定するrlエージェントを提案する。 ガリレイはガリレオ・ガリレイ(galileo galilei)に敬意を表して、重力加速度が物体の質量から独立していることを発見した。 最後に,既存のモデルベースRLを拡張した,単純な確率論的ニューラルネットワークベースラインを提案する。 GalilAIがベースラインを大幅に上回っていることが分かりました。 私たちのメソッドの視覚化 https://galil-ai.git hub.io/ を参照してください。

Out-of-distribution (OOD) detection is a well-studied topic in supervised learning. Extending the successes in supervised learning methods to the reinforcement learning (RL) setting, however, is difficult due to the data generating process - RL agents actively query their environment for data, and the data are a function of the policy followed by the agent. An agent could thus neglect a shift in the environment if its policy did not lead it to explore the aspect of the environment that shifted. Therefore, to achieve safe and robust generalization in RL, there exists an unmet need for OOD detection through active experimentation. Here, we attempt to bridge this lacuna by first defining a causal framework for OOD scenarios or environments encountered by RL agents in the wild. Then, we propose a novel task: that of Out-of-Task Distribution (OOTD) detection. We introduce an RL agent that actively experiments in a test environment and subsequently concludes whether it is OOTD or not. We name our method GalilAI, in honor of Galileo Galilei, as it discovers, among other causal processes, that gravitational acceleration is independent of the mass of a body. Finally, we propose a simple probabilistic neural network baseline for comparison, which extends extant Model-Based RL. We find that GalilAI outperforms the baseline significantly. See visualizations of our method https://galil-ai.git hub.io/
翻訳日:2021-11-01 23:01:42 公開日:2021-10-29
# (参考訳) 深部地域競争による非教師なし前景抽出

Unsupervised Foreground Extraction via Deep Region Competition ( http://arxiv.org/abs/2110.15497v1 )

ライセンス: CC BY-SA 4.0
Peiyu Yu, Sirui Xie, Xiaojian Ma, Yixin Zhu, Ying Nian Wu, Song-Chun Zhu(参考訳) 本研究では,画像から前方の物体を完全に教師なしで抽出するアルゴリズムであるdeep region competition (drc)を提案する。 前景抽出は、背景からオブジェクトを識別し、分離することに焦点を当てたジェネリックイメージセグメンテーションの特別なケースと見なすことができる。 本研究では,前景抽出を,エネルギーベース先行と生成的画像モデリングの融合(moe)によって再検討し,背景領域の正則性を捉えるための本質的帰納的バイアスとして学習画素再割り当てを導入する。 このモデリングにより、フォアグラウンドとバックグラウンドのパーティションは、期待-最大化(EM)によって自然に見つけることができる。 提案手法は分割過程において混合成分間の相互作用を効果的に活用し, 画像分割のための独創的手法である領域競合と密接に関連していることを示す。 実験により、DRCは複雑な実世界のデータに対してより競争力のある性能を示し、従来の手法と比較して多目的シーンに挑戦することを示した。 さらに,DRCはトレーニング中に見えないカテゴリからでも,新しい前景オブジェクトに一般化できる可能性が実証的に示された。

We present Deep Region Competition (DRC), an algorithm designed to extract foreground objects from images in a fully unsupervised manner. Foreground extraction can be viewed as a special case of generic image segmentation that focuses on identifying and disentangling objects from the background. In this work, we rethink the foreground extraction by reconciling energy-based prior with generative image modeling in the form of Mixture of Experts (MoE), where we further introduce the learned pixel re-assignment as the essential inductive bias to capture the regularities of background regions. With this modeling, the foreground-backgroun d partition can be naturally found through Expectation-Maximiza tion (EM). We show that the proposed method effectively exploits the interaction between the mixture components during the partitioning process, which closely connects to region competition, a seminal approach for generic image segmentation. Experiments demonstrate that DRC exhibits more competitive performances on complex real-world data and challenging multi-object scenes compared with prior methods. Moreover, we show empirically that DRC can potentially generalize to novel foreground objects even from categories unseen during training.
翻訳日:2021-11-01 22:47:23 公開日:2021-10-29
# (参考訳) グラフのトポロジ的関係学習 [全文訳有]

Topological Relational Learning on Graphs ( http://arxiv.org/abs/2110.15529v1 )

ライセンス: CC BY 4.0
Yuzhou Chen, Baris Coskunuzer, Yulia R. Gel(参考訳) グラフニューラルネットワーク(gnns)は、グラフ分類と表現学習の強力なツールとして登場した。 しかし、GNNは過度に滑らかな問題に悩まされ、グラフの摂動に弱い傾向にある。 これらの課題に対処するため,我々は,高次グラフ情報をgnnに統合し,局所グラフ構造を体系的に学習する,トポロジカル関係推論(tri)の新たなトポロジカルニューラルフレームワークを提案する。 鍵となる考え方は、ノードの小さな近傍の永続的ホモロジーを用いて元のグラフを再構成し、抽出したトポロジ的要約を局所アルゴリズムの側情報として組み込むことである。 その結果,グラフ構造に関する従来の情報と,グラフ上の高次位相特性に関する情報の両方を利用することが可能となった。 我々は、新しい局所位相表現に対する理論的安定性の保証を導出し、それらのグラフ代数的接続性への影響について論じる。 ノード分類タスクにおける実験の結果,新しいtri-gnnは,6つの7つのグラフにおいて14の最先端ベースラインを上回り,摂動に対して高い頑健性を示し,雑音条件下では最大10-%の優れた性能が得られることがわかった。

Graph neural networks (GNNs) have emerged as a powerful tool for graph classification and representation learning. However, GNNs tend to suffer from over-smoothing problems and are vulnerable to graph perturbations. To address these challenges, we propose a novel topological neural framework of topological relational inference (TRI) which allows for integrating higher-order graph information to GNNs and for systematically learning a local graph structure. The key idea is to rewire the original graph by using the persistent homology of the small neighborhoods of nodes and then to incorporate the extracted topological summaries as the side information into the local algorithm. As a result, the new framework enables us to harness both the conventional information on the graph structure and information on the graph higher order topological properties. We derive theoretical stability guarantees for the new local topological representation and discuss their implications on the graph algebraic connectivity. The experimental results on node classification tasks demonstrate that the new TRI-GNN outperforms all 14 state-of-the-art baselines on 6 out 7 graphs and exhibit higher robustness to perturbations, yielding up to 10\% better performance under noisy scenarios.
翻訳日:2021-11-01 22:45:52 公開日:2021-10-29
# (参考訳) クロス層アライメントによる異種ニューラルネットワークのモデル融合 [全文訳有]

Model Fusion of Heterogeneous Neural Networks via Cross-Layer Alignment ( http://arxiv.org/abs/2110.15538v1 )

ライセンス: CC BY 4.0
Dang Nguyen and Khai Nguyen and Dinh Phung and Hung Bui and Nhat Ho(参考訳) OTFusionと呼ばれる最適輸送によるレイヤーワイドモデル融合は、様々な事前訓練されたネットワークを統一して計算資源を節約するためにソフトニューロンアソシエーションを適用する。 OTFusionはその成功を楽しみながら、入力ネットワークに同じ数のレイヤを持つ必要がある。 この問題に対処するために,我々は,異種ニューラルネットワークと呼ぶ異なる階層のニューラルネットワークをクロスレイヤーアライメントによって融合する,clafusionという新しいモデル融合フレームワークを提案する。 不均衡割当問題である層間アライメント問題は動的計画法を用いて効率的に解くことができる。 階層間のアライメントに基づいて、階層モデル融合を適用する前に、ニューラルネットワークの層数のバランスをとる。 合成実験により, CLAFusionの融合ネットワークは, 再学習を必要とせず, 異種データで訓練した個々のネットワークと比較して, より良好な性能が得られることが示された。 追加の微調整処理により、CIFAR10データセット上の残留ネットワークの精度が向上する。 最後に,モデル圧縮と知識蒸留への応用について,教師の学習環境に適用した。

Layer-wise model fusion via optimal transport, named OTFusion, applies soft neuron association for unifying different pre-trained networks to save computational resources. While enjoying its success, OTFusion requires the input networks to have the same number of layers. To address this issue, we propose a novel model fusion framework, named CLAFusion, to fuse neural networks with a different number of layers, which we refer to as heterogeneous neural networks, via cross-layer alignment. The cross-layer alignment problem, which is an unbalanced assignment problem, can be solved efficiently using dynamic programming. Based on the cross-layer alignment, our framework balances the number of layers of neural networks before applying layer-wise model fusion. Our synthetic experiments indicate that the fused network from CLAFusion achieves a more favorable performance compared to the individual networks trained on heterogeneous data without the need for any retraining. With an extra fine-tuning process, it improves the accuracy of residual networks on the CIFAR10 dataset. Finally, we explore its application for model compression and knowledge distillation when applying to the teacher-student setting.
翻訳日:2021-11-01 22:22:18 公開日:2021-10-29
# (参考訳) Covid-19患者の肺CT像のAIによる意味分割と流体体積計算 [全文訳有]

AI-Powered Semantic Segmentation and Fluid Volume Calculation of Lung CT images in Covid-19 Patients ( http://arxiv.org/abs/2110.15558v1 )

ライセンス: CC BY 4.0
Sabeerali K.P, Saleena T.S, Dr.Muhamed Ilyas P and Dr. Neha Mohan(参考訳) 新型コロナウイルスのパンデミックは、非常に急速に広がる致命的な病気である。 対する免疫系を持つ人々は、多くの健康状態の影響を受けやすい。 非常に重要な症状は肺炎であり、多くの患者で死因となっている。 本研究の目的は、医師が患者を優先順位付けできるように、GGOの容積とコビッド19の患者の統合を見つけることである。 そこで我々は,最新のライブラリーとAIモデルのトレーニング時間を短縮し,精度を向上させる技術を用いて,肺CTのセグメンテーションを行う。 このシステムはdeeplabv3+ネットワークアーキテクチャとモデルresnet50でトレーニングされ、imagenetの重み付けを行う。 ガウスノイズ,水平シフト,色変化など,様々な拡張手法を用いて結果を得ることができた。 IoU(Intersection over Union)はパフォーマンス指標として使用される。 肺マスクのiouは99.78%、感染マスクのiouは89.01%と予測されている。 本研究は,患者の感染面積と肺マスク面積を算出し,感染領域の容積を効果的に測定する。

COVID-19 pandemic is a deadly disease spreading very fast. People with the confronted immune system are susceptible to many health conditions. A highly significant condition is pneumonia, which is found to be the cause of death in the majority of patients. The main purpose of this study is to find the volume of GGO and consolidation of a covid-19 patient so that the physicians can prioritize the patients. Here we used transfer learning techniques for segmentation of lung CTs with the latest libraries and techniques which reduces training time and increases the accuracy of the AI Model. This system is trained with DeepLabV3+ network architecture and model Resnet50 with Imagenet weights. We used different augmentation techniques like Gaussian Noise, Horizontal shift, color variation, etc to get to the result. Intersection over Union(IoU) is used as the performance metrics. The IoU of lung masks is predicted as 99.78% and that of infected masks is as 89.01%. Our work effectively measures the volume of infected region by calculating the volume of infected and lung mask region of the patients.
翻訳日:2021-11-01 22:05:59 公開日:2021-10-29
# (参考訳) 弱映像ラベリングにおける無線位置定位による教師なし人物再同定 [全文訳有]

Unsupervised Person Re-Identification with Wireless Positioning under Weak Scene Labeling ( http://arxiv.org/abs/2110.15610v1 )

ライセンス: CC BY 4.0
Yiheng Liu, Wengang Zhou, Qiaokang Xie, Houqiang Li(参考訳) 既存の監視されていない人物の身元確認方法は、異なるカメラの下で歩行者にマッチする視覚的手がかりにのみ依存する。 視覚データは基本的に閉塞、ぼけ、衣料変化などに影響を受けやすいため、視覚データの欠陥を補うために異種データを導入することが有望な解決策となる。 フルシーンラベリングに基づくいくつかの作品では、クロスドメインの人物の再識別を支援するために無線位置決めを導入している。 そこで本研究では,映像データと無線測位トラジェクタの両方を用いて,カメラの位置を知るだけでよい,弱いシーンラベリング下での教師なし人物再同定について検討する。 具体的には,視覚データと無線情報の相補性をモデル化する,教師なしマルチモーダルトレーニングフレームワーク (umtf) を提案する。 UMTFにはマルチモーダルデータアソシエーション戦略(MMDA)とマルチモーダルグラフニューラルネットワーク(MMGN)が含まれている。 mmdaはラベルのないマルチモーダルデータにおける潜在的なデータ関連を調査し、mmgnは無線データのヒストグラム統計から得られた隣接行列に基づいてビデオグラフ内のマルチモーダルメッセージを伝搬する。 無線データから視覚ノイズへの堅牢性、および様々なモジュールの協調により、UMTFは人間のラベルのないモデルをデータで学習することができる。 WP-ReIDとDukeMTMC-VideoReIDの2つの挑戦的データセットで行った実験結果から,提案手法の有効性が示された。

Existing unsupervised person re-identification methods only rely on visual clues to match pedestrians under different cameras. Since visual data is essentially susceptible to occlusion, blur, clothing changes, etc., a promising solution is to introduce heterogeneous data to make up for the defect of visual data. Some works based on full-scene labeling introduce wireless positioning to assist cross-domain person re-identification, but their GPS labeling of entire monitoring scenes is laborious. To this end, we propose to explore unsupervised person re-identification with both visual data and wireless positioning trajectories under weak scene labeling, in which we only need to know the locations of the cameras. Specifically, we propose a novel unsupervised multimodal training framework (UMTF), which models the complementarity of visual data and wireless information. Our UMTF contains a multimodal data association strategy (MMDA) and a multimodal graph neural network (MMGN). MMDA explores potential data associations in unlabeled multimodal data, while MMGN propagates multimodal messages in the video graph based on the adjacency matrix learned from histogram statistics of wireless data. Thanks to the robustness of the wireless data to visual noise and the collaboration of various modules, UMTF is capable of learning a model free of the human label on data. Extensive experimental results conducted on two challenging datasets, i.e., WP-ReID and DukeMTMC-VideoReID demonstrate the effectiveness of the proposed method.
翻訳日:2021-11-01 22:00:02 公開日:2021-10-29
# (参考訳) MentalBERT:メンタルヘルスのためのトレーニング済み言語モデル [全文訳有]

MentalBERT: Publicly Available Pretrained Language Models for Mental Healthcare ( http://arxiv.org/abs/2110.15621v1 )

ライセンス: CC BY 4.0
Shaoxiong Ji, Tianlin Zhang, Luna Ansari, Jie Fu, Prayag Tiwari, Erik Cambria(参考訳) メンタルヘルスは現代社会において重要な問題であり、精神障害は適切な治療なしに自殺イデオロギーに陥ることがある。 精神障害の早期発見と社会的コンテンツからの自殺観念は、効果的な社会的介入の潜在的方法となる。 事前訓練された文脈言語表現の最近の進歩は、いくつかのドメイン固有の事前訓練モデルの開発を促進し、いくつかの下流アプリケーションを容易にしている。 しかし、精神医療のための事前訓練された言語モデルは存在しない。 本論文は、メンタルヘルス研究コミュニティにおいて機械学習の恩恵を受けるために、トレーニング済みのマスク付き言語モデルであるMentalBERTとMentalRoBERTaを2つリリースする。 さらに、いくつかの精神障害検出ベンチマークにおいて、訓練済みのドメイン固有モデルと事前訓練済み言語モデルのいくつかの変種を評価し、対象領域で事前訓練された言語表現がメンタルヘルス検出タスクの性能を向上させることを示した。

Mental health is a critical issue in modern society, and mental disorders could sometimes turn to suicidal ideation without adequate treatment. Early detection of mental disorders and suicidal ideation from social content provides a potential way for effective social intervention. Recent advances in pretrained contextualized language representations have promoted the development of several domain-specific pretrained models and facilitated several downstream applications. However, there are no existing pretrained language models for mental healthcare. This paper trains and release two pretrained masked language models, i.e., MentalBERT and MentalRoBERTa, to benefit machine learning for the mental healthcare research community. Besides, we evaluate our trained domain-specific models and several variants of pretrained language models on several mental disorder detection benchmarks and demonstrate that language representations pretrained in the target domain improve the performance of mental health detection tasks.
翻訳日:2021-11-01 21:33:53 公開日:2021-10-29
# (参考訳) バーストスクリーンコメントによるビデオ認識モデルへの攻撃 [全文訳有]

Attacking Video Recognition Models with Bullet-Screen Comments ( http://arxiv.org/abs/2110.15629v1 )

ライセンス: CC BY 4.0
Kai Chen, Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)は、入力に知覚的だが局所的な変化をもたらす敵のパッチに弱いことが示されている。 それにもかかわらず、既存のアプローチは画像に逆のパッチを生成することに重点を置いている。 画像と比較すると、ビデオの攻撃は空間的手がかりだけでなく時間的手がかりも考慮する必要があるため、はるかに難しい。 このギャップを埋めるために,本稿では,BSCを用いた映像認識モデルを攻撃する弾幕コメント(BSC)攻撃という,新たな敵攻撃を導入する。 具体的には、環境を対象モデルとして設定し、エージェントが各BSCの位置と透明性を選択する役割を果たす強化学習(RL)フレームワークを用いて、敵対的BSCを生成する。 ターゲットモデルを継続的にクエリし、フィードバックを受け取ることで、エージェントは、非重複のBSCで高い不正率を達成するために、選択戦略を徐々に調整する。 BSCは一種の意味のあるパッチと見なすことができるため、クリーンなビデオに追加しても、ビデオの内容に対する人々の理解に影響を与えたり、人々の疑念を喚起したりしない。 提案手法の有効性を検証するために広範な実験を行った。 UCF-101 と HMDB-51 の2つのデータセットにおいて,本手法は,ビデオ中の <textless 8\% 領域のみを除外しながら,3 つの主流ビデオ認識モデルを攻撃する場合に,約90% % の不正行為率を達成することができる。

Recent research has demonstrated that Deep Neural Networks (DNNs) are vulnerable to adversarial patches which introducing perceptible but localized changes to the input. Nevertheless, existing approaches have focused on generating adversarial patches on images, their counterparts in videos have been less explored. Compared with images, attacking videos is much more challenging as it needs to consider not only spatial cues but also temporal cues. To close this gap, we introduce a novel adversarial attack in this paper, the bullet-screen comment (BSC) attack, which attacks video recognition models with BSCs. Specifically, adversarial BSCs are generated with a Reinforcement Learning (RL) framework, where the environment is set as the target model and the agent plays the role of selecting the position and transparency of each BSC. By continuously querying the target models and receiving feedback, the agent gradually adjusts its selection strategies in order to achieve a high fooling rate with non-overlapping BSCs. As BSCs can be regarded as a kind of meaningful patch, adding it to a clean video will not affect people' s understanding of the video content, nor will arouse people' s suspicion. We conduct extensive experiments to verify the effectiveness of the proposed method. On both UCF-101 and HMDB-51 datasets, our BSC attack method can achieve about 90\% fooling rate when attack three mainstream video recognition models, while only occluding \textless 8\% areas in the video.
翻訳日:2021-11-01 21:24:55 公開日:2021-10-29
# (参考訳) 認知のシミュレータモデルのためのベイズ最適実験設計 [全文訳有]

Bayesian Optimal Experimental Design for Simulator Models of Cognition ( http://arxiv.org/abs/2110.15632v1 )

ライセンス: CC BY 4.0
Simon Valentin, Steven Kleinegesse, Neil R. Bramley, Michael U. Gutmann, Christopher G. Lucas(参考訳) ベイズ最適実験設計(英: Bayesian optimal experimental design、BOED)は、情報的データを得るであろう実験を特定する手法である。 認知科学における最近の研究は、扱いやすい、既知の可能性関数を持つ人間の行動の計算モデルにボードをあてた。 しかし、トラクタビリティは現実主義の犠牲となることが多く、人間の振る舞いの豊かさを捉えるシミュレーターモデルは、しばしば難解である。 本研究では, 機械学習による最適実験設計, 十分な要約統計量, 償却後分布を求める手法を用いて, 難解モデルに対するboedと近似推定の最近の進歩を組み合わせる。 マルチアームバンディットタスクのシミュレーション実験により,本手法は,本研究で一般的に用いられている実験結果と比較して,モデル判別とパラメータ推定の改善をもたらすことが示された。

Bayesian optimal experimental design (BOED) is a methodology to identify experiments that are expected to yield informative data. Recent work in cognitive science considered BOED for computational models of human behavior with tractable and known likelihood functions. However, tractability often comes at the cost of realism; simulator models that can capture the richness of human behavior are often intractable. In this work, we combine recent advances in BOED and approximate inference for intractable models, using machine-learning methods to find optimal experimental designs, approximate sufficient summary statistics and amortized posterior distributions. Our simulation experiments on multi-armed bandit tasks show that our method results in improved model discrimination and parameter estimation, as compared to experimental designs commonly used in the literature.
翻訳日:2021-11-01 21:12:41 公開日:2021-10-29
# (参考訳) 圧縮用cnnを組み込んだgaborフィルタ [全文訳有]

Gabor filter incorporated CNN for compression ( http://arxiv.org/abs/2110.15644v1 )

ライセンス: CC BY 4.0
Akihiro Imamura, Nana Arizumi(参考訳) 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで著しく成功している。 しかし、組み込みシステムやリアルタイムシステムでは高い推論コストが問題となるため、ネットワークの圧縮に関する多くの研究がある。 一方,自己着脱モデルにおける最近の進歩は,畳み込みフィルタが先行層での自己着脱よりも好ましいことを示し,より強い帰納的バイアスが先行層より優れていることを示している。 畳み込みフィルタで示されるように、強いバイアスは特定のフィルタを訓練し、不要なフィルタをゼロに構築することができる。 これは、適切なフィルタを選択することで、特徴を表現するためのコンパクトな辞書を作る古典的な画像処理タスクに似ている。 我々はこのアイデアに従い、圧縮のために初期のCNN層にGaborフィルタを組み込む。 Gaborフィルタのパラメータはバックプロパゲーションによって学習されるため、特徴はGaborフィルタに限定される。 CIFAR-10用VGG-16の最初の層は192のカーネル/機能を持つが、Gaborフィルタの学習には平均29.4のカーネルが必要である。 また、第1層と第2層のカーネルの平均83%と94%のGaborフィルタを用いて、変更したResNet-20では、第1層の5層がCIFAR-10用の2つの大きなカーネルと交換される。

Convolutional neural networks (CNNs) are remarkably successful in many computer vision tasks. However, the high cost of inference is problematic for embedded and real-time systems, so there are many studies on compressing the networks. On the other hand, recent advances in self-attention models showed that convolution filters are preferable to self-attention in the earlier layers, which indicates that stronger inductive biases are better in the earlier layers. As shown in convolutional filters, strong biases can train specific filters and construct unnecessarily filters to zero. This is analogous to classical image processing tasks, where choosing the suitable filters makes a compact dictionary to represent features. We follow this idea and incorporate Gabor filters in the earlier layers of CNNs for compression. The parameters of Gabor filters are learned through backpropagation, so the features are restricted to Gabor filters. We show that the first layer of VGG-16 for CIFAR-10 has 192 kernels/features, but learning Gabor filters requires an average of 29.4 kernels. Also, using Gabor filters, an average of 83% and 94% of kernels in the first and the second layer, respectively, can be removed on the altered ResNet-20, where the first five layers are exchanged with two layers of larger kernels for CIFAR-10.
翻訳日:2021-11-01 21:01:40 公開日:2021-10-29
# (参考訳) ファームウェア非依存WiFiセンシングによるフレームキャプチャーCSI再構成 [全文訳有]

Frame-Capture-Based CSI Recomposition Pertaining to Firmware-Agnostic WiFi Sensing ( http://arxiv.org/abs/2110.15660v1 )

ライセンス: CC BY 4.0
Ryosuke Hanahara, Sohei Itahara, Kota Yamashita, Yusuke Koda, Akihito Taya, Takayuki Nishio, Koji Yamamoto(参考訳) チャネル状態情報(CSI)の可用性に応じたWiFiセンサ非依存の実装について,ビームフォーミングフィードバック行列(BFM)と呼ばれる圧縮版に基づいてCSI行列を推定する可能性を検討する。 物理層で処理され廃棄されるcsiマトリックスとは異なるため、bfmは空気上のアクセスポイント(ap)とステーション(stas)の間で交換されるため、中間アクセス層フレームキャプチャ技術を用いてキャプチャすることができる。 このことは、BFM行列を利用するWiFiセンシングが、プリインストールされたAPを使用するより実践的であることを示している。 しかしながら,BFMを用いたセンシングの能力はいくつかのタスクで評価されており,その性能に関するより一般的な知見を提供する必要がある。 このギャップを埋めるために,機械学習モデルを用いて推定関数を近似するBFMに基づくCSI推定手法を提案する。 さらに、推定精度を向上させるために、直交周波数分割多重伝送における複数のサブキャリアにおけるBFMを用いたサブキャリア間依存性を利用する。 シミュレーション評価の結果, 推定したCSIは地絡振幅と一致していることがわかった。 さらに、各サブキャリアにおけるCSI推定と比較して、複数のサブキャリアにおけるBFMがCSI推定精度に及ぼす影響を検証する。

With regard to the implementation of WiFi sensing agnostic according to the availability of channel state information (CSI), we investigate the possibility of estimating a CSI matrix based on its compressed version, which is known as beamforming feedback matrix (BFM). Being different from the CSI matrix that is processed and discarded in physical layer components, the BFM can be captured using a medium-access-layer frame-capturing technique because this is exchanged among an access point (AP) and stations (STAs) over the air. This indicates that WiFi sensing that leverages the BFM matrix is more practical to implement using the pre-installed APs. However, the ability of BFM-based sensing has been evaluated in a few tasks, and more general insights into its performance should be provided. To fill this gap, we propose a CSI estimation method based on BFM, approximating the estimation function with a machine learning model. In addition, to improve the estimation accuracy, we leverage the inter-subcarrier dependency using the BFMs at multiple subcarriers in orthogonal frequency division multiplexing transmissions. Our simulation evaluation reveals that the estimated CSI matches the ground-truth amplitude. Moreover, compared to CSI estimation at each individual subcarrier, the effect of the BFMs at multiple subcarriers on the CSI estimation accuracy is validated.
翻訳日:2021-11-01 20:50:01 公開日:2021-10-29
# (参考訳) 3D-OOCS:インダクティブバイアスによる前立腺分節学習 [全文訳有]

3D-OOCS: Learning Prostate Segmentation with Inductive Bias ( http://arxiv.org/abs/2110.15664v1 )

ライセンス: CC BY 4.0
Shrajan Bhandary, Zahra Babaiee, Dejan Kostyszyn, Tobias Fechter, Constantinos Zamboglou, Anca Grosu, Radu Grosu(参考訳) 3次元医用画像分割タスクにおける畳み込みニューラルネットワーク(cnn)の成功にもかかわらず、現在使用されている手法は、異なるスキャナが利用する異なるプロトコルや、それらが生成する様々な画像特性やアーティファクトに対して十分に堅牢ではない。 そこで我々は,脊椎動物の視覚処理の性質に触発された新しいアーキテクチャであるoocs-enhanced networksを紹介する。 ベースとして異なる3D U-Netの変種を用いると、第2エンコーダブロックに2つの3D残基を付加する。 彼らは網膜の神経節経路を3D設定に一般化する。 標準cnnネットワークにおける2d-oocsの使用は、鋭いエッジ検出インダクティブバイアスを持つfeedforwardフレームワークを補完する。 3D-OOCSを用いた3D-OOCSは, 3D画像中の解剖学的構造を精査し, 精査する上でも有効であり, 最先端の3D-OOCS拡張と3D-OOCS拡張を比較し, 3D磁気共鳴画像(MRI)からの自動前立腺区分けにおいて, 後者の精度と堅牢性を示した。 公正な比較として,自動ハイパーパラメータ最適化やデータ拡張など,調査対象の3D U-Netをすべて同じパイプラインでトレーニングし,テストした。

Despite the great success of convolutional neural networks (CNN) in 3D medical image segmentation tasks, the methods currently in use are still not robust enough to the different protocols utilized by different scanners, and to the variety of image properties or artefacts they produce. To this end, we introduce OOCS-enhanced networks, a novel architecture inspired by the innate nature of visual processing in the vertebrates. With different 3D U-Net variants as the base, we add two 3D residual components to the second encoder blocks: on and off center-surround (OOCS). They generalise the ganglion pathways in the retina to a 3D setting. The use of 2D-OOCS in any standard CNN network complements the feedforward framework with sharp edge-detection inductive biases. The use of 3D-OOCS also helps 3D U-Nets to scrutinise and delineate anatomical structures present in 3D images with increased accuracy.We compared the state-of-the-art 3D U-Nets with their 3D-OOCS extensions and showed the superior accuracy and robustness of the latter in automatic prostate segmentation from 3D Magnetic Resonance Images (MRIs). For a fair comparison, we trained and tested all the investigated 3D U-Nets with the same pipeline, including automatic hyperparameter optimisation and data augmentation.
翻訳日:2021-11-01 20:39:40 公開日:2021-10-29
# (参考訳) QDCNN: 量子拡散畳み込みニューラルネットワーク [全文訳有]

QDCNN: Quantum Dilated Convolutional Neural Network ( http://arxiv.org/abs/2110.15667v1 )

ライセンス: CC BY 4.0
Yixiong Chen(参考訳) 近年、量子技術の発展が急速に進んでいるため、量子機械学習は多くの関心を集めている。 特に、古典的および量子的要素からなるハイブリッド量子古典型ニューラルネットワークのファミリーは、古典的ニューラルネットワークの性能向上を目的とした大規模な研究がなされている。 本稿では,量子拡張畳み込みニューラルネットワーク(QDCNN)と呼ばれる新しいハイブリッド量子古典型アルゴリズムを提案する。 本手法は,現代のディープラーニングアルゴリズムで広く適用されてきた拡張畳み込みの概念を,ハイブリッドニューラルネットワークの文脈にまで拡張する。 提案したQDCNNは,量子畳み込み過程において,計算コストを低減しつつ,より大きなコンテキストを捉えることができる。 画像認識のためのmnistおよびfashion-mnistデータセットの実証実験を行い、既存の量子畳み込みニューラルネットワーク(qcnns)と比較して、qdcnnモデルが精度と計算効率の両面で一般的に優れた性能を享受できることを実証する。

In recent years, with rapid progress in the development of quantum technologies, quantum machine learning has attracted a lot of interest. In particular, a family of hybrid quantum-classical neural networks, consisting of classical and quantum elements, has been massively explored for the purpose of improving the performance of classical neural networks. In this paper, we propose a novel hybrid quantum-classical algorithm called quantum dilated convolutional neural networks (QDCNNs). Our method extends the concept of dilated convolution, which has been widely applied in modern deep learning algorithms, to the context of hybrid neural networks. The proposed QDCNNs are able to capture larger context during the quantum convolution process while reducing the computational cost. We perform empirical experiments on MNIST and Fashion-MNIST datasets for the task of image recognition and demonstrate that QDCNN models generally enjoy better performances in terms of both accuracy and computation efficiency compared to existing quantum convolutional neural networks (QCNNs).
翻訳日:2021-11-01 20:26:03 公開日:2021-10-29
# (参考訳) ディープアフィニティネットワークを用いたビデオ監視のためのマルチターゲットトラッキング [全文訳有]

Multi-target tracking for video surveillance using deep affinity network: a brief review ( http://arxiv.org/abs/2110.15674v1 )

ライセンス: CC BY 4.0
Sanam Nisar Mangi(参考訳) 深層学習モデルは人間の脳のように機能することが知られている。 機能的なメカニズムのため、人間の知性を必要とするタスクを達成するために頻繁に利用される。 ビデオ監視のためのマルチターゲットトラッキング(mtt)は重要かつ困難な課題の1つであり、様々な分野における応用の可能性から研究者の注目を集めている。 マルチターゲットトラッキングタスクでは、各フレーム内のオブジェクトを個別に配置する必要があるため、オブジェクトの外観や極端な閉塞がすぐに変化するため、大きな課題が残る。 それに加えて、Multitargetトラッキングフレームワークは、ターゲット検出、軌道の推定、フレーム間の関連、再識別を行うために複数のタスクを必要とする。 様々な方法が提案され、特定の問題の文脈で問題を制限するという仮定がなされている。 本稿では,ディープラーニング表現力を利用した最先端のMTTモデルについて述べる。

Deep learning models are known to function like the human brain. Due to their functional mechanism, they are frequently utilized to accomplish tasks that require human intelligence. Multi-target tracking (MTT) for video surveillance is one of the important and challenging tasks, which has attracted the researcher's attention due to its potential applications in various domains. Multi-target tracking tasks require locating the objects individually in each frame, which remains a huge challenge as there are immediate changes in appearances and extreme occlusions of objects. In addition to that, the Multitarget tracking framework requires multiple tasks to perform i.e. target detection, estimating trajectory, associations between frame, and re-identification. Various methods have been suggested, and some assumptions are made to constrain the problem in the context of a particular problem. In this paper, the state-of-the-art MTT models, which leverage from deep learning representational power are reviewed.
翻訳日:2021-11-01 20:09:40 公開日:2021-10-29
# (参考訳) ADoBo 2021の概要:スペイン・プレスにおける非同化ボーリングの自動検出 [全文訳有]

Overview of ADoBo 2021: Automatic Detection of Unassimilated Borrowings in the Spanish Press ( http://arxiv.org/abs/2110.15682v1 )

ライセンス: CC BY-SA 4.0
Elena \'Alvarez Mellado, Luis Espinosa Anke, Julio Gonzalo Arroyo, Constantine Lignos, Jordi Porta Zamorano(参考訳) 本稿では、IberLef 2021の文脈で提案されたADoBo 2021共有タスクの主な成果を要約する。 本研究では,スペイン語ニュースワイヤテキスト中の語彙借用(主に英語からの引用)を検出するために参加者を招待した。 このタスクは、BIOエンコーディングを用いたシーケンス分類問題としてフレーム化された。 参加者に注釈付き語彙借用コーパスを提供し,トレーニング,開発,テスト分割に分割した。 9つの異なるシステムを実行する4チームから応募を受けました。 F1スコア37点から85点までの範囲で、特にドメイン外の単語やOOV語が考慮された場合、これは難しい課題であり、レキシコグラフィー情報に基づく従来の手法は、現在のNLPトレンドを生かして恩恵を受けるだろう。

This paper summarizes the main findings of the ADoBo 2021 shared task, proposed in the context of IberLef 2021. In this task, we invited participants to detect lexical borrowings (coming mostly from English) in Spanish newswire texts. This task was framed as a sequence classification problem using BIO encoding. We provided participants with an annotated corpus of lexical borrowings which we split into training, development and test splits. We received submissions from 4 teams with 9 different system runs overall. The results, which range from F1 scores of 37 to 85, suggest that this is a challenging task, especially when out-of-domain or OOV words are considered, and that traditional methods informed with lexicographic information would benefit from taking advantage of current NLP trends.
翻訳日:2021-11-01 19:50:13 公開日:2021-10-29
# (参考訳) 変分ベイズ最適化サンプリング [全文訳有]

Variational Bayesian Optimistic Sampling ( http://arxiv.org/abs/2110.15688v1 )

ライセンス: CC BY 4.0
Brendan O'Donoghue and Tor Lattimore(参考訳) エージェントが探索と搾取のバランスをとる必要があるオンラインシーケンシャルな意思決定問題を考える。 我々は、確率的マルチアームバンディットの場合、トンプソンサンプリングポリシーを含むベイズ的「最適化」ポリシーのセットを導出する。 楽観的なセットでポリシーを生成するアルゴリズムは、$t$ラウンド後の$a$アクションの問題に対して$\tilde o(\sqrt{at})$ bayesian regretを享受できることを示す新しい分析を提供する。 楽観的政策に対する後悔分析を,ゼロサム行列ゲームや制約付きバンディットを特別な場合として含む双線形saddle-point問題へと拡張する。 この場合、トンプソンサンプリングは楽観的な集合の外側でポリシーを生成でき、ある事例では線形な後悔を味わうことができる。 楽観的集合内のポリシーを見つけることは凸最適化問題の解法に相当し、その結果のアルゴリズムを'変数ベイズ楽観的サンプリング' (VBOS) と呼ぶ。 この手順は、任意の後肢に対して作用するが、後肢は、ログコンベビティ、ユニモダリティ、滑らかさなどの特別な性質を持つ必要はない。 問題の変動ビューには、探索・探索トレードオフの調整、正規化の追加、制約の統合、ポリシーの線形パラメータ化など、多くの有用な特性がある。

We consider online sequential decision problems where an agent must balance exploration and exploitation. We derive a set of Bayesian `optimistic' policies which, in the stochastic multi-armed bandit case, includes the Thompson sampling policy. We provide a new analysis showing that any algorithm producing policies in the optimistic set enjoys $\tilde O(\sqrt{AT})$ Bayesian regret for a problem with $A$ actions after $T$ rounds. We extend the regret analysis for optimistic policies to bilinear saddle-point problems which include zero-sum matrix games and constrained bandits as special cases. In this case we show that Thompson sampling can produce policies outside of the optimistic set and suffer linear regret in some instances. Finding a policy inside the optimistic set amounts to solving a convex optimization problem and we call the resulting algorithm `variational Bayesian optimistic sampling' (VBOS). The procedure works for any posteriors, \ie, it does not require the posterior to have any special properties, such as log-concavity, unimodality, or smoothness. The variational view of the problem has many useful properties, including the ability to tune the exploration-exploita tion tradeoff, add regularization, incorporate constraints, and linearly parameterize the policy.
翻訳日:2021-11-01 19:39:14 公開日:2021-10-29
# (参考訳) 感情のプロトコル [全文訳有]

A Protocol for Emotions ( http://arxiv.org/abs/2110.15695v1 )

ライセンス: CC BY 4.0
Gabriele Costa(参考訳) 私たちは感情を人間の最も内面的な性質の顕現と考える傾向がある。 感情は私たちの生活を様々な方法で特徴づけ、実行している合理的な活動をすべてシャペロンします。 彼らの広汎性にもかかわらず、感情について無視するものはたくさんあります。 その中で、生物がいかに感情を伝達するかという私たちの理解は限られている。 特に、私たちが理解したいと思う人間同士の高度な相互作用がある。 例えば、あるシーンが観客に与える強い感情的な影響を事前に知っている映画監督を考えてみましょう。 多くのアーティストは感情的なデバイスに頼っているが、その才能とビジョンが依然として重要な要素だ。 本研究では,2つの知的エージェント間の感情伝達のための高レベルプロトコルを分析する。 我々の知る限りでは、人間の感情の交換をモデル化するためにコミュニケーションプロトコルを使用する最初の試みである。 いくつかの例から,我々のプロトコルが両者の関与を適切にモデル化していることを示す。 理論的な関心以外にも,本提案は,本論文で議論するいくつかの応用への一歩となる。

We tend to consider emotions a manifestation of our innermost nature of human beings. Emotions characterize our lives in many ways and they chaperon every rational activity we carry out. Despite their pervasiveness, there are still many things we ignore about emotions. Among them, our understanding of how living beings transfer emotions is limited. In particular, there are highly sophisticated interactions between human beings that we would like to comprehend. For instance, think of a movie director who knows in advance the strong emotional impact that a certain scene will have on the spectators. Although many artists rely on some emotional devices, their talent and vision are still the key factors. In this work we analyze high-level protocols for transferring emotions between two intelligent agents. To the best of our knowledge, this is the first attempt to use communication protocols for modeling the exchange of human emotions. By means of a number of examples, we show that our protocols adequately model the engagement of the two parties. Beyond the theoretical interest, our proposal can provide a stepping stone for several applications that we also discuss in this paper.
翻訳日:2021-11-01 19:16:56 公開日:2021-10-29
# (参考訳) DeF-DReL: 深層強化学習を用いたフォッグとクラウド環境におけるサーバレス機能のシステム展開 [全文訳有]

DeF-DReL: Systematic Deployment of Serverless Functions in Fog and Cloud environments using Deep Reinforcement Learning ( http://arxiv.org/abs/2110.15702v1 )

ライセンス: CC BY 4.0
Chinmaya Kumar Dehurya, Shivananda Poojaraa, Shridhar Domanalb, Satish Narayana Srirama(参考訳) フォグコンピューティングは、クラウドコンピューティングが持つ制限を緩和するために、クラウドリソースをユーザの近さに移すことによって導入される。 fog環境は、複数のサーバレス機能で構成されるサーバーレスアプリケーションをデプロイするために、限られたリソースを多数のユーザに提供した。 フォグ環境を導入する主な目的の1つは、限られたリソースを通じてレイテンシとロケーションに敏感なサーバレスアプリケーションの需要を満たすことである。 最近の研究は主に、クラウド環境を十分に活用せず、フォグノードからアプリケーションへの最大リソースの割り当てに焦点を当てている。 これにより、最大接続ユーザ数にリソースを提供する上で、負の影響がもたらされる。 そこで本研究では,霧と雲で満たすべきユーザの要求の最適割合について検討した。 その結果,近接フォグノードからのユーザの距離とレイテンシ,ユーザのプライオリティ,サーバレスアプリケーションの優先度,リソース要求など,いくつかの実生活パラメータを用いた,深い強化学習を用いたフォグおよびクラウド環境におけるサーバレス機能の体系的展開であるdef-drelを提案した。 DeF-DReLアルゴリズムの性能は最近の関連するアルゴリズムと比較した。 シミュレーションと比較結果から,他のアルゴリズムよりも優れていること,実生活シナリオへの適用性は明らかである。

Fog computing is introduced by shifting cloud resources towards the users' proximity to mitigate the limitations possessed by cloud computing. Fog environment made its limited resource available to a large number of users to deploy their serverless applications, composed of several serverless functions. One of the primary intentions behind introducing the fog environment is to fulfil the demand of latency and location-sensitive serverless applications through its limited resources. The recent research mainly focuses on assigning maximum resources to such applications from the fog node and not taking full advantage of the cloud environment. This introduces a negative impact in providing the resources to a maximum number of connected users. To address this issue, in this paper, we investigated the optimum percentage of a user's request that should be fulfilled by fog and cloud. As a result, we proposed DeF-DReL, a Systematic Deployment of Serverless Functions in Fog and Cloud environments using Deep Reinforcement Learning, using several real-life parameters, such as distance and latency of the users from nearby fog node, user's priority, the priority of the serverless applications and their resource demand, etc. The performance of the DeF-DReL algorithm is further compared with recent related algorithms. From the simulation and comparison results, its superiority over other algorithms and its applicability to the real-life scenario can be clearly observed.
翻訳日:2021-11-01 19:01:33 公開日:2021-10-29
# (参考訳) 攻撃アライアンス問題の構造パラメータ化について [全文訳有]

On Structural Parameterizations of the Offensive Alliance Problem ( http://arxiv.org/abs/2110.15757v1 )

ライセンス: CC BY 4.0
Ajinkya Gaikwad and Soumen Maity(参考訳) 攻撃同盟問題は過去20年間に広く研究されてきた。 頂点の集合 $S\subseteq V$ は無向グラフ $G=(V,E)$ における攻撃同盟であり、各$v\in N(S)$ が少なくとも$S$ の近傍を持つならば、$S$ の近傍(自身を含む)は$S$ ではない。 我々は,最小サイズの攻撃同盟を見つけることを目的とした攻撃同盟問題のパラメタライズド複雑性について検討する。 ここでの焦点は、入力インスタンスの構造特性を測定するパラメータにあります。 本稿では,入力グラフのフィードバック頂点集合数,木幅,パス幅,木深さなど,かなり制約のある構造パラメータの広い範囲で,w[1]ハードな問題であることを示すことで,パラメータ化複雑性の観点から,この問題の理解を深める。

The Offensive Alliance problem has been studied extensively during the last twenty years. A set $S\subseteq V$ of vertices is an offensive alliance in an undirected graph $G=(V,E)$ if each $v\in N(S)$ has at least as many neighbours in $S$ as it has neighbours (including itself) not in $S$. We study the parameterized complexity of the Offensive Alliance problem, where the aim is to find a minimum size offensive alliance. Our focus here lies on parameters that measure the structural properties of the input instance. We enhance our understanding of the problem from the viewpoint of parameterized complexity by showing that the problem is W[1]-hard parameterized by a wide range of fairly restrictive structural parameters such as the feedback vertex set number, treewidth, pathwidth, and treedepth of the input graph.
翻訳日:2021-11-01 18:38:44 公開日:2021-10-29
# (参考訳) ディープニューラルネットワークのepsilonによるロバスト性向上 [全文訳有]

{\epsilon}-weakened Robustness of Deep Neural Networks ( http://arxiv.org/abs/2110.15764v1 )

ライセンス: CC BY 4.0
Pei Huang, Yuting Yang, Minghao Liu, Fuqi Jia, Feifei Ma and Jian Zhang(参考訳) 本稿では,ディープニューラルネットワーク(dnn)の信頼性と安定性を分析するために,$\varepsilon$-weake ned robustnessの表記法を提案する。 敵の例がない場合の「完全」安全な領域に焦点を当てた従来のロバストネスとは異なり、$\varepsilon$-weaken ed robustnessは、敵の例の比率がユーザ指定の$\varepsilon$で制限される領域に焦点を当てている。 より小さな$\varepsilon$は、失敗する確率を小さくする。 このようなロバスト性の定義の下で、従来のロバスト性が無視される領域に対して決定的な結果を与えることができる。 我々は,$\varepsilon$-weake ned robustness decision problemがpp完全であることを証明し,ユーザ制御可能な誤差境界を持つ統計的決定アルゴリズムを与える。 さらに、最大$\varepsilon$-weaken ed robustness radiusを求めるアルゴリズムを導出する。 アルゴリズムの時間的複雑さは、ネットワークの次元と大きさの多項式である。 そのため、大規模な実世界ネットワークにスケーラブルである。 さらに,品質問題を解析する上での応用可能性も示す。

This paper introduces a notation of $\varepsilon$-weaken ed robustness for analyzing the reliability and stability of deep neural networks (DNNs). Unlike the conventional robustness, which focuses on the "perfect" safe region in the absence of adversarial examples, $\varepsilon$-weaken ed robustness focuses on the region where the proportion of adversarial examples is bounded by user-specified $\varepsilon$. Smaller $\varepsilon$ means a smaller chance of failure. Under such robustness definition, we can give conclusive results for the regions where conventional robustness ignores. We prove that the $\varepsilon$-weaken ed robustness decision problem is PP-complete and give a statistical decision algorithm with user-controllable error bound. Furthermore, we derive an algorithm to find the maximum $\varepsilon$-weaken ed robustness radius. The time complexity of our algorithms is polynomial in the dimension and size of the network. So, they are scalable to large real-world networks. Besides, We also show its potential application in analyzing quality issues.
翻訳日:2021-11-01 18:24:46 公開日:2021-10-29
# (参考訳) カーネルバンドにおける協調的純粋探索

Collaborative Pure Exploration in Kernel Bandit ( http://arxiv.org/abs/2110.15771v1 )

ライセンス: CC BY 4.0
Yihan Du, Wei Chen, Yuko Yuroki, Longbo Huang(参考訳) 本稿では,ケルネルバンド問題における協調的純粋探索法(CoPE-KB)を定式化し,限られたコミュニケーションと一般的な報酬関数の下でのマルチエージェントマルチタスク決定の新しいモデルを提供し,レコメンデーションシステムやネットワークスケジューリングなど,多くのオンライン学習タスクに適用できることを示す。 我々は,CPE-KB,すなわちFB(Fixed-Confidence) とFB(Fixed-Budget)の2つの設定を検討し,最適なアルゴリズムであるCoopKernelFC(FC)とCoopKernelFB(FB)を設計する。 提案手法は,計算効率と通信効率を同時に達成するために,革新的で効率的なカーネル推定器を備えている。 アルゴリズムの最適性を示すため, 統計的およびコミュニケーションの両指標の下で, 上界と下界をマッチングする手法を確立した。 理論的境界は、タスク類似性の学習加速への影響を定量化し、カーネル化された特徴空間の有効次元にのみ依存する。 データ次元分解、線形構造化インスタンス変換、および(通信)ラウンドスピードアップ誘導を含む分析手法は、他のバンディット問題に適用可能であり、新規である。 理論的結果を検証し,アルゴリズムの性能上の優位性を実証するための実証評価を行った。

In this paper, we formulate a Collaborative Pure Exploration in Kernel Bandit problem (CoPE-KB), which provides a novel model for multi-agent multi-task decision making under limited communication and general reward functions, and is applicable to many online learning tasks, e.g., recommendation systems and network scheduling. We consider two settings of CoPE-KB, i.e., Fixed-Confidence (FC) and Fixed-Budget (FB), and design two optimal algorithms CoopKernelFC (for FC) and CoopKernelFB (for FB). Our algorithms are equipped with innovative and efficient kernelized estimators to simultaneously achieve computation and communication efficiency. Matching upper and lower bounds under both the statistical and communication metrics are established to demonstrate the optimality of our algorithms. The theoretical bounds successfully quantify the influences of task similarities on learning acceleration and only depend on the effective dimension of the kernelized feature space. Our analytical techniques, including data dimension decomposition, linear structured instance transformation and (communication) round-speedup induction, are novel and applicable to other bandit problems. Empirical evaluations are provided to validate our theoretical results and demonstrate the performance superiority of our algorithms.
翻訳日:2021-11-01 18:05:11 公開日:2021-10-29
# (参考訳) アクティブラーニングのための不確かさサンプリングの収束性 [全文訳有]

Convergence of Uncertainty Sampling for Active Learning ( http://arxiv.org/abs/2110.15784v1 )

ライセンス: CC BY 4.0
Anant Raj and Francis Bach(参考訳) アクティブラーニングにおける不確かさのサンプリングは、アノテーションのコストを削減するために広く使われている。 しかし、二分分類タスクにおける不確実性推定に使用する関数に関する広いコンセンサスはなく、対応するアクティブラーニングアルゴリズムの収束保証はよく分かっていない。 この状況は多カテゴリ分類においてさらに困難である。 本研究では,複数のクラスにまたがる二項分類のための効率的な不確実性推定器を提案し,不確実性サンプリングに基づく能動学習アルゴリズムの非漸近的な収束率を示す。 また,この解析を雑音ケースにまで拡張し,二分分類と多類分類のタスクにおける雑音の影響下でのアルゴリズムの理論的保証を提供する。

Uncertainty sampling in active learning is heavily used in practice to reduce the annotation cost. However, there has been no wide consensus on the function to be used for uncertainty estimation in binary classification tasks and convergence guarantees of the corresponding active learning algorithms are not well understood. The situation is even more challenging for multi-category classification. In this work, we propose an efficient uncertainty estimator for binary classification which we also extend to multiple classes, and provide a non-asymptotic rate of convergence for our uncertainty sampling-based active learning algorithm in both cases under no-noise conditions (i.e., linearly separable data). We also extend our analysis to the noisy case and provide theoretical guarantees for our algorithm under the influence of noise in the task of binary and multi-class classification.
翻訳日:2021-11-01 18:03:51 公開日:2021-10-29
# (参考訳) ホロスティックな深層学習 [全文訳有]

Holistic Deep Learning ( http://arxiv.org/abs/2110.15829v1 )

ライセンス: CC BY 4.0
Dimitris Bertsimas, L\'eonard Boussioux, Kimberly Villalobos Carballo, Michael Lingzhi Li, Alex Paskov, Ivan Paskov(参考訳) 現実世界の環境でニューラルネットワークモデルを適用する際に生じる課題を解決するために、ディープラーニングに多くの関心がある。 特に3つの領域は、対向的堅牢性、パラメータ空間性、出力安定性という大きな注目を集めている。 これらの問題を独立して解決しようとする試みは数多くあったが、同時に解決する作業はほとんどない。 本稿では,これらの問題を組み合わせて解く新しい定式化を提案することにより,総合的なディープラーニングモデルの構築という課題を解決する。 表表とMNISTのデータセットにおける実世界の実験は、私たちの定式化が従来のディープラーニングモデルよりも正確性、堅牢性、安定性、および空間性を同時に改善できることを示している。

There is much interest in deep learning to solve challenges that arise in applying neural network models in real-world environments. In particular, three areas have received considerable attention: adversarial robustness, parameter sparsity, and output stability. Despite numerous attempts on solving these problems independently, there is very little work addressing the challenges simultaneously. In this paper, we address this problem of constructing holistic deep learning models by proposing a novel formulation that solves these issues in combination. Real-world experiments on both tabular and MNIST dataset show that our formulation is able to simultaneously improve the accuracy, robustness, stability, and sparsity over traditional deep learning models among many others.
翻訳日:2021-11-01 16:45:18 公開日:2021-10-29
# (参考訳) CAN-PINN:結合型自動数値微分法に基づく高速物理インフォームニューラルネットワーク [全文訳有]

CAN-PINN: A Fast Physics-Informed Neural Network Based on Coupled-Automatic-Nu merical Differentiation Method ( http://arxiv.org/abs/2110.15832v1 )

ライセンス: CC BY 4.0
Pao-Hsiung Chiu, Jian Cheng Wong, Chinchun Ooi, My Ha Dao, Yew-Soon Ong(参考訳) 本研究では,テイラー級数展開による近接する支持点と自動微分(AD)を結合する新しい物理情報ニューラルネットワーク(PINN)法を提案し,精度の向上を図った。 コロケーションポイントでのピン損失評価に必要な微分演算子の計算は、従来はadによって行われる。 AD は任意の点で正確な勾配を計算することができるという利点があるが、そのような PINN は多数のコロケーション点を持つ高い精度しか達成できない。 PINNのトレーニングを高速化するために,数値微分法(ND)とADを結合した2つのアイデアを用いて損失関数を定義する。 ndに基づくトレーニング損失の定式化は,隣接したコロケーションポイントを強く関連付けることで,スパースサンプルレジームでの効率的なトレーニングを可能にするが,その精度は補間スキームによって制限される。 can-PINNとラベル付けられ、ADとNDの利点を統一し、ADベースのPINNよりも堅牢で効率的なトレーニングを提供するとともに、NDベースのPINNと比較して最大1-2桁の精度を向上する。 流体力学問題に対するこのカンスキームの実証実証のために、対流と圧力勾配項に対するcan-PINNスキームの2つの数値的インスピレーションを導出し、非圧縮性ナビエ・ストークス(N-S)方程式を解く。 カンピンの優れた性能は, 流れ混合現象, キャビティ内の蓋駆動流れ, 逆向きステップ上の流路流れなど, いくつかの難解な問題に対して実証された。 その結果,これらの課題に対して,従来のADベースのPINNが失敗するのに対して,can-PINNは一貫して高い精度を達成できることがわかった。

In this study, novel physics-informed neural network (PINN) methods for coupling neighboring support points and automatic differentiation (AD) through Taylor series expansion are proposed to allow efficient training with improved accuracy. The computation of differential operators required for PINNs loss evaluation at collocation points are conventionally obtained via AD. Although AD has the advantage of being able to compute the exact gradients at any point, such PINNs can only achieve high accuracies with large numbers of collocation points, otherwise they are prone to optimizing towards unphysical solution. To make PINN training fast, the dual ideas of using numerical differentiation (ND)-inspired method and coupling it with AD are employed to define the loss function. The ND-based formulation for training loss can strongly link neighboring collocation points to enable efficient training in sparse sample regimes, but its accuracy is restricted by the interpolation scheme. The proposed coupled-automatic-nu merical differentiation framework, labeled as can-PINN, unifies the advantages of AD and ND, providing more robust and efficient training than AD-based PINNs, while further improving accuracy by up to 1-2 orders of magnitude relative to ND-based PINNs. For a proof-of-concept demonstration of this can-scheme to fluid dynamic problems, two numerical-inspired instantiations of can-PINN schemes for the convection and pressure gradient terms were derived to solve the incompressible Navier-Stokes (N-S) equations. The superior performance of can-PINNs is demonstrated on several challenging problems, including the flow mixing phenomena, lid driven flow in a cavity, and channel flow over a backward facing step. The results reveal that for challenging problems like these, can-PINNs can consistently achieve very good accuracy whereas conventional AD-based PINNs fail.
翻訳日:2021-11-01 16:27:37 公開日:2021-10-29
# (参考訳) 低資源自己回帰音声認識のための教師なし学習とテキスト拡張学習の併用 [全文訳有]

Combining Unsupervised and Text Augmented Semi-Supervised Learning for Low Resourced Autoregressive Speech Recognition ( http://arxiv.org/abs/2110.15836v1 )

ライセンス: CC BY 4.0
Chak-Fai Li, Francis Keith, William Hartmann, Matthew Snover(参考訳) 教師なし表現学習の最近の進歩は、大量の読み上げ音声に対する事前学習の影響を示している。 私たちはこれらのテクニックを、データと計算の両面で、低リソースのドメイン適応に適応させます。 CTCを超えて、教師なしの方法で最先端のコンフォーマーモデルを事前訓練する。 教師なしのアプローチは従来の半教師なしのトレーニングよりも優れていますが、テクニックは補完的です。 技術の組み合わせは、半監督訓練のみと比較して、すべての条件で平均されるwerの5%の絶対的な改善である。 追加のテキストデータには外部言語モデルが組み込まれている。 CTCベースのデコーディングを使用することで、追加のテキストデータを活用することができる。 転写モデルとして使用する場合、浅い融合よりも半教師付きトレーニングによって、言語モデルからの知識をよりうまく取り入れることができる。 セミ教師付きトレーニングにctcベースのデコードを使用する場合、浅い融合に比べて最終的なパフォーマンスが2%向上する。

Recent advances in unsupervised representation learning have demonstrated the impact of pretraining on large amounts of read speech. We adapt these techniques for domain adaptation in low-resource -- both in terms of data and compute -- conversational and broadcast domains. Moving beyond CTC, we pretrain state-of-the-art Conformer models in an unsupervised manner. While the unsupervised approach outperforms traditional semi-supervised training, the techniques are complementary. Combining the techniques is a 5% absolute improvement in WER, averaged over all conditions, compared to semi-supervised training alone. Additional text data is incorporated through external language models. By using CTC-based decoding, we are better able to take advantage of the additional text data. When used as a transcription model, it allows the Conformer model to better incorporate the knowledge from the language model through semi-supervised training than shallow fusion. Final performance is an additional 2% better absolute when using CTC-based decoding for semi-supervised training compared to shallow fusion.
翻訳日:2021-11-01 16:02:34 公開日:2021-10-29
# (参考訳) 知識蒸留のための相互情報の推定と最大化 [全文訳有]

Estimating and Maximizing Mutual Information for Knowledge Distillation ( http://arxiv.org/abs/2110.15946v1 )

ライセンス: CC BY 4.0
Aman Shrivastava, Yanjun Qi, Vicente Ordonez(参考訳) 知識蒸留は、教師ネットワークから学生ネットワークへ知識を伝達する一般的な手法として広く用いられている。 本研究では,相互情報最大化知識蒸留(MIMKD)を提案する。 本手法は,教師と学生ネットワークの中間的特徴表現と大域的特徴表現の相互情報に対する低境界を同時に推定し,最大化する。 提案した相互情報の最大化は,ネットワークの中間的特徴の構造に重大な制約を課さないため,本手法は柔軟である。 そのため、任意の教師から任意の生徒に知識を抽出することができる。 実験の結果,本手法は,異なる能力,異なるアーキテクチャ,学生ネットワークが極端に低容量である場合に,幅広い学生と教師のペア間で競合する手法よりも優れていた。 ResNet50の知識を蒸留することにより,ShufflenetV2を用いたCIFAR100の74.55%の精度を69.8%の精度で取得できる。

Knowledge distillation is a widely used general technique to transfer knowledge from a teacher network to a student network. In this work, we propose Mutual Information Maximization Knowledge Distillation (MIMKD). Our method uses a contrastive objective to simultaneously estimate and maximize a lower bound on the mutual information between intermediate and global feature representations from the teacher and the student networks. Our method is flexible, as the proposed mutual information maximization does not impose significant constraints on the structure of the intermediate features of the networks. As such, we can distill knowledge from arbitrary teachers to arbitrary students. Our empirical results show that our method outperforms competing approaches across a wide range of student-teacher pairs with different capacities, with different architectures, and when student networks are with extremely low capacity. We are able to obtain 74.55% accuracy on CIFAR100 with a ShufflenetV2 from a baseline accuracy of 69.8% by distilling knowledge from ResNet50.
翻訳日:2021-11-01 15:51:25 公開日:2021-10-29
# ハイブリッドQラーニングアルゴリズムに基づくモバイルパーセルロッカーを用いた都市ロジスティックスのロジスティクスのロジスティクス

Location-routing Optimisation for Urban Logistics Using Mobile Parcel Locker Based on Hybrid Q-Learning Algorithm ( http://arxiv.org/abs/2110.15485v1 )

ライセンス: Link先を確認
Yubin Liu, Qiming Ye, Yuxiang Feng, Jose Escribano-Macias, Panagiotis Angeloudis(参考訳) モバイルパーセルロッカー(mpls)は、交通渋滞や運行コストを削減する手段として、都市物流事業者によって最近導入された。 日中の位置を移す能力は、顧客のアクセシビリティと利便性(それに従ってデプロイされ、計画された場合)を改善する可能性があり、顧客は複数の場所のうちの1つで好みの時間に小包を収集できる。 本稿では, MPLの最適構成とロッカー経路を決定するために, 位置ルーティング問題を解く整数プログラミングモデルを提案する。 本モデルでは,グローバルおよびローカル検索機構と統合されたハイブリッドQラーニングアルゴリズムに基づく手法(HQM)を開発し,その性能を異なる問題サイズで検証し,遺伝的アルゴリズムでベンチマークする。 さらに,遅延の原因となる確率的事象を解決するための2つの経路調整戦略を導入した。 その結果、HQMは94.91%のヒューリスティックなソリューションよりも平均443.41%のソリューション改善を実現し、HQMはより良いソリューションをより効率的に検索できることを示した。 最後に,サービス遅延に寄与する重要な要因を特定し,その影響について検討する。

Mobile parcel lockers (MPLs) have been recently introduced by urban logistics operators as a means to reduce traffic congestion and operational cost. Their capability to relocate their position during the day has the potential to improve customer accessibility and convenience (if deployed and planned accordingly), allowing customers to collect parcels at their preferred time among one of the multiple locations. This paper proposes an integer programming model to solve the Location Routing Problem for MPLs to determine the optimal configuration and locker routes. In solving this model, a Hybrid Q-Learning algorithm-based Method (HQM) integrated with global and local search mechanisms is developed, the performance of which is examined for different problem sizes and benchmarked with genetic algorithms. Furthermore, we introduced two route adjustment strategies to resolve stochastic events that may cause delays. The results show that HQM achieves 443.41% improvement on average in solution improvement, compared with the 94.91% improvement of heuristic counterparts, suggesting HQM enables a more efficient search for better solutions. Finally, we identify critical factors that contribute to service delays and investigate their effects.
翻訳日:2021-11-01 15:36:38 公開日:2021-10-29
# ランキングにおける公平さの前処理法

A Pre-processing Method for Fairness in Ranking ( http://arxiv.org/abs/2110.15503v1 )

ライセンス: Link先を確認
Ryosuke Sonoda(参考訳) 公正なランキング問題は、しばしば正確さと公平さの間のトレードオフを必要とする多くの意思決定プロセスで発生する。 既存の多くの研究は、ランク付けモデルの損失に公平さの制約を加えるなどの補正手法を提案している。 しかし、公正ランキングのデータバイアスを修正するという課題は依然として残っており、ランキングモデルのトレードオフは改善の余地を残している。 本稿では,学習データの順序を相互に評価する公正ランキングフレームワークと,ランキングにおける公平度の測定方法を提案する。 本研究は, 最適知識を持つペア順序付け手法を用いて, 公正ランキング問題を解く前処理法の最初の提案である。 フェアペアワイズ順序付け(fair pairwise order method)は、結果のランクがグループ間で同等になる可能性を保証するため、フェアランキングモデルのトレーニングにおいて顕著である。 ランキングの公平性測定をランキングモデルの線形制約として表現する限り,制約を受ける損失関数の最小化は,トレーニングデータへの重み付けによって増大する最小化問題の閉解に還元されることを示した。 この閉解は、重みとモデルパラメータの最適化を反復する実用的で安定したアルゴリズムを提案するきっかけとなる。 実世界のデータセットに対する実験結果は、実世界のデータセットと様々な公平性測定に対する正確さと公平さのトレードオフにおいて、既存の手法を上回っていることを示した。

Fair ranking problems arise in many decision-making processes that often necessitate a trade-off between accuracy and fairness. Many existing studies have proposed correction methods such as adding fairness constraints to a ranking model's loss. However, the challenge of correcting the data bias for fair ranking remains, and the trade-off of the ranking models leaves room for improvement. In this paper, we propose a fair ranking framework that evaluates the order of training data in a pairwise manner as well as various fairness measurements in ranking. This study is the first proposal of a pre-processing method that solves fair ranking problems using the pairwise ordering method with our best knowledge. The fair pairwise ordering method is prominent in training the fair ranking models because it ensures that the resulting ranking likely becomes parity across groups. As far as the fairness measurements in ranking are represented as a linear constraint of the ranking models, we proved that the minimization of loss function subject to the constraints is reduced to the closed solution of the minimization problem augmented by weights to training data. This closed solution inspires us to present a practical and stable algorithm that iterates the optimization of weights and model parameters. The empirical results over real-world datasets demonstrated that our method outperforms the existing methods in the trade-off between accuracy and fairness over real-world datasets and various fairness measurements.
翻訳日:2021-11-01 15:36:19 公開日:2021-10-29
# マルチエージェント強化学習を用いた複合協調コミュニケーション

Mixed Cooperative-Competit ive Communication Using Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2110.15762v1 )

ライセンス: Link先を確認
Astrid Vanneste, Wesley Van Wijnsberghe, Simon Vanneste, Kevin Mets, Siegfried Mercelis, Steven Latr\'e, Peter Hellinckx(参考訳) マルチエージェント環境で複数のエージェント間の通信を利用することで、あるエージェントの観測と他のエージェントの観測を同じ動的環境で組み合わせることで、部分的可観測性の影響を低減できる。 協調的な環境でのコミュニケーション学習に多くの研究が成功したが、協調競争の混合環境でのコミュニケーション学習もまた重要であり、相手チームがコミュニケーションを過度に聞き取っているなど、独自の複雑さをもたらす。 本稿では,協調的設定のために設計された微分可能エージェント間学習(dial)を,協調的競争的混合設定に適用する。 私たちは、チームにとってプライベートなコミュニケーションと、他のチームによって耳にされるコミュニケーションとのパフォーマンスの違いに注目します。 本研究は,コミュニケーションエージェントが,選択した環境下でのトレーニング期間後に,完全観測可能なエージェントと同等の性能を達成できることを示唆する。 全体として、チーム間でのコミュニケーションの共有は、プライベートなコミュニケーションで達成した結果と比較して、コミュニケーションチームのパフォーマンスを低下させる。

By using communication between multiple agents in multi-agent environments, one can reduce the effects of partial observability by combining one agent's observation with that of others in the same dynamic environment. While a lot of successful research has been done towards communication learning in cooperative settings, communication learning in mixed cooperative-competit ive settings is also important and brings its own complexities such as the opposing team overhearing the communication. In this paper, we apply differentiable inter-agent learning (DIAL), designed for cooperative settings, to a mixed cooperative-competit ive setting. We look at the difference in performance between communication that is private for a team and communication that can be overheard by the other team. Our research shows that communicating agents are able to achieve similar performance to fully observable agents after a given training period in our chosen environment. Overall, we find that sharing communication across teams results in decreased performance for the communicating team in comparison to results achieved with private communication.
翻訳日:2021-11-01 15:35:57 公開日:2021-10-29
# 適応型交通制御システムのための強化学習と通信する学習

Learning to Communicate with Reinforcement Learning for an Adaptive Traffic Control System ( http://arxiv.org/abs/2110.15779v1 )

ライセンス: Link先を確認
Simon Vanneste, Gauthier de Borrekens, Stig Bosmans, Astrid Vanneste, Kevin Mets, Siegfried Mercelis, Steven Latr\'e, Peter Hellinckx(参考訳) マルチエージェント強化学習における最近の研究は、チーム報酬を改善するためにアクションポリシーと同時に学習されるエージェント間コミュニケーションを調査している。 本稿では,適応型交通制御システム(ATCS)上での学習通信により,コミュニケーションのない独立したQ-ラーニング(IQL)と識別可能なエージェント間ラーニング(DIAL)について検討する。 実世界のATCSでは、各エージェントに環境の完全な状態を提示することは不可能であり、シミュレーションでは、個々のエージェントが環境の完全な状態を限定的に観察することしかできない。 ATCSは2つの接続交差点を模擬した都市移動シミュレーション(SUMO)トラフィックシミュレータを用いてシミュレーションを行う。 各交差点は、交通の流れの方向を変える能力を持つエージェントによって制御される。 以上の結果から,ダイアルエージェントは他のエージェントと情報を共有できるため,学習時間と最大報酬の双方において独立したq-learnerよりも優れていた。

Recent work in multi-agent reinforcement learning has investigated inter agent communication which is learned simultaneously with the action policy in order to improve the team reward. In this paper, we investigate independent Q-learning (IQL) without communication and differentiable inter-agent learning (DIAL) with learned communication on an adaptive traffic control system (ATCS). In real world ATCS, it is impossible to present the full state of the environment to every agent so in our simulation, the individual agents will only have a limited observation of the full state of the environment. The ATCS will be simulated using the Simulation of Urban MObility (SUMO) traffic simulator in which two connected intersections are simulated. Every intersection is controlled by an agent which has the ability to change the direction of the traffic flow. Our results show that a DIAL agent outperforms an independent Q-learner on both training time and on maximum achieved reward as it is able to share relevant information with the other agents.
翻訳日:2021-11-01 15:35:40 公開日:2021-10-29
# 学習型PEマルウェア家族分類法に関する総合的研究

A Comprehensive Study on Learning-Based PE Malware Family Classification Methods ( http://arxiv.org/abs/2110.15552v1 )

ライセンス: Link先を確認
Yixuan Ma, Shuang Liu, Jiajun Jiang, Guanhong Chen, Keqiu Li(参考訳) 高い利益により、ポータブル実行可能(PE)マルウェアは、ボリュームと洗練の両面で一貫して進化してきた。 PEマルウェアファミリー分類は注目され、多くのアプローチが提案されている。 機械学習技術の急速な発展と、それらが様々なタスクで達成したエキサイティングな成果により、機械学習アルゴリズムはPEマルウェアファミリー分類タスクでも人気を集めている。 学習ベースのアルゴリズムを使用する3つの主流のアプローチは、各メソッドが取る入力形式によって分類される。 多数のアプローチが公表されているが、これらのアプローチについて、特に実践的な業界採用の観点から、一貫した比較は行われていない。 さらに, マルウェアの急激な進化により, マルウェア分類タスクの事実である, コンセプトドリフトのシナリオは比較されていない。 本研究では,4つの異なるデータセットと一貫した実験設定に基づいて,学習に基づくPEマルウェア分類手法の徹底的な実証的研究を行う。 実験結果と業界パートナーとのインタビューの結果から,(1)他よりも著しく優れた手法は存在しないこと,(2)コンセプトドリフトにおける性能低下(平均F1スコア32.23%)を示す手法がすべて存在すること,(3)予測時間と高メモリ消費により,既存の手法が産業利用に採用されなくなること,などが判明した。

Driven by the high profit, Portable Executable (PE) malware has been consistently evolving in terms of both volume and sophistication. PE malware family classification has gained great attention and a large number of approaches have been proposed. With the rapid development of machine learning techniques and the exciting results they achieved on various tasks, machine learning algorithms have also gained popularity in the PE malware family classification task. Three mainstream approaches that use learning based algorithms, as categorized by the input format the methods take, are image-based, binary-based and disassembly-based approaches. Although a large number of approaches are published, there is no consistent comparisons on those approaches, especially from the practical industry adoption perspective. Moreover, there is no comparison in the scenario of concept drift, which is a fact for the malware classification task due to the fast evolving nature of malware. In this work, we conduct a thorough empirical study on learning-based PE malware classification approaches on 4 different datasets and consistent experiment settings. Based on the experiment results and an interview with our industry partners, we find that (1) there is no individual class of methods that significantly outperforms the others; (2) All classes of methods show performance degradation on concept drift (by an average F1-score of 32.23%); and (3) the prediction time and high memory consumption hinder existing approaches from being adopted for industry usage.
翻訳日:2021-11-01 15:33:53 公開日:2021-10-29
# 共有自転車軌道を用いた群集センシング型パーキングパトロール

Crowd-sensing Enhanced Parking Patrol using Sharing Bikes' Trajectories ( http://arxiv.org/abs/2110.15557v1 )

ライセンス: Link先を確認
Tianfu He, Jie Bao, Yexin Li, Hui He and Yu Zheng(参考訳) 違法な自動車駐車は、大気汚染や交通事故につながる交通渋滞を引き起こすため、世界中の主要都市が直面する一般的な都市問題である。 政府は違法な駐車イベントを検出するために、アクティブな人間の努力に強く依存している。 しかし、警察は市内の道路全体をパトロールしなければならないため、大都市をカバーするには極めて効果がない。 Mobikeの大規模かつ高品質な共有自転車軌道は、違法な駐車検知アプローチをユビキタスに設計するユニークな機会を与えてくれる。 検出結果は、パトロールスケジュール、すなわち、違法な駐車リスクの高い地域へパトロール警官を派遣し、パトロール効率をさらに向上させることができる。 Inspired by this idea, three main components are employed in the proposed framework: 1)~{\em trajectory pre-processing}, which filters outlier GPS points, performs map-matching, and builds trajectory indexes; 2)~{\em illegal parking detection}, which models the normal trajectories, extracts features from the evaluation trajectories, and utilizes a distribution test-based method to discover the illegal parking events; and 3)~{\em patrol scheduling}, which leverages the detection result as reference context, and models the scheduling task as a multi-agent reinforcement learning problem to guide the patrol police. 最後に,違法駐車検知の有効性とパトロール効率の向上を検証するため,広範囲にわたる実験を行った。

Illegal vehicle parking is a common urban problem faced by major cities in the world, as it incurs traffic jams, which lead to air pollution and traffic accidents. The government highly relies on active human efforts to detect illegal parking events. However, such an approach is extremely ineffective to cover a large city since the police have to patrol over the entire city roads. The massive and high-quality sharing bike trajectories from Mobike offer us a unique opportunity to design a ubiquitous illegal parking detection approach, as most of the illegal parking events happen at curbsides and have significant impact on the bike users. The detection result can guide the patrol schedule, i.e. send the patrol policemen to the region with higher illegal parking risks, and further improve the patrol efficiency. Inspired by this idea, three main components are employed in the proposed framework: 1)~{\em trajectory pre-processing}, which filters outlier GPS points, performs map-matching, and builds trajectory indexes; 2)~{\em illegal parking detection}, which models the normal trajectories, extracts features from the evaluation trajectories, and utilizes a distribution test-based method to discover the illegal parking events; and 3)~{\em patrol scheduling}, which leverages the detection result as reference context, and models the scheduling task as a multi-agent reinforcement learning problem to guide the patrol police. Finally, extensive experiments are presented to validate the effectiveness of illegal parking detection, as well as the improvement of patrol efficiency.
翻訳日:2021-11-01 15:33:29 公開日:2021-10-29
# NISQ時代の超伝導プロセッサにおけるFRQIの改善とその制限

Improved FRQI on superconducting processors and its restrictions in the NISQ era ( http://arxiv.org/abs/2110.15672v1 )

ライセンス: Link先を確認
Alexander Geng, Ali Moghiseh, Claudia Redenbach, Katja Schladitz(参考訳) 画像処理では、特に2次元以上の画像や時系列画像が得られる場合には、処理すべきデータの量は急速に増加する。 したがって、データサイズがスーパーコンピュータを限界まで押し上げる可能性があるため、効率的な処理は困難である。 量子画像処理は、画像中の古典的なピクセルよりも対数的に少ない量子ビットで画像をエンコードすることを約束する。 理論的には、これは大きな進歩ですが、今のところ、特に実際のバックエンドで実施されている実験は多くありません。 多くの場合、古典的データの量子状態への正確な変換、正確な実装、古典的文脈における測定値の解釈は困難である。 本稿では,これらの実践的質問について検討する。 特に,量子画像のフレキシブル表現(frqi)の実現可能性について検討する。 さらに、現在のノイズの多い中間スケール量子時代の限界、すなわち、画像のエンコード可能な画像サイズについて、シミュレーターと実際のバックエンドの両方で実験的に検証する。 最後に、FRQIに必要な回路を単純化する手法を提案する。 我々の変更により、特にエラーを起こしやすい制御NOTゲートに必要なゲートの数を減らすことができる。 その結果、管理可能な画像のサイズが増加する。

In image processing, the amount of data to be processed grows rapidly, in particular when imaging methods yield images of more than two dimensions or time series of images. Thus, efficient processing is a challenge, as data sizes may push even supercomputers to their limits. Quantum image processing promises to encode images with logarithmically less qubits than classical pixels in the image. In theory, this is a huge progress, but so far not many experiments have been conducted in practice, in particular on real backends. Often, the precise conversion of classical data to quantum states, the exact implementation, and the interpretation of the measurements in the classical context are challenging. We investigate these practical questions in this paper. In particular, we study the feasibility of the Flexible Representation of Quantum Images (FRQI). Furthermore, we check experimentally what is the limit in the current noisy intermediate-scale quantum era, i.e. up to which image size an image can be encoded, both on simulators and on real backends. Finally, we propose a method for simplifying the circuits needed for the FRQI. With our alteration, the number of gates needed, especially of the error-prone controlled-NOT gates, can be reduced. As a consequence, the size of manageable images increases.
翻訳日:2021-11-01 15:33:09 公開日:2021-10-29
# テンソル分解のための改良パワー法の景観解析

Landscape analysis of an improved power method for tensor decomposition ( http://arxiv.org/abs/2110.15821v1 )

ライセンス: Link先を確認
Joe Kileel, Timo Klock, Jo\~ao M. Pereira(参考訳) 本稿では,最近Kileel と Pereira の Subspace Power Method (SPM) で導入された対称テンソル分解の最適化式について考察する。 テンソル分解に対する一般的な代替関数とは異なり、SPM目的関数は、その最大値が予め知られているという望ましい性質を持ち、その大域的最適化は、入力が十分に低ランクであるときのテンソルのランク1成分である。 SPMの目的に付随する非凸最適化のランドスケープを解析する。 我々の分析は騒音のあるテンソルで作業している。 我々は、SPM目標値が境界を超える任意の二階臨界点がノイズのない場合のテンソル成分と等しくなければならず、ノイズのある場合のテンソル成分を近似しなければならないような量的境界を導出する。 大きさ$D^{\times m}$のテンソルを分解するために、ランダムテンソルモデルの下で$\widetilde{o}(D^{\lfloor m/2 \rfloor})$に、決定論的フレーム条件を仮定して$\mathcal{O}(D)$に、大域的保証を得る。 これは、適切な初期化を持つSPMが低ランク対称テンソル分解のための証明可能で効率的で堅牢なアルゴリズムであることを意味する。 結論として,spm関数がより確立された関数よりも実用的好適性を示す数値を導出する。

In this work, we consider the optimization formulation for symmetric tensor decomposition recently introduced in the Subspace Power Method (SPM) of Kileel and Pereira. Unlike popular alternative functionals for tensor decomposition, the SPM objective function has the desirable properties that its maximal value is known in advance, and its global optima are exactly the rank-1 components of the tensor when the input is sufficiently low-rank. We analyze the non-convex optimization landscape associated with the SPM objective. Our analysis accounts for working with noisy tensors. We derive quantitative bounds such that any second-order critical point with SPM objective value exceeding the bound must equal a tensor component in the noiseless case, and must approximate a tensor component in the noisy case. For decomposing tensors of size $D^{\times m}$, we obtain a near-global guarantee up to rank $\widetilde{o}(D^{\lfloor m/2 \rfloor})$ under a random tensor model, and a global guarantee up to rank $\mathcal{O}(D)$ assuming deterministic frame conditions. This implies that SPM with suitable initialization is a provable, efficient, robust algorithm for low-rank symmetric tensor decomposition. We conclude with numerics that show a practical preferability for using the SPM functional over a more established counterpart.
翻訳日:2021-11-01 15:32:51 公開日:2021-10-29
# 音素と単語の教師なしセグメンテーションと分類のためのコントラスト予測戦略

Contrastive prediction strategies for unsupervised segmentation and categorization of phonemes and words ( http://arxiv.org/abs/2110.15909v1 )

ライセンス: Link先を確認
Santiago Cuervo, Maciej Grabias, Jan Chorowski, Grzegorz Ciesielski, Adrian {\L}a\'ncucki, Pawe{\l} Rychlikowski, Ricard Marxer(参考訳) コントラスト予測符号化(Contrastive Predictive Coding, CPC)に基づく自己教師あり学習法(SSL)における音素分類と音素分類と単語分割の性能について検討を行った。 実験の結果,既存のアルゴリズムでは分類性能とセグメンテーション性能のトレードオフがあることがわかった。 本稿では,この対立の原因を調査し,学習表現に時間的シフトを生じさせることでセグメンテーション性能を損なう,分類タスクにおける優れた性能を実現するために必要なコンテキスト構築ネットワークの利用を結論付ける。 このギャップを埋めるために、フレームと音素レベルで音声信号を同時にモデル化するセグメンテーションの先進的なアプローチから着想を得、多レベルモデリングをCPCの変種であるAligned CPC(ACPC)に組み込む。 我々のマルチレベルACPC(mACPC)は、すべての分類基準を改善し、単語セグメンテーションにおける最先端のパフォーマンスを達成する。

We investigate the performance on phoneme categorization and phoneme and word segmentation of several self-supervised learning (SSL) methods based on Contrastive Predictive Coding (CPC). Our experiments show that with the existing algorithms there is a trade off between categorization and segmentation performance. We investigate the source of this conflict and conclude that the use of context building networks, albeit necessary for superior performance on categorization tasks, harms segmentation performance by causing a temporal shift on the learned representations. Aiming to bridge this gap, we take inspiration from the leading approach on segmentation, which simultaneously models the speech signal at the frame and phoneme level, and incorporate multi-level modelling into Aligned CPC (ACPC), a variation of CPC which exhibits the best performance on categorization tasks. Our multi-level ACPC (mACPC) improves in all categorization metrics and achieves state-of-the-art performance in word segmentation.
翻訳日:2021-11-01 15:31:27 公開日:2021-10-29
# 物理インフォームド線形回帰は、MPC構築における機械学習手法と競合するアプローチである

Physics-informed linear regression is a competitive approach compared to Machine Learning methods in building MPC ( http://arxiv.org/abs/2110.15911v1 )

ライセンス: Link先を確認
Felix B\"unning, Benjamin Huber, Adrian Schalbetter, Ahmed Aboudonia, Mathias Hudoba de Badyn, Philipp Heer, Roy S. Smith, John Lygeros(参考訳) 物理に基づく建築モデルは各建物が個別であるため入手が困難であるため、測定データから直接MPCを構築するのに適したモデルを作成することへの関心が高まっている。 機械学習手法はこの問題に広く適用され、主にシミュレーションで検証されているが、文献で見られる実際の建物における異なるモデルや検証を直接比較する研究はほとんどない。 実際に応用できる手法は、計算的に複雑な非凸最適化問題を引き起こすことが多い。 本稿では,ランダム林と入力凸ニューラルネットワークに基づく機械学習モデルと,従属的快適性を維持しつつエネルギー消費を最小化することを目的とした実用建築実験において,物理式自己回帰移動平均値と外因的入力(armax)モデルを比較し,その結果として生じる凸mpcスキームを数値ケーススタディで検証する。 予測制御は, ビルのベースラインヒステリシスコントローラと比較して, 26%から49%の温暖化と冷却エネルギーの節約につながることが実証された。 さらに,制約満足度とエネルギー削減の観点から,すべてのモデルタイプが満足な制御性能をもたらすことを示した。 しかし, 物理インフォームドARMAXモデルは, 計算負担が低く, 機械学習モデルと比較して, サンプル効率が優れていることも確認できた。 さらに、豊富なトレーニングデータが利用可能であっても、armaxモデルは機械学習モデルよりもかなり低い予測誤差を有しており、前者より先にエンコードされた物理モデルが後者によって独立に発見できないことを示している。

Because physics-based building models are difficult to obtain as each building is individual, there is an increasing interest in generating models suitable for building MPC directly from measurement data. Machine learning methods have been widely applied to this problem and validated mostly in simulation; there are, however, few studies on a direct comparison of different models or validation in real buildings to be found in the literature. Methods that are indeed validated in application often lead to computationally complex non-convex optimization problems. Here we compare physics-informed Autoregressive-Movin g-Average with Exogenous Inputs (ARMAX) models to Machine Learning models based on Random Forests and Input Convex Neural Networks and the resulting convex MPC schemes in experiments on a practical building application with the goal of minimizing energy consumption while maintaining occupant comfort, and in a numerical case study. We demonstrate that Predictive Control in general leads to savings between 26% and 49% of heating and cooling energy, compared to the building's baseline hysteresis controller. Moreover, we show that all model types lead to satisfactory control performance in terms of constraint satisfaction and energy reduction. However, we also see that the physics-informed ARMAX models have a lower computational burden, and a superior sample efficiency compared to the Machine Learning based models. Moreover, even if abundant training data is available, the ARMAX models have a significantly lower prediction error than the Machine Learning models, which indicates that the encoded physics-based prior of the former cannot independently be found by the latter.
翻訳日:2021-11-01 15:31:08 公開日:2021-10-29
# ウェアラブルマルチモダリティを用いたパーソナライズされた呼吸型生体認証

Personalized breath based biometric authentication with wearable multimodality ( http://arxiv.org/abs/2110.15941v1 )

ライセンス: Link先を確認
Manh-Ha Bui, Viet-Anh Tran, Cuong Pham(参考訳) 鼻音の特徴を持つ呼吸は、個人識別と検証において潜在的なバイオメトリックスとして示されている。 本稿では、胸部の動きセンサが捉えた他のモダリティから得られる情報に加えて、音声機能によりさらに性能が向上することを示す。 私たちの仕事は、ハードウェア作成、データセットパブリッシュ、提案されたマルチモーダルモデルという3つの主要なコントリビューションで構成されています。 より具体的には、鼻から音響的特徴を収集する音響センサと、個々の呼吸の結果、胸部の動きを収集する加速度計とジャイロスコープで構成される新しいハードウェアを設計する。 このハードウェアを使用して、さまざまなボランティアのセッションから収集したデータセットを公開し、各セッションは正常、深呼吸、強呼吸の3つの一般的なジェスチャーを含む。 最後に、CNN-LSTM(Convolution al Long Term Memory)とTCN(Temporal Convolutional Networks)アーキテクチャに基づく2つのマルチモーダルモデルについて実験を行った。 その結果,検証作業と識別作業の両方において,新しいハードウェアの適合性が示された。

Breath with nose sound features has been shown as a potential biometric in personal identification and verification. In this paper, we show that information that comes from other modalities captured by motion sensors on the chest in addition to audio features could further improve the performance. Our work is composed of three main contributions: hardware creation, dataset publication, and proposed multimodal models. To be more specific, we design new hardware which consists of an acoustic sensor to collect audio features from the nose, as well as an accelerometer and gyroscope to collect movement on the chest as a result of an individual's breathing. Using this hardware, we publish a collected dataset from a number of sessions from different volunteers, each session includes three common gestures: normal, deep, and strong breathing. Finally, we experiment with two multimodal models based on Convolutional Long Short Term Memory (CNN-LSTM) and Temporal Convolutional Networks (TCN) architectures. The results demonstrate the suitability of our new hardware for both verification and identification tasks.
翻訳日:2021-11-01 15:30:40 公開日:2021-10-29
# (参考訳) 空間変動を考慮したニューラルネットワークの比較物理解釈に向けて:結果の概要 [全文訳有]

Towards Comparative Physical Interpretation of Spatial Variability Aware Neural Networks: A Summary of Results ( http://arxiv.org/abs/2110.15866v1 )

ライセンス: CC BY 4.0
Jayant Gupta, Carl Molnar, Gaoxiang Luo, Joe Knight and Shashi Shekhar(参考訳) SVANN(Spatial Variability Aware Neural Networks)を前提として、その透明性(シミュラビリティ、デコンポスタビリティ、アルゴリズムの透明性など)に対する物理解釈の数学的(または計算的)モデルを検討することが目的である。 この問題は、裁判所における陪審員の再利用性、デバッグ性、説明可能性などの重要なユースケースのために重要である。 課題には、多数のモデルパラメータ、ニューラルネットワークの一般化性能の空き境界、過度な適合のリスク、ノイズに対する感受性などが含まれる。 モデル固有あるいはモデル非依存のポストホック解釈に関する関連する研究は、物理的制約(例えば質量収支)と特性(例えば、地理の第2法則)の考慮の欠如によって制限されている。 本研究では,地理的に異質な特徴に基づく新しい比較手法を用いて,SVANNの物理的解釈について検討する。 湿地マッピングのケーススタディを用いて,特徴量に基づく物理解釈手法の評価を行った。 提案する物理解釈はsvannモデルの透過性を改善し,解析結果はモデル透過性とモデル性能(例えばf1-score)のトレードオフを強調する。 また,偏微分方程式 (pdes) としてモデル化された地理的に異質なプロセスに基づく解釈についても述べる。

Given Spatial Variability Aware Neural Networks (SVANNs), the goal is to investigate mathematical (or computational) models for comparative physical interpretation towards their transparency (e.g., simulatibility, decomposability and algorithmic transparency). This problem is important due to important use-cases such as reusability, debugging, and explainability to a jury in a court of law. Challenges include a large number of model parameters, vacuous bounds on generalization performance of neural networks, risk of overfitting, sensitivity to noise, etc., which all detract from the ability to interpret the models. Related work on either model-specific or model-agnostic post-hoc interpretation is limited due to a lack of consideration of physical constraints (e.g., mass balance) and properties (e.g., second law of geography). This work investigates physical interpretation of SVANNs using novel comparative approaches based on geographically heterogeneous features. The proposed approach on feature-based physical interpretation is evaluated using a case-study on wetland mapping. The proposed physical interpretation improves the transparency of SVANN models and the analytical results highlight the trade-off between model transparency and model performance (e.g., F1-score). We also describe an interpretation based on geographically heterogeneous processes modeled as partial differential equations (PDEs).
翻訳日:2021-11-01 15:29:05 公開日:2021-10-29
# 遅延伝搬変換器:サイバー物理システムの実用化に向けてのユニバーサル計算エンジン

Delayed Propagation Transformer: A Universal Computation Engine towards Practical Control in Cyber-Physical Systems ( http://arxiv.org/abs/2110.15926v1 )

ライセンス: Link先を確認
Wenqing Zheng, Qiangqiang Guo, Hao Yang, Peihao Wang, Zhangyang Wang(参考訳) マルチエージェント制御はサイバー物理システム(CPS)の中心的なテーマである。 しかしながら、現在の制御方法は、検知と分散設計が不十分なため、非マルコフ状態を受け取るか、あるいは収束不良に苦しむ。 本稿では、物理世界からの不変制約を考慮したCPSのグローバルモデリングを専門とする新しいトランスモデルである遅延伝搬変換器(DePT)を提案する。 DePTは、円錐形の空間的注意を事前に誘導し、情報伝播と集約の原則を注入し、グローバルなビューを可能にする。 物理的な制約帰納バイアスを設計に組み込むことで、DePTは幅広い種類のマルチエージェントシステムにプラグ&プレイする準備ができています。 オープンワールドにおけるネットワーク規模のトラヒック信号制御システムであるcpsにおける実験結果から,本モデルが合成および実世界のデータセットにおける最先端のエキスパート手法を上回っていたことが明らかとなった。 私たちのコードは、https://github.com/V ITA-Group/DePTでリリースされています。

Multi-agent control is a central theme in the Cyber-Physical Systems (CPS). However, current control methods either receive non-Markovian states due to insufficient sensing and decentralized design, or suffer from poor convergence. This paper presents the Delayed Propagation Transformer (DePT), a new transformer-based model that specializes in the global modeling of CPS while taking into account the immutable constraints from the physical world. DePT induces a cone-shaped spatial-temporal attention prior, which injects the information propagation and aggregation principles and enables a global view. With physical constraint inductive bias baked into its design, our DePT is ready to plug and play for a broad class of multi-agent systems. The experimental results on one of the most challenging CPS -- network-scale traffic signal control system in the open world -- show that our model outperformed the state-of-the-art expert methods on synthetic and real-world datasets. Our codes are released at: https://github.com/V ITA-Group/DePT.
翻訳日:2021-11-01 15:07:41 公開日:2021-10-29
# カーネルに基づく半関数線形回帰の最適予測

Optimal prediction for kernel-based semi-functional linear regression ( http://arxiv.org/abs/2110.15536v1 )

ライセンス: Link先を確認
Keli Guo, Jun Fan, Lixing Zhu(参考訳) 本稿では,関数成分とより滑らかな非パラメトリック成分からなる半関数線形モデルにおいて,予測の最小収束率を確立する。 その結果, よりスムーズな関数成分は, 非パラメトリック成分が知られているようなミニマックス速度で学習できることが判明した。 より具体的には、カーネルヒルベルト空間を再現するフレームワーク内の機能的成分と非パラメトリック成分の両方を推定するために、双極小最小二乗法が採用されている。 正規化パラメータを一般化されたクロス検証基準によって選択する最適化問題の解法として,反復を必要としない効率的なアルゴリズムを提案する。 本手法の有効性を実証し, 理論的解析を検証するため, 数値実験を行った。

In this paper, we establish minimax optimal rates of convergence for prediction in a semi-functional linear model that consists of a functional component and a less smooth nonparametric component. Our results reveal that the smoother functional component can be learned with the minimax rate as if the nonparametric component were known. More specifically, a double-penalized least squares method is adopted to estimate both the functional and nonparametric components within the framework of reproducing kernel Hilbert spaces. By virtue of the representer theorem, an efficient algorithm that requires no iterations is proposed to solve the corresponding optimization problem, where the regularization parameters are selected by the generalized cross validation criterion. Numerical studies are provided to demonstrate the effectiveness of the method and to verify the theoretical analysis.
翻訳日:2021-11-01 15:07:26 公開日:2021-10-29
# 計算人間の頭部モデルにおけるデータ駆動不確かさの定量化

Data-driven Uncertainty Quantification in Computational Human Head Models ( http://arxiv.org/abs/2110.15553v1 )

ライセンス: Link先を確認
Kshitiz Upadhyay, Dimitris G. Giovanis, Ahmed Alshareef, Andrew K. Knutsen, Curtis L. Johnson, Aaron Carass, Philip V. Bayly, Michael D. Shields, K.T. Ramesh(参考訳) 頭部の計算モデルは、脳の衝撃応答を推定するための有望なツールであり、外傷性脳損傷の予測において重要な役割を果たす。 現代の生物モデルシミュレーションは非常に高い計算コストと高次元入力と出力に関連付けられており、これらのシステムにおける従来の不確実性定量化(UQ)手法の適用性を制限する。 本研究では、計算ヘッドモデルのUQに対して、2段階のデータ駆動型学習フレームワークを提案する。 この枠組みは、異なる脳サブ構造(すなわち入力)の材料特性の変動が与えられた、模擬ひずみ場(すなわち出力)における不確かさの定量化を目標とする2次元主観的頭部モデル上で実証される。 第1段階では、多次元ガウス核密度推定と拡散写像に基づくデータ駆動法を用いて、利用可能なデータから直接入力ランダムベクトルの実現を行う。 少数の実現の計算シミュレーションは、第2段階でデータ駆動サーロゲートモデルのトレーニングのための入出力ペアを提供する。 サーロゲートモデルは、グラスマン拡散写像を用いた非線形次元の低減、ガウス過程の回帰を用いて入力ランダムベクトルと還元解空間の間の低コストな写像、および縮小空間とグラスマン多様体の間の写像のための幾何学的調和モデルを用いる。 代理モデルが計算モデルの高精度な近似を提供するとともに,計算コストを大幅に削減することを示した。 代理モデルのモンテカルロシミュレーションは不確実性伝播に使用される。 ひずみ場のuqは、モデル不確かさの空間的変化を強調し、一般的に使用されるひずみベースの脳損傷予測変数間の不確かさの重要な違いを明らかにした。

Computational models of the human head are promising tools for estimating the impact-induced response of brain, and thus play an important role in the prediction of traumatic brain injury. Modern biofidelic head model simulations are associated with very high computational cost, and high-dimensional inputs and outputs, which limits the applicability of traditional uncertainty quantification (UQ) methods on these systems. In this study, a two-stage, data-driven manifold learning-based framework is proposed for UQ of computational head models. This framework is demonstrated on a 2D subject-specific head model, where the goal is to quantify uncertainty in the simulated strain fields (i.e., output), given variability in the material properties of different brain substructures (i.e., input). In the first stage, a data-driven method based on multi-dimensional Gaussian kernel-density estimation and diffusion maps is used to generate realizations of the input random vector directly from the available data. Computational simulations of a small number of realizations provide input-output pairs for training data-driven surrogate models in the second stage. The surrogate models employ nonlinear dimensionality reduction using Grassmannian diffusion maps, Gaussian process regression to create a low-cost mapping between the input random vector and the reduced solution space, and geometric harmonics models for mapping between the reduced space and the Grassmann manifold. It is demonstrated that the surrogate models provide highly accurate approximations of the computational model while significantly reducing the computational cost. Monte Carlo simulations of the surrogate models are used for uncertainty propagation. UQ of strain fields highlight significant spatial variation in model uncertainty, and reveal key differences in uncertainty among commonly used strain-based brain injury predictor variables.
翻訳日:2021-11-01 15:07:12 公開日:2021-10-29
# Adaptive Importance Smpling, Mirror Descent: バイアス分散トレードオフ

Adaptive Importance Sampling meets Mirror Descent: a Bias-variance tradeoff ( http://arxiv.org/abs/2110.15590v1 )

ライセンス: Link先を確認
Anna Korba and Fran\c{c}ois Portier(参考訳) 適応的重要度サンプリング(adaptive importance sampling)は、モンテカルロに広く普及した手法で、再重み付け戦略を用いて、いわゆる目標分布を反復的に推定する。 適応的な重要度サンプリングの大きな欠点は、推定の精度に悪影響を与えることが知られている重みの大きなばらつきである。 本稿では,一定のパワーで重み付けの重み付けを基本原理とする正規化戦略について検討する。 この正規化パラメータは、アルゴリズム中にゼロと1の間に進化する可能性がある。 (i)偏差と偏差のバランスをとること (ii)ミラー降下枠組と接続すること。 カーネル密度推定を用いてサンプリングポリシーを構築することにより、均一収束は穏やかな条件下で確立される。 最後に, 正規化パラメータの選択方法をいくつか検討し, 提案手法の利点を実証的に示す。

Adaptive importance sampling is a widely spread Monte Carlo technique that uses a re-weighting strategy to iteratively estimate the so-called target distribution. A major drawback of adaptive importance sampling is the large variance of the weights which is known to badly impact the accuracy of the estimates. This paper investigates a regularization strategy whose basic principle is to raise the importance weights at a certain power. This regularization parameter, that might evolve between zero and one during the algorithm, is shown (i) to balance between the bias and the variance and (ii) to be connected to the mirror descent framework. Using a kernel density estimate to build the sampling policy, the uniform convergence is established under mild conditions. Finally, several practical ways to choose the regularization parameter are discussed and the benefits of the proposed approach are illustrated empirically.
翻訳日:2021-11-01 15:06:42 公開日:2021-10-29
# BitTrain: エッジ上でのメモリ効率向上トレーニングのための疎ビットマップ圧縮

BitTrain: Sparse Bitmap Compression for Memory-Efficient Training on the Edge ( http://arxiv.org/abs/2110.15362v1 )

ライセンス: Link先を確認
Abdelrahman Hosny, Marina Neseem, Sherief Reda(参考訳) Edgeのトレーニングにより、メモリ制限されたエッジデバイスにデプロイした後に、ニューラルネットワークが新たなデータから継続的に学習できるようになる。 これまでの作業は主に、推論にのみ有用なモデルパラメータの数を減らすことに関するものだった。 しかし、アクティベーションからのメモリフットプリントは、エッジでのトレーニングの主要なボトルネックである。 既存のインクリメンタルなトレーニング手法は、モデル全体をトレーニングすることで、精度を犠牲にする最後の数層を微調整する。 本研究では,ディープラーニングモデルの学習におけるメモリフットプリントを調査し,観測結果を用いてBitTrainを提案する。 bittrainでは、アクティベーションスパーシティを活用し、トレーニング中のメモリフットプリントを削減する新しいビットマップ圧縮手法を提案する。 トレーニングの前方通過時に提案したビットマップ圧縮フォーマットのアクティベーションを保存し、オプティマイザ計算のために後方通過時にそれを復元する。 提案手法は,最新のディープラーニングフレームワークの計算グラフにシームレスに統合することができる。 我々の実装は構築によって安全であり、モデルトレーニングの精度に悪影響を及ぼさない。 実験の結果、50%の間隔でメモリフットプリントが最大で34%削減された。 トレーニング中のさらなるプルーニングにより、70%以上のスパシティが発生し、最大56%のメモリフットプリントが削減される。 bittrainは、エッジデバイスにマシンラーニング機能を追加する取り組みを進めている。 ソースコードはhttps://github.com/s cale-lab/bittrainで入手できます。

Training on the Edge enables neural networks to learn continuously from new data after deployment on memory-constrained edge devices. Previous work is mostly concerned with reducing the number of model parameters which is only beneficial for inference. However, memory footprint from activations is the main bottleneck for training on the edge. Existing incremental training methods fine-tune the last few layers sacrificing accuracy gains from re-training the whole model. In this work, we investigate the memory footprint of training deep learning models, and use our observations to propose BitTrain. In BitTrain, we exploit activation sparsity and propose a novel bitmap compression technique that reduces the memory footprint during training. We save the activations in our proposed bitmap compression format during the forward pass of the training, and restore them during the backward pass for the optimizer computations. The proposed method can be integrated seamlessly in the computation graph of modern deep learning frameworks. Our implementation is safe by construction, and has no negative impact on the accuracy of model training. Experimental results show up to 34% reduction in the memory footprint at a sparsity level of 50%. Further pruning during training results in more than 70% sparsity, which can lead to up to 56% reduction in memory footprint. BitTrain advances the efforts towards bringing more machine learning capabilities to edge devices. Our source code is available at https://github.com/s cale-lab/BitTrain.
翻訳日:2021-11-01 15:06:28 公開日:2021-10-29
# (参考訳) スタイル理論からテキストへの移行へ:階層的調査によるギャップのブリッジ化

From Theories on Styles to their Transfer in Text: Bridging the Gap with a Hierarchical Survey ( http://arxiv.org/abs/2110.15871v1 )

ライセンス: CC BY 4.0
Enrica Troiano and Aswathy Velutharambath and and Roman Klinger(参考訳) 人間は自然に特定のスタイルで書く能力を持っている。 例えば、フォーマルな文字を非公式に言い換えたり、言葉の文字を使ってリテラルなメッセージを伝達したり、有名な作家のスタイルを模倣した小説を編集したりすることができる。 クリエイティビティのこの形式の自動化は、スタイルトランスファーのゴールを構成する。 自然言語生成タスクとして、スタイル転送は既存のテキストを書き換えることを目的としており、具体的には、いくつかの望ましいスタイル特性を示すパラフレーズを生成する。 実践的な観点からは、コミュニケーションスタイルを共感的に見せるよう調整するチャットボットや、専門家でない聴衆のための技術的記事を自動的に単純化するシステムなど、有益な応用を想定している。 スタイル転送は、いくつかのスタイル対応のパラフレーズ法に捧げられている。 いくつかの調査がこの分野の方法論的な概要を示しているが、特定のスタイルにフォーカスする研究者をサポートしていない。 本稿では,転送タスクにおいて注目されているスタイルに関する包括的議論を行うことを目的としている。 私たちはそれらを階層構造に整理し、それぞれの定義における課題を強調するとともに、現在の研究現場におけるギャップを指摘します。 階層構造は2つの主要なグループからなる。 レジスタやジャンルの行に沿って、人々が任意に調整するスタイルを包含する。 他方のグループは、著者の個人的特徴から意図せず表現されたスタイルに対応している。 したがって、我々のレビューでは、グループがどのように互いに関連しているか、また、探索されていないものを含む特定のスタイルが階層に属するかを示します。 さらに, 異なる様式的家族に対して採用される手法を要約し, 今後の研究に最も適するものを研究者に示唆する。

Humans are naturally endowed with the ability to write in a particular style. They can, for instance, rephrase a formal letter in an informal way, convey a literal message with the use of figures of speech, edit a novel mimicking the style of some well-known authors. Automating this form of creativity constitutes the goal of style transfer. As a natural language generation task, style transfer aims at re-writing existing texts, and specifically, it creates paraphrases that exhibit some desired stylistic attributes. From a practical perspective, it envisions beneficial applications, like chat-bots that modulate their communicative style to appear empathetic, or systems that automatically simplify technical articles for a non-expert audience. Style transfer has been dedicated several style-aware paraphrasing methods. A handful of surveys give a methodological overview of the field, but they do not support researchers to focus on specific styles. With this paper, we aim at providing a comprehensive discussion of the styles that have received attention in the transfer task. We organize them into a hierarchy, highlighting the challenges for the definition of each of them, and pointing out gaps in the current research landscape. The hierarchy comprises two main groups. One encompasses styles that people modulate arbitrarily, along the lines of registers and genres. The other group corresponds to unintentionally expressed styles, due to an author's personal characteristics. Hence, our review shows how the groups relate to one another, and where specific styles, including some that have never been explored, belong in the hierarchy. Moreover, we summarize the methods employed for different stylistic families, hinting researchers towards those that would be the most fitting for future research.
翻訳日:2021-11-01 15:04:49 公開日:2021-10-29
# フルボリュームニューラルネットワークを用いた全脳セグメンテーション

Whole Brain Segmentation with Full Volume Neural Network ( http://arxiv.org/abs/2110.15601v1 )

ライセンス: Link先を確認
Yeshu Li, Jonathan Cui, Yilun Sheng, Xiao Liang, Jingdong Wang, Eric I-Chao Chang and Yan Xu(参考訳) 脳のセグメンテーション全体は、脳のボリューム全体を解剖学的にラベル付けされた興味ある領域に分割する重要な神経イメージングタスクである。 畳み込みニューラルネットワークはこのタスクで優れた性能を示した。 既存のソリューションでは、通常はボクセルを分類したり、スライスまたはサブボリュームを別々にラベル付けしたりして脳画像を分割する。 その表現学習はボリューム全体の部分に基づいており、ラベル付けの結果は部分的セグメンテーションの集約によって生成される。 不完全な情報による学習と推論は、最適でない最終セグメンテーション結果をもたらす可能性がある。 これらの問題に対処するため,全容積脳画像をセグメント化ネットワークに供給し,全容積のセグメント化結果を直接出力するフルボリュームフレームワークを提案する。 このフレームワークは各ボリュームの完全な情報を利用し、容易に実装できる。 このフレームワークの効果的な例がその後与えられる。 空間的にきめ細かな表現を学習するための3ドルの高分解能ネットワーク(HRNet)と、メモリ効率のトレーニングのための混合精度トレーニングスキームを採用する。 3ドル(約3万2000円)のmri脳データセットの詳細な実験結果から,提案モデルがセグメンテーション性能の観点から最先端の手法を進歩させることが示された。 ソースコードはhttps://github.com/m icrosoft/VoxHRNetで公開されている。

Whole brain segmentation is an important neuroimaging task that segments the whole brain volume into anatomically labeled regions-of-interest. Convolutional neural networks have demonstrated good performance in this task. Existing solutions, usually segment the brain image by classifying the voxels, or labeling the slices or the sub-volumes separately. Their representation learning is based on parts of the whole volume whereas their labeling result is produced by aggregation of partial segmentation. Learning and inference with incomplete information could lead to sub-optimal final segmentation result. To address these issues, we propose to adopt a full volume framework, which feeds the full volume brain image into the segmentation network and directly outputs the segmentation result for the whole brain volume. The framework makes use of complete information in each volume and can be implemented easily. An effective instance in this framework is given subsequently. We adopt the $3$D high-resolution network (HRNet) for learning spatially fine-grained representations and the mixed precision training scheme for memory-efficient training. Extensive experiment results on a publicly available $3$D MRI brain dataset show that our proposed model advances the state-of-the-art methods in terms of segmentation performance. Source code is publicly available at https://github.com/m icrosoft/VoxHRNet.
翻訳日:2021-11-01 15:01:48 公開日:2021-10-29
# モーダルテキスト検索のための視覚時空間関係強化ネットワーク

Visual Spatio-temporal Relation-enhanced Network for Cross-modal Text-Video Retrieval ( http://arxiv.org/abs/2110.15609v1 )

ライセンス: Link先を確認
Ning Han, Jingjing Chen, Guangyi Xiao, Yawen Zeng, Chuhao Shi, Hao Chen(参考訳) テキストとビデオ間のクロスモーダル検索の課題は、視覚と言語との対応を理解することである。 既存の研究は、テキストとビデオの埋め込みに基づいて、テキストとビデオの類似度を測定する傾向にある。 ビデオ表現は、グローバルな視覚特徴抽出のために2D/3D-CNNに映像フレームを供給したり、あるいはグラフ畳み込みネットワークを介して局所的なきめ細かいフレーム領域を用いて単純な意味関係を学習することで構成される。 しかし、これらのビデオ表現は、ビデオ表現の学習における視覚成分間の時空間的関係を完全に活用していないため、同一の視覚成分と異なる関係を持つ映像を区別することができない。 そこで,本稿では,コンポーネント間の時空間関係を用いた視覚的表現能力を向上させる新しいクロスモーダル検索フレームワークであるvsr-netを提案する。 具体的には、視覚時空間関係を多層時空間変換器を用いて符号化し、視覚関係の特徴を学習する。 テキスト・ビデオ・モダリティの微細な局所的関係とグローバルな特徴を組み合わせる。 MSR-VTTデータセットとMSVDデータセットの両方で大規模な実験が行われた。 その結果,提案モデルの有効性が示された。

The task of cross-modal retrieval between texts and videos aims to understand the correspondence between vision and language. Existing studies follow a trend of measuring text-video similarity on the basis of textual and video embeddings. In common practice, video representation is constructed by feeding video frames into 2D/3D-CNN for global visual feature extraction or only learning simple semantic relations by using local-level fine-grained frame regions via graph convolutional network. However, these video representations do not fully exploit spatio-temporal relation among visual components in learning video representations, resulting in their inability to distinguish videos with the same visual components but with different relations. To solve this problem, we propose a Visual Spatio-temporal Relation-enhanced Network (VSR-Net), a novel cross-modal retrieval framework that enhances visual representation with spatio-temporal relations among components. Specifically, visual spatio-temporal relations are encoded using a multi-layer spatio-temporal transformer to learn visual relational features. We combine fine-grained local relation and global features in bridging text-video modalities. Extensive experimental are conducted on both MSR-VTT and MSVD datasets. The results demonstrate the effectiveness of our proposed model.
翻訳日:2021-11-01 15:01:27 公開日:2021-10-29
# 有効画像復元装置 : 低光子数イメージングのためのデノイジングと輝度調整

An Effective Image Restorer: Denoising and Luminance Adjustment for Low-photon-count Imaging ( http://arxiv.org/abs/2110.15715v1 )

ライセンス: Link先を確認
Shansi Zhang and Edmund Y. Lam(参考訳) 光子硬化の状況下での撮像は、撮像された画像が信号対雑音比が低く、輝度が低いため、多くの応用に課題をもたらす。 本稿では,quantaイメージセンサ(qis)の撮像をシミュレーションし,低光子数条件下での生画像復元について検討する。 我々は,多層ピラミッド遮音ネットワーク (MPDNet) と輝度調整モジュール (LA) から構成される軽量なフレームワークを開発し,個別の遮音・照度向上を実現する。 本フレームワークの主なコンポーネントはマルチスキップアテンション残差ブロック(MARB)であり,マルチスケール機能融合とアテンション機構を統合して特徴表現を改善する。 我々のMPDNetは、ラプラシアンピラミッドの概念を採用して、様々なレベルの小型ノイズマップと大規模高周波の詳細を学習し、よりリッチな文脈情報をエンコードするマルチスケール入力画像に特徴抽出を行う。 我々のLAモジュールは、その照明を推定することで、偏光画像の輝度を向上し、色歪みを回避できる。 広汎な実験結果から,ノイズを抑え,輝度や色を効果的に回復することにより,劣化した画像に対して様々な光子レベルで優れた性能が得られることが示された。

Imaging under photon-scarce situations introduces challenges to many applications as the captured images are with low signal-to-noise ratio and poor luminance. In this paper, we investigate the raw image restoration under low-photon-count conditions by simulating the imaging of quanta image sensor (QIS). We develop a lightweight framework, which consists of a multi-level pyramid denoising network (MPDNet) and a luminance adjustment (LA) module to achieve separate denoising and luminance enhancement. The main component of our framework is the multi-skip attention residual block (MARB), which integrates multi-scale feature fusion and attention mechanism for better feature representation. Our MPDNet adopts the idea of Laplacian pyramid to learn the small-scale noise map and larger-scale high-frequency details at different levels, and feature extractions are conducted on the multi-scale input images to encode richer contextual information. Our LA module enhances the luminance of the denoised image by estimating its illumination, which can better avoid color distortion. Extensive experimental results have demonstrated that our image restorer can achieve superior performance on the degraded images with various photon levels by suppressing noise and recovering luminance and color effectively.
翻訳日:2021-11-01 15:01:07 公開日:2021-10-29
# CVAD:カスケードVAEを用いた総合的医療異常検出装置

CVAD: A generic medical anomaly detector based on Cascade VAE ( http://arxiv.org/abs/2110.15811v1 )

ライセンス: Link先を確認
Xiaoyuan Guo, Judy Wawira Gichoya, Saptarshi Purkayastha and Imon Banerjee(参考訳) 医用画像におけるアウト・オブ・ディストリビューション(OOD)サンプルの検出は下流の診断において重要な役割を担っている。 しかし、既存のOOD検出器はクラス間からなる自然画像で実証されており、医用画像への一般化が困難である。 鍵となる問題は、クラス内OODサンプルが多数を占める医療領域におけるOODデータの粒度である。 本稿では,医療画像におけるOOD検出の一般化性に着目し,自己監督型カスケード変量自動エンコーダ(CVAD)を提案する。 我々は,複数のスケールで潜在表現を結合した変分オートエンコーダのカスケードアーキテクチャを用いて,OODデータを分布内(ID)データと区別するために識別器に供給する。 最後に、2値判別器によって予測される再構成誤差とOOD確率の両方を用いて異常を判定する。 我々は、最先端のディープラーニングモデルと比較し、クラス内およびクラス間OODのための様々なオープンアクセス医療画像データセットにおいて、我々のモデルの有効性を示す。 一般的な自然データセットを含むデータセットに関するさらに詳細な結果は、モデルの有効性と一般化性を示しています。 コードはhttps://github.com/x iaoyuanguo/cvadで入手できる。

Detecting out-of-distribution (OOD) samples in medical imaging plays an important role for downstream medical diagnosis. However, existing OOD detectors are demonstrated on natural images composed of inter-classes and have difficulty generalizing to medical images. The key issue is the granularity of OOD data in the medical domain, where intra-class OOD samples are predominant. We focus on the generalizability of OOD detection for medical images and propose a self-supervised Cascade Variational autoencoder-based Anomaly Detector (CVAD). We use a variational autoencoders' cascade architecture, which combines latent representation at multiple scales, before being fed to a discriminator to distinguish the OOD data from the in-distribution (ID) data. Finally, both the reconstruction error and the OOD probability predicted by the binary discriminator are used to determine the anomalies. We compare the performance with the state-of-the-art deep learning models to demonstrate our model's efficacy on various open-access medical imaging datasets for both intra- and inter-class OOD. Further extensive results on datasets including common natural datasets show our model's effectiveness and generalizability. The code is available at https://github.com/X iaoyuanGuo/CVAD.
翻訳日:2021-11-01 15:00:46 公開日:2021-10-29
# C-MADA:医療画像セグメンテーションのための教師なしクロスモダリティ対応ドメイン適応フレームワーク

C-MADA: Unsupervised Cross-Modality Adversarial Domain Adaptation framework for medical Image Segmentation ( http://arxiv.org/abs/2110.15823v1 )

ライセンス: Link先を確認
Maria Baldeon-Calisto, Susana K. Lai-Yuen(参考訳) 深層学習モデルは、医用画像解析のための最先端の結果を得た。 しかし、これらのモデルが見当たらないドメインでテストされると、パフォーマンスが著しく低下する。 本稿では,医用画像分割のための教師なしクロスモーダル適応(C-MADA)フレームワークを提案する。 C-MADAは画像と特徴レベルの適応を逐次的に実装する。 まず、ソースドメインの画像は、サイクル一貫性の喪失を伴う未ペア画像対画像対逆変換により、ターゲットドメインに変換される。 そして、地図化されたソースドメインイメージとターゲットドメインイメージとを対角的にトレーニングし、ドメイン不変の特徴表現を学習する。 さらに, ネットワークセグメンテーション性能を向上させるために, 予測セグメンテーションの形状, テクスチャ, およびコンコースに関する情報を, 対向列車走行中に含む。 C-MADAは、脳MRIのセグメンテーションのタスクでテストされ、競争結果を得る。

Deep learning models have obtained state-of-the-art results for medical image analysis. However, when these models are tested on an unseen domain there is a significant performance degradation. In this work, we present an unsupervised Cross-Modality Adversarial Domain Adaptation (C-MADA) framework for medical image segmentation. C-MADA implements an image- and feature-level adaptation method in a sequential manner. First, images from the source domain are translated to the target domain through an un-paired image-to-image adversarial translation with cycle-consistency loss. Then, a U-Net network is trained with the mapped source domain images and target domain images in an adversarial manner to learn domain-invariant feature representations. Furthermore, to improve the networks segmentation performance, information about the shape, texture, and con-tour of the predicted segmentation is included during the adversarial train-ing. C-MADA is tested on the task of brain MRI segmentation, obtaining competitive results.
翻訳日:2021-11-01 15:00:27 公開日:2021-10-29
# (参考訳) スタックオーバーフローにおける予測質問の可能性について [全文訳有]

On the Feasibility of Predicting Questions being Forgotten in Stack Overflow ( http://arxiv.org/abs/2110.15789v1 )

ライセンス: CC BY 4.0
Thi Huyen Nguyen, Tu Nguyen, Tuan-Anh Hoang, Claudia Nieder\'ee(参考訳) 関連トピックの魅力、包括性、ダイナミックなカバレッジのために、stack overflowのようなコミュニティベースの質問応答サイトはコミュニティの関与に大きく依存している。 同時に、時間とともに他の質問は重要でなくなり、最終的にユーザにとって無関係になる。 低品質の質問をフィルタリングするだけでなく、冗長になった"フォーティング"質問は、stack overflowのコンテンツを簡潔かつ便利に保つための重要なステップです。 本研究では,Stack Overflowにおけるこの管理された忘れタスクについて検討する。 私たちの仕事は10年以上(2008年~2019年)のデータに基づいており、サイト自体が公開している1810万の質問をカバーしています。 より深い理解を確立するために、我々はまず忘れられるべき質問の集合、すなわち、現在においてかなりの数のビューを得るが、近い将来は魅力のない質問の分析と特徴付けを行う。 その後,様々なカテゴリで忘れられた質問を予測できる幅広い特徴の能力について検討する。 これらの質問がより予測可能なカテゴリがいくつかあります。 また、テキストベースの機能は、この予測タスクでは驚くほど役に立ちませんが、メタ情報はずっと予測的です。

For their attractiveness, comprehensiveness and dynamic coverage of relevant topics, community-based question answering sites such as Stack Overflow heavily rely on the engagement of their communities: Questions on new technologies, technology features as well as technology versions come up and have to be answered as technology evolves (and as community members gather experience with it). At the same time, other questions cease in importance over time, finally becoming irrelevant to users. Beyond filtering low-quality questions, "forgetting" questions, which have become redundant, is an important step for keeping the Stack Overflow content concise and useful. In this work, we study this managed forgetting task for Stack Overflow. Our work is based on data from more than a decade (2008 - 2019) - covering 18.1M questions, that are made publicly available by the site itself. For establishing a deeper understanding, we first analyze and characterize the set of questions about to be forgotten, i.e., questions that get a considerable number of views in the current period but become unattractive in the near future. Subsequently, we examine the capability of a wide range of features in predicting such forgotten questions in different categories. We find some categories in which those questions are more predictable. We also discover that the text-based features are surprisingly not helpful in this prediction task, while the meta information is much more predictive.
翻訳日:2021-11-01 14:58:28 公開日:2021-10-29
# グラフデータの非畳み込みネットワーク

Deconvolutional Networks on Graph Data ( http://arxiv.org/abs/2110.15528v1 )

ライセンス: Link先を確認
Jia Li, Jiajin Li, Yang Liu, Jianwei Yu, Yueting Li, Hong Cheng(参考訳) 本稿では,グラフ学習領域における逆問題を考える。「グラフ畳み込みネットワーク(gcn)により平滑化されたグラフ表現に対して,どのように入力グラフ信号を再構成できるか? 本稿では,gdn(graph deconvolutional network)を提案し,スペクトル領域の逆フィルタとウェーブレット領域の非ノイズ層の組み合わせによりgdnの設計を動機付ける。 本稿では,グラフ特徴量計算やグラフ構造生成などのタスクにおける提案手法の有効性を示す。

In this paper, we consider an inverse problem in graph learning domain -- ``given the graph representations smoothed by Graph Convolutional Network (GCN), how can we reconstruct the input graph signal?" We propose Graph Deconvolutional Network (GDN) and motivate the design of GDN via a combination of inverse filters in spectral domain and de-noising layers in wavelet domain, as the inverse operation results in a high frequency amplifier and may amplify the noise. We demonstrate the effectiveness of the proposed method on several tasks including graph feature imputation and graph structure generation.
翻訳日:2021-11-01 14:44:56 公開日:2021-10-29
# 連合学習による公平性の向上

Improving Fairness via Federated Learning ( http://arxiv.org/abs/2110.15545v1 )

ライセンス: Link先を確認
Yuchen Zeng, Hongxu Chen, Kangwook Lee(参考訳) 近年,集中型データから公平な分類法を学ぶためのアルゴリズムが多数提案されている。 しかしながら、分散データに対する公平な分類器の個人的訓練は、まだ完全には研究されていない。 本研究では,まず,公平性向上における連合学習の価値を分析するための新しい理論的枠組みを提案する。 フェデレーション学習は,すべての非フェデレーションアルゴリズムと比較して,モデルフェアネスを厳格に高めることができる。 次に,FedAvgに基づくフェアラーニングアルゴリズムの性能トレードオフが,集中型データに基づいて訓練されたフェアクラシファイアよりも厳密に悪いことを示す。 これを解決するために,修正されたFedAvgプロトコルを用いて分散データに対するプライベートフェアラーニングアルゴリズムであるFedFBを提案する。 大規模な実験結果から、FedFBは既存のアプローチを著しく上回り、時には集中型データでトレーニングされたものと同様のトレードオフを達成していることが示された。

Recently, lots of algorithms have been proposed for learning a fair classifier from centralized data. However, how to privately train a fair classifier on decentralized data has not been fully studied yet. In this work, we first propose a new theoretical framework, with which we analyze the value of federated learning in improving fairness. Our analysis reveals that federated learning can strictly boost model fairness compared with all non-federated algorithms. We then theoretically and empirically show that the performance tradeoff of FedAvg-based fair learning algorithms is strictly worse than that of a fair classifier trained on centralized data. To resolve this, we propose FedFB, a private fair learning algorithm on decentralized data with a modified FedAvg protocol. Our extensive experimental results show that FedFB significantly outperforms existing approaches, sometimes achieving a similar tradeoff as the one trained on centralized data.
翻訳日:2021-11-01 14:44:46 公開日:2021-10-29
# Momentumは役に立つか? サンプル複雑度解析

Does Momentum Help? A Sample Complexity Analysis ( http://arxiv.org/abs/2110.15547v1 )

ライセンス: Link先を確認
Gugan Thoppe, Rohan Deb, Swetha Ganesh, Amarjit Budhiraja(参考訳) モメンタム法は確率的反復法の加速に広く用いられている。 かなりの量の文献が確率的最適化の運動量に費やされているが、確率的近似アルゴリズムの特定の場合において、重い球の運動量を使うことの利点を定量化する限定的な結果がある。 まず, 最適ステップサイズの収束率は, 運動量を用いた場合(いくつかの仮定により)は改善しないことを示した。 第二に,初期段階での挙動を定量化するために,運動量と無運動量で反復のサンプル複雑性を分析した。 運動量のないSAのサンプル複雑性は$\tilde{\mathcal{O}}(\frac{1}{\alpha\lambda_{min}(A)})$であるのに対し、運動量を持つSAのサンプル複雑性は$\tilde{\mathcal{O}}(\frac{1}{\sqrt{\alpha\lambda_{min}(A)}})$であり、$\alpha$はステップサイズであり、$\lambda_{min}(A)$は運転行列の最小固有値である。 SA が運動量を持つ場合のサンプル複雑性は小さければ$\alpha$ の方がよいが、2つの場合において$\alpha$ の最適選択の場合、サンプル複雑性境界は同じ順序であることがわかった。

Momentum methods are popularly used in accelerating stochastic iterative methods. Although a fair amount of literature is dedicated to momentum in stochastic optimisation, there are limited results that quantify the benefits of using heavy ball momentum in the specific case of stochastic approximation algorithms. We first show that the convergence rate with optimal step size does not improve when momentum is used (under some assumptions). Secondly, to quantify the behaviour in the initial phase we analyse the sample complexity of iterates with and without momentum. We show that the sample complexity bound for SA without momentum is $\tilde{\mathcal{O}}(\frac{1}{\alpha\lambda_{min}(A)})$ while for SA with momentum is $\tilde{\mathcal{O}}(\frac{1}{\sqrt{\alpha\lambda_{min}(A)}})$, where $\alpha$ is the step size and $\lambda_{min}(A)$ is the smallest eigenvalue of the driving matrix $A$. Although the sample complexity bound for SA with momentum is better for small enough $\alpha$, it turns out that for optimal choice of $\alpha$ in the two cases, the sample complexity bounds are of the same order.
翻訳日:2021-11-01 14:44:31 公開日:2021-10-29
# 政策最適化における確率性の影響の理解

Understanding the Effect of Stochasticity in Policy Optimization ( http://arxiv.org/abs/2110.15572v1 )

ライセンス: Link先を確認
Jincheng Mei, Bo Dai, Chenjun Xiao, Csaba Szepesvari, Dale Schuurmans(参考訳) オン・ポリシー政策の最適化における確率性の影響を考察し,以下の4つの貢献を行った。 まず、最適化手法の好適性は、確率的あるいは正確な勾配が用いられるかどうかに大きく依存することを示す。 特に、真の勾配設定とは異なり、幾何学的情報は、有害な結果や非現実的な仮定なしに政策最適化を加速する確率的ケースでは容易に活用できない。 第二に、確率的政策最適化におけるコミット率の概念を導入し、これは、大域的最適性へのほぼ確実な収束を決定する基準となることを示す。 第三に、外部オラクルの情報がない場合、アルゴリズムがオンポリシーサンプルのみに与えられた最適動作とサブ最適動作の違いを判断できるため、幾何を利用して収束を加速することと、ほぼ確実に最適性を達成することとの間には、固有のトレードオフがあることを示す。 すなわち、非形式的アルゴリズムは、確率$1/tのグローバル最適ポリシーに収束するが、$O(1/t)$以上の速度で収束するか、または$O(1/t)$収束よりも速く到達するが、何らかの正の確率でグローバル最適ポリシーに収束しない。 最後に、コミット率理論を用いて、実用的なポリシー最適化手法がランダム初期化に敏感である理由を説明し、高い確率で至近最適解を実現できるアンサンブル法を考案する。

We study the effect of stochasticity in on-policy policy optimization, and make the following four contributions. First, we show that the preferability of optimization methods depends critically on whether stochastic versus exact gradients are used. In particular, unlike the true gradient setting, geometric information cannot be easily exploited in the stochastic case for accelerating policy optimization without detrimental consequences or impractical assumptions. Second, to explain these findings we introduce the concept of committal rate for stochastic policy optimization, and show that this can serve as a criterion for determining almost sure convergence to global optimality. Third, we show that in the absence of external oracle information, which allows an algorithm to determine the difference between optimal and sub-optimal actions given only on-policy samples, there is an inherent trade-off between exploiting geometry to accelerate convergence versus achieving optimality almost surely. That is, an uninformed algorithm either converges to a globally optimal policy with probability $1$ but at a rate no better than $O(1/t)$, or it achieves faster than $O(1/t)$ convergence but then must fail to converge to the globally optimal policy with some positive probability. Finally, we use the committal rate theory to explain why practical policy optimization methods are sensitive to random initialization, then develop an ensemble method that can be guaranteed to achieve near-optimal solutions with high probability.
翻訳日:2021-11-01 14:44:01 公開日:2021-10-29
# 無限幅極限におけるディープニューラルネットワークの学習可積分パラメータ化

Training Integrable Parameterizations of Deep Neural Networks in the Infinite-Width Limit ( http://arxiv.org/abs/2110.15596v1 )

ライセンス: Link先を確認
Karl Hajjar (LMO, CELESTE), L\'ena\"ic Chizat (LMO), Christophe Giraud (LMO)(参考訳) 訓練された深層ニューラルネットワークの挙動を理論的に理解するには、ランダムな初期化から勾配法によって誘導されるダイナミクスを研究する必要がある。 しかし、これらのモデルの非線形構造と構成構造は、これらの力学を解析しにくくする。 これらの課題を克服するために、近年、大きな幅の漸近が実りある視点として現れ、現実世界のディープネットワークに関する実践的な洞察をもたらした。 2層ニューラルネットワークの場合、トレーニングされたモデルの性質は、初期ランダムウェイトのスケールによって劇的に変化し、カーネルレジーム(大きな初期分散)から特徴学習レジーム(小さな初期分散)まで変化することが、これらの漸近論を通じて理解されている。 より深いネットワークでは、より多くのレジームが可能であり、本論文では、統合可能なパラメータ化(ips)と呼ばれるニューラルネットワークの'平均場'制限に対応する「小さな」初期化の特定の選択について詳細に研究する。 まず、ゼロ平均初期化の標準の下で、4層以上のニューラルネットワークの可積分パラメータ化は無限幅制限の定常点から始まり、学習は起こらないことを示す。 次に,この自明な挙動を回避し,得られたダイナミクスを詳細に解析する手法を提案する。 特に、これらの手法の1つは、大きな初期学習率を用いて構成されており、最近提案された最大更新パラメータ化$\mu$Pと等価であることを示す。 本研究は画像分類タスクに関する数値実験で確認し, 理論上はまだ捉えられていない活性化関数の様々な選択の挙動に強い差異を示す。

To theoretically understand the behavior of trained deep neural networks, it is necessary to study the dynamics induced by gradient methods from a random initialization. However, the nonlinear and compositional structure of these models make these dynamics difficult to analyze. To overcome these challenges, large-width asymptotics have recently emerged as a fruitful viewpoint and led to practical insights on real-world deep networks. For two-layer neural networks, it has been understood via these asymptotics that the nature of the trained model radically changes depending on the scale of the initial random weights, ranging from a kernel regime (for large initial variance) to a feature learning regime (for small initial variance). For deeper networks more regimes are possible, and in this paper we study in detail a specific choice of "small" initialization corresponding to ''mean-field'' limits of neural networks, which we call integrable parameterizations (IPs). First, we show that under standard i.i.d. zero-mean initialization, integrable parameterizations of neural networks with more than four layers start at a stationary point in the infinite-width limit and no learning occurs. We then propose various methods to avoid this trivial behavior and analyze in detail the resulting dynamics. In particular, one of these methods consists in using large initial learning rates, and we show that it is equivalent to a modification of the recently proposed maximal update parameterization $\mu$P. We confirm our results with numerical experiments on image classification tasks, which additionally show a strong difference in behavior between various choices of activation functions that is not yet captured by theory.
翻訳日:2021-11-01 14:43:34 公開日:2021-10-29
# 教師なし多変量テスト時間拡張を用いたブースティング異常検出

Boosting Anomaly Detection Using Unsupervised Diverse Test-Time Augmentation ( http://arxiv.org/abs/2110.15700v1 )

ライセンス: Link先を確認
Seffi Cohen, Niv Goldshlager, Lior Rokach, Bracha Shapira(参考訳) 異常検出は比較的稀に発生する異常事象の同定を含むよく知られたタスクである。 異常検出性能を向上させる方法が広く研究されている。 しかし, 表データの異常検出にTTA(Test-time Augmentation)を用いた研究は行われていない。 TTAは、与えられたテストサンプルのいくつかの合成バージョンの予測を集約することを含み、TTAは特定のテストインスタンスに対する異なる視点を生成し、予測バイアスを減少させる可能性がある。 異常検出性能の向上を目的としたTTA法であるTTAD(Test-Time Augmentation for Anomaly Detection)手法を提案する。 ttadは最寄りの近傍に基づいてテストインスタンスを増強し、k-means centroid や smote メソッドを含む様々なメソッドが拡張を生成するために使用される。 本手法は,シアムネットワークを用いて,テストインスタンスの近傍を検索する際に,高度距離メトリックを学習する。 実験の結果,tta技術を用いた異常検出装置は,評価された全データセットにおいて有意に高いauc結果を得た。

Anomaly detection is a well-known task that involves the identification of abnormal events that occur relatively infrequently. Methods for improving anomaly detection performance have been widely studied. However, no studies utilizing test-time augmentation (TTA) for anomaly detection in tabular data have been performed. TTA involves aggregating the predictions of several synthetic versions of a given test sample; TTA produces different points of view for a specific test instance and might decrease its prediction bias. We propose the Test-Time Augmentation for anomaly Detection (TTAD) technique, a TTA-based method aimed at improving anomaly detection performance. TTAD augments a test instance based on its nearest neighbors; various methods, including the k-Means centroid and SMOTE methods, are used to produce the augmentations. Our technique utilizes a Siamese network to learn an advanced distance metric when retrieving a test instance's neighbors. Our experiments show that the anomaly detector that uses our TTA technique achieved significantly higher AUC results on all datasets evaluated.
翻訳日:2021-11-01 14:43:07 公開日:2021-10-29
# 教師なしネットワーク埋め込みのためのバーローグラフオートエンコーダ

Barlow Graph Auto-Encoder for Unsupervised Network Embedding ( http://arxiv.org/abs/2110.15742v1 )

ライセンス: Link先を確認
Rayyan Ahmad Khan, Martin Kleinsteuber(参考訳) ネットワーク組み込みは、ネットワーク分析の有望な研究分野として浮上している。 近年、画像サンプルの歪んだ2つのバージョンに対応する埋め込みベクトルに冗長還元原理を適用することで、コンピュータビジョンにおける自己教師付き学習のためのアプローチとしてバーロウ・ツインズ(barlow twins)が提案されている。 そこで我々は,ネットワーク埋め込みを学習するシンプルなアーキテクチャであるBarlow Graph Auto-Encoderを提案する。 これは、これらの射影の成分間の冗長性を最小化しながら、ノードの即時および大近傍の埋め込みベクトル間の類似性を最大化することを目的としている。 さらに,barlow variational graph auto-encoder という変分法についても述べる。 このアプローチは帰納的リンク予測に有望な結果をもたらし、また3つのベンチマーク引用データセットでよく知られた技術と広範囲に比較して示されるように、クラスタリングとダウンストリームノード分類の最先端技術と同等である。

Network embedding has emerged as a promising research field for network analysis. Recently, an approach, named Barlow Twins, has been proposed for self-supervised learning in computer vision by applying the redundancy-reduction principle to the embedding vectors corresponding to two distorted versions of the image samples. Motivated by this, we propose Barlow Graph Auto-Encoder, a simple yet effective architecture for learning network embedding. It aims to maximize the similarity between the embedding vectors of immediate and larger neighborhoods of a node, while minimizing the redundancy between the components of these projections. In addition, we also present the variation counterpart named as Barlow Variational Graph Auto-Encoder. Our approach yields promising results for inductive link prediction and is also on par with state of the art for clustering and downstream node classification, as demonstrated by extensive comparisons with several well-known techniques on three benchmark citation datasets.
翻訳日:2021-11-01 14:42:50 公開日:2021-10-29
# GBK-GNN:ホモフィリーとヘテロフィリーの両方をモデル化するための二カーネルグラフニューラルネットワーク

GBK-GNN: Gated Bi-Kernel Graph Neural Networks for Modeling Both Homophily and Heterophily ( http://arxiv.org/abs/2110.15777v1 )

ライセンス: Link先を確認
Lun Du, Xiaozhou Shi, Qiang Fu, Hengyu Liu, Shi Han and Dongmei Zhang(参考訳) グラフニューラルネットワーク(gnns)は、さまざまなグラフベースの機械学習タスクで広く使われている。 ノードレベルのタスクでは、GNNはグラフのホモフィリーな性質(すなわち連結ノードの方が近い)をモデル化する強力な力を持つが、ヘテロフィリーな性質を捉える能力は疑わしい。 これは、同じホップのノードとそれに続くアグリゲーション演算子に対する同じカーネルによる機能変換の設計によって部分的に引き起こされる。 注意によって計算される重みは常に正の値であるため、グラフ注意ネットワーク(GAT)のような注意機構を用いても、ノード特徴間の類似性と相似性(正と負の相関)を同時にモデル化することはできない。 本稿では,両カーネルの特徴変換と選択ゲートに基づく新しいGNNモデルを提案する。 2つのカーネルは、それぞれホモフィリとヘテロフィリ情報をキャプチャし、ゲートは、与えられたノード対で使用するカーネルを選択するために導入されます。 我々は,ホモフィリヘテロフィックな性質の異なる様々なデータセットについて広範な実験を行う。 実験結果から, 最先端GNN法に対する一貫した, 顕著な改善が得られた。

Graph Neural Networks (GNNs) are widely used on a variety of graph-based machine learning tasks. For node-level tasks, GNNs have strong power to model the homophily property of graphs (i.e., connected nodes are more similar) while their ability to capture heterophily property is often doubtful. This is partially caused by the design of the feature transformation with the same kernel for the nodes in the same hop and the followed aggregation operator. One kernel cannot model the similarity and the dissimilarity (i.e., the positive and negative correlation) between node features simultaneously even though we use attention mechanisms like Graph Attention Network (GAT), since the weight calculated by attention is always a positive value. In this paper, we propose a novel GNN model based on a bi-kernel feature transformation and a selection gate. Two kernels capture homophily and heterophily information respectively, and the gate is introduced to select which kernel we should use for the given node pairs. We conduct extensive experiments on various datasets with different homophily-heterophil y properties. The experimental results show consistent and significant improvements against state-of-the-art GNN methods.
翻訳日:2021-11-01 14:42:34 公開日:2021-10-29
# 線形力学系におけるスペクトル独立による因果効果推論:理論的基礎

Cause-effect inference through spectral independence in linear dynamical systems: theoretical foundations ( http://arxiv.org/abs/2110.15595v1 )

ライセンス: Link先を確認
Michel Besserve, Naji Shajarisales, Dominik Janzing and Bernhard Sch\"olkopf(参考訳) 時系列観測データによる原因と効果の区別は多くの科学分野において大きな課題である。 因果メカニズムの独立(ICM)の原理に基づいて新たな視点が提供され、スペクトル独立基準(SIC)が導かれ、原因時系列のパワースペクトル密度(PSD)は効果を生じるフィルタの周波数応答の2乗率とは無関係であると仮定された。 SICは時系列のほとんどの因果発見法とは対照的な方法や仮定に頼っているため、理論的な根拠がその使用を正当化するかどうかという疑問が提起される。 本稿では,いくつかの重要な側面について回答する。 SICの情報理論的解釈を提供した後、本手法がうまく機能することを期待する文脈に光を当てる識別可能性結果を提示した。 さらに,grangerに基づく推論を損なう障害であるダウンサンプリングに対するsicのロバスト性についても実証する。 最後に、不変性の観点からは、スペクトル独立性仮定の限界とそれを一般化する方法を探求することができる。 全体として、これらの結果はスペクトル独立の仮定を支持するものであり、経験的時系列に基づく因果推論の根本原理である。

Distinguishing between cause and effect using time series observational data is a major challenge in many scientific fields. A new perspective has been provided based on the principle of Independence of Causal Mechanisms (ICM), leading to the Spectral Independence Criterion (SIC), postulating that the power spectral density (PSD) of the cause time series is uncorrelated with the squared modulus of the frequency response of the filter generating the effect. Since SIC rests on methods and assumptions in stark contrast with most causal discovery methods for time series, it raises questions regarding what theoretical grounds justify its use. In this paper, we provide answers covering several key aspects. After providing an information theoretic interpretation of SIC, we present an identifiability result that sheds light on the context for which this approach is expected to perform well. We further demonstrate the robustness of SIC to downsampling - an obstacle that can spoil Granger-based inference. Finally, an invariance perspective allows to explore the limitations of the spectral independence assumption and how to generalize it. Overall, these results support the postulate of Spectral Independence is a well grounded leading principle for causal inference based on empirical time series.
翻訳日:2021-11-01 14:41:39 公開日:2021-10-29
# 音声認識のための共同訓練におけるFusing ASR出力

Fusing ASR Outputs in Joint Training for Speech Emotion Recognition ( http://arxiv.org/abs/2110.15684v1 )

ライセンス: Link先を確認
Yuanchao Li, Peter Bell, Catherine Lai(参考訳) 音声情報とともに,音声の転写に基づく言語的特徴が音声感情認識(SER)において有用であることが証明されている。 しかし,感情ラベル付きデータの不足や感情音声の認識の難しさから,この研究領域における言語的特徴やモデルを取得することは困難である。 本稿では,共同学習のためのパイプラインに自動音声認識(ASR)出力を融合させることを提案する。 ASRとSERの関係は検討されており、ASRの機能がどのようにSERに利益をもたらすかは定かではない。 各種のASR出力と融合法について検討した結果,ASR-SER共同訓練において,階層的コアテンション融合手法を用いてASRとテキストの両出力を併用することにより,SERの性能が向上することがわかった。 提案手法は,IEMOCAPコーパスにおいて63.4%の重み付き精度を達成し,その基礎となる結果に近い。 また,IEMOCAPにおける単語誤り率解析や,ASRとSERの関係をよりよく理解するために,Wav2vec 2.0モデルの層差解析も提案する。

Alongside acoustic information, linguistic features based on speech transcripts have been proven useful in Speech Emotion Recognition (SER). However, due to the scarcity of emotion labelled data and the difficulty of recognizing emotional speech, it is hard to obtain reliable linguistic features and models in this research area. In this paper, we propose to fuse Automatic Speech Recognition (ASR) outputs into the pipeline for joint training SER. The relationship between ASR and SER is understudied, and it is unclear what and how ASR features benefit SER. By examining various ASR outputs and fusion methods, our experiments show that in joint ASR-SER training, incorporating both ASR hidden and text output using a hierarchical co-attention fusion approach improves the SER performance the most. On the IEMOCAP corpus, our approach achieves 63.4% weighted accuracy, which is close to the baseline results achieved by combining ground-truth transcripts. In addition, we also present novel word error rate analysis on IEMOCAP and layer-difference analysis of the Wav2vec 2.0 model to better understand the relationship between ASR and SER.
翻訳日:2021-11-01 14:41:08 公開日:2021-10-29
# 図形的ARによるディープフェイクの抽出とフェイン信号からのPPG相関

Exposing Deepfake with Pixel-wise AR and PPG Correlation from Faint Signals ( http://arxiv.org/abs/2110.15561v1 )

ライセンス: Link先を確認
Maoyu Mao and Jun Yang(参考訳) ディープフェイクは、司法証拠と知的財産保護の信頼性に深刻な脅威をもたらす。 ディープフェイク識別の緊急な必要性にもかかわらず、既存のピクセルレベルの検出方法は、偽ビデオの現実性の増加に抵抗できず、一般化が欠如している。 本稿では,顔ビデオに隠された暗信号を通してディープフェイクを露呈する手法を提案する。 本手法は, 時間領域と空間領域の鑑識の基礎となる顔の画素(ppg)特徴と自己回帰(ar)特徴との間に隠された2種類の微小情報を抽出する。 PPGの原理によれば、血液細胞による光の吸収を追跡することで、顔ビデオの時間領域心拍数(HR)をリモートで推定することができ、不規則なHR変動は改ざんの痕跡と見なすことができる。 一方、AR係数は画素間相関を反映することができ、偽の顔を生成する過程でのアップサンプリングによる平滑化の痕跡を反映することができる。 さらに、非対称畳み込みブロック(acblock)ベースの高密結合ネットワーク(densenets)を組み合わせることで、顔映像の真正性検査を行う。 その非対称畳み込み構造は、入力特徴画像の上下反転や左右反転に対するネットワークのロバスト性を高め、特徴ステッチのシーケンスが検出結果に影響を与えない。 シミュレーションの結果,提案手法は,複数の深層フォージェリーデータセットに対して精度の高い真正性検出結果を提供し,ベンチマーク手法と比較して高い一般化性を示した。

Deepfake poses a serious threat to the reliability of judicial evidence and intellectual property protection. In spite of an urgent need for Deepfake identification, existing pixel-level detection methods are increasingly unable to resist the growing realism of fake videos and lack generalization. In this paper, we propose a scheme to expose Deepfake through faint signals hidden in face videos. This scheme extracts two types of minute information hidden between face pixels-photoplethysm ography (PPG) features and auto-regressive (AR) features, which are used as the basis for forensics in the temporal and spatial domains, respectively. According to the principle of PPG, tracking the absorption of light by blood cells allows remote estimation of the temporal domains heart rate (HR) of face video, and irregular HR fluctuations can be seen as traces of tampering. On the other hand, AR coefficients are able to reflect the inter-pixel correlation, and can also reflect the traces of smoothing caused by up-sampling in the process of generating fake faces. Furthermore, the scheme combines asymmetric convolution block (ACBlock)-based improved densely connected networks (DenseNets) to achieve face video authenticity forensics. Its asymmetric convolutional structure enhances the robustness of network to the input feature image upside-down and left-right flipping, so that the sequence of feature stitching does not affect detection results. Simulation results show that our proposed scheme provides more accurate authenticity detection results on multiple deep forgery datasets and has better generalization compared to the benchmark strategy.
翻訳日:2021-11-01 14:40:47 公開日:2021-10-29
# ベイズ的視点から見た非教師的PET再構成

Unsupervised PET Reconstruction from a Bayesian Perspective ( http://arxiv.org/abs/2110.15568v1 )

ライセンス: Link先を確認
Chenyu Shen, Wenjun Xia, Hongwei Ye, Mingzheng Hou, Hu Chen, Yan Liu, Jiliu Zhou and Yi Zhang(参考訳) ポジトロン・エミッション・トモグラフィー (PET) の再構成は低カウント投影データによる逆問題となり, 画像品質向上のためには頑健なアルゴリズムが緊急に必要である。 近年,dip (deep image prior) の注目が集まっており,ラベル(参照画像)は不要であるため,ノイズ除去やインペインティングなど,複数の画像復元作業にうまく適用されている。 しかし、過剰適合はこのフレームワークの重要な欠陥である。 したがって、この問題を緩和するために多くの方法が提案されており、DeepREDはDIPと正規化を組み合わせた典型的な表現である(RED)。 本稿では,ベイズ的な視点からDeepREDを活用して,教師付き情報や補助情報のない単一劣化したシングラムからPET画像の再構成を行う。 赤で慣用的に使用される従来のデノワザとは対照的に、ディップに適応的な制約を追加し、導出の計算を容易にするdncnnライクなデノワザーが用いられる。 さらに、正規化をさらに強化するため、ガウスノイズが勾配更新に注入され、マルコフ連鎖モンテカルロ(MCMC)サンプリング器が導出される。 脳と体全体のデータセットに関する実験研究により,提案手法は古典的および最先端の手法と比較して質的,定量的な結果で優れた性能が得られることが示された。

Positron emission tomography (PET) reconstruction has become an ill-posed inverse problem due to low-count projection data, and a robust algorithm is urgently required to improve imaging quality. Recently, the deep image prior (DIP) has drawn much attention and has been successfully applied in several image restoration tasks, such as denoising and inpainting, since it does not need any labels (reference image). However, overfitting is a vital defect of this framework. Hence, many methods have been proposed to mitigate this problem, and DeepRED is a typical representation that combines DIP and regularization by denoising (RED). In this article, we leverage DeepRED from a Bayesian perspective to reconstruct PET images from a single corrupted sinogram without any supervised or auxiliary information. In contrast to the conventional denoisers customarily used in RED, a DnCNN-like denoiser, which can add an adaptive constraint to DIP and facilitate the computation of derivation, is employed. Moreover, to further enhance the regularization, Gaussian noise is injected into the gradient updates, deriving a Markov chain Monte Carlo (MCMC) sampler. Experimental studies on brain and whole-body datasets demonstrate that our proposed method can achieve better performance in terms of qualitative and quantitative results compared to several classic and state-of-the-art methods.
翻訳日:2021-11-01 14:40:19 公開日:2021-10-29
# (参考訳) 性行為検出のためのトランスフォーマーアンサンブル [全文訳有]

Transformer Ensembles for Sexism Detection ( http://arxiv.org/abs/2110.15905v1 )

ライセンス: CC0 1.0
Lily Davies, Marta Baldracchi, Carlo Alessandro Borella, and Konstantinos Perifanos(参考訳) この文書はEXIST2021ワークショップで性差別検出タスクのために行われた作業の詳細を提示する。 提案手法は,reals2021ワークショップから提供されたデータセットに基づいて,異なる背景とコーパスで学習し,微調整したトランスフォーマーモデルに基づく。 我々は,2進分類タスク(task1),f1スコア0.766,およびマルチクラスタスク(task2)精度0.623,f1スコア0.535について0.767の精度を報告する。

This document presents in detail the work done for the sexism detection task at EXIST2021 workshop. Our methodology is built on ensembles of Transformer-based models which are trained on different background and corpora and fine-tuned on the provided dataset from the EXIST2021 workshop. We report accuracy of 0.767 for the binary classification task (task1), and f1 score 0.766, and for the multi-class task (task2) accuracy 0.623 and f1-score 0.535.
翻訳日:2021-11-01 14:39:29 公開日:2021-10-29
# 隣接分布の発散を考慮した教師なし完全構成解析

Unsupervised Full Constituency Parsing with Neighboring Distribution Divergence ( http://arxiv.org/abs/2110.15931v1 )

ライセンス: Link先を確認
Letian Peng, Zuchao Li, Hai Zhao(参考訳) 教師なしの選挙区解析は研究されているが、解決には程遠い。 従来の教師なし構成パーサは、文のラベルなし構造のみをキャプチャできる。 教師なし完全構成解析に向けて,最近導入された,文間の意味的類似性を評価する隣接分布発散(ndd)の特性を活用し,教師なし・訓練フリーのラベリング手法を提案する。 実装のために,NDDをDP-NDD(Dual POS-NDD)に実装し,文中の成分やラベルを検出する「モールド」を構築する。 DP-NDDは, 構成成分を正確にラベル付けするだけでなく, より単純なルールを持つ従来手法よりも, より正確なラベル付き選挙区木を誘導することを示す。 ラベル付き選挙区木推論のための2つのフレームワークを用いて、ラベルなしF1の最先端とラベル付きF1の強力なベースラインを設定した。 従来の予測・評価シナリオとは対照的に,本手法は予測のための評価指標を逆適用する有効な例である。

Unsupervised constituency parsing has been explored much but is still far from being solved. Conventional unsupervised constituency parser is only able to capture the unlabeled structure of sentences. Towards unsupervised full constituency parsing, we propose an unsupervised and training-free labeling procedure by exploiting the property of a recently introduced metric, Neighboring Distribution Divergence (NDD), which evaluates semantic similarity between sentences before and after editions. For implementation, we develop NDD into Dual POS-NDD (DP-NDD) and build "molds" to detect constituents and their labels in sentences. We show that DP-NDD not only labels constituents precisely but also inducts more accurate unlabeled constituency trees than all previous unsupervised methods with simpler rules. With two frameworks for labeled constituency trees inference, we set both the new state-of-the-art for unlabeled F1 and strong baselines for labeled F1. In contrast with the conventional predicting-and-evalu ating scenario, our method acts as an plausible example to inversely apply evaluating metrics for prediction.
翻訳日:2021-11-01 14:34:51 公開日:2021-10-29
# UDIS:ディープビジュアル認識モデルにおけるバイアス発見の教師なし

UDIS: Unsupervised Discovery of Bias in Deep Visual Recognition Models ( http://arxiv.org/abs/2110.15499v1 )

ライセンス: Link先を確認
Arvindkumar Krishnakumar, Viraj Prabhu, Sruthi Sudhakar, Judy Hoffman(参考訳) 深層学習モデルは、ある部分集団に対する体系的な失敗につながるデータから、散発的な相関を学習することが示されている。 先行研究は通常、さまざまな保護された属性に対するアノテーションをクラウドソーシングし、パフォーマンスを測定することでこれを診断している。 本研究では,このような障害モードの探索と解析のための教師なしアルゴリズムUDISを提案する。 UDISは、低パフォーマンスクラスタと勾配重み付けされたクラスアクティベーションマップを視覚化することにより、データセットの埋め込みと表面のシステマティック障害モードの階層的クラスタリングによるサブポピュレーションを識別する。 CelebA と MSCOCO データセットを用いた画像分類訓練モデルにおいて,UDIS による故障モードの同定の有効性を示す。

Deep learning models have been shown to learn spurious correlations from data that sometimes lead to systematic failures for certain subpopulations. Prior work has typically diagnosed this by crowdsourcing annotations for various protected attributes and measuring performance, which is both expensive to acquire and difficult to scale. In this work, we propose UDIS, an unsupervised algorithm for surfacing and analyzing such failure modes. UDIS identifies subpopulations via hierarchical clustering of dataset embeddings and surfaces systematic failure modes by visualizing low performing clusters along with their gradient-weighted class-activation maps. We show the effectiveness of UDIS in identifying failure modes in models trained for image classification on the CelebA and MSCOCO datasets.
翻訳日:2021-11-01 14:33:55 公開日:2021-10-29
# 教師なし学習による単一画像からの新規ビュー合成

Novel View Synthesis from a Single Image via Unsupervised learning ( http://arxiv.org/abs/2110.15569v1 )

ライセンス: Link先を確認
Bingzheng Liu, Jianjun Lei, Bo Peng, Chuanbo Yu, Wanqing Li, Nam Ling(参考訳) ビュー合成は、1つ以上のソースビューから新しいビューを生成することを目的としている。 既存の手法は有望な性能を達成したが、通常はピクセル変換を学ぶために異なるポーズのペアビューを必要とする。 本稿では,そのような画素変換を単一ソースから学ぶための教師なしネットワークを提案する。 特に、ネットワークは、ソース視点画像から抽出された特徴を、予め定義された参照ポーズに対して固有の表現に変換するためのトークン変換モジュール(TTM)と、その表現から任意のビューを合成するビュー生成モジュール(VGM)とから構成される。 学習した変換により、未知のポーズの単一のソース視点画像から新しいビューを合成することができる。 広範に利用されているビュー合成データセットの実験では、学習が教師なしであり、新しいビューを生成するには単一のソース視点画像のみが必要であるにもかかわらず、提案ネットワークは最先端の手法に匹敵する結果が得られることを示した。 コードはもうすぐ入手できる。

View synthesis aims to generate novel views from one or more given source views. Although existing methods have achieved promising performance, they usually require paired views of different poses to learn a pixel transformation. This paper proposes an unsupervised network to learn such a pixel transformation from a single source viewpoint. In particular, the network consists of a token transformation module (TTM) that facilities the transformation of the features extracted from a source viewpoint image into an intrinsic representation with respect to a pre-defined reference pose and a view generation module (VGM) that synthesizes an arbitrary view from the representation. The learned transformation allows us to synthesize a novel view from any single source viewpoint image of unknown pose. Experiments on the widely used view synthesis datasets have demonstrated that the proposed network is able to produce comparable results to the state-of-the-art methods despite the fact that learning is unsupervised and only a single source viewpoint image is required for generating a novel view. The code will be available soon.
翻訳日:2021-11-01 14:33:40 公開日:2021-10-29
# ST-ABN:ビデオ認識のための時空間情報を考慮したビジュアル説明

ST-ABN: Visual Explanation Taking into Account Spatio-temporal Information for Video Recognition ( http://arxiv.org/abs/2110.15574v1 )

ライセンス: Link先を確認
Masahiro Mitsuhara, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi(参考訳) ディープニューラルネットワークの推論プロセスにおいて、意思決定を解釈することは困難である。 視覚的説明は、ディープラーニングの意思決定を解釈する1つの方法である。 識別領域に注目する注目マップを可視化することにより,2次元CNNの意思決定を解析する。 映像認識における意思決定過程の視覚的説明は、静止画像と異なる空間的情報だけでなく時間的情報も考慮する必要があるため、より困難である。 本稿では,ビデオ認識のための時空間注意分岐ネットワーク(ST-ABN)と呼ばれる視覚的説明手法を提案する。 空間情報と時間情報の両方を視覚的に説明できる。 st-abnは、ネットワーク推論中に空間情報と時間情報の重要性を取得し、認識処理に適用し、認識性能と視覚的説明性を向上させる。 Some-Something データセット V1 \& V2 による実験の結果,ST-ABN は空間情報と時間情報を同時に考慮した視覚的説明が可能であり,認識性能が向上することが示された。

It is difficult for people to interpret the decision-making in the inference process of deep neural networks. Visual explanation is one method for interpreting the decision-making of deep learning. It analyzes the decision-making of 2D CNNs by visualizing an attention map that highlights discriminative regions. Visual explanation for interpreting the decision-making process in video recognition is more difficult because it is necessary to consider not only spatial but also temporal information, which is different from the case of still images. In this paper, we propose a visual explanation method called spatio-temporal attention branch network (ST-ABN) for video recognition. It enables visual explanation for both spatial and temporal information. ST-ABN acquires the importance of spatial and temporal information during network inference and applies it to recognition processing to improve recognition performance and visual explainability. Experimental results with Something-Something datasets V1 \& V2 demonstrated that ST-ABN enables visual explanation that takes into account spatial and temporal information simultaneously and improves recognition performance.
翻訳日:2021-11-01 14:33:22 公開日:2021-10-29
# 擬似端ラベルの不確かさによるカモフラージュ物体検出の改善

Improving Camouflaged Object Detection with the Uncertainty of Pseudo-edge Labels ( http://arxiv.org/abs/2110.15606v1 )

ライセンス: Link先を確認
Nobukatsu Kajiura, Hong Liu, Shin'ichi Satoh(参考訳) 本稿では,背景に隠された物体を検出するタスクであるCOD(camouflaged object detection)に焦点を当てた。 現在のCODモデルは、曖昧なカモフラージュ境界を出力しながら、ターゲットオブジェクトを直接ハイライトすることを目的としている。 一方,エッジ情報を考慮したモデルの性能はまだ十分ではない。 そこで本研究では,複数の視覚的手がかり,すなわち有意性やエッジをフル活用して,予測されたカモフラージュマップを改良するフレームワークを提案する。 このフレームワークは、3つのキーコンポーネント、すなわち擬似エッジジェネレータ、擬似マップジェネレータ、不確実性認識モジュールで構成されている。 特に、擬似エッジ生成器は擬似エッジラベルを出力する境界を推定し、従来のCOD法は擬似マップラベルを出力する擬似マップ生成器として機能する。 そこで我々は,これら2つの擬似ラベルの不確実性とノイズを低減し,擬似ラベルを入力とし,エッジ精度のカモフラージュマップを出力する不確実性に基づくモジュールを提案する。 各種CODデータセットに対する実験により,既存の最先端手法よりも優れた性能で本手法の有効性が示された。

This paper focuses on camouflaged object detection (COD), which is a task to detect objects hidden in the background. Most of the current COD models aim to highlight the target object directly while outputting ambiguous camouflaged boundaries. On the other hand, the performance of the models considering edge information is not yet satisfactory. To this end, we propose a new framework that makes full use of multiple visual cues, i.e., saliency as well as edges, to refine the predicted camouflaged map. This framework consists of three key components, i.e., a pseudo-edge generator, a pseudo-map generator, and an uncertainty-aware refinement module. In particular, the pseudo-edge generator estimates the boundary that outputs the pseudo-edge label, and the conventional COD method serves as the pseudo-map generator that outputs the pseudo-map label. Then, we propose an uncertainty-based module to reduce the uncertainty and noise of such two pseudo labels, which takes both pseudo labels as input and outputs an edge-accurate camouflaged map. Experiments on various COD datasets demonstrate the effectiveness of our method with superior performance to the existing state-of-the-art methods.
翻訳日:2021-11-01 14:33:06 公開日:2021-10-29
# RGB動的ジェスチャー認識のためのマルチタスクとマルチモーダル学習

Multi-Task and Multi-Modal Learning for RGB Dynamic Gesture Recognition ( http://arxiv.org/abs/2110.15639v1 )

ライセンス: Link先を確認
Dinghao Fan, Hengjie Lu, Shugong Xu, Shan Cao(参考訳) 人間と機械の相互作用における様々な応用可能性のために、ジェスチャー認識はますます人気が高まっている。 既存のマルチモーダルジェスチャ認識システムは、入力としてマルチモーダルデータを取り込み精度を向上させるが、そのような方法はより多くのモーダルセンサを必要とし、アプリケーションのシナリオを大幅に制限する。 そこで我々は,2次元畳み込みニューラルネットワークの学習におけるエンドツーエンドのマルチタスク学習フレームワークを提案する。 このフレームワークは、深度モダリティを使用して、トレーニング中の精度を改善し、推論中のRGBモダリティのみを使用することでコストを削減できる。 本フレームワークは,ジェスチャーセグメンテーションとジェスチャー認識というマルチタスク学習の表現を学ぶために訓練されている。 深さモダリティには、ジェスチャーの位置に関する事前情報が含まれている。 そのため、ジェスチャーセグメンテーションの監督として使用できる。 マルチスケールデコーダと呼ばれるプラグアンドプレイモジュールは2つのサブデコーダを含むジェスチャーセグメンテーションを実現するように設計されている。 下段と上段のそれぞれで使用され、ネットワークが主要なターゲット領域に注意を向け、無関係な情報を無視し、より差別的な特徴を抽出するのに役立つ。 さらに、MSDモジュールと深度変調は、ジェスチャー認識性能を向上させるためにトレーニング段階でのみ使用される。 推論中に必要となるのは RGB のモダリティと MSD のないネットワークのみである。 3つの公開ジェスチャ認識データセットの実験結果から,提案手法は既存のジェスチャ認識フレームワークと比較して優れた性能を示すことが示された。 さらに、他の2D CNNベースのフレームワークで提案されたプラグイン&プレイMSDを使用することで、精度が向上する。

Gesture recognition is getting more and more popular due to various application possibilities in human-machine interaction. Existing multi-modal gesture recognition systems take multi-modal data as input to improve accuracy, but such methods require more modality sensors, which will greatly limit their application scenarios. Therefore we propose an end-to-end multi-task learning framework in training 2D convolutional neural networks. The framework can use the depth modality to improve accuracy during training and save costs by using only RGB modality during inference. Our framework is trained to learn a representation for multi-task learning: gesture segmentation and gesture recognition. Depth modality contains the prior information for the location of the gesture. Therefore it can be used as the supervision for gesture segmentation. A plug-and-play module named Multi-Scale-Decoder is designed to realize gesture segmentation, which contains two sub-decoder. It is used in the lower stage and higher stage respectively, and can help the network pay attention to key target areas, ignore irrelevant information, and extract more discriminant features. Additionally, the MSD module and depth modality are only used in the training stage to improve gesture recognition performance. Only RGB modality and network without MSD are required during inference. Experimental results on three public gesture recognition datasets show that our proposed method provides superior performance compared with existing gesture recognition frameworks. Moreover, using the proposed plug-and-play MSD in other 2D CNN-based frameworks also get an excellent accuracy improvement.
翻訳日:2021-11-01 14:31:47 公開日:2021-10-29
# 連続型超解像のためのスケールアウェア動的ネットワーク

Scale-Aware Dynamic Network for Continuous-Scale Super-Resolution ( http://arxiv.org/abs/2110.15655v1 )

ライセンス: Link先を確認
Hanlin Wu, Ning Ni, Libao Zhang(参考訳) 固定因子と離散因子を持つ単一像超解像(SR)は,ディープラーニング技術の発展により大きな進歩を遂げている。 しかし、単一のモデルを使用して任意の(整数的あるいは非整数的)スケールファクタを処理する継続的スケールsrは、依然として困難な課題である。 既存のSRモデルは、通常、特徴を抽出するために静的畳み込みを採用しており、スケールファクタの変化を効果的に知覚できないため、マルチスケールSRタスクでの一般化性能が制限される。 さらに、既存の連続的なスケールアップモジュールは、マルチスケールの機能を完全に利用せず、SR結果のチェッカーボードアーティファクトや高い計算複雑性といった問題に直面している。 上記の問題に対処するために、連続的スケールSRのためのスケール対応動的ネットワーク(SADN)を提案する。 まず、複数のSRタスクを様々なスケールで特徴学習するためのSAD-Conv層を提案する。 SAD-Conv層は、スケール係数に基づいて複数の畳み込みカーネルの注意重みを適応的に調整し、無視可能な余分な計算コストでモデルの表現力を高める。 第2に,マルチ双線形局所暗黙関数(MBLIF)を付加した連続スケールアップサンプリングモジュール(CSUM)を考案した。 CSUMは、画像の連続的な特徴表現を近似するために、徐々に拡大するスケールを持つ複数の特徴空間を構築し、MBLIFは、任意の座標を高解像度空間のRGB値にマッピングするために、マルチスケール特徴をフル活用する。 各種ベンチマークを用いてSADNを評価する。 実験の結果,CSUMは従来の固定スケールアップサンプリング層を置き換えることができ,性能を維持しながら連続スケールSRネットワークが得られることがわかった。 我々のSADNはパラメータをはるかに少なくし、最先端のSR手法よりも優れています。

Single-image super-resolution (SR) with fixed and discrete scale factors has achieved great progress due to the development of deep learning technology. However, the continuous-scale SR, which aims to use a single model to process arbitrary (integer or non-integer) scale factors, is still a challenging task. The existing SR models generally adopt static convolution to extract features, and thus unable to effectively perceive the change of scale factor, resulting in limited generalization performance on multi-scale SR tasks. Moreover, the existing continuous-scale upsampling modules do not make full use of multi-scale features and face problems such as checkerboard artifacts in the SR results and high computational complexity. To address the above problems, we propose a scale-aware dynamic network (SADN) for continuous-scale SR. First, we propose a scale-aware dynamic convolutional (SAD-Conv) layer for the feature learning of multiple SR tasks with various scales. The SAD-Conv layer can adaptively adjust the attention weights of multiple convolution kernels based on the scale factor, which enhances the expressive power of the model with a negligible extra computational cost. Second, we devise a continuous-scale upsampling module (CSUM) with the multi-bilinear local implicit function (MBLIF) for any-scale upsampling. The CSUM constructs multiple feature spaces with gradually increasing scales to approximate the continuous feature representation of an image, and then the MBLIF makes full use of multi-scale features to map arbitrary coordinates to RGB values in high-resolution space. We evaluate our SADN using various benchmarks. The experimental results show that the CSUM can replace the previous fixed-scale upsampling layers and obtain a continuous-scale SR network while maintaining performance. Our SADN uses much fewer parameters and outperforms the state-of-the-art SR methods.
翻訳日:2021-11-01 14:31:22 公開日:2021-10-29
# 形状認識型3次元画像合成のためのシェーディングガイド生成命令モデル

A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware Image Synthesis ( http://arxiv.org/abs/2110.15678v1 )

ライセンス: Link先を確認
Xingang Pan, Xudong Xu, Chen Change Loy, Christian Theobalt, Bo Dai(参考訳) 生成放射場の発展は、3D認識画像合成の境界を押し上げている。 これらの手法は,複数の視点から3次元物体が現実的に見えるという観察に触発され,正則化として多視点制約を導入し,有効3次元放射場を2次元画像から学習する。 進行にもかかわらず、形状と色のあいまいさのために正確な3D形状を捉えることができず、下流のタスクでは適用性が制限される。 本研究では,この曖昧さに対処するために,新たに改良された形状表現を学習可能なシェーディング誘導型生成暗黙モデルを提案する。 私たちの重要な洞察は、正確な3d形状は異なる照明条件下でもリアルなレンダリングをもたらすだろうということです。 照明を明示的にモデル化し、様々な照明条件でシェーディングを行うことにより、マルチライト制約を実現する。 勾配は、合成された画像を判別器に供給することによって導出される。 表面正規化計算の計算負荷を補うために, 表面追跡による効率的なボリュームレンダリング戦略を考案し, 学習時間と推定時間をそれぞれ24%, 48%削減した。 提案手法は, 正確な3次元形状を把握しながら, 光リアルな3次元画像合成を実現する。 本研究では,既存の手法に対する3次元形状再構成手法の性能向上を実証し,画像照明への適用性を示す。 私たちのコードはhttps://github.com/x ingangpan/shadeganでリリースします。

The advancement of generative radiance fields has pushed the boundary of 3D-aware image synthesis. Motivated by the observation that a 3D object should look realistic from multiple viewpoints, these methods introduce a multi-view constraint as regularization to learn valid 3D radiance fields from 2D images. Despite the progress, they often fall short of capturing accurate 3D shapes due to the shape-color ambiguity, limiting their applicability in downstream tasks. In this work, we address this ambiguity by proposing a novel shading-guided generative implicit model that is able to learn a starkly improved shape representation. Our key insight is that an accurate 3D shape should also yield a realistic rendering under different lighting conditions. This multi-lighting constraint is realized by modeling illumination explicitly and performing shading with various lighting conditions. Gradients are derived by feeding the synthesized images to a discriminator. To compensate for the additional computational burden of calculating surface normals, we further devise an efficient volume rendering strategy via surface tracking, reducing the training and inference time by 24% and 48%, respectively. Our experiments on multiple datasets show that the proposed approach achieves photorealistic 3D-aware image synthesis while capturing accurate underlying 3D shapes. We demonstrate improved performance of our approach on 3D shape reconstruction against existing methods, and show its applicability on image relighting. Our code will be released at https://github.com/X ingangPan/ShadeGAN.
翻訳日:2021-11-01 14:30:53 公開日:2021-10-29
# 検索・発見のためのセグメントスワップによる学習コーセメンテーション

Learning Co-segmentation by Segment Swapping for Retrieval and Discovery ( http://arxiv.org/abs/2110.15904v1 )

ライセンス: Link先を確認
Xi Shen, Alexei A. Efros, Armand Joulin, Mathieu Aubry(参考訳) この研究の目的は、例えば、彫刻と油絵の間にコピーされた細部を識別したり、夜間の写真と昼の絵をマッチングするなど、一対のイメージから視覚的に類似したパターンを効果的に識別することである。 トレーニングデータの欠如は、この共同セグメンテーションタスクの重要な課題である。 画像中のオブジェクトセグメントを選択し、それを別の画像にコピー・ペーストすることで、合成トレーニングペアを生成する。 次に、繰り返されるオブジェクトマスクを予測することを学ぶ。 我々は,対応を補助タスクとして予測し,poisson blendingとstyle transferをトレーニングペアに使用して実データに一般化することが重要であることを見出した。 4次元畳み込みを用いた粗い対応を予測するために設計されたtransformer-based architectureとsparse nc-netの2つの深層アーキテクチャを用いて結果を解析した。 提案手法は,Brueghelデータセット上でのアートディテール検索の精度向上を実現し,Tokyo247とPitts30Kの2つの場所認識ベンチマークにおける競合性能を実現する。 次に, internet object discovery dataset と brueghel dataset 上でオブジェクト発見を行うことで,このアプローチの可能性を示す。 私たちのコードとデータはhttp://imagine.enpc. fr/~shenx/SegSwap/で利用可能です。

The goal of this work is to efficiently identify visually similar patterns from a pair of images, e.g. identifying an artwork detail copied between an engraving and an oil painting, or matching a night-time photograph with its daytime counterpart. Lack of training data is a key challenge for this co-segmentation task. We present a simple yet surprisingly effective approach to overcome this difficulty: we generate synthetic training pairs by selecting object segments in an image and copy-pasting them into another image. We then learn to predict the repeated object masks. We find that it is crucial to predict the correspondences as an auxiliary task and to use Poisson blending and style transfer on the training pairs to generalize on real data. We analyse results with two deep architectures relevant to our joint image analysis task: a transformer-based architecture and Sparse Nc-Net, a recent network designed to predict coarse correspondences using 4D convolutions. We show our approach provides clear improvements for artwork details retrieval on the Brueghel dataset and achieves competitive performance on two place recognition benchmarks, Tokyo247 and Pitts30K. We then demonstrate the potential of our approach by performing object discovery on the Internet object discovery dataset and the Brueghel dataset. Our code and data are available at http://imagine.enpc. fr/~shenx/SegSwap/.
翻訳日:2021-11-01 14:30:29 公開日:2021-10-29
# ADDS:ロバストな多人数学習のための適応微分型サンプリング

ADDS: Adaptive Differentiable Sampling for Robust Multi-Party Learning ( http://arxiv.org/abs/2110.15522v1 )

ライセンス: Link先を確認
Maoguo Gong, Yuan Gao, Yue Wu, A.K.Qin(参考訳) 分散マルチパーティ学習は、法的および実践的な制約の下で散在するデータでジョイントモデルをトレーニングするための効果的なアプローチを提供する。 しかし、参加者間のデータラベルのばらばらな分散とローカルデバイスの計算ボトルネックのため、クライアント向けにより小さなカスタマイズされたモデルをさまざまなシナリオで構築し、中央モデルに適用可能なアップデートを提供する方法は依然として課題である。 本稿では,ロバストかつ通信効率のよい多人数学習のための適応微分可能サンプリングフレームワーク(ADDS)を提案する。 ニューラルネットワークにおけるドロップアウトの考え方に触発されて,中央モデルの異なるサブネットをクライアントに配布して更新するマルチパーティ設定のネットワークサンプリング戦略を導入する。 このアプローチでは、既存のマルチパーティ学習構造への最小限の変更が必要であり、すべてのサブネットのローカル更新をスーパーネットに統合し、中央モデルの堅牢性を改善することができる。 提案フレームワークは,実世界のデータセット実験により,集中モデル収束を高速化しながら,局所計算と通信コストを大幅に削減する。

Distributed multi-party learning provides an effective approach for training a joint model with scattered data under legal and practical constraints. However, due to the quagmire of a skewed distribution of data labels across participants and the computation bottleneck of local devices, how to build smaller customized models for clients in various scenarios while providing updates appliable to the central model remains a challenge. In this paper, we propose a novel adaptive differentiable sampling framework (ADDS) for robust and communication-effici ent multi-party learning. Inspired by the idea of dropout in neural networks, we introduce a network sampling strategy in the multi-party setting, which distributes different subnets of the central model to clients for updating, and the differentiable sampling rates allow each client to extract optimal local architecture from the supernet according to its private data distribution. The approach requires minimal modifications to the existing multi-party learning structure, and it is capable of integrating local updates of all subnets into the supernet, improving the robustness of the central model. The proposed framework significantly reduces local computation and communication costs while speeding up the central model convergence, as we demonstrated through experiments on real-world datasets.
翻訳日:2021-11-01 14:29:23 公開日:2021-10-29
# (参考訳) 平均場訓練による多層ニューラルネットワークの限界変動と軌道安定性

Limiting fluctuation and trajectorial stability of multilayer neural networks with mean field training ( http://arxiv.org/abs/2110.15954v1 )

ライセンス: CC BY 4.0
Huy Tuan Pham, Phan-Minh Nguyen(参考訳) 多層ニューラルネットワークの平均場(mf)理論は、学習ダイナミクスがmfの限界によって密接に追跡される、特定の無限幅スケーリングを中心としている。 この無限幅極限の周りのランダムなゆらぎは、大幅展開から次階への拡張に期待できる。 この揺らぎは浅いネットワークでのみ研究され、それまでの研究では、その場合にのみ適用可能な技術的な概念や追加の定式化のアイデアが用いられていた。 多層症例の治療法は欠如しており、時間だけでなく深さにもまたがる確率的依存関係を捉える定式化を見つけるのが困難である。 本研究では,多層ネットワークの場合,任意のネットワーク深さで変動の研究を開始する。 nguyen と pham が最近導入したニューロン埋め込みフレームワークを利用して, 2次 mf 極限と呼ばれる力学方程式系を体系的に導出し, 制限ゆらぎ分布を捉える。 この2階のMF制限におけるニューロン間の複雑な相互作用、層間依存性による確率性、および制限変動に固有の非線形時間進化の枠組みを通して示す。 極限定理は、この極限を大幅ネットワークの変動と定量的に関連付けることが証明されている。 本研究では, 勾配降下mfトレーニングの安定性を示すために, 学習経路に沿って, ネットワークが初期化され, 収束した(十分高速)後にも, 学習出力関数の「最小変動」(実際には, 消失変動) を伴う解に徐々に偏りを与える。 この現象は、ERM設定において2乗損失を持つ浅層ネットワークにのみ示される同様の現象を、より一般的な設定では必ずしも凸しない損失関数を持つ多層ネットワークに拡張する。

The mean field (MF) theory of multilayer neural networks centers around a particular infinite-width scaling, where the learning dynamics is closely tracked by the MF limit. A random fluctuation around this infinite-width limit is expected from a large-width expansion to the next order. This fluctuation has been studied only in shallow networks, where previous works employ heavily technical notions or additional formulation ideas amenable only to that case. Treatment of the multilayer case has been missing, with the chief difficulty in finding a formulation that captures the stochastic dependency across not only time but also depth. In this work, we initiate the study of the fluctuation in the case of multilayer networks, at any network depth. Leveraging on the neuronal embedding framework recently introduced by Nguyen and Pham, we systematically derive a system of dynamical equations, called the second-order MF limit, that captures the limiting fluctuation distribution. We demonstrate through the framework the complex interaction among neurons in this second-order MF limit, the stochasticity with cross-layer dependency and the nonlinear time evolution inherent in the limiting fluctuation. A limit theorem is proven to relate quantitatively this limit to the fluctuation of large-width networks. We apply the result to show a stability property of gradient descent MF training: in the large-width regime, along the training trajectory, it progressively biases towards a solution with "minimal fluctuation" (in fact, vanishing fluctuation) in the learned output function, even after the network has been initialized at or has converged (sufficiently fast) to a global optimum. This extends a similar phenomenon previously shown only for shallow networks with a squared loss in the ERM setting, to multilayer networks with a loss function that is not necessarily convex in a more general setting.
翻訳日:2021-11-01 14:28:15 公開日:2021-10-29
# Xi-Learning:汎用リワード関数の継承的特徴伝達学習

Xi-Learning: Successor Feature Transfer Learning for General Reward Functions ( http://arxiv.org/abs/2110.15701v1 )

ライセンス: Link先を確認
Chris Reinke, Xavier Alameda-Pineda(参考訳) 強化学習の伝達は、経験豊富なソースタスクからの知識を使用して、ターゲットタスクの学習性能を向上させることを目的としている。 継承機能(SF)は、タスク間で報酬関数が変化する領域における顕著な伝達機構である。 彼らは、学習済みのポリシーを新しい目標タスクで再評価し、知識を伝達する。 SFフレームワークの制限要因は、報酬は後続の特徴と報酬重みベクトルに線形に分解されるという仮定である。 本稿では,後継機能の累積割引確率を学習した新たなSFメカニズムである$\xi$-learningを提案する。 重要なことに、$\xi$-learningは一般的な報酬関数に対するポリシーの再帰を再評価することができる。 2つの$\xi$-learningのバリエーションを導入し、その収束性を証明し、転送性能を保証する。 関数近似を用いた$\xi$-learningに基づく実験評価は、一般報酬関数だけでなく、線形分解可能な報酬関数の場合においても、利用可能なメカニズムよりも$\xi$-learningの顕著な優位性を示す。

Transfer in Reinforcement Learning aims to improve learning performance on target tasks using knowledge from experienced source tasks. Successor features (SF) are a prominent transfer mechanism in domains where the reward function changes between tasks. They reevaluate the expected return of previously learned policies in a new target task and to transfer their knowledge. A limiting factor of the SF framework is its assumption that rewards linearly decompose into successor features and a reward weight vector. We propose a novel SF mechanism, $\xi$-learning, based on learning the cumulative discounted probability of successor features. Crucially, $\xi$-learning allows to reevaluate the expected return of policies for general reward functions. We introduce two $\xi$-learning variations, prove its convergence, and provide a guarantee on its transfer performance. Experimental evaluations based on $\xi$-learning with function approximation demonstrate the prominent advantage of $\xi$-learning over available mechanisms not only for general reward functions, but also in the case of linearly decomposable reward functions.
翻訳日:2021-11-01 14:25:53 公開日:2021-10-29
# 注意すべきことを学ぶ

Learning to Be Cautious ( http://arxiv.org/abs/2110.15907v1 )

ライセンス: Link先を確認
Montaser Mohammedalamen, Dustin Morrill, Alexander Sieusahai, Yash Satsangi, Michael Bowling(参考訳) 強化学習の分野における鍵となる課題は、新しい状況において慎重に振る舞うエージェントを開発することである。 一般的に、自律システムが直面するであろうすべての状況や、悪い結果を避ける最善の行動を予測することは不可能である。 慎重に行動できることを学べるエージェントは、いつどのように慎重に行動するかを発見することで、この課題を克服する。 対照的に、現在のアプローチでは一般的に、タスク固有の安全情報や明示的な慎重な行動がシステムに組み込まれています。 本稿では,注意行動がますます非観察的になるタスクのシーケンスと,システムが注意的であることを証明するアルゴリズムを提案する。 このアルゴリズムの重要な特徴は、タスク固有の安全情報なしで報酬関数の不確かさを特徴付け、この不確実性を利用して堅牢なポリシーを構築することである。 具体的には、ニューラルネットワークのアンサンブル信念で表される学習報酬関数の不確かさを与えられたCFRサブルーチンを用いて、$k$-of-N$のロバストなポリシーを構築する。 これらの方針は、タスク固有の安全チューニングなしで、各タスクに注意を払っている。

A key challenge in the field of reinforcement learning is to develop agents that behave cautiously in novel situations. It is generally impossible to anticipate all situations that an autonomous system may face or what behavior would best avoid bad outcomes. An agent that could learn to be cautious would overcome this challenge by discovering for itself when and how to behave cautiously. In contrast, current approaches typically embed task-specific safety information or explicit cautious behaviors into the system, which is error-prone and imposes extra burdens on practitioners. In this paper, we present both a sequence of tasks where cautious behavior becomes increasingly non-obvious, as well as an algorithm to demonstrate that it is possible for a system to \emph{learn} to be cautious. The essential features of our algorithm are that it characterizes reward function uncertainty without task-specific safety information and uses this uncertainty to construct a robust policy. Specifically, we construct robust policies with a $k$-of-$N$ counterfactual regret minimization (CFR) subroutine given a learned reward function uncertainty represented by a neural network ensemble belief. These policies exhibit caution in each of our tasks without any task-specific safety tuning.
翻訳日:2021-11-01 14:25:36 公開日:2021-10-29
# スミルノフ変換による生成モデルの品質向上

Improving the quality of generative models through Smirnov transformation ( http://arxiv.org/abs/2110.15914v1 )

ライセンス: Link先を確認
\'Angel Gonz\'alez-Prieto, Alberto Mozo, Sandra G\'omez-Canaval, Edgar Talavera(参考訳) GAN(Generative Adversarial Networks)の収束問題を解くことは、生成モデルにおいて最も顕著な問題の1つである。 本研究では,ジェネレータエージェントの出力として使用する新たなアクティベーション関数を提案する。 この活性化関数はスミルノフ確率変換に基づいており、生成されたデータの品質を改善するよう特別に設計されている。 従来の作業とは対照的に,我々のアクティベーション関数は,カテゴリ変数の複製だけでなく,任意の種類のデータ分散(連続的あるいは離散的)を扱う,より一般的なアプローチを提供する。 さらに、この活性化関数は導出可能であり、ganトレーニングプロセス中のバックプロパゲーション計算にシームレスに統合することができる。 このアプローチを検証するために、提案手法を2つの異なるデータセットに対して評価する。 a) 離散変数と連続変数の混合を含む人工的に描画されたデータセット b)通常の接続と暗号攻撃の両方を含むフローベースのネットワークトラフィックデータの実際のデータセット。 生成したデータの忠実度を評価するため、統計的性質の質測定と、ネストした機械学習に基づく分類器への合成データの利用に関して、両者の結果を分析した。 実験結果は、この新たな活性化関数を調整したGANネットワークの明確な性能を、na\\ive平均ベースジェネレータと標準GANの両方に対して実現した。 データの品質が非常に高く、生成されたデータは、得られた精度を低下させることなく、ネスト分類器を訓練するための実データを完全に置き換えることができる。 これにより、データプライバシの保証が必要なシナリオに適用可能な高品質な合成データを生成するために、GANの使用が促進される。

Solving the convergence issues of Generative Adversarial Networks (GANs) is one of the most outstanding problems in generative models. In this work, we propose a novel activation function to be used as output of the generator agent. This activation function is based on the Smirnov probabilistic transformation and it is specifically designed to improve the quality of the generated data. In sharp contrast with previous works, our activation function provides a more general approach that deals not only with the replication of categorical variables but with any type of data distribution (continuous or discrete). Moreover, our activation function is derivable and therefore, it can be seamlessly integrated in the backpropagation computations during the GAN training processes. To validate this approach, we evaluate our proposal against two different data sets: a) an artificially rendered data set containing a mixture of discrete and continuous variables, and b) a real data set of flow-based network traffic data containing both normal connections and cryptomining attacks. To evaluate the fidelity of the generated data, we analyze both their results in terms of quality measures of statistical nature and also regarding the use of these synthetic data to feed a nested machine learning-based classifier. The experimental results evince a clear outperformance of the GAN network tuned with this new activation function with respect to both a na\"ive mean-based generator and a standard GAN. The quality of the data is so high that the generated data can fully substitute real data for training the nested classifier without a fall in the obtained accuracy. This result encourages the use of GANs to produce high-quality synthetic data that are applicable in scenarios in which data privacy must be guaranteed.
翻訳日:2021-11-01 14:25:18 公開日:2021-10-29
# 部分可観測領域における予測と計画のための潜在状態の緩やかな変化

Sparsely Changing Latent States for Prediction and Planning in Partially Observable Domains ( http://arxiv.org/abs/2110.15949v1 )

ライセンス: Link先を確認
Christian Gumbsch and Martin V. Butz and Georg Martius(参考訳) 部分的に観測可能な領域における予測と計画への一般的なアプローチは、隠れたタスク関連要素に関する潜在メモリを理想的に開発し維持するrecurrent neural networks(rnn)を使用することである。 我々は、これらの物理的世界の隠れた要因の多くは時間とともに一定であり、わずかな変化しかできないと仮定する。 そこで我々は,インダクティブバイアスを組み込んだ新しいリカレントアーキテクチャであるgated $l_0$ regularized dynamics (gatel0rd)を提案する。 バイアスは、新しい内部ゲーティング関数と潜在状態変化の$l_0$ノルムに対するペナルティによって実装される。 GateL0RDは、様々な観測可能な予測および制御タスクにおいて、最先端のRNNと競合したり、性能を向上することができることを示す。 GateL0RDは、環境の根底にある生成因子を符号化し、急激な時間依存性を無視し、より一般化し、サンプリング効率と予測精度を改善し、モデルベース計画および強化学習タスクの振る舞いを改善する。 さらに,発展途上状態を容易に解釈できることが示され,RNNにおける説明可能性の向上への一歩となる。

A common approach to prediction and planning in partially observable domains is to use recurrent neural networks (RNNs), which ideally develop and maintain a latent memory about hidden, task-relevant factors. We hypothesize that many of these hidden factors in the physical world are constant over time, changing only sparsely. Accordingly, we propose Gated $L_0$ Regularized Dynamics (GateL0RD), a novel recurrent architecture that incorporates the inductive bias to maintain stable, sparsely changing latent states. The bias is implemented by means of a novel internal gating function and a penalty on the $L_0$ norm of latent state changes. We demonstrate that GateL0RD can compete with or outperform state-of-the-art RNNs in a variety of partially observable prediction and control tasks. GateL0RD tends to encode the underlying generative factors of the environment, ignores spurious temporal dependencies, and generalizes better, improving sampling efficiency and prediction accuracy as well as behavior in model-based planning and reinforcement learning tasks. Moreover, we show that the developing latent states can be easily interpreted, which is a step towards better explainability in RNNs.
翻訳日:2021-11-01 14:24:52 公開日:2021-10-29
# Brick-by-Brick:ディープ強化学習による組合せ構築

Brick-by-Brick: Combinatorial Construction with Deep Reinforcement Learning ( http://arxiv.org/abs/2110.15481v1 )

ライセンス: Link先を確認
Hyunsoo Chung, Jungtaek Kim, Boris Knyazev, Jinhwi Lee, Graham W. Taylor, Jaesik Park, Minsu Cho(参考訳) 組合せ空間における解の発見は多くの実世界の問題で広く見られるが、様々な複雑な制約と膨大な組み合わせのためにも困難である。 そのような問題に対処するために、我々は新しい定式化、組合せ構成を導入し、これは建築エージェントがユニットプリミティブ(LEGOブロック)を逐次組み立てる必要がある ― 2つのブロック間のすべての接続は固定規則に従う必要があるが、ブロックは相互に重複しない。 対象物を構築するために,エージェントに対して正確な容積情報ではなく,目的物(すなわち2次元画像)に関する不完全な知識を提供する。 この問題には,部分的な情報に対する包括的理解と,レンガを順次追加するための長期計画が必要である。 このアプローチでは、ブロック間の重なりを引き起こす多数の無効なアクションが存在する可変サイズのアクション空間を考慮する必要がある。 これらの問題を解決するために、Brick-by-Brickと呼ばれるモデルでは、アクター批判ネットワークに対する無効なアクションを効率的にフィルタするアクション妥当性予測ネットワークを採用している。 提案手法は,対象オブジェクトの1つの画像や複数のビューを条件とした未認識オブジェクトの構築をうまく学習できることを実証する。

Discovering a solution in a combinatorial space is prevalent in many real-world problems but it is also challenging due to diverse complex constraints and the vast number of possible combinations. To address such a problem, we introduce a novel formulation, combinatorial construction, which requires a building agent to assemble unit primitives (i.e., LEGO bricks) sequentially -- every connection between two bricks must follow a fixed rule, while no bricks mutually overlap. To construct a target object, we provide incomplete knowledge about the desired target (i.e., 2D images) instead of exact and explicit volumetric information to the agent. This problem requires a comprehensive understanding of partial information and long-term planning to append a brick sequentially, which leads us to employ reinforcement learning. The approach has to consider a variable-sized action space where a large number of invalid actions, which would cause overlap between bricks, exist. To resolve these issues, our model, dubbed Brick-by-Brick, adopts an action validity prediction network that efficiently filters invalid actions for an actor-critic network. We demonstrate that the proposed method successfully learns to construct an unseen object conditioned on a single image or multiple views of a target object.
翻訳日:2021-11-01 14:24:15 公開日:2021-10-29
# (参考訳) MetaICL: コンテキストで学ぶことを学ぶ

MetaICL: Learning to Learn In Context ( http://arxiv.org/abs/2110.15943v1 )

ライセンス: CC BY 4.0
Sewon Min, Mike Lewis, Luke Zettlemoyer, Hannaneh Hajishirzi(参考訳) metaicl (meta-training for in-context learning) は、事前学習された言語モデルが多数のトレーニングタスクでインコンテキスト学習を行うように調整される、少数ショット学習のための新しいメタトレーニングフレームワークである。 このメタトレーニングにより、パラメータ更新やタスク固有のテンプレートなしでいくつかのトレーニング例を条件付けするだけで、テスト時に新しいタスクをより効果的に学習することが可能になる。 分類,質問応答,自然言語推論,パラフレーズ検出などを含む142のNLPデータセットからなるタスクの多種多様なコレクションを,7つの異なるメタトレーニング/ターゲット分割で実験した。 MetaICLは、メタトレーニングやマルチタスク学習の後にゼロショット転送を行うことなく、コンテキスト内学習を含む、幅広いベースラインを上回ります。 メタトレーニングタスクからドメインシフトを持つターゲットタスクでは,特にゲインが重要であり,メタトレーニングタスクの多種多様なセットを使用することが,改善の鍵となる。 また、MetaICLは、目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し、ほぼ8倍のパラメータを持つモデルよりも優れた性能を示す。

We introduce MetaICL (Meta-training for In-Context Learning), a new meta-training framework for few-shot learning where a pretrained language model is tuned to do in-context learn-ing on a large set of training tasks. This meta-training enables the model to more effectively learn a new task in context at test time, by simply conditioning on a few training examples with no parameter updates or task-specific templates. We experiment on a large, diverse collection of tasks consisting of 142 NLP datasets including classification, question answering, natural language inference, paraphrase detection and more, across seven different meta-training/target splits. MetaICL outperforms a range of baselines including in-context learning without meta-training and multi-task learning followed by zero-shot transfer. We find that the gains are particularly significant for target tasks that have domain shifts from the meta-training tasks, and that using a diverse set of the meta-training tasks is key to improvements. We also show that MetaICL approaches (and sometimes beats) the performance of models fully finetuned on the target task training data, and outperforms much bigger models with nearly 8x parameters.
翻訳日:2021-11-01 14:22:42 公開日:2021-10-29
# サブポピュレーションの存在下で制御されたa/b/nテスト

A/B/n Testing with Control in the Presence of Subpopulations ( http://arxiv.org/abs/2110.15573v1 )

ライセンス: Link先を確認
Yoan Russac (DI-ENS, CNRS, VALDA, PSL), Christina Katsimerou, Dennis Bohle, Olivier Capp\'e (CNRS, VALDA, DI-ENS, PSL), Aur\'elien Garivier (UMPA-ENSL, CNRS, ENS Lyon), Wouter Koolen (CWI)(参考訳) A/B/n テストの応用によって動機づけられた分布の有限集合 (\emph{arms} と呼ばれる) を考えると、そのうちの1つは \emph{control} として扱われる。 人口は同質の亜集団に分類されていると仮定する。 時間ステップ毎にサブポピュレーションがサンプリングされ、アームが選択され、結果として得られる観察はサブポピュレーションに条件付けられたアームから独立したドローとなる。 各アームの品質は、そのサブポピュレーション手段の重み付け組み合わせにより評価される。 制御よりも重み付けされた期待値が高い腕をできるだけ早く発見するために,時間ステップ毎に1本の腕を順次選択する戦略を提案する。 この戦略が漸近的に最適であると示される: $\tau_\delta$ が、その戦略が少なくとも 1-\delta$ の確率で正しい解を出力できることを保証する最初のものであるなら、$\mathbb{E}[\tau_\delta]$ は $\log(1/\delta)$ の正確な最適速度で線形に成長する。 この割合は,(1)実験者がサブポピュレーション情報を観測しない場合,(2)各サンプルのサブポピュレーションが観測され,選択されない場合,(3)各応答がサンプリングされたサブポピュレーションを選択することができる場合の3つの設定で識別される。 a/b/n実験から収集した合成データと実データを用いた数値シミュレーションにより,提案手法の有効性を示す。

Motivated by A/B/n testing applications, we consider a finite set of distributions (called \emph{arms}), one of which is treated as a \emph{control}. We assume that the population is stratified into homogeneous subpopulations. At every time step, a subpopulation is sampled and an arm is chosen: the resulting observation is an independent draw from the arm conditioned on the subpopulation. The quality of each arm is assessed through a weighted combination of its subpopulation means. We propose a strategy for sequentially choosing one arm per time step so as to discover as fast as possible which arms, if any, have higher weighted expectation than the control. This strategy is shown to be asymptotically optimal in the following sense: if $\tau_\delta$ is the first time when the strategy ensures that it is able to output the correct answer with probability at least $1-\delta$, then $\mathbb{E}[\tau_\delta]$ grows linearly with $\log(1/\delta)$ at the exact optimal rate. This rate is identified in the paper in three different settings: (1) when the experimenter does not observe the subpopulation information, (2) when the subpopulation of each sample is observed but not chosen, and (3) when the experimenter can select the subpopulation from which each response is sampled. We illustrate the efficiency of the proposed strategy with numerical simulations on synthetic and real data collected from an A/B/n experiment.
翻訳日:2021-11-01 14:22:18 公開日:2021-10-29
# Fokker-Planck-Kolmog orov方程式の直接マッチングによるSDEのスケーラブル推論

Scalable Inference in SDEs by Direct Matching of the Fokker-Planck-Kolmog orov Equation ( http://arxiv.org/abs/2110.15739v1 )

ライセンス: Link先を確認
Arno Solin, Ella Tamir, Prakhar Verma(参考訳) 確率ルンゲ・クッタの変種のようなシミュレーションに基づく手法は、機械学習における確率微分方程式(SDE)を推論するデファクトアプローチである。 これらの方法は汎用的であり、パラメトリックおよび非パラメトリックモデルとニューラルSDEで使用される。 確率ルンゲ・クッタは、高次元において非効率なサンプリングスキームの使用に依存している。 古典的なSDE文献を再検討し、マッチングモーメントによる(典型的には難解な)フォッカー・プランク・コルモゴロフ方程式への直接近似を導出することでこの問題に対処する。 このワークフローがいかに高速で、高次元の潜在空間にスケールするかを示し、非パラメトリックなsdeと駆動ガウス過程の速度場がモデルを指定するロースデータアプリケーションに適用する。

Simulation-based techniques such as variants of stochastic Runge-Kutta are the de facto approach for inference with stochastic differential equations (SDEs) in machine learning. These methods are general-purpose and used with parametric and non-parametric models, and neural SDEs. Stochastic Runge-Kutta relies on the use of sampling schemes that can be inefficient in high dimensions. We address this issue by revisiting the classical SDE literature and derive direct approximations to the (typically intractable) Fokker-Planck-Kolmog orov equation by matching moments. We show how this workflow is fast, scales to high-dimensional latent spaces, and is applicable to scarce-data applications, where a non-parametric SDE with a driving Gaussian process velocity field specifies the model.
翻訳日:2021-11-01 14:21:50 公開日:2021-10-29
# マルチタスクガウス過程のアライメント

Aligned Multi-Task Gaussian Process ( http://arxiv.org/abs/2110.15761v1 )

ライセンス: Link先を確認
Olga Mikheeva, Ieva Kazlauskaite, Adam Hartshorne, Hedvig Kjellstr\"om, Carl Henrik Ek, Neill D. F. Campbell(参考訳) マルチタスク学習では,タスク間の相関を正確に識別する必要がある。 実世界の時系列では、タスクは時間的に完全に整列することは滅多になく、従来のマルチタスクモデルではこのことを考慮せず、その後の相関推定におけるエラーは予測性能の低下と不確実な定量化をもたらす。 本稿では,予測性能を向上させる統合生成モデルにおいて,時間的ずれを自動的に考慮する手法を提案する。 本手法は,タスク内およびタスク間の相関をモデル化するためにガウス過程(GP)を用いる。 kazlauskaiteet alによる以前の作品による構築。 [2019]では、時間的不一致をモデル化するための入力データの個別の単調ワープを含む。 従来の研究とは対照的に、ウォーピングプロセスの推定と基礎となる機能の両方の不確実性を考慮した下限を定式化する。 また、ワープ関数の効率的な経路ワイドサンプリングによる単調確率過程への新たな取り組みにより、MAP推定よりもモデルでのベイズ推定をフルに行うことができる。 合成および実時間系列における欠落データ実験は、不正調整(vs標準アンアライメント法)の利点と、ワープ過程(vsベースラインMAPアライメント法)の不確実性をモデル化することの利点を示す。

Multi-task learning requires accurate identification of the correlations between tasks. In real-world time-series, tasks are rarely perfectly temporally aligned; traditional multi-task models do not account for this and subsequent errors in correlation estimation will result in poor predictive performance and uncertainty quantification. We introduce a method that automatically accounts for temporal misalignment in a unified generative model that improves predictive performance. Our method uses Gaussian processes (GPs) to model the correlations both within and between the tasks. Building on the previous work by Kazlauskaiteet al. [2019], we include a separate monotonic warp of the input data to model temporal misalignment. In contrast to previous work, we formulate a lower bound that accounts for uncertainty in both the estimates of the warping process and the underlying functions. Also, our new take on a monotonic stochastic process, with efficient path-wise sampling for the warp functions, allows us to perform full Bayesian inference in the model rather than MAP estimates. Missing data experiments, on synthetic and real time-series, demonstrate the advantages of accounting for misalignments (vs standard unaligned method) as well as modelling the uncertainty in the warping process(vs baseline MAP alignment approach).
翻訳日:2021-11-01 14:21:38 公開日:2021-10-29
# 半無限制約学習による逆ロバスト性

Adversarial Robustness with Semi-Infinite Constrained Learning ( http://arxiv.org/abs/2110.15767v1 )

ライセンス: Link先を確認
Alexander Robey and Luiz F. O. Chamon and George J. Pappas and Hamed Hassani and Alejandro Ribeiro(参考訳) 多くのアプリケーションで高い性能を示したにもかかわらず、深層学習による摂動入力の脆弱さは、安全クリティカルドメインでの使用に関して深刻な疑問を引き起こしている。 敵対的なトレーニングは、実際にこの問題を軽減することができるが、最先端の手法は、ますますアプリケーションに依存し、本質的にヒューリスティックであり、名目上のパフォーマンスと堅牢性の間の根本的なトレードオフに苦しむ。 さらに、最悪の場合の摂動を見つける問題は、非凸かつ過小パラメータ化され、どちらも好ましくない最適化の展望をもたらす。 したがって、特に、敵意トレーニングが働く時期と理由に関して、敵意トレーニングの理論と実践の間にはギャップがある。 本稿では,これらの問題に対処するための制約付き学習アプローチと,堅牢な学習のための理論的基礎を提供する。 特に,半無限最適化と非凸双対性理論を用いて,逆訓練が摂動分布上の統計的問題と同値であることを示す。 特に,従来の頑健な学習手法の無数において,これらの分布の最適部分選択を再現できることが示唆された。 これらの知見を用いて,いくつかの一般的なアルゴリズム(pgdなど)が特別な場合であるハイブリッドランジュバンモンテカルロ法を提案する。 最後に,本手法は,MNISTとCIFAR-10の最先端結果が得られることによって,名目性能とロバスト性能のトレードオフを緩和できることを示す。 私たちのコードは、https://github.com/a robey1/advbench.comで利用可能です。

Despite strong performance in numerous applications, the fragility of deep learning to input perturbations has raised serious questions about its use in safety-critical domains. While adversarial training can mitigate this issue in practice, state-of-the-art methods are increasingly application-dependen t, heuristic in nature, and suffer from fundamental trade-offs between nominal performance and robustness. Moreover, the problem of finding worst-case perturbations is non-convex and underparameterized, both of which engender a non-favorable optimization landscape. Thus, there is a gap between the theory and practice of adversarial training, particularly with respect to when and why adversarial training works. In this paper, we take a constrained learning approach to address these questions and to provide a theoretical foundation for robust learning. In particular, we leverage semi-infinite optimization and non-convex duality theory to show that adversarial training is equivalent to a statistical problem over perturbation distributions, which we characterize completely. Notably, we show that a myriad of previous robust training techniques can be recovered for particular, sub-optimal choices of these distributions. Using these insights, we then propose a hybrid Langevin Monte Carlo approach of which several common algorithms (e.g., PGD) are special cases. Finally, we show that our approach can mitigate the trade-off between nominal and robust performance, yielding state-of-the-art results on MNIST and CIFAR-10. Our code is available at: https://github.com/a robey1/advbench.
翻訳日:2021-11-01 14:21:16 公開日:2021-10-29
# オンライン強化学習における適応的離散化

Adaptive Discretization in Online Reinforcement Learning ( http://arxiv.org/abs/2110.15843v1 )

ライセンス: Link先を確認
Sean R. Sinclair, Siddhartha Banerjee, Christina Lee Yu(参考訳) 資源割り当てからキャッシュ管理に至るまで,オンライン強化学習問題に対する離散化に基づくアプローチが,実際に広く研究されている。 離散化に基づくアルゴリズムを設計する際の2つの大きな疑問は、離散化をどのように生成し、いつそれを洗練するかである。 これらの問題に対するヒューリスティックな解法に関する実験結果がいくつかあるが、理論的な処理は少ない。 本稿では,オンライン強化学習のための木ベース階層分割法の統一的理論解析を行い,モデルフリーおよびモデルベースアルゴリズムを提供する。 最適値Q_h^\star$関数の良性を測定するインスタンス依存量である環境次元ではなく,「ズームング次元」に対するスケールの保証を提供することで,我々のアルゴリズムが問題の固有構造をいかに活用できるかを示す。 コンピュータシステムや運用研究における多くの応用は、サンプルの複雑さの低さ、ストレージ要件の低さ、計算負荷の低さという3つの側面で競合するアルゴリズムを必要とする。 我々のアルゴリズムは操作制約に容易に適応し、我々の理論は3つの面のそれぞれに明確な境界を与える。 これは、システムに関する優先順位がほとんど分かっていない場合でも、そのアプローチが基盤となる問題構造に自動的に適応するので、実用的なアプリケーションでの使用を動機付けます。

Discretization based approaches to solving online reinforcement learning problems have been studied extensively in practice on applications ranging from resource allocation to cache management. Two major questions in designing discretization-based algorithms are how to create the discretization and when to refine it. While there have been several experimental results investigating heuristic solutions to these questions, there has been little theoretical treatment. In this paper we provide a unified theoretical analysis of tree-based hierarchical partitioning methods for online reinforcement learning, providing model-free and model-based algorithms. We show how our algorithms are able to take advantage of inherent structure of the problem by providing guarantees that scale with respect to the 'zooming dimension' instead of the ambient dimension, an instance-dependent quantity measuring the benignness of the optimal $Q_h^\star$ function. Many applications in computing systems and operations research requires algorithms that compete on three facets: low sample complexity, mild storage requirements, and low computational burden. Our algorithms are easily adapted to operating constraints, and our theory provides explicit bounds across each of the three facets. This motivates its use in practical applications as our approach automatically adapts to underlying problem structure even when very little is known a priori about the system.
翻訳日:2021-11-01 14:20:54 公開日:2021-10-29
# ハイパーパラメータチューニングはlistaに必要なすべてです

Hyperparameter Tuning is All You Need for LISTA ( http://arxiv.org/abs/2110.15900v1 )

ライセンス: Link先を確認
Xiaohan Chen, Jialin Liu, Zhangyang Wang, Wotao Yin(参考訳) Learned Iterative Shrinkage-Thresholdi ng Algorithm (LISTA)は、反復アルゴリズムをアンロールしてニューラルネットワークのようにトレーニングするという概念を導入している。 緩やかな回復で大きな成功を収めた。 本稿では,listaネットワークの中間変数に運動量を加えることで,より優れた収束率を実現し,特にインスタンス最適パラメータを持つネットワークは超線形収束することを示す。 さらに,新しい理論結果から,前層に基づくlistaネットワーク層のパラメータを自動的かつ適応的に計算する実用的な手法が得られた。 おそらく最も驚くべきのは、このような適応パラメータ手順によって、データから3つのハイパーパラメータのみをチューニングできるlistaのトレーニングが削減されることだ。 この超軽量ネットワークをhyperlistaと呼んでいる。 最先端のLISTAモデルと比較して、HyperLISTAは、観測されたデータ分布でほぼ同じ性能を達成し、目に見えない分布(特に、空間レベルと非ゼロ等級の異なるもの)でテストした場合、より良い性能を発揮する。 コードはhttps://github.com/V ITA-Group/HyperLISTA .comで入手できる。

Learned Iterative Shrinkage-Thresholdi ng Algorithm (LISTA) introduces the concept of unrolling an iterative algorithm and training it like a neural network. It has had great success on sparse recovery. In this paper, we show that adding momentum to intermediate variables in the LISTA network achieves a better convergence rate and, in particular, the network with instance-optimal parameters is superlinearly convergent. Moreover, our new theoretical results lead to a practical approach of automatically and adaptively calculating the parameters of a LISTA network layer based on its previous layers. Perhaps most surprisingly, such an adaptive-parameter procedure reduces the training of LISTA to tuning only three hyperparameters from data: a new record set in the context of the recent advances on trimming down LISTA complexity. We call this new ultra-light weight network HyperLISTA. Compared to state-of-the-art LISTA models, HyperLISTA achieves almost the same performance on seen data distributions and performs better when tested on unseen distributions (specifically, those with different sparsity levels and nonzero magnitudes). Code is available: https://github.com/V ITA-Group/HyperLISTA .
翻訳日:2021-11-01 14:20:32 公開日:2021-10-29
# 潜在認識: 機械が本当に学ぶもの

Latent Cognizance: What Machine Really Learns ( http://arxiv.org/abs/2110.15548v1 )

ライセンス: Link先を確認
Pisit Nakjai and Jiradej Ponsawat and Tatpong Katanyukul(参考訳) 認識精度の圧倒的な向上にもかかわらず、オープンセット機能の拡張 -- 質問がスコープ外である場合の識別能力 - は、スケーラブルな機械学習推論において、依然として非常に困難である。 最近の研究により、Latent Cognizance (LC) は、新しい確率論的解釈に基づく認識機構、ベイズ定理、そして一般的に使用される認識推論構造の内部構造の解析に基づく知見である。 新しい解釈は、学習された推論モデル上で見過ごされた確率的条件の潜在的な仮定を強調する。 LCの可視性は手話認識のタスクで示されているが、その可能性と意味は特定のドメインをはるかに超え、オブジェクト認識をスケーラブルなオープンセット認識に移行することができる。 しかし,LCの新しい確率論的解釈は直接的に研究されていない。 本稿では,新しい解釈をトレーサブルな文脈で検討する。 本研究はLCの基盤となる理論的根拠を裏付け,学習分類推論の基盤となる隠蔽機構を明らかにする。 これらの発見の相違は、オープンセット認識に対する単純かつ効果的な解決策につながる可能性がある。

Despite overwhelming achievements in recognition accuracy, extending an open-set capability -- ability to identify when the question is out of scope -- remains greatly challenging in a scalable machine learning inference. A recent research has discovered Latent Cognizance (LC) -- an insight on a recognition mechanism based on a new probabilistic interpretation, Bayesian theorem, and an analysis of an internal structure of a commonly-used recognition inference structure. The new interpretation emphasizes a latent assumption of an overlooked probabilistic condition on a learned inference model. Viability of LC has been shown on a task of sign language recognition, but its potential and implication can reach far beyond a specific domain and can move object recognition toward a scalable open-set recognition. However, LC new probabilistic interpretation has not been directly investigated. This article investigates the new interpretation under a traceable context. Our findings support the rationale on which LC is based and reveal a hidden mechanism underlying the learning classification inference. The ramification of these findings could lead to a simple yet effective solution to an open-set recognition.
翻訳日:2021-11-01 14:18:45 公開日:2021-10-29
# 2次元畳み込みニューラルネットワークの鉄骨構造物の損傷検出への応用

Application of 2-D Convolutional Neural Networks for Damage Detection in Steel Frame Structures ( http://arxiv.org/abs/2110.15895v1 )

ライセンス: Link先を確認
Shahin Ghazvineh, Gholamreza Nouri, Seyed Hossein Hosseini Lavassani, Vahidreza Gharehbaghi, Andy Nguyen(参考訳) 本稿では,2次元畳み込みニューラルネットワーク (2-d cnn) を用いて,特徴抽出と分類の両段階を一つの生物として行うことにより,注目される問題を解決する。 この方法はディープではなくcnnのネットワークを使用し、生の加速度信号を入力として取り出す。 特定の要素に最適化されたライトアップされたCNNを使用することで、精度が向上し、ネットワークのパフォーマンスが向上する。 また、トレーニングフェーズに必要なデータを減らすための新しいフレームワークも提案されている。 本手法は,構造力学チームが提供するqatar university grandstand simulator (qugs)ベンチマークデータを用いて検証した。 その結果、他の手法よりも精度が向上し、リアルタイムアプリケーションには実行時間が十分であった。

In this paper, we present an application of 2-D convolutional neural networks (2-D CNNs) designed to perform both feature extraction and classification stages as a single organism to solve the highlighted problems. The method uses a network of lighted CNNs instead of deep and takes raw acceleration signals as input. Using lighted CNNs, in which every one of them is optimized for a specific element, increases the accuracy and makes the network faster to perform. Also, a new framework is proposed for decreasing the data required in the training phase. We verified our method on Qatar University Grandstand Simulator (QUGS) benchmark data provided by Structural Dynamics Team. The results showed improved accuracy over other methods, and running time was adequate for real-time applications.
翻訳日:2021-11-01 14:18:28 公開日:2021-10-29
# Aedes Albopictus 蚊の分類における不確実性の利用について

On the use of uncertainty in classifying Aedes Albopictus mosquitoes ( http://arxiv.org/abs/2110.15912v1 )

ライセンス: Link先を確認
Gereziher Adhane and Mohammad Mahdi Dehshibi and David Masip(参考訳) 毎年数十万人が死亡する蚊性疾患(MBD)の再発は、人口増加、移住、環境の変化によるものと考えられている。 コンボリューショナルニューラルネットワーク(CNN)は、モスキート・アラートなどのプロジェクトが提供する画像から蚊を認識し、MBDの同定、モニタリング、管理を支援するために、いくつかの研究で使用されている。 それでも、入力サンプルを自動的にラベル付けするためにCNNを利用するには、誤った予測が伴う可能性がある。 さらに、CNNは大量の手動アノテートデータを必要とする。 以上の課題に対処するため,本研究ではモンテカルロ・ドロップアウト法を用いて分類標本のランク付けを行い,アデデス・アルボピクトス蚊の認識における人為的監督の必要性を低減することを提案する。 推定された不確実性は、大規模なトレーニングセットのデータの一部を手動でラベル付けするアクティブな学習フレームワークでも使用された。 提案手法は, 総合的な性能向上と昆虫学者のアノテーション作業量削減により, 提案手法よりも優れていることを示す。 また,試料の不確実性評価に寄与する異なる領域の説明可能な可視化も提供する。

The re-emergence of mosquito-borne diseases (MBDs), which kill hundreds of thousands of people each year, has been attributed to increased human population, migration, and environmental changes. Convolutional neural networks (CNNs) have been used by several studies to recognise mosquitoes in images provided by projects such as Mosquito Alert to assist entomologists in identifying, monitoring, and managing MBD. Nonetheless, utilising CNNs to automatically label input samples could involve incorrect predictions, which may mislead future epidemiological studies. Furthermore, CNNs require large numbers of manually annotated data. In order to address the mentioned issues, this paper proposes using the Monte Carlo Dropout method to estimate the uncertainty scores in order to rank the classified samples to reduce the need for human supervision in recognising Aedes albopictus mosquitoes. The estimated uncertainty was also used in an active learning framework, where just a portion of the data from large training sets was manually labelled. The experimental results show that the proposed classification method with rejection outperforms the competing methods by improving overall performance and reducing entomologist annotation workload. We also provide explainable visualisations of the different regions that contribute to a set of samples' uncertainty assessment.
翻訳日:2021-11-01 14:18:17 公開日:2021-10-29
# Aedes albopictus 蚊の分類のための深層畳み込みニューラルネットワーク

A deep convolutional neural network for classification of Aedes albopictus mosquitoes ( http://arxiv.org/abs/2110.15956v1 )

ライセンス: Link先を確認
Gereziher Adhane and Mohammad Mahdi Dehshibi and David Masip(参考訳) 蚊の感染拡大をモニターすることはデング、チクングニャ、ジカ熱、黄熱といった重篤な病気を制御するための第一歩であり、必要なステップである。 従来の市民科学プロジェクトは、地理的追跡情報をリンクした大規模な画像データセットを得ることができた。 国際協力者の数が増えるにつれて、これらの利用者が収集した大量のデータに関する専門家昆虫学者による手作業による注釈は時間がかかりすぎるため、画像から蚊を自動分類する必要性が高まっている。 本稿では,2つのDeep Convolutional Neural Networksを,この分類タスクを自動化するための比較研究に適用する。 本研究は,蚊の警告プロジェクトによるデータに基づく2つの最先端アーキテクチャをトレーニングするために,トランスファー学習の原則を用いて94%の精度を得る。 さらにgrad-camアルゴリズムに基づく説明可能なモデルを用いて,アエデス・アルボピクトゥスの蚊の脚部,腹部,胸部に位置する白色帯と一致する分類画像の識別領域を可視化した。 このモデルにより、分類エラーを解析することができる。 Visual Grad-CAMモデルは、取得条件の粗悪さと画像の強い閉塞に関連していることを示している。

Monitoring the spread of disease-carrying mosquitoes is a first and necessary step to control severe diseases such as dengue, chikungunya, Zika or yellow fever. Previous citizen science projects have been able to obtain large image datasets with linked geo-tracking information. As the number of international collaborators grows, the manual annotation by expert entomologists of the large amount of data gathered by these users becomes too time demanding and unscalable, posing a strong need for automated classification of mosquito species from images. We introduce the application of two Deep Convolutional Neural Networks in a comparative study to automate this classification task. We use the transfer learning principle to train two state-of-the-art architectures on the data provided by the Mosquito Alert project, obtaining testing accuracy of 94%. In addition, we applied explainable models based on the Grad-CAM algorithm to visualise the most discriminant regions of the classified images, which coincide with the white band stripes located at the legs, abdomen, and thorax of mosquitoes of the Aedes albopictus species. The model allows us to further analyse the classification errors. Visual Grad-CAM models show that they are linked to poor acquisition conditions and strong image occlusions.
翻訳日:2021-11-01 14:17:53 公開日:2021-10-29
# 3次元医用画像分割のためのDeep Learning Hyperparameter Tuning

Distributing Deep Learning Hyperparameter Tuning for 3D Medical Image Segmentation ( http://arxiv.org/abs/2110.15884v1 )

ライセンス: Link先を確認
Josep Lluis Berral, Oriol Aranda, Juan Luis Dominguez, Jordi Torres(参考訳) 3Dメディカルイメージセグメンテーション(MIS)のための新しい技術に関する研究は、現在、Deep LearningとGPUアクセラレータを使って行われている。 このような技術の主な課題は、単一の入力が計算資源に容易に対応でき、処理に不当な時間を要することである。 コンピューティングデバイス上でのディープラーニングとスケーラビリティの分散は、そのような研究分野の進展に実際に必要である。 従来のニューラルネットワークの分散はデータ並列性で構成され、モデルのトレーニングを並列化するリソース(GPUなど)にデータが分散される。 しかし、実験の並列性も選択肢であり、異なるトレーニングプロセスがリソース間で並列化される。 第1の選択肢は3dイメージのセグメンテーションでより一般的だが、第2の選択肢は並列化プロセス間の依存性が少なく、オーバーヘッド削減とスケーラビリティ向上を可能にするパイプライン設計を提供する。 本稿では,分散ディープラーニングトレーニングパイプラインの設計について紹介する。マルチノードとマルチGPU環境に着目し,2つの異なる分散アプローチのデプロイとベンチマークを行う。 我々は,MSD脳腫瘍セグメンテーションデータセットを用いた3次元U-Netアーキテクチャの概念実証として,高計算と空間要求を伴う医用画像セグメンテーションの最先端問題である。 BSC MareNostrumスーパーコンピュータをベンチマーク環境として使用し、ニューラルネットワークのトレーニングと実験分散プラットフォームとしてTensorFlowとRayを使用する。 実験のスピードアップを評価し,GPUやノード上でのスケールアウトの可能性を示す。 また、異なる並列性技術を比較して、実験分布がスケーリングを通じてより優れたリソースをどのように活用するかを示した。 最後に、コミュニティにオープンなデザインの実装と、このMISケースを適応・展開するための非自明な手順と方法論を提示する。

Most research on novel techniques for 3D Medical Image Segmentation (MIS) is currently done using Deep Learning with GPU accelerators. The principal challenge of such technique is that a single input can easily cope computing resources, and require prohibitive amounts of time to be processed. Distribution of deep learning and scalability over computing devices is an actual need for progressing on such research field. Conventional distribution of neural networks consist in data parallelism, where data is scattered over resources (e.g., GPUs) to parallelize the training of the model. However, experiment parallelism is also an option, where different training processes are parallelized across resources. While the first option is much more common on 3D image segmentation, the second provides a pipeline design with less dependence among parallelized processes, allowing overhead reduction and more potential scalability. In this work we present a design for distributed deep learning training pipelines, focusing on multi-node and multi-GPU environments, where the two different distribution approaches are deployed and benchmarked. We take as proof of concept the 3D U-Net architecture, using the MSD Brain Tumor Segmentation dataset, a state-of-art problem in medical image segmentation with high computing and space requirements. Using the BSC MareNostrum supercomputer as benchmarking environment, we use TensorFlow and Ray as neural network training and experiment distribution platforms. We evaluate the experiment speed-up, showing the potential for scaling out on GPUs and nodes. Also comparing the different parallelism techniques, showing how experiment distribution leverages better such resources through scaling. Finally, we provide the implementation of the design open to the community, and the non-trivial steps and methodology for adapting and deploying a MIS case as the here presented.
翻訳日:2021-11-01 14:17:05 公開日:2021-10-29
# ワッサースタイン距離による領域適応におけるラベルシフトについて

On Label Shift in Domain Adaptation via Wasserstein Distance ( http://arxiv.org/abs/2110.15520v1 )

ライセンス: Link先を確認
Trung Le and Dat Do and Tuan Nguyen and Huy Nguyen and Hung Bui and Nhat Ho and Dinh Phung(参考訳) 汎用ドメイン適応(DA)設定におけるソースとターゲットドメイン間のラベルシフト問題について検討する。 我々は、ターゲットをソースドメインに転送する変換を検討し、ソースとターゲットの例を整列できるようにします。 これらの変換を通じて、最適なトランスポートを通じて2つのドメイン間のラベルシフトを定義し、様々なda設定(例えば、クローズドセット、部分セット、オープンセット、ユニバーサルセッティング)におけるdaの特性を調べる理論を発展させる。 開発した理論から着想を得て,データとラベルのシフトを同時に緩和する最適輸送(LDROT)によるラベルとデータシフト削減を提案する。 最後に,我々の理論的知見を検証し,LDROTと最先端のベースラインを比較した総合的な実験を行った。

We study the label shift problem between the source and target domains in general domain adaptation (DA) settings. We consider transformations transporting the target to source domains, which enable us to align the source and target examples. Through those transformations, we define the label shift between two domains via optimal transport and develop theory to investigate the properties of DA under various DA settings (e.g., closed-set, partial-set, open-set, and universal settings). Inspired from the developed theory, we propose Label and Data Shift Reduction via Optimal Transport (LDROT) which can mitigate the data and label shifts simultaneously. Finally, we conduct comprehensive experiments to verify our theoretical findings and compare LDROT with state-of-the-art baselines.
翻訳日:2021-11-01 14:15:15 公開日:2021-10-29
# 確率ゲートを用いた支援:理論と線形モデルへの応用

Support Recovery with Stochastic Gates: Theory and Application for Linear Models ( http://arxiv.org/abs/2110.15960v1 )

ライセンス: Link先を確認
Soham Jana, Henry Li, Yutaro Yamada, Ofir Lindenbaum(参考訳) 本研究では,独立かつ同一に分布する正規誤差を持つ線形モデルにおいて,係数ベクトル(\beta^*$)の同時回復と推定の問題を解析する。 確率ゲート(stg)[ylnk20]の非線形ペナルティに基づいて、ペナルテッド最小二乗推定器$\beta^*$を適用して係数を推定する。 ガウス設計行列を考えると、stgベースの推定器は、次元および$\beta^*$の妥当な条件下で真のデータ生成係数ベクトルに収束し、その支持集合を高い確率で検出する。 一般非線形モデル用に設計された既存のSTG推定器を改善するために,線形モデル設定のための新しいプロジェクションベースアルゴリズムを提案する。 提案手法は,合成データ解析におけるスパースサポートのリカバリにおいて,多くの古典的推定器に勝る。

We analyze the problem of simultaneous support recovery and estimation of the coefficient vector ($\beta^*$) in a linear model with independent and identically distributed Normal errors. We apply the penalised least square estimator of $\beta^*$ based on non-linear penalties of stochastic gates (STG) [YLNK20] to estimate the coefficients. Considering Gaussian design matrices we show that under reasonable conditions on dimension and sparsity of $\beta^*$ the STG based estimator converges to the true data generating coefficient vector and also detects its support set with high probability. We propose a new projection based algorithm for the linear models setup to improve upon the existing STG estimator that was originally designed for general non-linear models. Our new procedure outperforms many classical estimators for sparse support recovery in synthetic data analysis.
翻訳日:2021-11-01 14:15:01 公開日:2021-10-29
# オンライン学習における最適政策評価のための二重ロバスト区間推定

Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning ( http://arxiv.org/abs/2110.15501v1 )

ライセンス: Link先を確認
Hengrui Cai, Ye Shen, Rui Song(参考訳) 継続的な政策の評価は、オンライン実験の早期停止と環境からのタイムリーなフィードバックに関する重要な指導を提供するため、医学や経済学など多くの分野において重要な役割を果たす。 オンライン学習における政策評価は、最適政策(すなわち、その価値)の平均的な結果をリアルタイムで推測することによって、注目を集める。 しかし、オンライン環境で生成された依存データ、未知の最適方針、適応実験における複雑な探索と搾取のトレードオフなどにより、このような問題は特に困難である。 本稿では,オンライン学習における政策評価の難しさを克服することを目的とする。 一般に用いられるバンディットアルゴリズムの下での非最適動作を探索する確率を定量化する探索の確率を明示的に導出する。 この確率を用いて,オンライン条件付平均推定器の有効推定を行い,オンライン学習における推定最適方針に基づく値を推定する2倍ロバスト区間推定(dream)法を開発した。 提案した値推定器は、一貫性を二重に保護し、ウォルド型信頼区間を設けた漸近的に正常である。 提案手法の実証的妥当性を示すため, 大規模シミュレーションと実データ応用を行った。

Evaluating the performance of an ongoing policy plays a vital role in many areas such as medicine and economics, to provide crucial instruction on the early-stop of the online experiment and timely feedback from the environment. Policy evaluation in online learning thus attracts increasing attention by inferring the mean outcome of the optimal policy (i.e., the value) in real-time. Yet, such a problem is particularly challenging due to the dependent data generated in the online environment, the unknown optimal policy, and the complex exploration and exploitation trade-off in the adaptive experiment. In this paper, we aim to overcome these difficulties in policy evaluation for online learning. We explicitly derive the probability of exploration that quantifies the probability of exploring the non-optimal actions under commonly used bandit algorithms. We use this probability to conduct valid inference on the online conditional mean estimator under each action and develop the doubly robust interval estimation (DREAM) method to infer the value under the estimated optimal policy in online learning. The proposed value estimator provides double protection on the consistency and is asymptotically normal with a Wald-type confidence interval provided. Extensive simulations and real data applications are conducted to demonstrate the empirical validity of the proposed DREAM method.
翻訳日:2021-11-01 14:14:44 公開日:2021-10-29
# 遷移型AMR解析のためのシーケンス・ツー・シーケンス・トランスの微調整

Structure-aware Fine-tuning of Sequence-to-sequence Transformers for Transition-based AMR Parsing ( http://arxiv.org/abs/2110.15534v1 )

ライセンス: Link先を確認
Jiawei Zhou, Tahira Naseem, Ram\'on Fernandez Astudillo, Young-Suk Lee, Radu Florian, Salim Roukos(参考訳) 事前学習されたシーケンス-シーケンス変換モデルを用いた線形化抽象意味表現(amr)グラフの予測は、最近amr解析ベンチマークを大幅に改善した。 これらのパーサーは単純であり、構造を明示的にモデル化するのを避けるが、グラフ well-formedness guarantees や組み込みのgraph-sentenceアライメントのような望ましい性質を欠いている。 本研究では,事前学習されたシーケンス・ツー・シーケンス言語モデルと構造認識型トランジッション・ベース・アプローチの統合について検討する。 我々は、ポインタベースのトランジションシステムから離れ、構造化微調整のための事前学習言語モデルをよりよく活用するために、単純化されたトランジションセットを提案する。 また,事前学習したエンコーダデコーダアーキテクチャのパーサ状態と,同じ目的で異なる語彙戦略のモデル化についても検討する。 本稿では,AMR解析の最近の進歩を詳細に比較し,グラフ再分類を必要とせず,従来の遷移解析手法の望ましい特性を維持しつつ,AMR 2.0技術の新しい解析状態に到達したことを示す。

Predicting linearized Abstract Meaning Representation (AMR) graphs using pre-trained sequence-to-sequence Transformer models has recently led to large improvements on AMR parsing benchmarks. These parsers are simple and avoid explicit modeling of structure but lack desirable properties such as graph well-formedness guarantees or built-in graph-sentence alignments. In this work we explore the integration of general pre-trained sequence-to-sequence language models and a structure-aware transition-based approach. We depart from a pointer-based transition system and propose a simplified transition set, designed to better exploit pre-trained language models for structured fine-tuning. We also explore modeling the parser state within the pre-trained encoder-decoder architecture and different vocabulary strategies for the same purpose. We provide a detailed comparison with recent progress in AMR parsing and show that the proposed parser retains the desirable properties of previous transition-based approaches, while being simpler and reaching the new parsing state of the art for AMR 2.0, without the need for graph re-categorization.
翻訳日:2021-11-01 14:14:22 公開日:2021-10-29
# 対話状態追跡のための修正可能生成

Amendable Generation for Dialogue State Tracking ( http://arxiv.org/abs/2110.15659v1 )

ライセンス: Link先を確認
Xin Tian, Liankai Huang, Yingzhan Lin, Siqi Bao, Huang He, Yunyi Yang, Hua Wu, Fan Wang, Shuqi Sun(参考訳) タスク指向対話システムでは、最近の対話状態追跡手法は、前の対話状態に基づいて対話状態のワンパス生成を行う傾向がある。 これらのモデルの現在のターンでの誤りは次のターンに渡される傾向があり、エラーの伝播を引き起こす。 本稿では,(1)現在と前の対話状態の対話に基づいて原始対話状態を生成すること,(2)第一パスから原始対話状態を更新すること,という2パス生成プロセスを含む,新たな対話状態追跡のための修正可能な世代を提案する。 追加の更新生成パスでは、プリミティブな対話状態にあるエラーを補正することで、より堅牢な対話状態追跡を学習し、二重チェックプロセスにおけるリバイザの役割を担い、不要なエラーの伝播を軽減する。 実験の結果、AG-DSTは2つのアクティブDSTデータセット(MultiWOZ 2.2 と WOZ 2.0)で過去の成果を著しく上回り、新しい最先端の性能を達成した。

In task-oriented dialogue systems, recent dialogue state tracking methods tend to perform one-pass generation of the dialogue state based on the previous dialogue state. The mistakes of these models made at the current turn are prone to be carried over to the next turn, causing error propagation. In this paper, we propose a novel Amendable Generation for Dialogue State Tracking (AG-DST), which contains a two-pass generation process: (1) generating a primitive dialogue state based on the dialogue of the current turn and the previous dialogue state, and (2) amending the primitive dialogue state from the first pass. With the additional amending generation pass, our model is tasked to learn more robust dialogue state tracking by amending the errors that still exist in the primitive dialogue state, which plays the role of reviser in the double-checking process and alleviates unnecessary error propagation. Experimental results show that AG-DST significantly outperforms previous works in two active DST datasets (MultiWOZ 2.2 and WOZ 2.0), achieving new state-of-the-art performances.
翻訳日:2021-11-01 14:14:02 公開日:2021-10-29
# マルチモーダルehrデータを医療予測に活用するにはどうすればよいか?

How to Leverage Multimodal EHR Data for Better Medical Predictions? ( http://arxiv.org/abs/2110.15763v1 )

ライセンス: Link先を確認
Bo Yang, Lijun Wu(参考訳) 医療は最近ますます重要な研究テーマになりつつある。 医療分野のデータの増加に伴い、深層学習が医療サービスの質を向上させる絶好の機会を提供する。 しかし、電子健康記録(ehr)データの複雑さは、ディープラーニングの適用における課題である。 具体的には、入院時に生成されたデータは、毎日の体温などの構造化データと、自由テキストや実験室の測定のような非構造化データを含むEHRシステムによって監視される。 特定のERHデータに対していくつかの事前処理フレームワークが提案されているが、重要な臨床的価値を含む臨床ノートは、その考慮の範囲を超えている。 さらに、様々な視点から異なるデータが医療業務に有用であるかどうか、これらのデータを最大限に活用する方法は、まだ不明である。 そこで本研究では,まずEHRから臨床ノートを抽出し,これらのデータを統合する手法を提案するとともに,医療タスク予測の精度を高めるために,異なるモデルとデータレバレッジ手法を包括的に研究する。 2つの医療予測タスクの結果, 異なるデータを持つ融合モデルが, 臨床ノートのない最先端法よりも優れており, 融合法の重要性と臨床ノートの特徴の重要性が示されている。 私たちのコードはhttps: //github.com/emnlp-m imic/mimicで利用可能です。

Healthcare is becoming a more and more important research topic recently. With the growing data in the healthcare domain, it offers a great opportunity for deep learning to improve the quality of medical service. However, the complexity of electronic health records (EHR) data is a challenge for the application of deep learning. Specifically, the data produced in the hospital admissions are monitored by the EHR system, which includes structured data like daily body temperature, and unstructured data like free text and laboratory measurements. Although there are some preprocessing frameworks proposed for specific EHR data, the clinical notes that contain significant clinical value are beyond the realm of their consideration. Besides, whether these different data from various views are all beneficial to the medical tasks and how to best utilize these data remain unclear. Therefore, in this paper, we first extract the accompanying clinical notes from EHR and propose a method to integrate these data, we also comprehensively study the different models and the data leverage methods for better medical task prediction. The results on two medical prediction tasks show that our fused model with different data outperforms the state-of-the-art method that without clinical notes, which illustrates the importance of our fusion method and the value of clinical note features. Our code is available at https: //github.com/emnlp-m imic/mimic.
翻訳日:2021-11-01 14:13:42 公開日:2021-10-29
# 知識グラフ埋め込みを用いたパス強化多関係質問応答

Path-Enhanced Multi-Relational Question Answering with Knowledge Graph Embeddings ( http://arxiv.org/abs/2110.15622v1 )

ライセンス: Link先を確認
Guanglin Niu, Yang Li, Chengguang Tang, Zhongkai Hu, Shibin Yang, Peng Li, Chengyu Wang, Hao Wang, Jian Sun(参考訳) KBQA (Multi-relational Knowledge Base Question Answering) システムは,知識グラフ (KG) 上でマルチホップ推論を行い,その解を求める。 近年のアプローチでは,KGの不完全性を扱う知識グラフ埋め込み(KGE)技術の導入が試みられているが,三つの事実のみを考慮し,経路と多関係質問の有意な意味的相関を無視している。 本稿では,kkg内の実体間のマルチホップ経路を利用して,経路埋め込みと多関係質問埋め込みのあいまいな相関をカスタマイズ可能な経路表現機構を通じて評価し,三重事実と余剰経路の両方の観点からより正確な回答を得るための方法と知識埋め込み型多関係質問応答モデル(pkeeqa)を提案する。 実験結果から,PKEEQAは多関係質問に対するKBQAモデルの性能を,経路からある程度の解答率で改善することを示した。

The multi-relational Knowledge Base Question Answering (KBQA) system performs multi-hop reasoning over the knowledge graph (KG) to achieve the answer. Recent approaches attempt to introduce the knowledge graph embedding (KGE) technique to handle the KG incompleteness but only consider the triple facts and neglect the significant semantic correlation between paths and multi-relational questions. In this paper, we propose a Path and Knowledge Embedding-Enhanced multi-relational Question Answering model (PKEEQA), which leverages multi-hop paths between entities in the KG to evaluate the ambipolar correlation between a path embedding and a multi-relational question embedding via a customizable path representation mechanism, benefiting for achieving more accurate answers from the perspective of both the triple facts and the extra paths. Experimental results illustrate that PKEEQA improves KBQA models' performance for multi-relational question answering with explainability to some extent derived from paths.
翻訳日:2021-11-01 13:42:59 公開日:2021-10-29
# メカニズムからの特質:同一性表現学習における等分散的視点

Properties from Mechanisms: An Equivariance Perspective on Identifiable Representation Learning ( http://arxiv.org/abs/2110.15796v1 )

ライセンス: Link先を確認
Kartik Ahuja, Jason Hartford, Yoshua Bengio(参考訳) 教師なし表現学習の鍵となるゴールは、データ生成プロセスが潜在プロパティを回復するために「反転」することである。 この目的を確実に達成する既存の作業は、潜伏変数間の関係(例えば補助情報に基づく独立条件)に関する強い仮定に依存する。 本稿では,問題に対する考え方をまったく異なるものにし,「進化を支配するメカニズムの知識を活用して,潜伏特性を識別するのか?」と問う。 我々は、可能な一連のメカニズムに関する知識が異なるため、非識別可能性の源の完全な特徴付けを提供する。 特に、潜在性が進化する正確なメカニズムを知っていれば、基礎となるメカニズムによって共有される任意の同値性まで識別することができることが証明される。 この特徴を、可能なメカニズム上の仮説クラスのみを知っている設定と、そのメカニズムが確率的である設定に一般化します。 我々は,このメカニズムに基づく視点の力を実演し,既存の識別可能な表現学習結果を一般化できることを示す。 これらの結果は,メカニズムの帰納的バイアスを利用して,新しい表現学習手法を設計できることを示唆している。

A key goal of unsupervised representation learning is "inverting" a data generating process to recover its latent properties. Existing work that provably achieves this goal relies on strong assumptions on relationships between the latent variables (e.g., independence conditional on auxiliary information). In this paper, we take a very different perspective on the problem and ask, "Can we instead identify latent properties by leveraging knowledge of the mechanisms that govern their evolution?" We provide a complete characterization of the sources of non-identifiability as we vary knowledge about a set of possible mechanisms. In particular, we prove that if we know the exact mechanisms under which the latent properties evolve, then identification can be achieved up to any equivariances that are shared by the underlying mechanisms. We generalize this characterization to settings where we only know some hypothesis class over possible mechanisms, as well as settings where the mechanisms are stochastic. We demonstrate the power of this mechanism-based perspective by showing that we can leverage our results to generalize existing identifiable representation learning results. These results suggest that by exploiting inductive biases on mechanisms, it is possible to design a range of new identifiable representation learning approaches.
翻訳日:2021-11-01 13:42:15 公開日:2021-10-29
# 正規化流れのサンプルベース分布

Resampling Base Distributions of Normalizing Flows ( http://arxiv.org/abs/2110.15828v1 )

ライセンス: Link先を確認
Vincent Stimper, Bernhard Sch\"olkopf, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 正規化フローは確率分布を近似する一般的なモデルのクラスである。 しかし、それらの可逆性はボルツマン分布のような複雑な位相構造を持つ対象分布をモデル化する能力を制限する。 この問題を解決するためにいくつかの手順が提案されているが、その多くが可逆性を犠牲にして、ログライクリッドのトラクタビリティと他の望ましい性質を犠牲にしている。 これらの制限に対処するために,学習された拒絶サンプリングに基づく流れの正規化のためのベース分布を導入し,結果として生じる正規化フローを単射性を諦めずに複雑な位相をモデル化できるようにする。 さらに,2次元密度近似,表データ密度推定,画像生成,ボルツマン分布のモデル化といった様々なサンプル問題に対して,ログライク度最大化と逆カルバック・リーバー分岐の最適化を併用した適切な学習アルゴリズムを開発した。 これらの実験では,本手法はベースラインの競争力や性能に優れる。

Normalizing flows are a popular class of models for approximating probability distributions. However, their invertible nature limits their ability to model target distributions with a complex topological structure, such as Boltzmann distributions. Several procedures have been proposed to solve this problem but many of them sacrifice invertibility and, thereby, tractability of the log-likelihood as well as other desirable properties. To address these limitations, we introduce a base distribution for normalizing flows based on learned rejection sampling, allowing the resulting normalizing flow to model complex topologies without giving up bijectivity. Furthermore, we develop suitable learning algorithms using both maximizing the log-likelihood and the optimization of the reverse Kullback-Leibler divergence, and apply them to various sample problems, i.e.\ approximating 2D densities, density estimation of tabular data, image generation, and modeling Boltzmann distributions. In these experiments our method is competitive with or outperforms the baselines.
翻訳日:2021-11-01 13:41:56 公開日:2021-10-29
# ペアワイズマスク言語モデルによる共進化タンパク質の事前学習

Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model ( http://arxiv.org/abs/2110.15527v1 )

ライセンス: Link先を確認
Liang He, Shizhuo Zhang, Lijun Wu, Huanhuan Xia, Fusong Ju, He Zhang, Siyuan Liu, Yingce Xia, Jianwei Zhu, Pan Deng, Bin Shao, Tao Qin, Tie-Yan Liu(参考訳) タンパク質配列を理解することは、生物学、医療、医学にとって不可欠かつ緊急である。 ラベル付きアプローチは高価だが時間がかかり、ラベル付きデータの量は、低コストで高スループットなシークエンシングメソッドによってラベル付きデータよりもかなり速くなっている。 これらのラベルのないデータから知識を抽出するために、表現学習はタンパク質関連タスクにとって重要な価値があり、タンパク質の機能や構造についてより深く学ぶのに役立つ可能性がある。 タンパク質配列表現学習における鍵となる問題は、配列内のresidue co-variationによって反映される共進化情報を捉えることである。 そこで本研究では,複数のシーケンスアライメントを利用する代わりに,専用言語モデル(ペアワイズマスキング言語モデル(pmlm))による事前学習により,その情報を直接取得する新しい手法を提案する。 従来のマスク付き言語モデルでは、マスク付きトークンは、マスクなしトークンのみを条件付けすることでモデル化されるが、互いに独立して処理される。 しかし,提案するpmlmは,マスクされたトークン間の依存性,すなわちトークン対の確率は2つのトークンの確率の積と等しくないことを考慮に入れる。 このモデルを適用することで、プリトレーニングされたエンコーダは、タンパク質配列のより良い表現を生成することができる。 提案手法は, 同一条件下でのMLMベースラインと比較して, 残差相関を効果的に把握し, 接触予測性能を最大9%向上できることを示す。 提案モデルはまた,MSA が生成するシーケンスデータベースのサブセット上で事前学習を行った場合,TAPE 接触予測ベンチマークで MSA ベースラインを7% 以上上回り,MSA ベースメソッドを概ね上回るシーケンス事前学習手法の可能性を明らかにする。

Understanding protein sequences is vital and urgent for biology, healthcare, and medicine. Labeling approaches are expensive yet time-consuming, while the amount of unlabeled data is increasing quite faster than that of the labeled data due to low-cost, high-throughput sequencing methods. In order to extract knowledge from these unlabeled data, representation learning is of significant value for protein-related tasks and has great potential for helping us learn more about protein functions and structures. The key problem in the protein sequence representation learning is to capture the co-evolutionary information reflected by the inter-residue co-variation in the sequences. Instead of leveraging multiple sequence alignment as is usually done, we propose a novel method to capture this information directly by pre-training via a dedicated language model, i.e., Pairwise Masked Language Model (PMLM). In a conventional masked language model, the masked tokens are modeled by conditioning on the unmasked tokens only, but processed independently to each other. However, our proposed PMLM takes the dependency among masked tokens into consideration, i.e., the probability of a token pair is not equal to the product of the probability of the two tokens. By applying this model, the pre-trained encoder is able to generate a better representation for protein sequences. Our result shows that the proposed method can effectively capture the inter-residue correlations and improves the performance of contact prediction by up to 9% compared to the MLM baseline under the same setting. The proposed model also significantly outperforms the MSA baseline by more than 7% on the TAPE contact prediction benchmark when pre-trained on a subset of the sequence database which the MSA is generated from, revealing the potential of the sequence pre-training method to surpass MSA based methods in general.
翻訳日:2021-11-01 13:41:40 公開日:2021-10-29
# Handshakes AI Research at Case 2021 Task 1: Exploring different approach for multilingual task

Handshakes AI Research at CASE 2021 Task 1: Exploring different approaches for multilingual tasks ( http://arxiv.org/abs/2110.15599v1 )

ライセンス: Link先を確認
Vivek Kalyan and Paul Tan and Shaun Tan and Martin Andrews(参考訳) 2021年のケース共有タスク1(h\"urriyeto\u{g}lu et al., 2021)の目的は、文書、文、クロスセンス、トークンレベルでの社会-政治的および危機的事象情報を多言語環境で検出・分類することであり、各サブタスクは各テスト言語で別々に評価される。 タスクの多言語的側面を取り入れるべきであり、モデリングとトレーニングのレジームは、異なる言語を別々に扱うのではなく、タスクの多言語的性質を相互に利益のために利用するべきである。 私たちのコードはhttps://github.com/H andshakesByDC/case20 21/で利用可能です。

The aim of the CASE 2021 Shared Task 1 (H\"urriyeto\u{g}lu et al., 2021) was to detect and classify socio-political and crisis event information at document, sentence, cross-sentence, and token levels in a multilingual setting, with each of these subtasks being evaluated separately in each test language. Our submission contained entries in all of the subtasks, and the scores obtained validated our research finding: That the multilingual aspect of the tasks should be embraced, so that modeling and training regimes use the multilingual nature of the tasks to their mutual benefit, rather than trying to tackle the different languages separately. Our code is available at https://github.com/H andshakesByDC/case20 21/
翻訳日:2021-11-01 13:41:07 公開日:2021-10-29
# 注意を伴う視覚的キーワードスポッティング

Visual Keyword Spotting with Attention ( http://arxiv.org/abs/2110.15957v1 )

ライセンス: Link先を確認
K R Prajwal, Liliane Momeni, Triantafyllos Afouras, Andrew Zisserman(参考訳) 本稿では,視覚的キーワードスポッティングとして知られるサイレントビデオシーケンス中の音声キーワードをスポッティングする作業について考察する。 そこで本研究では,映像の視覚的符号化とキーワードの音声符号化の2つのストリームを取り込み,キーワードの時間的位置を出力するトランスフォーマティブモデルについて検討する。 Our contributions are as follows: (1) We propose a novel architecture, the Transpotter, that uses full cross-modal attention between the visual and phonetic streams; (2) We show through extensive evaluations that our model outperforms the prior state-of-the-art visual keyword spotting and lip reading methods on the challenging LRW, LRS2, LRS3 datasets by a large margin; (3) We demonstrate the ability of our model to spot words under the extreme conditions of isolated mouthings in sign language videos.

In this paper, we consider the task of spotting spoken keywords in silent video sequences -- also known as visual keyword spotting. To this end, we investigate Transformer-based models that ingest two streams, a visual encoding of the video and a phonetic encoding of the keyword, and output the temporal location of the keyword if present. Our contributions are as follows: (1) We propose a novel architecture, the Transpotter, that uses full cross-modal attention between the visual and phonetic streams; (2) We show through extensive evaluations that our model outperforms the prior state-of-the-art visual keyword spotting and lip reading methods on the challenging LRW, LRS2, LRS3 datasets by a large margin; (3) We demonstrate the ability of our model to spot words under the extreme conditions of isolated mouthings in sign language videos.
翻訳日:2021-11-01 13:39:39 公開日:2021-10-29
# PEDENet:パッチ埋め込みと密度推定による画像異常位置推定

PEDENet: Image Anomaly Localization via Patch Embedding and Density Estimation ( http://arxiv.org/abs/2110.15525v1 )

ライセンス: Link先を確認
Kaitai Zhang, Bin Wang, C.-C. Jay Kuo(参考訳) 本研究は,pedenetと呼ばれる教師なし画像異常局在をターゲットとしたニューラルネットワークを提案する。 PEDENetには、パッチ埋め込み(PE)ネットワーク、密度推定(DE)ネットワーク、位置予測(LP)ネットワークと呼ばれる補助ネットワークが含まれる。 PEネットワークは、ローカルイメージパッチを入力として、次元削減を行い、ディープエンコーダ構造を介して低次元パッチ埋め込みを得る。 ガウス混合モデル(GMM)にインスパイアされたDEMネットワークは、これらのパッチを埋め込み、埋め込みパッチのクラスタメンバシップを予測する。 会員確率の合計は、学習過程を導くために損失項として使用される。 LPネットワークはMLP(Multi-layer Perception)であり、隣接する2つのパッチからの埋め込みを入力として、相対的な位置を予測する。 提案するPEDENetの性能を概ね評価し,最先端手法とベンチマークした。

A neural network targeting at unsupervised image anomaly localization, called the PEDENet, is proposed in this work. PEDENet contains a patch embedding (PE) network, a density estimation (DE) network, and an auxiliary network called the location prediction (LP) network. The PE network takes local image patches as input and performs dimension reduction to get low-dimensional patch embeddings via a deep encoder structure. Being inspired by the Gaussian Mixture Model (GMM), the DE network takes those patch embeddings and then predicts the cluster membership of an embedded patch. The sum of membership probabilities is used as a loss term to guide the learning process. The LP network is a Multi-layer Perception (MLP), which takes embeddings from two neighboring patches as input and predicts their relative location. The performance of the proposed PEDENet is evaluated extensively and benchmarked with that of state-of-the-art methods.
翻訳日:2021-11-01 13:39:25 公開日:2021-10-29
# LiDAR点雲分割における偽陽性検出と予測品質推定

False Positive Detection and Prediction Quality Estimation for LiDAR Point Cloud Segmentation ( http://arxiv.org/abs/2110.15681v1 )

ライセンス: Link先を確認
Pascal Colling, Matthias Rottmann, Lutz Roese-Koerner, Hanno Gottschalk(参考訳) 本稿では,lidarポイントクラウドデータのセマンティクスセグメンテーションのための新しい後処理ツールであるlidarmetasegを提案する。 この目的のために,ネットワーク確率出力に基づく分散測度と,ポイントクラウド入力機能に基づく特徴尺度を計算し,セグメントレベルで集計する。 これらの集約測度は、予測されたセグメントが偽陽性であるか否かを予測するためのメタ分類モデルと、結合上のセグメント毎の交差点を予測するメタ回帰モデルに使用される。 どちらのモデルも、基礎的真理を知らずに意味的セグメンテーション推論に適用できる。 実験では、異なるLiDARセグメンテーションモデルとデータセットを使用し、手法のパワーを分析する。 結果が他の標準アプローチよりも優れていることを示す。

We present a novel post-processing tool for semantic segmentation of LiDAR point cloud data, called LidarMetaSeg, which estimates the prediction quality segmentwise. For this purpose we compute dispersion measures based on network probability outputs as well as feature measures based on point cloud input features and aggregate them on segment level. These aggregated measures are used to train a meta classification model to predict whether a predicted segment is a false positive or not and a meta regression model to predict the segmentwise intersection over union. Both models can then be applied to semantic segmentation inferences without knowing the ground truth. In our experiments we use different LiDAR segmentation models and datasets and analyze the power of our method. We show that our results outperform other standard approaches.
翻訳日:2021-11-01 13:39:09 公開日:2021-10-29
# 食品ログ埋め込みによる個人食嗜好の学習

Learning Personal Food Preferences via Food Logs Embedding ( http://arxiv.org/abs/2110.15498v1 )

ライセンス: Link先を確認
Ahmed A. Metwally, Ariel K. Leong, Aman Desai, Anvith Nagarjuna, Dalia Perelman, Michael Snyder(参考訳) 糖尿病などの慢性疾患の管理には食事管理が重要である。 自動食品推薦システムは、ユーザの栄養目標と食物嗜好に合致した食事推薦を提供することで支援することができる。 現在のレコメンデーションシステムは、食べ物の嗜好に関する知識の欠如、すなわちユーザーが好きな食べ物を頻繁に食べられることによる正確性の欠如に悩まされている。 本研究では,ユーザの食習慣に関する包括的かつ騒々しい情報源である食品ログから食品の嗜好を学習する手法を提案する。 関連するメトリクスも紹介します。 この方法は、単語埋め込みを生成して比較し、各食品エントリの親食品カテゴリを特定し、最も人気のあるものを算出する。 提案手法は,ユーザの最も頻繁に食べられる食品の82%を同定する。 私たちのメソッドは、https://github.com/a ametwally/LearningFo odPreferences)で公開されています。

Diet management is key to managing chronic diseases such as diabetes. Automated food recommender systems may be able to assist by providing meal recommendations that conform to a user's nutrition goals and food preferences. Current recommendation systems suffer from a lack of accuracy that is in part due to a lack of knowledge of food preferences, namely foods users like to and are able to eat frequently. In this work, we propose a method for learning food preferences from food logs, a comprehensive but noisy source of information about users' dietary habits. We also introduce accompanying metrics. The method generates and compares word embeddings to identify the parent food category of each food entry and then calculates the most popular. Our proposed approach identifies 82% of a user's ten most frequently eaten foods. Our method is publicly available on (https://github.com/ aametwally/LearningF oodPreferences)
翻訳日:2021-11-01 13:38:36 公開日:2021-10-29
# 手指の自動認識:潜在認識による異常の識別

Automatic Hand Sign Recognition: Identify Unusuality through Latent Cognizance ( http://arxiv.org/abs/2110.15542v1 )

ライセンス: Link先を確認
Pisit Nakjai and Tatpong Katanyukul(参考訳) 手話は聴覚障害者コミュニティの主要なコミュニケーションチャネルである。 自動手話文字起こしは、聴覚障害のコミュニティと聴覚の多数派の間のコミュニケーションと理解を促進する。 自動手話書き起こしにおける最近の研究として、非手話姿勢の効果的な処理や同定が重要な課題となっている。 非符号姿勢は、符号読解に意図しない姿勢であり、有効な符号に属さない。 非符号姿勢は、符号遷移中、または単に無意識姿勢から生じることがある。 信頼性比はこの問題を軽減するために提案されている。 信頼度は計算が簡単で、余分なトレーニングなしで簡単に利用できる。 しかし、信頼性比は部分的にのみ問題に対処すると報告されている。 さらに、信頼率の定式化は計算不安定性に影響を受けやすい。 本稿では,信頼度に対する代替的な定式化を提案し,タイの指スペリング認識における非符号識別の問題を調査し,潜在的な解決法を探究し,有望な方向性を見出した。 この発見は、符号識別の問題に対処するだけでなく、よく学習された推論マシンの背後にある洞察を与え、隠れた意味と基盤となるメカニズムの新たな解釈を明らかにする。 提案手法を評価し,非符号検出に有効であることを示した。

Sign language is a main communication channel among hearing disability community. Automatic sign language transcription could facilitate better communication and understanding between hearing disability community and hearing majority. As a recent work in automatic sign language transcription has discussed, effectively handling or identifying a non-sign posture is one of the key issues. A non-sign posture is a posture unintended for sign reading and does not belong to any valid sign. A non-sign posture may arise during sign transition or simply from an unaware posture. Confidence ratio has been proposed to mitigate the issue. Confidence ratio is simple to compute and readily available without extra training. However, confidence ratio is reported to only partially address the problem. In addition, confidence ratio formulation is susceptible to computational instability. This article proposes alternative formulations to confidence ratio, investigates an issue of non-sign identification for Thai Finger Spelling recognition, explores potential solutions and has found a promising direction. Not only does this finding address the issue of non-sign identification, it also provide some insight behind a well-learned inference machine, revealing hidden meaning and new interpretation of the underlying mechanism. Our proposed methods are evaluated and shown to be effective for non-sign detection.
翻訳日:2021-11-01 13:38:21 公開日:2021-10-29
# 幼児期のフラストレーションにおける予測言語パターンに対する機械学習中心アプローチの比較

Comparing Machine Learning-Centered Approaches for Forecasting Language Patterns During Frustration in Early Childhood ( http://arxiv.org/abs/2110.15778v1 )

ライセンス: Link先を確認
Arnav Bhakta, Yeunjoo Kim, Pamela Cole(参考訳) 自己統制的課題に直面した子どもたちは、感情や行動を抑制するために言語を使うことが知られている。 しかし、これまでのところ、子どもがこうしたフラストレーションの瞬間にどのような言語パターンを使うかという証拠は欠如している。 本稿では,eXtreme Gradient Boosting,Random Forest,Long Short-Term Memory Recurrent Neural Networks,Elastic Net Regressionを用いて,子どもの言語パターンを予測する。 これらの手法の比較分析の結果,子どもの自己調節パターンと同様に,非常に不規則で異常な分布を持つ高次元・密集データを扱う場合,決定木に基づくアルゴリズムは,従来の回帰法やニューラルネットワークの手法をその欠点で上回ることができることが明らかとなった。

When faced with self-regulation challenges, children have been known the use their language to inhibit their emotions and behaviors. Yet, to date, there has been a critical lack of evidence regarding what patterns in their speech children use during these moments of frustration. In this paper, eXtreme Gradient Boosting, Random Forest, Long Short-Term Memory Recurrent Neural Networks, and Elastic Net Regression, have all been used to forecast these language patterns in children. Based on the results of a comparative analysis between these methods, the study reveals that when dealing with high-dimensional and dense data, with very irregular and abnormal distributions, as is the case with self-regulation patterns in children, decision tree-based algorithms are able to outperform traditional regression and neural network methods in their shortcomings.
翻訳日:2021-11-01 13:38:03 公開日:2021-10-29
# (参考訳) 入射ニューラル表現を用いた3次元磁気共鳴画像の任意スケール超解法 [全文訳有]

An Arbitrary Scale Super-Resolution Approach for 3-Dimensional Magnetic Resonance Image using Implicit Neural Representation ( http://arxiv.org/abs/2110.14476v2 )

ライセンス: CC BY 4.0
Qing Wu, Yuwei Li, Yawen Sun, Yan Zhou, Hongjiang Wei, Jingyi Yu, Yuyao Zhang(参考訳) 高分解能(HR)医療画像は、早期かつ正確な診断を容易にするために、豊富な解剖学的構造の詳細を提供する。 MRIでは、ハードウェア能力、スキャン時間、患者協力能力に制限されるため、等方性3次元HR画像取得は通常、長時間のスキャンを要求され、その結果、空間的カバレッジが小さく、SNRが低い。 近年の研究では、深部畳み込みニューラルネットワークを用いて、単一画像超解像(SISR)アルゴリズムにより、低分解能(LR)入力から等方性HRMR像を復元できることが示されている。 しかし、既存の SISR 法の多くは、LR と HR 画像の間のスケール特異的な投影にアプローチする傾向があるため、これらの手法は固定的なアップサンプリング率にしか対応できない。 異なるアップサンプリング率を達成するためには、複数のSRネットワークをそれぞれ構築する必要がある。 本稿では,Arbitrary Scale Super-Resolution approach for recovering 3D HR MR imagesを提案する。 ArSSRモデルでは、アップスケーリング率の異なるHR画像の再構成は、観測されたLR画像から連続的な暗黙のボクセル関数を学習するものとして定義される。 次に、SRタスクを変換して、一組のHR-LRトレーニング例からディープニューラルネットワークを介して暗黙のボクセル関数を表現する。 ArSSRモデルはエンコーダネットワークとデコーダネットワークで構成される。 具体的には、畳み込みエンコーダネットワークはLR入力画像から特徴写像を抽出し、完全連結デコーダネットワークは暗黙のボクセル関数を近似する。 学習関数の連続性により、トレーニング後の任意の入力LR画像からHR画像の任意のアップサンプリングレート再構成を1つのArSSRモデルで実現できる。 3つのデータセットによる実験結果から,ArSSRモデルは任意のアップサンプリングスケールを達成するために,単一のトレーニングモデルを用いて3次元HRMR画像再構成のための最先端のSR性能を実現することができることがわかった。

High Resolution (HR) medical images provide rich anatomical structure details to facilitate early and accurate diagnosis. In MRI, restricted by hardware capacity, scan time, and patient cooperation ability, isotropic 3D HR image acquisition typically requests long scan time and, results in small spatial coverage and low SNR. Recent studies showed that, with deep convolutional neural networks, isotropic HR MR images could be recovered from low-resolution (LR) input via single image super-resolution (SISR) algorithms. However, most existing SISR methods tend to approach a scale-specific projection between LR and HR images, thus these methods can only deal with a fixed up-sampling rate. For achieving different up-sampling rates, multiple SR networks have to be built up respectively, which is very time-consuming and resource-intensive. In this paper, we propose ArSSR, an Arbitrary Scale Super-Resolution approach for recovering 3D HR MR images. In the ArSSR model, the reconstruction of HR images with different up-scaling rates is defined as learning a continuous implicit voxel function from the observed LR images. Then the SR task is converted to represent the implicit voxel function via deep neural networks from a set of paired HR-LR training examples. The ArSSR model consists of an encoder network and a decoder network. Specifically, the convolutional encoder network is to extract feature maps from the LR input images and the fully-connected decoder network is to approximate the implicit voxel function. Due to the continuity of the learned function, a single ArSSR model can achieve arbitrary up-sampling rate reconstruction of HR images from any input LR image after training. Experimental results on three datasets show that the ArSSR model can achieve state-of-the-art SR performance for 3D HR MR image reconstruction while using a single trained model to achieve arbitrary up-sampling scales.
翻訳日:2021-11-01 13:36:18 公開日:2021-10-29
# (参考訳) OneFlow: Scratchから分散ディープラーニングフレームワークを再設計 [全文訳有]

OneFlow: Redesign the Distributed Deep Learning Framework from Scratch ( http://arxiv.org/abs/2110.15032v2 )

ライセンス: CC BY 4.0
Jinhui Yuan and Xinqi Li and Cheng Cheng and Juncheng Liu and Ran Guo and Shenghang Cai and Chi Yao and Fei Yang and Xiaodong Yi and Chuan Wu and Haoran Zhang and Jie Zhao(参考訳) TensorFlowやPyTorchといったディープラーニングフレームワークは、単一のデバイス上でのディープニューラルネットワーク(DNN)モデルの表現とトレーニング、あるいはデータ並列性を使用するための生産的なインターフェースを提供する。 それでも、データ並列性以上の高度な並列性を必要とする分散デバイス上で、新興の大規模モデルをトレーニングする上で、柔軟性や効率が十分でない場合もあります。 モデルやパイプライン並列性のためのこれらのフレームワークを強化するためにプラグインやラッパーが開発されたが、分散ディープラーニングの使用と実装は複雑である。 並列処理パラダイムの分散ディープラーニングフレームワークをシンプルに再設計することを目的としたOneFlowは,SBP(split, broadcast, partial-value)抽象化とアクタモデルに基づく,新たな分散トレーニングフレームワークである。 sbpは、既存のフレームワークよりもはるかに簡単にデータ並列処理とモデル並列処理のプログラミングを可能にし、アクターモデルは、分散ディープラーニングでリソース制約、データ移動、計算によって課される複雑な依存関係を管理するための簡潔なランタイムメカニズムを提供する。 ケーススタディと広範囲な実験による大規模DNNモデルのトレーニングにおいて,OneFlowの汎用性と効率性を示す。 その結果、OneFlowは最先端フレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。 oneflowのコードは、https://github.com/o neflow-inc/oneflowで入手できる。

Deep learning frameworks such as TensorFlow and PyTorch provide a productive interface for expressing and training a deep neural network (DNN) model on a single device or using data parallelism. Still, they may not be flexible or efficient enough in training emerging large models on distributed devices, which require more sophisticated parallelism beyond data parallelism. Plugins or wrappers have been developed to strengthen these frameworks for model or pipeline parallelism, but they complicate the usage and implementation of distributed deep learning. Aiming at a simple, neat redesign of distributed deep learning frameworks for various parallelism paradigms, we present OneFlow, a novel distributed training framework based on an SBP (split, broadcast and partial-value) abstraction and the actor model. SBP enables much easier programming of data parallelism and model parallelism than existing frameworks, and the actor model provides a succinct runtime mechanism to manage the complex dependencies imposed by resource constraints, data movement and computation in distributed deep learning. We demonstrate the general applicability and efficiency of OneFlow for training various large DNN models with case studies and extensive experiments. The results show that OneFlow outperforms many well-known customized libraries built on top of the state-of-the-art frameworks. The code of OneFlow is available at: https://github.com/O neflow-Inc/oneflow.
翻訳日:2021-11-01 13:07:17 公開日:2021-10-29
# (参考訳) D2RLIR : 深層強化学習に基づく対話型推薦システムにおける改良された多様化されたランキング機能 [全文訳有]

D2RLIR : an improved and diversified ranking function in interactive recommendation systems based on deep reinforcement learning ( http://arxiv.org/abs/2110.15089v2 )

ライセンス: CC BY 4.0
Vahid Baghi, Seyed Mohammad Seyed Motehayeri, Ali Moeini, Rooholah Abedian(参考訳) 近年,強化学習に基づく対話型レコメンデーションシステムは,リコメンデーション手順を動的プロセスとして,また従来の手法では無視されていた即時フィードバックに基づくレコメンデーションモデルを更新するため,研究者が参加している。 現存する作品は2つの大きな欠点がある。 まず、Top-Nレコメンデーションリストを生成する非効率なランキング関数。 第2に、レコメンデーションの正確さと多様性などの他の評価指標への不注意に注目します。 本稿では,Actor-Criticアーキテクチャを用いて,推薦エージェントとの動的インタラクションをモデル化し,期待される長期報酬を最大化する深層強化学習に基づく推薦システムを提案する。 さらに,spotify の annoy アルゴリズムを用いて,アクタネットワークによる生成動作と最も類似した項目を見つけることを提案する。 その後、全多様性効果ランキングアルゴリズムを用いて、関連性と多様性に関する勧告を生成する。 さらに、配列整列型リカレントニューラルネットワークを用いることなく、ユーザのインタラクションシーケンスの表現に位置符号化を適用する。 movielensデータセットに関する広範囲な実験により,提案モデルがユーザの好みに基づいて,多様かつ関連性のあるレコメンデーションリストを生成できることが証明された。

Recently, interactive recommendation systems based on reinforcement learning have been attended by researchers due to the consider recommendation procedure as a dynamic process and update the recommendation model based on immediate user feedback, which is neglected in traditional methods. The existing works have two significant drawbacks. Firstly, inefficient ranking function to produce the Top-N recommendation list. Secondly, focusing on recommendation accuracy and inattention to other evaluation metrics such as diversity. This paper proposes a deep reinforcement learning based recommendation system by utilizing Actor-Critic architecture to model dynamic users' interaction with the recommender agent and maximize the expected long-term reward. Furthermore, we propose utilizing Spotify's ANNoy algorithm to find the most similar items to generated action by actor-network. After that, the Total Diversity Effect Ranking algorithm is used to generate the recommendations concerning relevancy and diversity. Moreover, we apply positional encoding to compute representations of the user's interaction sequence without using sequence-aligned recurrent neural networks. Extensive experiments on the MovieLens dataset demonstrate that our proposed model is able to generate a diverse while relevance recommendation list based on the user's preferences.
翻訳日:2021-11-01 12:38:00 公開日:2021-10-29
# (参考訳) 表現に対する確率を持つ2元活性化ニューラルネットワークの学習集約 [全文訳有]

Learning Aggregations of Binary Activated Neural Networks with Probabilities over Representations ( http://arxiv.org/abs/2110.15137v2 )

ライセンス: CC BY 4.0
Louis Fortier-Dubois, Ga\"el Letarte, Benjamin Leblanc, Fran\c{c}ois Laviolette, Pascal Germain(参考訳) パラメータの確率分布を考慮することは、非微分アクティベーション関数を持つニューラルネットワークを学習するための効率的な戦略として知られている。 本研究では,確率的ニューラルネットワークの予測器としての期待について検討し,実値重みの正規分布を用いた2値活性化ニューラルネットワークの集約に着目した。 我々の研究は、解析式で与えられるような集約の期待出力値に対して、厳密な一般化境界と学習手順を導出するPAC-Bayesianフレームワークに由来する最近の分析を活用している。 後者の組合せの性質は、従来の研究で近似によって回避されてきたが、動的プログラミングのアプローチのおかげで、深いが狭いニューラルネットワークでは正確な計算が計算可能であることを示す。 これにより、フォワードパスは、アクティベーション値の代わりに表現よりも確率を伝搬するバイナリ活性化ニューラルネットワークのための特異な境界最小化学習アルゴリズムが得られる。 より広いアーキテクチャにスケールする、この新しいニューラルネットワークトレーニングスキームの確率的対応が提案されている。

Considering a probability distribution over parameters is known as an efficient strategy to learn a neural network with non-differentiable activation functions. We study the expectation of a probabilistic neural network as a predictor by itself, focusing on the aggregation of binary activated neural networks with normal distributions over real-valued weights. Our work leverages a recent analysis derived from the PAC-Bayesian framework that derives tight generalization bounds and learning procedures for the expected output value of such an aggregation, which is given by an analytical expression. While the combinatorial nature of the latter has been circumvented by approximations in previous works, we show that the exact computation remains tractable for deep but narrow neural networks, thanks to a dynamic programming approach. This leads us to a peculiar bound minimization learning algorithm for binary activated neural networks, where the forward pass propagates probabilities over representations instead of activation values. A stochastic counterpart of this new neural networks training scheme that scales to wider architectures is proposed.
翻訳日:2021-11-01 12:22:04 公開日:2021-10-29
# e-ffective:印象的発話の感情と効果を探索する視覚分析システム

E-ffective: A Visual Analytic System for Exploring the Emotion and Effectiveness of Inspirational Speeches ( http://arxiv.org/abs/2110.14908v2 )

ライセンス: Link先を確認
Kevin Maher, Zeyuan Huang, Jiancheng Song, Xiaoming Deng, Yu-Kun Lai, Cuixia Ma, Hao Wang, Yong-Jin Liu, Hongan Wang(参考訳) スピーチを効果的にする理由は長い間議論の対象とされてきたが、今日まで公の講演の専門家の間では、スピーチを効果的にする要因と、これらの要因がスピーチにおいて果たす役割について幅広い議論が交わされている。 また,効果的な発話戦略を理解するための定量的分析手法が欠如している。 本稿では,話し手や初心者が発話要因の役割と効果的な発話への寄与の両方を分析できる視覚分析システムであるE-ffectiveを提案する。 ドメインエキスパートへのインタビューや既存文献の調査から、インスピレーションのあるスピーチで考慮すべき重要な要素を抽出した。 実効性データと関係のあるマルチモーダルデータから生成した因子を得た。 本システムは,新たな可視化手法とインタラクションによる感情の影響を含む,インスピレーション音声における臨界因子の迅速な理解を支援する。 E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化手法である。 評価では,言語要因に関する専門家のドメイン知識に対するシステムの影響を検討した。 さらに,刺激的発話効果の分析支援を行う初心者・専門家を対象に,システムのユーザビリティについて検討した。

What makes speeches effective has long been a subject for debate, and until today there is broad controversy among public speaking experts about what factors make a speech effective as well as the roles of these factors in speeches. Moreover, there is a lack of quantitative analysis methods to help understand effective speaking strategies. In this paper, we propose E-ffective, a visual analytic system allowing speaking experts and novices to analyze both the role of speech factors and their contribution in effective speeches. From interviews with domain experts and investigating existing literature, we identified important factors to consider in inspirational speeches. We obtained the generated factors from multi-modal data that were then related to effectiveness data. Our system supports rapid understanding of critical factors in inspirational speeches, including the influence of emotions by means of novel visualization methods and interaction. Two novel visualizations include E-spiral (that shows the emotional shifts in speeches in a visually compact way) and E-script (that connects speech content with key speech delivery information). In our evaluation we studied the influence of our system on experts' domain knowledge about speech factors. We further studied the usability of the system by speaking novices and experts on assisting analysis of inspirational speech effectiveness.
翻訳日:2021-11-01 12:01:42 公開日:2021-10-29
# (参考訳) cognitive network scienceは、自殺の手紙やredditのメンタルヘルスコミュニティで表現された感情を定量化する [全文訳有]

Cognitive network science quantifies feelings expressed in suicide letters and Reddit mental health communities ( http://arxiv.org/abs/2110.15269v2 )

ライセンス: CC BY 4.0
Simmi Marina Joseph, Salvatore Citraro, Virginia Morini, Giulio Rossetti, Massimo Stella(参考訳) メッセージを書くことは感情を表現するための鍵です。 本研究は,認知ネットワーク科学を応用し,自殺ノートやメンタルヘルスポストなどの臨床物語における個人の感情の報告方法を再構築する。 本研究では,感情データに富んだ共著として,概念テキスト間の構文・意味関係を再構築することでこれを実現する。 r/anxiety、r/depression、r/schizophrenia、r/do-it-your-own(r/d iy)フォーラムから、142の自殺ノートと77,000のreddit投稿を、5つのコグニティブネットワークに変換しました。 これらのネットワークは「フェル」を囲む意味的枠組みを再構築し、感情に焦点をあてた顕著な関連や感情の定量化を可能にした。 すべての臨床Redditボードに悲しみの強い感情があり、恐怖のr/抑うつに加えられ、r/DIYでの喜び/期待に置き換わる。 セマンティクス・コミュニティとトピック・モデリングは、'regret'、'unhealthy lifestyle'、'low mental well-being'といった重要なナラティブ・トピックを強調する。 重要なのは、否定的な関係と感情が信頼/肯定的な言語と共存していることです。 この感情分極は、オンライン臨床ボードが複雑な構造を持っているという定量的証拠を提供する。 この二分法は、r/diyリファレンスボードや自殺ノートには存在せず、後悔と痛みに関するネガティブな感情的な関連は持続するが、愛する人に対処するポジティブなジャーゴンに圧倒される。 われわれの定量的比較は、自殺メモがオンラインRedditの掲示板と比べて感情を表現するさまざまな方法をカプセル化していることを示す強力な証拠だ。 本研究は、デジタルおよび臨床環境での人間の感情の心理的調査を支援するための、解釈可能な定量的支援を提供する。

Writing messages is key to expressing feelings. This study adopts cognitive network science to reconstruct how individuals report their feelings in clinical narratives like suicide notes or mental health posts. We achieve this by reconstructing syntactic/semantic associations between conceptsin texts as co-occurrences enriched with affective data. We transform 142 suicide notes and 77,000 Reddit posts from the r/anxiety, r/depression, r/schizophrenia, and r/do-it-your-own (r/DIY) forums into 5 cognitive networks, each one expressing meanings and emotions as reported by authors. These networks reconstruct the semantic frames surrounding 'feel', enabling a quantification of prominent associations and emotions focused around feelings. We find strong feelings of sadness across all clinical Reddit boards, added to fear r/depression, and replaced by joy/anticipation in r/DIY. Semantic communities and topic modelling both highlight key narrative topics of 'regret', 'unhealthy lifestyle' and 'low mental well-being'. Importantly, negative associations and emotions co-existed with trustful/positive language, focused on 'getting better'. This emotional polarisation provides quantitative evidence that online clinical boards possess a complex structure, where users mix both positive and negative outlooks. This dichotomy is absent in the r/DIY reference board and in suicide notes, where negative emotional associations about regret and pain persist but are overwhelmed by positive jargon addressing loved ones. Our quantitative comparisons provide strong evidence that suicide notes encapsulate different ways of expressing feelings compared to online Reddit boards, the latter acting more like personal diaries and relief valve. Our findings provide an interpretable, quantitative aid for supporting psychological inquiries of human feelings in digital and clinical settings.
翻訳日:2021-11-01 12:00:54 公開日:2021-10-29
# (参考訳) グループ表現を特徴とする自己教師付き学習

Self-Supervised Learning Disentangled Group Representation as Feature ( http://arxiv.org/abs/2110.15255v2 )

ライセンス: CC BY 4.0
Tan Wang, Zhongqi Yue, Jianqiang Huang, Qianru Sun, Hanwang Zhang(参考訳) よい視覚的表現は観察(画像)から特徴(ベクトル)への推論写像であり、隠れたモジュラー化生成因子(理論)を忠実に反映する。 本稿では,Higinsの非交叉表現の定義を用いてグループ理論的な視点から「良い」表現の概念を定式化し,既存の自己監督学習(SSL)が回転や色化などの単純な拡張特徴のみを解き、残りの意味論をモジュール化することができないことを示す。 そこで本研究では,抽象的意味論とそれらに作用する群を具体的コントラスト学習にうまく基礎づける反復的分割型不変リスク最小化 (ip-irm) という反復的sslアルゴリズムを提案する。 各イテレーションにおいて、IP-IRMはまずトレーニングサンプルを、絡み合ったグループ要素に対応する2つのサブセットに分割する。 そして、群要素をアンタングル化することが保証される部分集合不変のコントラスト損失を最小化する。 我々は、IP-IRMが完全に不整合表現に収束していることを示し、その効果を様々なベンチマークで示す。 コードはhttps://github.com/W angt-CN/IP-IRMで入手できる。

A good visual representation is an inference map from observations (images) to features (vectors) that faithfully reflects the hidden modularized generative factors (semantics). In this paper, we formulate the notion of "good" representation from a group-theoretic view using Higgins' definition of disentangled representation, and show that existing Self-Supervised Learning (SSL) only disentangles simple augmentation features such as rotation and colorization, thus unable to modularize the remaining semantics. To break the limitation, we propose an iterative SSL algorithm: Iterative Partition-based Invariant Risk Minimization (IP-IRM), which successfully grounds the abstract semantics and the group acting on them into concrete contrastive learning. At each iteration, IP-IRM first partitions the training samples into two subsets that correspond to an entangled group element. Then, it minimizes a subset-invariant contrastive loss, where the invariance guarantees to disentangle the group element. We prove that IP-IRM converges to a fully disentangled representation and show its effectiveness on various benchmarks. Codes are available at https://github.com/W angt-CN/IP-IRM.
翻訳日:2021-11-01 11:46:32 公開日:2021-10-29
# (参考訳) マルチタスクプロセス

Multi-Task Processes ( http://arxiv.org/abs/2110.14953v2 )

ライセンス: CC BY 4.0
Donggyun Kim, Seongwoong Cho, Wonkwang Lee, Seunghoon Hong(参考訳) ニューラル・プロセス(NP)は、あるタスクを確率的プロセスから実現された関数とみなし、関数の推論を通じて目に見えないタスクに柔軟に適応する。 しかし、単純NPは単一の確率過程からのみデータをモデル化することができ、それぞれのタスクを独立に推測するように設計されている。 多くの実世界のデータは、複数のソース(例えば、複数の属性とマルチセンサーデータ)からの相関したタスクの集合を表すため、それらを共同で推論し、基礎となる相関を利用して予測性能を改善することは有益である。 そこで本稿では,複数の確率過程から実現されるタスクを共同で推測するnpsの拡張であるマルチタスクプロセス(mtps)を提案する。 我々は,1つのグローバル潜在変数に対して,すべてのタスクごとの潜在変数を条件付けることによって,タスク間相関を考慮した階層的なMPPを構築する。 さらに,マルチタスクの設定を不完全なデータ(つまり,すべてのタスクが同じ入力ポイントを共有するわけではない)で処理できるように,mtpを設計しています。 実験により、MSPは、時系列の天気特性や画素対応の視覚的モダリティなど、様々な実世界のデータから相関関係を発見し、活用することで、複数のタスクを共同でモデル化できることが示された。

Neural Processes (NPs) consider a task as a function realized from a stochastic process and flexibly adapt to unseen tasks through inference on functions. However, naive NPs can model data from only a single stochastic process and are designed to infer each task independently. Since many real-world data represent a set of correlated tasks from multiple sources (e.g., multiple attributes and multi-sensor data), it is beneficial to infer them jointly and exploit the underlying correlation to improve the predictive performance. To this end, we propose Multi-Task Processes (MTPs), an extension of NPs designed to jointly infer tasks realized from multiple stochastic processes. We build our MTPs in a hierarchical manner such that inter-task correlation is considered by conditioning all per-task latent variables on a single global latent variable. In addition, we further design our MTPs so that they can address multi-task settings with incomplete data (i.e., not all tasks share the same set of input points), which has high practical demands in various applications. Experiments demonstrate that MTPs can successfully model multiple tasks jointly by discovering and exploiting their correlations in various real-world data such as time series of weather attributes and pixel-aligned visual modalities.
翻訳日:2021-11-01 11:45:10 公開日:2021-10-29
# コントラスト的事例によるアクティブラーニングの指導

Teaching an Active Learner with Contrastive Examples ( http://arxiv.org/abs/2110.14888v2 )

ライセンス: Link先を確認
Chaoqi Wang, Adish Singla, Yuxin Chen(参考訳) 本研究では,学習者が補助的な教師によって支援される追加のツイストを用いて,能動的学習の問題を研究する。 各ラウンドにおいて、学習者は、インスタンス $x^q$ のラベルを求めるクエリを提案し、教師は、学習プロセスを導くための説明情報と共に、要求されたラベル $\{x^q, y^q\}$ を提供する。 本稿では、この情報を追加のコントラスト例($x^c, y^c\}$)の形で見るので、$x^c$は、$x^q$で制約された集合から選択される(例えば、同じラベルを持つ異種インスタンス)。 私たちの焦点は、学習者にコントラストのある例のインフォメーションシーケンスを提供し、学習プロセスを高速化する教示アルゴリズムを設計することです。 このことは、与えられたラウンドにおけるアルゴリズムの選択が相互作用の歴史に依存するような、困難なシーケンス最適化問題につながることを示す。 本稿では,これらの比較例を適応的に選択する効率的な学習アルゴリズムについて検討する。 提案アルゴリズムは,2つの問題依存パラメータに基づいて高い性能保証を導出し,さらに,特定のタイプの能動学習者(例えば,一般化二分探索学習者)に対して,強い近似保証を示す。 最後に, 2つの数値ケーススタディを通して, 限界を説明し, 指導枠組みの有効性を示す。

We study the problem of active learning with the added twist that the learner is assisted by a helpful teacher. We consider the following natural interaction protocol: At each round, the learner proposes a query asking for the label of an instance $x^q$, the teacher provides the requested label $\{x^q, y^q\}$ along with explanatory information to guide the learning process. In this paper, we view this information in the form of an additional contrastive example ($\{x^c, y^c\}$) where $x^c$ is picked from a set constrained by $x^q$ (e.g., dissimilar instances with the same label). Our focus is to design a teaching algorithm that can provide an informative sequence of contrastive examples to the learner to speed up the learning process. We show that this leads to a challenging sequence optimization problem where the algorithm's choices at a given round depend on the history of interactions. We investigate an efficient teaching algorithm that adaptively picks these contrastive examples. We derive strong performance guarantees for our algorithm based on two problem-dependent parameters and further show that for specific types of active learners (e.g., a generalized binary search learner), the proposed teaching algorithm exhibits strong approximation guarantees. Finally, we illustrate our bounds and demonstrate the effectiveness of our teaching framework via two numerical case studies.
翻訳日:2021-11-01 11:42:00 公開日:2021-10-29
# TSPソルバの一般化能力向上のためのゲーム理論的アプローチ

A Game-Theoretic Approach for Improving Generalization Ability of TSP Solvers ( http://arxiv.org/abs/2110.15105v2 )

ライセンス: Link先を確認
Chenguang Wang, Yaodong Yang, Oliver Slumbers, Congying Han, Tiande Guo, Haifeng Zhang, Jun Wang(参考訳) 本稿では,ディープラーニングに基づくトラベリングセールスマン問題(TSP)の一般化能力に新たな光を当てた。 具体的には、トレーニング可能な \emph{Solver} と \emph{Data Generator} の間に2つのプレイヤーゼロサムフレームワークを導入し、Solver は、Generator が提供するタスクインスタンスの解決を目的としており、Generator は、Solver を改善するためにますます難しいインスタンスを生成することを目的としている。 原文(投稿日:2019/09/09)へのリンク oracle (psro) メソッドを基礎として、2人のプレイヤーが最善の対応ソルバの集団を出力し、ジェネレータに対して最小のエクスプロイト可能性を達成する結合モデルを組み合わせて出力し、異なるtspタスクで最も一般的なパフォーマンスを得ることができます。 異なるタイプとサイズを持つ様々なTSPインスタンスで実験を行う。 結果から, 解答者は解答者が決して満たさないタスクでも最先端のパフォーマンスを達成できるが, 他の深層学習型解答者の性能は過剰フィッティングにより急激に低下することが示唆された。 実世界における \textsc{tsplib} からのインスタンスでは、最適なベースラインモデルに対する最適なギャップの観点から、この手法は \textbf{12\%} の改善も達成する。 本手法の原理を実証するために,提案する2人プレイゲームの学習結果を調査し,学習中にソルバ集団の活用性が低下することを示すとともに,最終的にジェネレータとナッシュ均衡を近似する。

In this paper, we shed new light on the generalization ability of deep learning-based solvers for Traveling Salesman Problems (TSP). Specifically, we introduce a two-player zero-sum framework between a trainable \emph{Solver} and a \emph{Data Generator}, where the Solver aims to solve the task instances provided by the Generator, and the Generator aims to generate increasingly difficult instances for improving the Solver. Grounded in \textsl{Policy Space Response Oracle} (PSRO) methods, our two-player framework outputs a population of best-responding Solvers, over which we can mix and output a combined model that achieves the least exploitability against the Generator, and thereby the most generalizable performance on different TSP tasks. We conduct experiments on a variety of TSP instances with different types and sizes. Results suggest that our Solvers achieve the state-of-the-art performance even on tasks the Solver never meets, whilst the performance of other deep learning-based Solvers drops sharply due to over-fitting. On real-world instances from \textsc{TSPLib}, our method also attains a \textbf{12\%} improvement, in terms of optimal gap, over the best baseline model. To demonstrate the principle of our framework, we study the learning outcome of the proposed two-player game and demonstrate that the exploitability of the Solver population decreases during training, and it eventually approximates the Nash equilibrium along with the Generator.
翻訳日:2021-11-01 11:41:36 公開日:2021-10-29