このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220822となっている論文です。

PDF登録状況(公開日: 20220822)

TitleAuthorsAbstract論文公表日・翻訳日
# 一般ガウス設計のラッソと仮説テストへの応用

The Lasso with general Gaussian designs with applications to hypothesis testing ( http://arxiv.org/abs/2007.13716v2 )

ライセンス: Link先を確認
Michael Celentano, Andrea Montanari, Yuting Wei(参考訳) ラッソ(lasso)は、高次元回帰(high-dimensional regression)の方法であり、現在、共変量 $p$ が観測値 $n$ または観測値 $n$ よりも大きい場合に用いられる。 古典漸近正規性理論はこのモデルには適用されない: $(1)$ the regularized risk is non-smooth; $(2)$ the distance between the estimator $\widehat{\boldsymbol{\theta}}$ and the true parameters vector $\boldsymbol{\theta}^*$ は無視できない。 その結果、漸近正規性の伝統的な基礎である標準摂動論は失敗する。 一方、ラッソ推定器は、$n$ と $p$ の両方が大きく、$n/p$ が順序 1 であるような方法で正確に特徴付けられる。 このキャラクタリゼーションは、つまり共変量を持つガウス設計において初めて得られ、ここでは非特異共分散構造を持つガウス相関設計に一般化する。 これはより単純な ``fixed-design'' モデルで表現される。 この2つのモデルにおける様々な量の分布の間の距離の非漸近的境界を定式化パラメータの値と適切なスパシティクラスにおける信号$\boldsymbol{\theta}^*$に均一に保持する。 応用として、偏りのないラッソの分布を調査し、有効信頼区間を計算するためには自由度補正が必要であることを示す。

The Lasso is a method for high-dimensional regression, which is now commonly used when the number of covariates $p$ is of the same order or larger than the number of observations $n$. Classical asymptotic normality theory does not apply to this model due to two fundamental reasons: $(1)$ The regularized risk is non-smooth; $(2)$ The distance between the estimator $\widehat{\boldsymbol{\theta}}$ and the true parameters vector $\boldsymbol{\theta}^*$ cannot be neglected. As a consequence, standard perturbative arguments that are the traditional basis for asymptotic normality fail. On the other hand, the Lasso estimator can be precisely characterized in the regime in which both $n$ and $p$ are large and $n/p$ is of order one. This characterization was first obtained in the case of Gaussian designs with i.i.d. covariates: here we generalize it to Gaussian correlated designs with non-singular covariance structure. This is expressed in terms of a simpler ``fixed-design'' model. We establish non-asymptotic bounds on the distance between the distribution of various quantities in the two models, which hold uniformly over signals $\boldsymbol{\theta}^*$ in a suitable sparsity class and over values of the regularization parameter. As an application, we study the distribution of the debiased Lasso and show that a degrees-of-freedom correction is necessary for computing valid confidence intervals.
翻訳日:2022-11-06 08:27:52 公開日:2022-08-22
# SHERLock: 自己監督型階層型イベント表現学習

SHERLock: Self-Supervised Hierarchical Event Representation Learning ( http://arxiv.org/abs/2010.02556v2 )

ライセンス: Link先を確認
Sumegh Roychowdhury, Sumedh A. Sontakke, Nikaash Puri, Mausoom Sarkar, Milan Aggarwal, Pinkesh Badjatiya, Balaji Krishnamurthy, Laurent Itti(参考訳) 時間的事象表現は、人間の学習において不可欠な側面である。 さまざまな感覚入力を通じて、経験の簡潔なエンコーディングを可能にします。 また、階層的に配置され、複雑な長方形体験を効率的に表現できると考えられている。 さらに、これらの表現は自己監督的な方法で取得される。 本稿では,長期の視覚的実演データと関連するテキスト記述から時間的表現を明示的な時間的監督なしに学習するモデルを提案する。 提案手法は,最先端の非教師付きベースラインよりも,人間による注釈付きイベント(+15.3)に近い表現階層を生成する。 私たちの結果は、Chess Openings、YouCook2、TutorialVQAデータセットといった複雑なビジュアルドメインにおける、教師付きのベースラインに匹敵するものです。 最後に、我々のアプローチの堅牢性を示すアブレーション研究を行う。 コードとデモをSupplementary Materialで公開しています。

Temporal event representations are an essential aspect of learning among humans. They allow for succinct encoding of the experiences we have through a variety of sensory inputs. Also, they are believed to be arranged hierarchically, allowing for an efficient representation of complex long-horizon experiences. Additionally, these representations are acquired in a self-supervised manner. Analogously, here we propose a model that learns temporal representations from long-horizon visual demonstration data and associated textual descriptions, without explicit temporal supervision. Our method produces a hierarchy of representations that align more closely with ground-truth human-annotated events (+15.3) than state-of-the-art unsupervised baselines. Our results are comparable to heavily-supervised baselines in complex visual domains such as Chess Openings, YouCook2 and TutorialVQA datasets. Finally, we perform ablation studies illustrating the robustness of our approach. We release our code and demo visualizations in the Supplementary Material.
翻訳日:2022-10-10 04:51:23 公開日:2022-08-22
# フェデレーション学習のための最適クライアントサンプリング

Optimal Client Sampling for Federated Learning ( http://arxiv.org/abs/2010.13723v3 )

ライセンス: Link先を確認
Wenlin Chen, Samuel Horvath, Peter Richtarik(参考訳) クライアント-マスターコミュニケーションがフェデレートラーニングの主要なボトルネックとなることはよく理解されている。 本研究では,新しいクライアントサブサンプリング方式でこの問題に対処し,マスタノードへの更新の通信を許可するクライアントの数を制限した。 各通信ラウンドでは、参加するすべてのクライアントがアップデートを計算しますが、"重要な"アップデートを持つクライアントだけがマスターに通信します。 更新の基準のみを用いて重要度を測定することができ、最適なクライアント参加の式を提供する。 この公式は、すべてのクライアントが参加するフルアップデートと、参加するクライアント数を制限する限定的なアップデートとの間の距離を最小化する。 さらに,セキュアなアグリゲーションのみを必要とするため,クライアントのプライバシを侵害しない,クライアント参加の最適公式を近似する単純なアルゴリズムを提案する。 本研究では,分散SGD (DSGD) とフェデレート平均化 (FedAvg) の両面において,本手法の性能は完全参加に近づき,一様にクライアントをサンプリングするベースラインよりも優れていることを示す。 さらに,提案手法は,通信のオーバーヘッドを削減する既存の手法,例えばローカルメソッドや通信圧縮メソッドと直交し,互換性がある。

It is well understood that client-master communication can be a primary bottleneck in Federated Learning. In this work, we address this issue with a novel client subsampling scheme, where we restrict the number of clients allowed to communicate their updates back to the master node. In each communication round, all participating clients compute their updates, but only the ones with "important" updates communicate back to the master. We show that importance can be measured using only the norm of the update and give a formula for optimal client participation. This formula minimizes the distance between the full update, where all clients participate, and our limited update, where the number of participating clients is restricted. In addition, we provide a simple algorithm that approximates the optimal formula for client participation, which only requires secure aggregation and thus does not compromise client privacy. We show both theoretically and empirically that for Distributed SGD (DSGD) and Federated Averaging (FedAvg), the performance of our approach can be close to full participation and superior to the baseline where participating clients are sampled uniformly. Moreover, our approach is orthogonal to and compatible with existing methods for reducing communication overhead, such as local methods and communication compression methods.
翻訳日:2022-10-02 20:18:42 公開日:2022-08-22
# テキストベースビデオセグメンテーションのためのアクタとアクションモジュールネットワーク

Actor and Action Modular Network for Text-based Video Segmentation ( http://arxiv.org/abs/2011.00786v2 )

ライセンス: Link先を確認
Jianhua Yang, Yan Huang, Kai Niu, Linjiang Huang, Zhanyu Ma, Liang Wang(参考訳) テキストベースのビデオセグメンテーションは、アクターとその動作をテキストクエリで指定することで、アクターをビデオシーケンスに分割することを目的としている。 従来の手法では、アクターとその動作に応じて、ビデオ内容とテキストクエリをきめ細かな方法で明示的に整合させることができず、これは \emph{semantic asymmetric} の問題のためである。 emph{semantic asymmetric} は、2つのモダリティがマルチモーダル融合過程において異なる量の意味情報を含むことを意味する。 この問題を軽減するために,アクターとアクションを2つの異なるモジュールに個別にローカライズする,アクターとアクションのモジュールネットワークを提案する。 具体的には、まず、ビデオおよびテキストクエリからアクタ/アクション関連コンテンツを学び、対称的にマッチングしてターゲットチューブをローカライズする。 ターゲットチューブには所望のアクターとアクションが含まれており、アクターのセグメンテーションマスクを予測するために完全に畳み込みネットワークに送られる。 また,提案手法では,複数のフレームを横断するオブジェクトと時間的提案集約機構の関連性を確立する。 これにより,映像を効果的に分割し,予測の時間的一貫性を維持することができる。 モデル全体がアクタ-アクションマッチングとセグメンテーションの合同学習を可能にし、a2d文とj-hmdb文のデータセット上でのシングルフレームセグメンテーションとフルビデオセグメンテーションの両方の最先端のパフォーマンスを実現する。

Text-based video segmentation aims to segment an actor in video sequences by specifying the actor and its performing action with a textual query. Previous methods fail to explicitly align the video content with the textual query in a fine-grained manner according to the actor and its action, due to the problem of \emph{semantic asymmetry}. The \emph{semantic asymmetry} implies that two modalities contain different amounts of semantic information during the multi-modal fusion process. To alleviate this problem, we propose a novel actor and action modular network that individually localizes the actor and its action in two separate modules. Specifically, we first learn the actor-/action-related content from the video and textual query, and then match them in a symmetrical manner to localize the target tube. The target tube contains the desired actor and action which is then fed into a fully convolutional network to predict segmentation masks of the actor. Our method also establishes the association of objects cross multiple frames with the proposed temporal proposal aggregation mechanism. This enables our method to segment the video effectively and keep the temporal consistency of predictions. The whole model is allowed for joint learning of the actor-action matching and segmentation, as well as achieves the state-of-the-art performance for both single-frame segmentation and full video segmentation on A2D Sentences and J-HMDB Sentences datasets.
翻訳日:2022-09-30 12:15:54 公開日:2022-08-22
# 特徴の除去はモデル説明法の統一原則である

Feature Removal Is a Unifying Principle for Model Explanation Methods ( http://arxiv.org/abs/2011.03623v2 )

ライセンス: Link先を確認
Ian Covert, Scott Lundberg, Su-In Lee(参考訳) 研究者は様々なモデル説明手法を提案しているが、ほとんどの方法がどう関連しているか、ある方法が他の方法よりも好ましいのかは定かではない。 文献を検証し、多くの手法がモデルから特徴集合を除去する影響を本質的に測定することで、説明の共有原理に基づいていることを発見した。 これらの方法はいくつかの点で異なるため、各メソッドを3次元に沿って特徴付ける除去に基づく説明のためのフレームワークを開発する。 1) メソッドが機能をどのように削除するか 2)その方法が説明するモデル行動と, 3) それぞれの特徴の影響を要約する方法。 我々のフレームワークは26の既存手法を統一し、最も広く使われているアプローチ(SHAP, LIME, Meaningful Perturbations, permutation test)を含む。 これらの方法の基本的な類似性を明らかにすることで、ユーザーはどのツールを使うべきかを判断できるようになる。

Researchers have proposed a wide variety of model explanation approaches, but it remains unclear how most methods are related or when one method is preferable to another. We examine the literature and find that many methods are based on a shared principle of explaining by removing - essentially, measuring the impact of removing sets of features from a model. These methods vary in several respects, so we develop a framework for removal-based explanations that characterizes each method along three dimensions: 1) how the method removes features, 2) what model behavior the method explains, and 3) how the method summarizes each feature's influence. Our framework unifies 26 existing methods, including several of the most widely used approaches (SHAP, LIME, Meaningful Perturbations, permutation tests). Exposing the fundamental similarities between these methods empowers users to reason about which tools to use, and suggests promising directions for ongoing model explainability research.
翻訳日:2022-09-29 04:21:50 公開日:2022-08-22
# グラフニューラルネットワークを用いたナノポーラス中の$\textrm{co}_2$吸着の予測

Prediction of $\textrm{CO}_2$ Adsorption in Nano-Pores with Graph Neural Networks ( http://arxiv.org/abs/2209.07567v1 )

ライセンス: Link先を確認
Guojing Cong, Anshul Gupta, Rodrigo Neumann, Maira de Bayser, Mathias Steiner, Breannd\'an \'O Conch\'uir(参考訳) 本研究では, グラフ型畳み込みニューラルネットワークを用いて, 結晶性金属-有機フレームワーク (mof) 吸着剤のガス吸着特性を予測・評価し, 燃焼後捕集における$\textrm{co}_2$。 本モデルは,吸着材料候補の原子学的記述を含む標準構造入力ファイルのみに基づく。 我々は,従来の機械学習モデルの予測精度に適合する新しい手法拡張を構築し,より高い計算コストで数百の機能を組み込んだ。 本手法は,産業規模でのガス捕捉プロセスの最適化に広く適用可能である。

We investigate the graph-based convolutional neural network approach for predicting and ranking gas adsorption properties of crystalline Metal-Organic Framework (MOF) adsorbents for application in post-combustion capture of $\textrm{CO}_2$. Our model is based solely on standard structural input files containing atomistic descriptions of the adsorbent material candidates. We construct novel methodological extensions to match the prediction accuracy of classical machine learning models that were built with hundreds of features at much higher computational cost. Our approach can be more broadly applied to optimize gas capture processes at industrial scale.
翻訳日:2022-09-25 18:01:16 公開日:2022-08-22
# met: テレヘルスにおけるエンゲージメントのマルチモーダル知覚

MET: Multimodal Perception of Engagement for Telehealth ( http://arxiv.org/abs/2011.08690v3 )

ライセンス: Link先を確認
Pooja Guhan and Naman Awasthi and and Kathryn McDonald and Kristin Bussell and Dinesh Manocha and Gloria Reeves and Aniket Bera(参考訳) 我々は,顔,音声,テキストのみにアクセスできるビデオから,人間のエンゲージメントレベルを知覚する学習ベースアルゴリズムMETを提案する。 心理文学で頻繁に用いられる感情的・認知的特徴に対応する潜伏ベクトルを用いて、半教師付きganベースのフレームワークにおける個人の関与度レベルを理解する。 この方法は遠隔医療において極めて有用である。 本手法の有効性をメンタルヘルスの観点から示し,テレメンタルヘルスセッションにおける患者の関与の理解を深める上で,より具体的に活用できることを示す。 また,我々の枠組みの有用性について検討し,他の重要なメンタルヘルス指標である「ヴァレンス」と「覚醒」を推定する上で,既存の作業と対比する。 本フレームワークでは, エンゲージメント回帰における RMSE 法よりも 40% 改善, および RMSE 法より 50% 改善された Valence-Arousal Regression 法を報告する。 遠隔医療空間における公開データセットの不足に対処するため,メンタルヘルス患者のエンゲージメント検出のための新しいデータセットであるMEDICAをリリースする。 私たちのデータセットであるMEDICAは、3秒毎に1299の動画で構成されています。 我々の知識を最大限に活用するために,本手法は,心理駆動的感情的および認知的特徴に基づく遠隔医療セッションデータをモデル化できる最初の手法である。 また,本手法の有用性を主張するために,本モデルから得られたエンゲージメント値と,サイコセラピストが用いた他のエンゲージメント指標の関連性を比較する。

We present MET, a learning-based algorithm for perceiving a human's level of engagement from videos that give us access to only the face, speech and text. We leverage latent vectors corresponding to Affective and Cognitive features frequently used in psychology literature to understand a person's level of engagement in a semi-supervised GAN-based framework. The method is extremely useful in the case of telehealth. We showcase the efficacy of this method from the perspective of mental health and more specifically how this can be leveraged for a better understanding of patient engagement during telemental health sessions. We also explore the usefulness of our framework and contrast it against existing works in being able to estimate another important mental health indicator, namely valence, and arousal. Our framework reports 40% improvements in RMSE over SOTA method in Engagement Regression and 50% improvements in RMSE over SOTA method in Valence-Arousal Regression. To tackle the scarcity of publicly available datasets in the telemental health space, we release a new dataset, MEDICA, for mental health patient engagement detection. Our dataset, MEDICA consists of 1299 videos, each 3 seconds long. To the best of our knowledge, our approach is the first method capable to model telemental health session data based on psychology-driven Affective and Cognitive features, which also accounts for data sparsity by leveraging a semi-supervised setup. To assert the usefulness of our method, we will also compare the association of the engagement values obtained from our model with the other engagement measures used by psychotherapists.
翻訳日:2022-09-24 17:33:36 公開日:2022-08-22
# CH-SIMS v2.0データセットとAV-Mixup Consistent Module

Make Acoustic and Visual Cues Matter: CH-SIMS v2.0 Dataset and AV-Mixup Consistent Module ( http://arxiv.org/abs/2209.02604v1 )

ライセンス: Link先を確認
Yihe Liu, Ziqi Yuan, Huisheng Mao, Zhiyun Liang, Wanqiuyue Yang, Yuanzhe Qiu, Tie Cheng, Xiaoteng Li, Hua Xu, Kai Gao(参考訳) マルチモーダル感情分析(MSA)は、ヒューマン・コンピュータ・インタラクション(HCI)における可能性から、テキストベースの感情分析を関連する音響的・視覚的モダリティによって改善すると考えられている。 しかし、既存の研究では、音響的および視覚的モダリティが、テキスト優位と呼ばれるテキスト的モダリティよりもずっと少ないことが観察されている。 このような状況下では,本研究では,非言語的手がかりをmsaタスクに重要視することを重視する。 まず、資源の観点からCH-SIMS v2.0データセットを示し、CH-SIMSの拡張と強化を行う。 オリジナルのデータセットと比較すると、CH-SIMS v2.0はそのサイズを2121個の改良されたビデオセグメントに2倍にし、非言語的な感情予測の手がかりを強調するために、豊かな音響的および視覚的感情を持つコンテキストを持つ10161個の未ラベルの生のビデオセグメントを収集する。 第2に、モデルの観点からは、CH-SIMS v2.0におけるunimodalアノテーションとunsupervised dataの恩恵を受け、AV-MCフレームワークを提案する。 デザインされたモダリティミックスアップモジュールは、異なるビデオからの音響と視覚のモダリティを混合する拡張モジュールと見なすことができる。 テキストとともに観察されていないマルチモーダルコンテキストを描画することで、モデルは感情予測のために異なる非言語コンテキストを認識することができる。 評価の結果,CH-SIMS v2.0 と AV-MC の両フレームワークは,感情を伴う音響的・視覚的手がかりの発見に役立ち,現実のシナリオに対するエンドツーエンド HCI アプリケーションへの道筋を舗装する。

Multimodal sentiment analysis (MSA), which supposes to improve text-based sentiment analysis with associated acoustic and visual modalities, is an emerging research area due to its potential applications in Human-Computer Interaction (HCI). However, the existing researches observe that the acoustic and visual modalities contribute much less than the textual modality, termed as text-predominant. Under such circumstances, in this work, we emphasize making non-verbal cues matter for the MSA task. Firstly, from the resource perspective, we present the CH-SIMS v2.0 dataset, an extension and enhancement of the CH-SIMS. Compared with the original dataset, the CH-SIMS v2.0 doubles its size with another 2121 refined video segments with both unimodal and multimodal annotations and collects 10161 unlabelled raw video segments with rich acoustic and visual emotion-bearing context to highlight non-verbal cues for sentiment prediction. Secondly, from the model perspective, benefiting from the unimodal annotations and the unsupervised data in the CH-SIMS v2.0, the Acoustic Visual Mixup Consistent (AV-MC) framework is proposed. The designed modality mixup module can be regarded as an augmentation, which mixes the acoustic and visual modalities from different videos. Through drawing unobserved multimodal context along with the text, the model can learn to be aware of different non-verbal contexts for sentiment prediction. Our evaluations demonstrate that both CH-SIMS v2.0 and AV-MC framework enables further research for discovering emotion-bearing acoustic and visual cues and paves the path to interpretable end-to-end HCI applications for real-world scenarios.
翻訳日:2022-09-11 13:20:31 公開日:2022-08-22
# 概念化による埋め込み空間の解釈

Interpreting Embedding Spaces by Conceptualization ( http://arxiv.org/abs/2209.00445v1 )

ライセンス: Link先を確認
Adi Simhi and Shaul Markovitch(参考訳) テキストの意味解釈の主要な方法の1つは、それを埋め込み空間内のベクトルにマッピングすることである。 このようなベクトルは、様々なテキスト処理タスクに使用できる。 近年、ほとんどの埋め込み空間は、大規模言語モデルを訓練する製品である。 この種の表現の大きな欠点は、人間にとって理解できないことである。 組み込み空間を理解することは、組み込みを使用するシステムの決定を説明する必要性、組み込みメソッドをデバッグして代替メソッドと比較する必要性、モデルに隠されたバイアスを検出する必要性など、いくつかの重要なニーズに不可欠である。 本稿では,任意の埋め込み空間を理解可能な概念空間に変換する新しい手法を提案する。 まず,概念空間を動的オンデマンド粒度で導出するアルゴリズムを提案する。 次に、元の可理解空間内の任意のベクトルを概念空間内の可理解ベクトルに転送する方法を示す。 人間のテストとクロスモデルテストを組み合わせることで、概念化されたベクトルが元のベクトルの意味を表現することを示す。 また、概念化されたベクトルが、元の空間の根底にあるセマンティクスの弱点の特定や、代替モデルのセマンティクスの違いなど、様々なタスクにどのように使用できるかを示す。

One of the main methods for semantic interpretation of text is mapping it into a vector in some embedding space. Such vectors can then be used for a variety of text processing tasks. Recently, most embedding spaces are a product of training large language models. One major drawback of this type of representation is its incomprehensibility to humans. Understanding the embedding space is crucial for several important needs, including the need to explain the decision of a system that uses the embedding, the need to debug the embedding method and compare it to alternatives, and the need to detect biases hidden in the model. In this paper, we present a novel method of transforming any embedding space into a comprehensible conceptual space. We first present an algorithm for deriving a conceptual space with dynamic on-demand granularity. We then show a method for transferring any vector in the original incomprehensible space to an understandable vector in the conceptual space. We combine human tests with cross-model tests to show that the conceptualized vectors indeed represent the semantics of the original vectors. We also show how the conceptualized vectors can be used for various tasks including identifying weaknesses in the semantics underlying the original spaces and differences in the semantics of alternative models.
翻訳日:2022-09-04 02:04:55 公開日:2022-08-22
# 科学論文における関連する数式検索のためのグラフニューラルネットワークの自己教師付き事前学習

Self-Supervised Pretraining of Graph Neural Network for the Retrieval of Related Mathematical Expressions in Scientific Articles ( http://arxiv.org/abs/2209.00446v1 )

ライセンス: Link先を確認
Lukas Pfahler, Katharina Morik(参考訳) 出版物が増えれば、関連論文の検索は面倒になる。 特に、専門分野や学派にわたる探索は支持されない。 これは主にキーワードクエリによる検索によるもので、技術的な用語は科学や時代によって異なる。 関連する記事は、それらの数学的問題の記述によって識別される。 紙の方程式を見るだけで、その紙が関係しているかどうかがわかる。 そこで本研究では,機械学習に基づく数学的表現の検索手法を提案する。 埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。 グラフ畳み込みニューラルネットワークを用いて、数式を低次元ベクトル空間に埋め込み、効率的な隣接クエリを可能にする。 モデルをトレーニングするために、arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集しました。 数学はXMLフォーマットに変換され、グラフデータとして見ることができます。 手動アノテーション付き検索クエリの新たなデータセットを用いた経験的評価により,組込みモデルを用いた数学的検索のメリットが示された。 この作品はKDD 2020で発表された。

Given the increase of publications, search for relevant papers becomes tedious. In particular, search across disciplines or schools of thinking is not supported. This is mainly due to the retrieval with keyword queries: technical terms differ in different sciences or at different times. Relevant articles might better be identified by their mathematical problem descriptions. Just looking at the equations in a paper already gives a hint to whether the paper is relevant. Hence, we propose a new approach for retrieval of mathematical expressions based on machine learning. We design an unsupervised representation learning task that combines embedding learning with self-supervised learning. Using graph convolutional neural networks we embed mathematical expression into low-dimensional vector spaces that allow efficient nearest neighbor queries. To train our models, we collect a huge dataset with over 29 million mathematical expressions from over 900,000 publications published on arXiv.org. The math is converted into an XML format, which we view as graph data. Our empirical evaluations involving a new dataset of manually annotated search queries show the benefits of using embedding models for mathematical retrieval. This work was originally published at KDD 2020.
翻訳日:2022-09-04 02:02:50 公開日:2022-08-22
# 音声認識のエンドツーエンド学習における低レベル生理学的意義

Low-Level Physiological Implications of End-to-End Learning of Speech Recognition ( http://arxiv.org/abs/2208.11700v1 )

ライセンス: Link先を確認
Louise Coppieters de Gibson, Philip N. Garner(参考訳) 現在の音声認識アーキテクチャは、機械学習の観点から非常によく機能するので、ユーザーとのインタラクションが可能です。 これは、人間の生体システムをうまくエミュレートしていることを示している。 本研究は,その生物学的システム,特に聴覚機構に関する洞察を提供するために,逆推定が可能かどうかを検討する。 SincNetを用いて、エンド・ツー・エンドのシステムがよく知られたフィルタバンク構造を学習できることを確認する。 しかし,より広い帯域幅のフィルタが学習構造において重要であることを示す。 狭帯域フィルタと広帯域フィルタの両方を初期化することでいくつかの利点を得ることができるが、生理的制約は、そのようなフィルターが人工内耳ではなく中脳で発生することを示唆している。 我々は、このプロセスを神経的にエミュレートできるように、標準的な機械学習アーキテクチャを変更する必要があることを示します。

Current speech recognition architectures perform very well from the point of view of machine learning, hence user interaction. This suggests that they are emulating the human biological system well. We investigate whether the inference can be inverted to provide insights into that biological system; in particular the hearing mechanism. Using SincNet, we confirm that end-to-end systems do learn well known filterbank structures. However, we also show that wider band-width filters are important in the learned structure. Whilst some benefits can be gained by initialising both narrow and wide-band filters, physiological constraints suggest that such filters arise in mid-brain rather than the cochlea. We show that standard machine learning architectures must be modified to allow this process to be emulated neurally.
翻訳日:2022-08-26 13:54:19 公開日:2022-08-22
# 複数のエッジコスト推定を持つグラフに対する最短経路問題の一般化

A Generalization of the Shortest Path Problem to Graphs with Multiple Edge-Cost Estimates ( http://arxiv.org/abs/2208.11489v1 )

ライセンス: Link先を確認
Eyal Weiss, Gal A. Kaminka(参考訳) グラフにおける最短経路問題は理論と応用の両方の基盤である。 既存の作業にはエッジウェイトアクセス時間があるが、一般にエッジウェイト計算時間を無視している。 本稿では,重み付き有向グラフの一般化フレームワークを提案する。各エッジコストを複数の推定器で動的に推定し,コスト境界と実行時間が異なる。 これは、コストの不確実性を保証しながらパスコストの異なる側面を最適化し、現実的な問題をモデル化するためのより良い基礎を提供する。 我々は,これらの問題を解決するための任意の時間アルゴリズムを提示し,ソリューション品質の保証を提供する。

The shortest path problem in graphs is a cornerstone for both theory and applications. Existing work accounts for edge weight access time, but generally ignores edge weight computation time. In this paper we present a generalized framework for weighted directed graphs, where each edge cost can be dynamically estimated by multiple estimators, that offer different cost bounds and run-times. This raises several generalized shortest path problems, that optimize different aspects of path cost while requiring guarantees on cost uncertainty, providing a better basis for modeling realistic problems. We present complete, anytime algorithms for solving these problems, and provide guarantees on the solution quality.
翻訳日:2022-08-25 13:23:04 公開日:2022-08-22
# 量子マルチエージェントメタ強化学習

Quantum Multi-Agent Meta Reinforcement Learning ( http://arxiv.org/abs/2208.11510v1 )

ライセンス: Link先を確認
Won Joon Yun, Jihong Park, Joongheon Kim(参考訳) 量子超越性はまだ実現されていないが、近年、実用的量子コンピューティングの時代における量子機械学習(qml)の可能性を特定することへの関心が高まっている。 本稿では、トレーニング可能なパラメータの2つの異なる次元を持つ量子ニューラルネットワーク(QNN)のユニークな特性に基づいて、出力量子ビット状態に影響を与える角度パラメータと、出力測定基準に関連する極パラメータに基づいて、マルチエージェント強化学習(MARL)を再設計する。 本稿では,このdyadic trainabilityをメタ学習能力として活用し,まず,メタqnn学習にアングルトレーニングを適用した量子メタmarl (qm2arl) を提案する。 オーバーフィッティングを避けるため,角度訓練中に極領域にノイズを注入する角度-極正規化手法を開発した。 さらに、トレーニングされた各QNNのメモリアドレスとして極を利用することにより、トレーニング済みQNNを2パラメータの極値のみを用いて保存およびロードできる極メモリの概念を導入する。 角度から極への正則化下での角度訓練の収束を理論的に証明し,qm2arlの高報酬化と高速収束化,および時間変動環境への高速適応における極メモリの有効性をシミュレーションにより検証した。

Although quantum supremacy is yet to come, there has recently been an increasing interest in identifying the potential of quantum machine learning (QML) in the looming era of practical quantum computing. Motivated by this, in this article we re-design multi-agent reinforcement learning (MARL) based on the unique characteristics of quantum neural networks (QNNs) having two separate dimensions of trainable parameters: angle parameters affecting the output qubit states, and pole parameters associated with the output measurement basis. Exploiting this dyadic trainability as meta-learning capability, we propose quantum meta MARL (QM2ARL) that first applies angle training for meta-QNN learning, followed by pole training for few-shot or local-QNN training. To avoid overfitting, we develop an angle-to-pole regularization technique injecting noise into the pole domain during angle training. Furthermore, by exploiting the pole as the memory address of each trained QNN, we introduce the concept of pole memory allowing one to save and load trained QNNs using only two-parameter pole values. We theoretically prove the convergence of angle training under the angle-to-pole regularization, and by simulation corroborate the effectiveness of QM2ARL in achieving high reward and fast convergence, as well as of the pole memory in fast adaptation to a time-varying environment.
翻訳日:2022-08-25 12:22:08 公開日:2022-08-22
# fedos: オープンセット学習によるフェデレーション学習におけるトレーニングの安定化

FedOS: using open-set learning to stabilize training in federated learning ( http://arxiv.org/abs/2208.11512v1 )

ライセンス: Link先を確認
Mohamad Mohamad, Julian Neubert, Juan Segundo Ayardo(参考訳) フェデレーション学習(federated learning)は、プライバシの制約に違反せずに分散データセットの統計モデルをトレーニングする、最近のアプローチである。 データローカリティの原則は、クライアントとサーバ間のデータではなく、モデルを共有することで保持されます。 これは多くの利点をもたらすが、新しい課題も生み出す。 本報告では,この新しい研究領域を調査し,これらの課題と課題設定の違いが最終モデルの性能にどのように影響するかを理解するため,いくつかの実験を行う。 最後に,これらの課題の1つに対して新しいアプローチを示し,文献に見られる他の手法と比較する。

Federated Learning is a recent approach to train statistical models on distributed datasets without violating privacy constraints. The data locality principle is preserved by sharing the model instead of the data between clients and the server. This brings many advantages but also poses new challenges. In this report, we explore this new research area and perform several experiments to deepen our understanding of what these challenges are and how different problem settings affect the performance of the final model. Finally, we present a novel approach to one of these challenges and compare it to other methods found in literature.
翻訳日:2022-08-25 12:17:01 公開日:2022-08-22
# 高速Nyquist(FTN)信号検出のための低複雑性分類手法

Low Complexity Classification Approach for Faster-than-Nyquist (FTN) Signalling Detection ( http://arxiv.org/abs/2208.10637v1 )

ライセンス: Link先を確認
Sina Abbasi and Ebrahim Bedeer(参考訳) より高速なニキスト信号(FTN)はスペクトル効率(SE)を改善することができるが、導入されたシンボル間干渉(ISI)を取り除くために高い計算複雑性を犠牲にする。 本稿では,近年の物理層問題(PHY)問題におけるMLの成功に触発され,FTN信号の検出複雑性の低減にMLを用いることを検討した。 特に、FTN信号検出問題を分類タスクとみなし、受信した信号は、全ての可能なクラスサンプルの集合に属するラベルなしのクラスサンプルとみなす。 オフシェルフ分類器を使用する場合、すべての可能なクラスサンプルのセットは、計算量が非常に複雑である伝送ブロック長が$n$であるような、$n$次元空間に属する。 FTN信号のISI構造を利用して,N_p \ll N$-dimension空間の分類処理を行う低複雑性分類器(LCC)を提案する。 提案されたlccは2つの段階からなる。 1) $n_p$-dimensional空間でラベル付きクラスサンプルを構成するオフライン事前分類と 2) 受信したサンプルの検出を行うオンライン分類。 提案したLCCはソフトアウトプットを生成するために拡張されている。 シミュレーション結果は,LCCが性能と複雑性のバランスをとる上での有効性を示した。

Faster-than-Nyquist (FTN) signaling can improve the spectral efficiency (SE); however, at the expense of high computational complexity to remove the introduced intersymbol interference (ISI). Motivated by the recent success of ML in physical layer (PHY) problems, in this paper we investigate the use of ML in reducing the detection complexity of FTN signaling. In particular, we view the FTN signaling detection problem as a classification task, where the received signal is considered as an unlabeled class sample that belongs to a set of all possible classes samples. If we use an off-shelf classifier, then the set of all possible classes samples belongs to an $N$-dimensional space, where $N$ is the transmission block length, which has a huge computational complexity. We propose a low-complexity classifier (LCC) that exploits the ISI structure of FTN signaling to perform the classification task in $N_p \ll N$-dimension space. The proposed LCC consists of two stages: 1) offline pre-classification that constructs the labeled classes samples in the $N_p$-dimensional space and 2) online classification where the detection of the received samples occurs. The proposed LCC is extended to produce soft-outputs as well. Simulation results show the effectiveness of the proposed LCC in balancing performance and complexity.
翻訳日:2022-08-24 14:15:00 公開日:2022-08-22
# 高周波非侵入負荷モニタリングのためのスケーラブルハイブリッド分類回帰ソリューション

Scalable Hybrid Classification-Regression Solution for High-Frequency Nonintrusive Load Monitoring ( http://arxiv.org/abs/2208.10638v1 )

ライセンス: Link先を確認
Govind Saraswat, Blake Lundstrom and Murti V Salapaka(参考訳) ネットワーク負荷の監視と制御(負荷と発生の仮定)が可能な住宅ビルは、電力グリッドオペレーターに価値ある柔軟性を提供することができる。 本稿では,高頻度でのネットワーク負荷モニタリングを最小限の設備とコストで実現可能な,新しいマルチクラス非侵襲負荷監視(NILM)手法を提案する。 提案した機械学習ベースのソリューションは、イベント検出技術に頼ることなく、より高速な時間スケール(USパワーグリッドで使用される60Hzのacサイクル毎の予測を提供することができる)で運用しながら、正確なマルチクラス状態予測を提供する。 また, 分類による負荷オン/オフ状態だけでなく, 回帰による個別負荷運転パワーレベルを予測可能な, 革新的なハイブリッド分類回帰手法を提案する。 NILMアプローチの検証には、8つの家電を備えたテストベッドが使用される。 その結果,本手法は精度が高く,スケーリングや一般化性が良好であることがわかった。 さらに、グリッド周波数支援サービスの提供に関連する高速時間スケールでグリッド対話制御を構築するための十分な応答時間(160msで10交流サイクルに対応する)を有することが示される。

Residential buildings with the ability to monitor and control their net-load (sum of load and generation) can provide valuable flexibility to power grid operators. We present a novel multiclass nonintrusive load monitoring (NILM) approach that enables effective net-load monitoring capabilities at high-frequency with minimal additional equipment and cost. The proposed machine learning based solution provides accurate multiclass state predictions while operating at a faster timescale (able to provide a prediction for each 60-Hz ac cycle used in US power grid) without relying on event-detection techniques. We also introduce an innovative hybrid classification-regression method that allows for the prediction of not only load on/off states via classification but also individual load operating power levels via regression. A test bed with eight residential appliances is used for validating the NILM approach. Results show that the overall method has high accuracy and, good scaling and generalization properties. Furthermore, the method is shown to have sufficient response time (within 160ms, corresponding to 10 ac cycles) to support building grid-interactive control at fast timescales relevant to the provision of grid frequency support services.
翻訳日:2022-08-24 14:14:38 公開日:2022-08-22
# H&E画像による大腸癌のマイクロサテライト不安定性とキーバイオマーカーの予測:Swin Transformerを用いたSOTAの低値化

Predicting microsatellite instability and key biomarkers in colorectal cancer from H&E-stained images: Achieving SOTA with Less Data using Swin Transformer ( http://arxiv.org/abs/2208.10495v1 )

ライセンス: Link先を確認
Bangwei Guo, Jitendra Jonnagaddala, Hong Zhang, Xu Steven Xu(参考訳) 人工知能(AI)モデルは、大腸癌(CRC)のマイクロサテライト不安定性(MSI)を含む臨床関連バイオマーカーを予測するために開発された。 しかし、現在のディープラーニングネットワークはデータ不足であり、医療領域に欠けている大規模なトレーニングデータセットを必要とする。 本研究では,シフトウィンドウを用いた最新の階層的視覚変換(swin-t)に基づいて,比較的小さなデータセットしか必要とせず,最先端の予測性能を達成したcrc(msi,hypermutation,chromosomal instability,cpg island methylator phenotype,braf,tp53 mutation)におけるバイオマーカーの効率的なワークフローを開発した。 tcga-crc-dxデータセット(n = 462)を用いたswain-tワークフローは,swain-tの公開モデルを大幅に上回るだけでなく,swatの外部検証において優れた汎用性を示し,mcoデータセット(n = 1065)とテスト用tcga-crc-dxを使用したmsiのsoma aurocを0.90で提供した。 同様の性能(AUROC=0.91)は、Echleらによって同じテストデータセット上で8000のトレーニングサンプル(ResNet18)を使用して達成された。 Swin-Tは小さなトレーニングデータセットを使用して極めて効率的で、200-500のトレーニングサンプルだけで堅牢な予測性能を示す。 これらのデータによると、Swin-TはResNet18とShuffleNetに基づくMSIの最先端アルゴリズムよりも5~10倍効率が高い。 さらに、Swin-Tモデルは、MSIステータスとBRAF変異ステータスの事前スクリーニングテストとして、カスケード診断ワークフローにおけるその後の標準テストの前にサンプルを除外し、削減することで、ターンアラウンドタイムの削減とコスト削減を可能にした。

Artificial intelligence (AI) models have been developed for predicting clinically relevant biomarkers, including microsatellite instability (MSI), for colorectal cancers (CRC). However, the current deep-learning networks are data-hungry and require large training datasets, which are often lacking in the medical domain. In this study, based on the latest Hierarchical Vision Transformer using Shifted Windows (Swin-T), we developed an efficient workflow for biomarkers in CRC (MSI, hypermutation, chromosomal instability, CpG island methylator phenotype, BRAF, and TP53 mutation) that only required relatively small datasets, but achieved the state-of-the-art (SOTA) predictive performance. Our Swin-T workflow not only substantially outperformed published models in an intra-study cross-validation experiment using TCGA-CRC-DX dataset (N = 462), but also showed excellent generalizability in cross-study external validation and delivered a SOTA AUROC of 0.90 for MSI using the MCO dataset for training (N = 1065) and the same TCGA-CRC-DX for testing. Similar performance (AUROC=0.91) was achieved by Echle and colleagues using 8000 training samples (ResNet18) on the same testing dataset. Swin-T was extremely efficient using small training datasets and exhibits robust predictive performance with only 200-500 training samples. These data indicate that Swin-T may be 5-10 times more efficient than the current state-of-the-art algorithms for MSI based on ResNet18 and ShuffleNet. Furthermore, the Swin-T models showed promise as pre-screening tests for MSI status and BRAF mutation status, which could exclude and reduce the samples before the subsequent standard testing in a cascading diagnostic workflow to allow turnaround time reduction and cost saving.
翻訳日:2022-08-24 14:07:07 公開日:2022-08-22
# 話者匿名化システムを構築する上で,異種表現は必要か?

Are disentangled representations all you need to build speaker anonymization systems? ( http://arxiv.org/abs/2208.10497v1 )

ライセンス: Link先を確認
Pierre Champion (MULTISPEECH, LIUM), Denis Jouvet (MULTISPEECH), Anthony Larcher (LIUM)(参考訳) 音声信号には、話者のアイデンティティなど多くの機密情報が含まれており、音声データが収集されるとプライバシーの懸念が高まる。 話者匿名化は、音声信号を変換して、発話内容が変わらないままソース話者の身元を除去することを目的としている。 現在の手法は、内容/話者の絡み合いと音声変換に頼って変換を行う。 通常、自動音声認識システムからの音響モデルはコンテンツ表現を抽出し、x-vectorシステムは話者表現を抽出する。 先行研究では、抽出された特徴が完全に絡み合っていないことが示されている。 本稿では,特徴の絡み合いを改善する方法と,その変換された匿名化音声について述べる。 本稿では,ベクトル量子化を用いた音響モデルから話者情報を取り除き,絡み合いを高めることを提案する。 VoicePrivacy 2022ツールキットを用いて評価したところ、ベクトル量子化は音声認識の実用性を維持しながら元の話者識別を隠蔽することがわかった。

Speech signals contain a lot of sensitive information, such as the speaker's identity, which raises privacy concerns when speech data get collected. Speaker anonymization aims to transform a speech signal to remove the source speaker's identity while leaving the spoken content unchanged. Current methods perform the transformation by relying on content/speaker disentanglement and voice conversion. Usually, an acoustic model from an automatic speech recognition system extracts the content representation while an x-vector system extracts the speaker representation. Prior work has shown that the extracted features are not perfectly disentangled. This paper tackles how to improve features disentanglement, and thus the converted anonymized speech. We propose enhancing the disentanglement by removing speaker information from the acoustic model using vector quantization. Evaluation done using the VoicePrivacy 2022 toolkit showed that vector quantization helps conceal the original speaker identity while maintaining utility for speech recognition.
翻訳日:2022-08-24 14:06:22 公開日:2022-08-22
# DualVoice:通常の音声入力とWhispered音声入力を区別する音声対話

DualVoice: Speech Interaction that Discriminates between Normal and Whispered Voice Input ( http://arxiv.org/abs/2208.10499v1 )

ライセンス: Link先を確認
Jun Rekimoto(参考訳) 自動音声認識(asr)に基づく対話が広く使われ、音声入力が文書作成に利用されるようになっている。 しかし、発せられるコマンドと音声入力に必要なテキストの区別が容易ではないため、誤認識は識別や修正が困難であり、文書を手作業で編集して修正する必要がある。 記号やコマンドの入力も、テキスト文字として誤認識される可能性があるため、難しい。 これらの問題に対処するために,本研究では,コマンドをささやき声で入力し,通常の音声で文字を入力できる,デュアルボイスと呼ばれる音声対話方式を提案する。 提案手法は、通常のマイク以外の特別なハードウェアを必要としないため、完全なハンズフリーインタラクションが可能となる。 この方法は、テキスト入力からモバイル/ウェアラブルコンピューティングまで、音声認識が既に利用可能である幅広い状況で使用することができる。 本研究では,2つのニューラル・ネットワークをデザインした。1つは通常の音声とささやき声を区別し,もう1つはささやき声を認識するために設計された。 テキスト入力システムのプロトタイプが開発され、音声入力に通常の音声とささやき声がどれだけ使えるかを示すようになった。 DualVoiceを使った潜在的なアプリケーションについても論じられている。

Interactions based on automatic speech recognition (ASR) have become widely used, with speech input being increasingly utilized to create documents. However, as there is no easy way to distinguish between commands being issued and text required to be input in speech, misrecognitions are difficult to identify and correct, meaning that documents need to be manually edited and corrected. The input of symbols and commands is also challenging because these may be misrecognized as text letters. To address these problems, this study proposes a speech interaction method called DualVoice, by which commands can be input in a whispered voice and letters in a normal voice. The proposed method does not require any specialized hardware other than a regular microphone, enabling a complete hands-free interaction. The method can be used in a wide range of situations where speech recognition is already available, ranging from text input to mobile/wearable computing. Two neural networks were designed in this study, one for discriminating normal speech from whispered speech, and the second for recognizing whisper speech. A prototype of a text input system was then developed to show how normal and whispered voice can be used in speech text input. Other potential applications using DualVoice are also discussed.
翻訳日:2022-08-24 14:06:09 公開日:2022-08-22
# 複雑分離チャートオートエンコーダを用いた半教師付きマニフォールド学習

Semi-Supervised Manifold Learning with Complexity Decoupled Chart Autoencoders ( http://arxiv.org/abs/2208.10570v1 )

ライセンス: Link先を確認
Stefan C. Schonsheck, Scott Mahan, Timo Klock, Alexander Cloninger, Rongjie Lai(参考訳) 自動エンコーディングは表現学習において一般的な方法である。 従来のオートエンコーダは対称符号化復号法と単純なユークリッド潜在空間を用い、教師なしの方法で隠れた低次元構造を検出する。 本研究は、クラスラベルなどの半教師付き情報を付加できる非対称符号化復号プロセスを備えたチャートオートエンコーダを導入する。 複雑な位相的および幾何学的構造を持つデータを扱う能力の強化に加えて、これらのモデルは、近傍で不連続な多様体を区別し、少量の監督だけで交叉多様体を区別することに成功した。 さらに、このモデルは局所線形射影のような低複雑性エンコーダのみを必要とする。 我々は、観測の次元ではなく、データ多様体の固有次元に本質的に依存するそのようなネットワークの理論的近似力について論じる。 合成および実世界のデータに関する数値実験により、提案モデルは、異なるクラス、重なり合う多様体、非自明なトポロジーを持つ多様体の複数のクラスで効率的にデータを管理できることを確認した。

Autoencoding is a popular method in representation learning. Conventional autoencoders employ symmetric encoding-decoding procedures and a simple Euclidean latent space to detect hidden low-dimensional structures in an unsupervised way. This work introduces a chart autoencoder with an asymmetric encoding-decoding process that can incorporate additional semi-supervised information such as class labels. Besides enhancing the capability for handling data with complicated topological and geometric structures, these models can successfully differentiate nearby but disjoint manifolds and intersecting manifolds with only a small amount of supervision. Moreover, this model only requires a low complexity encoder, such as local linear projection. We discuss the theoretical approximation power of such networks that essentially depends on the intrinsic dimension of the data manifold and not the dimension of the observations. Our numerical experiments on synthetic and real-world data verify that the proposed model can effectively manage data with multi-class nearby but disjoint manifolds of different classes, overlapping manifolds, and manifolds with non-trivial topology.
翻訳日:2022-08-24 14:05:48 公開日:2022-08-22
# SoK: コンピュータセキュリティアプリケーションのための説明可能な機械学習

SoK: Explainable Machine Learning for Computer Security Applications ( http://arxiv.org/abs/2208.10605v1 )

ライセンス: Link先を確認
Azqa Nadeem, Dani\"el Vos, Clinton Cao, Luca Pajola, Simon Dieck, Robert Baumgartner, Sicco Verwer(参考訳) 説明可能な人工知能(XAI)は、機械学習(ML)パイプラインの透明性を改善するための有望なソリューションである。 我々は、XAIメソッドを防御および攻撃的なサイバーセキュリティタスクに利用し、成長する(しかし断片化された)研究のマイクロスコープを体系化する。 我々は、XAIをMLパイプライン内の5つの異なる目的のために利用する3つのサイバーセキュリティステークホルダー、すなわち、モデルユーザー、デザイナー、敵を識別する。 1)XAI対応意思決定支援 2)セキュリティタスクにXAIを適用した。 3)XAIによるモデル検証 4) 検証・堅牢性、及び 5) 説明の悪用。 我々はさらに、ターゲットセキュリティドメインに関する文献を分類する。 文献を分析したところ、XAIアプリケーションの多くは、アナリストワークフローにどのように統合されるのかをほとんど理解せずに設計されていることが示されています。 文学は様々な利害関係者の役割を乱すことは滅多にない。 特に、モデルデザイナの役割は、セキュリティ文献の中で最小化される。 そこで,本稿では,モデル設計者の役割を強調する事例を紹介する。 XAIがモデル検証に役立てるケースと、その代わりに誤った結論につながる可能性のあるケースを示す。 システム化とユースケースは、サイバーセキュリティにおけるXAIの未来を形作るのに役立ついくつかの仮定に挑戦し、オープンな問題を提示することを可能にする。

Explainable Artificial Intelligence (XAI) is a promising solution to improve the transparency of machine learning (ML) pipelines. We systematize the increasingly growing (but fragmented) microcosm of studies that develop and utilize XAI methods for defensive and offensive cybersecurity tasks. We identify 3 cybersecurity stakeholders, i.e., model users, designers, and adversaries, that utilize XAI for 5 different objectives within an ML pipeline, namely 1) XAI-enabled decision support, 2) applied XAI for security tasks, 3) model verification via XAI, 4) explanation verification & robustness, and 5) offensive use of explanations. We further classify the literature w.r.t. the targeted security domain. Our analysis of the literature indicates that many of the XAI applications are designed with little understanding of how they might be integrated into analyst workflows -- user studies for explanation evaluation are conducted in only 14% of the cases. The literature also rarely disentangles the role of the various stakeholders. Particularly, the role of the model designer is minimized within the security literature. To this end, we present an illustrative use case accentuating the role of model designers. We demonstrate cases where XAI can help in model verification and cases where it may lead to erroneous conclusions instead. The systematization and use case enable us to challenge several assumptions and present open problems that can help shape the future of XAI within cybersecurity
翻訳日:2022-08-24 14:05:28 公開日:2022-08-22
# Split-U-Net: マルチモーダル脳腫瘍分離のためのスプリット学習におけるデータ漏洩防止

Split-U-Net: Preventing Data Leakage in Split Learning for Collaborative Multi-Modal Brain Tumor Segmentation ( http://arxiv.org/abs/2208.10553v1 )

ライセンス: Link先を確認
Holger R. Roth, Ali Hatamizadeh, Ziyue Xu, Can Zhao, Wenqi Li, Andriy Myronenko, Daguang Xu(参考訳) 分散学習(SL)は、ディープラーニングモデルを分散的に訓練するために提案されている。 垂直データパーティショニングを備えた分散医療アプリケーションにとって、SLは、患者が共同でより堅牢で一般化可能なモデルを開発できるようにするために、補完的な特徴や画像を持つ機関が有用である。 本研究では,「スプリット・U-ネット」を提案するとともに,バイオメディカル画像のセグメンテーションにSLを適用した。 それでもslは、さまざまな機能空間にまたがるトレーニングモデルを可能にするために、中間的なアクティベーションマップと勾配の交換を必要とする。 そこで本研究では,生物画像分割のための共通slシナリオにおけるデータ漏洩量を定量化し,適切な防御戦略を適用してその対策を行う方法を提案する。

Split learning (SL) has been proposed to train deep learning models in a decentralized manner. For decentralized healthcare applications with vertical data partitioning, SL can be beneficial as it allows institutes with complementary features or images for a shared set of patients to jointly develop more robust and generalizable models. In this work, we propose "Split-U-Net" and successfully apply SL for collaborative biomedical image segmentation. Nonetheless, SL requires the exchanging of intermediate activation maps and gradients to allow training models across different feature spaces, which might leak data and raise privacy concerns. Therefore, we also quantify the amount of data leakage in common SL scenarios for biomedical image segmentation and provide ways to counteract such leakage by applying appropriate defense strategies.
翻訳日:2022-08-24 14:00:11 公開日:2022-08-22
# サイリコ心筋における3次元微細構造計測 -心拡散強調MRIにおける仮想画像化の試み-

Three-dimensional micro-structurally informed in silico myocardium -- towards virtual imaging trials in cardiac diffusion weighted MRI ( http://arxiv.org/abs/2208.10623v1 )

ライセンス: Link先を確認
Mojtaba Lashgari, Nishant Ravikumar, Irvin Teh, Jing-Rebecca Li, David L. Buckley, Jurgen E. Schneider, Alejandro F. Frangi(参考訳) シリコン組織モデルでは、磁気共鳴イメージングの定量的モデルを評価することができる。 これには、イメージングバイオマーカーと組織微細構造パラメータの検証と感度解析が含まれる。 心筋ミクロ組織を現実的な数値ファントムとして生成する新しい手法を提案する。 本研究は, 心筋細胞形状の変動, 心筋細胞間の水交換, 心筋微細構造異常, および4枚のシートレット配向について検討した。 本発明の方法の第1段階では、心筋細胞-心筋細胞間結合における形状可変性およびインターカレートディスクを考慮し、心筋細胞および血小板を生成する。 その後、シートレットは集約され、関心の方向に向けられる。 形態計測により, 数量, 長さ, 一次および二次軸の分布に有意差は認められなかった(p>0.01$)。 構造相関分析により、シリコン内組織が実際の組織と同じ障害のクラスにあることが証明される。 さらに、シミュレーションされた心筋細胞のヘリカル角(ha)と入力ha(参照値)の絶対角度差(4.3^\circ\pm 3.1^\circ$)は、実験心筋拡散テンソルイメージング(cdti)と(holmes et al., 2000)で報告された組織学(参照値)と(scollan et al., 1998)で報告された4.9^\circ\pm 14.6^\circ$)との絶対角度差と一致している。 入力およびシミュレーションされたcDTIの固有ベクトルとシートレット角の間の角距離は、構造テンソルイメージング(金標準)と実験cDTIの角距離よりも小さい。 以上の結果より,提案法がよりリッチな心筋ファントムを生成できることが確認された。

In silico tissue models enable evaluating quantitative models of magnetic resonance imaging. This includes validating and sensitivity analysis of imaging biomarkers and tissue microstructure parameters. We propose a novel method to generate a realistic numerical phantom of myocardial microstructure. We extend previous studies accounting for the cardiomyocyte shape variability, water exchange between the cardiomyocytes (intercalated discs), myocardial microstructure disarray, and four sheetlet orientations. In the first stage of the method, cardiomyocytes and sheetlets are generated by considering the shape variability and intercalated discs in cardiomyocyte-to-cardiomyocyte connections. Sheetlets are then aggregated and oriented in the directions of interest. Our morphometric study demonstrates no significant difference ($p>0.01$) between the distribution of volume, length, and primary and secondary axes of the numerical and real (literature) cardiomyocyte data. Structural correlation analysis validates that the in-silico tissue is in the same class of disorderliness as the real tissue. Additionally, the absolute angle differences between the simulated helical angle (HA) and input HA (reference value) of the cardiomyocytes ($4.3^\circ\pm 3.1^\circ$) demonstrate a good agreement with the absolute angle difference between the measured HA using experimental cardiac diffusion tensor imaging (cDTI) and histology (reference value) reported by (Holmes et al., 2000) ($3.7^\circ\pm6.4^\circ$) and (Scollan et al., 1998) ($4.9^\circ\pm 14.6^\circ$). The angular distance between eigenvectors and sheetlet angles of the input and simulated cDTI is smaller than those between measured angles using structural tensor imaging (gold standard) and experimental cDTI. These results confirm that the proposed method can generate richer numerical phantoms for the myocardium than previous studies.
翻訳日:2022-08-24 13:59:56 公開日:2022-08-22
# 制御原理に基づく時間平均アクティブ推論の導出

Deriving time-averaged active inference from control principles ( http://arxiv.org/abs/2208.10601v1 )

ライセンス: Link先を確認
Eli Sennesh, Jordan Theriault, Jan-Willem van de Meent, Lisa Feldman Barrett, Karen Quigley(参考訳) アクティブ推論は、平均的な感覚的サプライズを時間とともに最小化する行動の原則的な説明を提供する。 制御問題に対するアクティブ推論の応用は、無限水平平均サプライズ原理から導かれるにもかかわらず、これまで有限ホライズンや割引サプライズ問題に集中する傾向にあった。 ここでは、最適制御原理から活性推論の無限水平平均サプライズ定式化を導出する。 本論文は神経解剖学および神経生理学における能動推論のルーツに戻り,能動推論を最適フィードバック制御に再結合する。 提案方式は,センサモジュレータ制御のための統一的な客観的機能を提供し,時間とともに参照状態が変化することを可能にする。

Active inference offers a principled account of behavior as minimizing average sensory surprise over time. Applications of active inference to control problems have heretofore tended to focus on finite-horizon or discounted-surprise problems, despite deriving from the infinite-horizon, average-surprise imperative of the free-energy principle. Here we derive an infinite-horizon, average-surprise formulation of active inference from optimal control principles. Our formulation returns to the roots of active inference in neuroanatomy and neurophysiology, formally reconnecting active inference to optimal feedback control. Our formulation provides a unified objective functional for sensorimotor control and allows for reference states to vary over time.
翻訳日:2022-08-24 13:55:51 公開日:2022-08-22
# 確率的プログラムの滑らか性解析と最適変分推論への応用

Smoothness Analysis for Probabilistic Programs with Application to Optimised Variational Inference ( http://arxiv.org/abs/2208.10530v1 )

ライセンス: Link先を確認
Wonyeol Lee, Xavier Rival, Hongseok Yang(参考訳) 本稿では,与えられた確率プログラムの微分可能,あるいはより一般的に滑らかな部分を探索するための静的解析を行い,後進推論およびモデル学習の最も一般的な方法の一つであるパスワイズ勾配推定器(pathwise gradient estimator)の改善にその解析がどのように役立つかを示す。 改良された推定器は、静的解析を用いて、与えられた確率的プログラムの微分可能部分を自動で識別し、より汎用的で効率の低い推定器(スコア推定器)をプログラムの残りに使用しながら、同定された部分にパスワイズ勾配推定器を適用する。 プログラム解析設計者の視点から見た場合, 対象の滑らかさ特性の誤動作が原因として, 驚くほど微妙な音響性論がある。 例えば、いくつかの滑らかさ特性は関数合成では保存されないため、精度を犠牲にすることなくシーケンシャル合成を適切に分析することは困難である。 対象の滑らか性に関する5つの仮定を定式化し、これらの仮定に基づいて解析の健全性を証明し、主要な例がこれらの仮定を満たすことを示す。 また, 解析から得られた情報を用いて, 改良した勾配推定器は, 重要な微分可能性要件を満たし, 穏やかな正規性条件下では, 平均値, すなわち偏りのない推定値を算出できることを示した。 pyro言語における代表的な確率的プログラムを用いた実験では、静的解析によってプログラムの滑らかな部分を正確に識別でき、パスワイズ勾配推定器を改良することで、プログラムの高性能化の機会をすべて活用できることを示した。

We present a static analysis for discovering differentiable or more generally smooth parts of a given probabilistic program, and show how the analysis can be used to improve the pathwise gradient estimator, one of the most popular methods for posterior inference and model learning. Our improvement increases the scope of the estimator from differentiable models to non-differentiable ones without requiring manual intervention of the user; the improved estimator automatically identifies differentiable parts of a given probabilistic program using our static analysis, and applies the pathwise gradient estimator to the identified parts while using a more general but less efficient estimator, called score estimator, for the rest of the program. Our analysis has a surprisingly subtle soundness argument, partly due to the misbehaviours of some target smoothness properties when viewed from the perspective of program analysis designers. For instance, some smoothness properties are not preserved by function composition, and this makes it difficult to analyse sequential composition soundly without heavily sacrificing precision. We formulate five assumptions on a target smoothness property, prove the soundness of our analysis under those assumptions, and show that our leading examples satisfy these assumptions. We also show that by using information from our analysis, our improved gradient estimator satisfies an important differentiability requirement and thus, under a mild regularity condition, computes the correct estimate on average, i.e., it returns an unbiased estimate. Our experiments with representative probabilistic programs in the Pyro language show that our static analysis is capable of identifying smooth parts of those programs accurately, and making our improved pathwise gradient estimator exploit all the opportunities for high performance in those programs.
翻訳日:2022-08-24 13:55:03 公開日:2022-08-22
# 習熟度に基づく日射量予測のメタ分析

A Meta-Analysis of Solar Forecasting Based on Skill Score ( http://arxiv.org/abs/2208.10536v1 )

ライセンス: Link先を確認
Thi Ngoc Nguyen and Felix M\"usgens(参考訳) Google Scholarから1,447枚の論文をスクリーニングし,データ抽出のための320枚の論文の全文をレビューした。 4,758点のデータベースを構築し,多変量適応回帰スプラインモデル,部分依存プロット,線形回帰を用いて解析した。 特に、解析はデータの最も重要な非線形関係と相互作用項を考慮に入れている。 我々は,予測地平線,分解度,気候条件,地域ごとの太陽照度,電力系統の大きさと容量,予測モデル,列車と試験セット,異なる技術と入力の使用など,重要な変数の予測精度に与える影響を定量化する。 位置変数を含む予測値の主な違いを制御することにより,解析結果のグローバルな適用が可能となる。 この分野における科学の進歩についても概説する。

We conduct the first comprehensive meta-analysis of deterministic solar forecasting based on skill score, screening 1,447 papers from Google Scholar and reviewing the full texts of 320 papers for data extraction. A database of 4,758 points was built and analyzed with multivariate adaptive regression spline modelling, partial dependence plots, and linear regression. Notably, the analysis accounts for the most important non-linear relationships and interaction terms in the data. We quantify the impacts on forecast accuracy of important variables such as forecast horizon, resolution, climate conditions, regions' annual solar irradiance level, power system size and capacity, forecast models, train and test sets, and the use of different techniques and inputs. By controlling for the key differences between forecasts, including location variables, the findings from the analysis can be applied globally. An overview of scientific progress in the field is also provided.
翻訳日:2022-08-24 13:54:32 公開日:2022-08-22
# 12誘導心電図記録による心房細動再発リスク予測

Atrial Fibrillation Recurrence Risk Prediction from 12-lead ECG Recorded Pre- and Post-Ablation Procedure ( http://arxiv.org/abs/2208.10550v1 )

ライセンス: Link先を確認
Eran Zvuloni, Sheina Gendelman, Sanghamitra Mohanty, Jason Lewen, Andrea Natale, Joachim A. Behar(参考訳) 12誘導心電図(ECG)は心房細動(AF)カテーテルアブレーション(CAP)中に記録される。 AF再発(AFR)の長期経過観察なしにCAPが成功したかどうかを判断することは容易ではない。 したがって、AFRリスク予測アルゴリズムはCAP患者のより良い管理を可能にする。 本研究では,CAP前後に記録された12個の心電図の特徴を抽出し,AFRリスク予測機械学習モデルを訓練した。 方法: 患者112名から前部と後部を抽出した。 分析には、信号品質基準、心拍変動、および12リードecg(全体804機能)による形態的バイオマーカーが含まれていた。 112例中43例 (n) にafr臨床エンドポイントが利用可能であった。 これらは、AFRのリスク予測の可能性を評価するために、preまたはpostのCAP特徴を用いて利用された。 ランダムフォレスト分類器はネストしたクロス検証フレームワーク内でトレーニングされた。 結果: 術前状態と術後状態 (n=112) を区別するために, 統計的に36の特徴が認められた。 この分類では、auroc_pre=0.64とauroc_post=0.74(n=43)を用いて受信機動作特性(auroc)曲線下の領域を報告した。 考察と結論: この予備分析はAFRリスク予測の可能性を示した。 このようなモデルはCAP管理を改善するために使用できる。

Introduction: 12-lead electrocardiogram (ECG) is recorded during atrial fibrillation (AF) catheter ablation procedure (CAP). It is not easy to determine if CAP was successful without a long follow-up assessing for AF recurrence (AFR). Therefore, an AFR risk prediction algorithm could enable a better management of CAP patients. In this research, we extracted features from 12-lead ECG recorded before and after CAP and train an AFR risk prediction machine learning model. Methods: Pre- and post-CAP segments were extracted from 112 patients. The analysis included a signal quality criterion, heart rate variability and morphological biomarkers engineered from the 12-lead ECG (804 features overall). 43 out of the 112 patients (n) had AFR clinical endpoint available. These were utilized to assess the feasibility of AFR risk prediction, using either pre or post CAP features. A random forest classifier was trained within a nested cross validation framework. Results: 36 features were found statistically significant for distinguishing between the pre and post surgery states (n=112). For the classification, an area under the receiver operating characteristic (AUROC) curve was reported with AUROC_pre=0.64 and AUROC_post=0.74 (n=43). Discussion and conclusions: This preliminary analysis showed the feasibility of AFR risk prediction. Such a model could be used to improve CAP management.
翻訳日:2022-08-24 13:54:17 公開日:2022-08-22
# 学生パフォーマンス予測問題における集団公平性尺度の評価

Evaluation of group fairness measures in student performance prediction problems ( http://arxiv.org/abs/2208.10625v1 )

ライセンス: Link先を確認
Tai Le Quy, Thi Huyen Nguyen, Gunnar Friege and Eirini Ntoutsi(参考訳) 学生の学業成績の予測は教育データマイニング(edm)の重要な課題の一つである。 伝統的に、そのようなモデルの高い予測品質が重要視されていた。 最近では、性別や人種など、公正性や差別に関する問題も注目されている。 EDMには公平な学習アプローチがいくつかあるが、これらの尺度の比較評価はいまだに欠落している。 本稿では,様々な学習データセットとフェアネス認識学習モデルを用いて,学生のパフォーマンス予測問題に対するグループフェアネスの評価を行った。 本研究は, 等級選択においても, 公平度尺度の選択が重要であることを示す。

Predicting students' academic performance is one of the key tasks of educational data mining (EDM). Traditionally, the high forecasting quality of such models was deemed critical. More recently, the issues of fairness and discrimination w.r.t. protected attributes, such as gender or race, have gained attention. Although there are several fairness-aware learning approaches in EDM, a comparative evaluation of these measures is still missing. In this paper, we evaluate different group fairness measures for student performance prediction problems on various educational datasets and fairness-aware learning models. Our study shows that the choice of the fairness measure is important, likewise for the choice of the grade threshold.
翻訳日:2022-08-24 13:53:59 公開日:2022-08-22
# オンライン変動テンソル回帰を用いたソーシャルネットワーク上のターゲット広告

Targeted Advertising on Social Networks Using Online Variational Tensor Regression ( http://arxiv.org/abs/2208.10627v1 )

ライセンス: Link先を確認
Tsuyoshi Id\'e, Keerthiram Murugesan, Djallel Bouneffouf, Naoki Abe(参考訳) 本稿では,ソーシャルネットワーク上でのオンラインターゲティング広告について述べる。 私たちが取り組んでいる主な技術的タスクは、ユーザペアのアクティベーション確率を見積もることです。 1つのマーケティングエピソードには、非常に多様な顧客のために、さまざまな製品のマーケティングキャンペーンや戦略が伴うため、これは難しい作業です。 本稿では,オンラインターゲティング広告のためのテンソルベースのコンテキスト・バンディット・フレームワークとして最初のものを提案する。 提案フレームワークは,複数の特徴ベクトルをマルチモードテンソル形式で対応させることで,ユーザの選好や製品,キャンペーン戦略を越えて存在する不均一性を統一的に捉えることができるように設計されている。 テンソルモードの相互依存を扱うために,平均場近似を用いたオンライン変分アルゴリズムを導入する。 提案したTensorUCBアルゴリズムは,ユーザ生成の不均一性を捕捉する能力に起因して,ベンチマークに対する影響の最大化タスクを大幅に改善することを確認した。

This paper is concerned with online targeted advertising on social networks. The main technical task we address is to estimate the activation probability for user pairs, which quantifies the influence one user may have on another towards purchasing decisions. This is a challenging task because one marketing episode typically involves a multitude of marketing campaigns/strategies of different products for highly diverse customers. In this paper, we propose what we believe is the first tensor-based contextual bandit framework for online targeted advertising. The proposed framework is designed to accommodate any number of feature vectors in the form of multi-mode tensor, thereby enabling to capture the heterogeneity that may exist over user preferences, products, and campaign strategies in a unified manner. To handle inter-dependency of tensor modes, we introduce an online variational algorithm with a mean-field approximation. We empirically confirm that the proposed TensorUCB algorithm achieves a significant improvement in influence maximization tasks over the benchmarks, which is attributable to its capability of capturing the user-product heterogeneity.
翻訳日:2022-08-24 13:53:49 公開日:2022-08-22
# ニューラルネットワーク分類とハイパーパラメータチューニングを用いたECU同定

ECU Identification using Neural Network Classification and Hyperparameter Tuning ( http://arxiv.org/abs/2208.10651v1 )

ライセンス: Link先を確認
Kunaal Verma, Mansi Girdhar, Azeem Hafeez, Selim S. Awad(参考訳) 制御領域ネットワーク(can)プロトコルの侵入検出は、他の電気アーキテクチャと競合するために現代的な方法を必要とする。 指紋侵入検知システム(IDS)は,この問題の解決に期待できる新しいアプローチを提供する。 既知のECUからのネットワークトラフィックを特徴付けることにより、有害メッセージを識別することができる。 本稿では、ニューラルネットワークトレーニングによるネットワークトラフィックのステップ応答とスペクトル特性の両方を利用して、Fingerprint IDSの修正版を採用する。 機能セットの削減とハイパーパラメータチューニングの追加により、信頼されたECUトラフィックの99.4%の検出率を達成する。

Intrusion detection for Controller Area Network (CAN) protocol requires modern methods in order to compete with other electrical architectures. Fingerprint Intrusion Detection Systems (IDS) provide a promising new approach to solve this problem. By characterizing network traffic from known ECUs, hazardous messages can be discriminated. In this article, a modified version of Fingerprint IDS is employed utilizing both step response and spectral characterization of network traffic via neural network training. With the addition of feature set reduction and hyperparameter tuning, this method accomplishes a 99.4% detection rate of trusted ECU traffic.
翻訳日:2022-08-24 13:53:30 公開日:2022-08-22
# マルチタスク学習による未認識領域におけるヘイトスピーチの検出--政治家を事例として

Detect Hate Speech in Unseen Domains using Multi-Task Learning: A Case Study of Political Public Figures ( http://arxiv.org/abs/2208.10598v1 )

ライセンス: Link先を確認
Lanqin Yuan and Marian-Andrei Rizoiu(参考訳) 有害なオンラインコンテンツの拡散と有害な影響に対抗するためには,憎悪や虐待のコンテンツの自動識別が不可欠である。 既存の研究の多くは、ヘイトスピーチデータセット上での列車-テスト分割の一般化誤差を調べてモデルを評価する。 これらのデータセットは定義やラベルの基準によってしばしば異なり、新しいドメインやデータセットをまたいで予測する際のモデルパフォーマンスは低下する。 本研究では,MTLを用いて複数のヘイトスピーチデータセットを同時に学習し,より包括的な分類モデルを構築するマルチタスク学習(MTL)パイプラインを提案する。 目標データセットをトレーニングから省略し、他のデータセットで共同でトレーニングする、未発見の新たなデータセットの評価をシミュレートする。 私たちの結果は、既存の作業の大きなサンプルを一貫して上回ります。 列車テストスプリットにおける一般化誤差を検証した場合の強い結果と,未発見のデータセットで予測した場合の大幅な改善を示す。 さらに、アメリカ公共政治図の問題点に焦点をあてて、PubFigsと呼ばれる新しいデータセットを組み立てる。 PubFigsの305,235ドルのツイートで問題のあるスピーチを自動的に検出し、公開人の投稿行動に関する洞察を明らかにする。

Automatic identification of hateful and abusive content is vital in combating the spread of harmful online content and its damaging effects. Most existing works evaluate models by examining the generalization error on train-test splits on hate speech datasets. These datasets often differ in their definitions and labeling criteria, leading to poor model performance when predicting across new domains and datasets. In this work, we propose a new Multi-task Learning (MTL) pipeline that utilizes MTL to train simultaneously across multiple hate speech datasets to construct a more encompassing classification model. We simulate evaluation on new previously unseen datasets by adopting a leave-one-out scheme in which we omit a target dataset from training and jointly train on the other datasets. Our results consistently outperform a large sample of existing work. We show strong results when examining generalization error in train-test splits and substantial improvements when predicting on previously unseen datasets. Furthermore, we assemble a novel dataset, dubbed PubFigs, focusing on the problematic speech of American Public Political Figures. We automatically detect problematic speech in the $305,235$ tweets in PubFigs, and we uncover insights into the posting behaviors of public figures.
翻訳日:2022-08-24 13:44:43 公開日:2022-08-22
# EBSnoR: 最適ドウェル時間差によるイベントベース除雪

EBSnoR: Event-Based Snow Removal by Optimal Dwell Time Thresholding ( http://arxiv.org/abs/2208.10581v1 )

ライセンス: Link先を確認
Abigail Wolf, Shannon Brooks-Lehnert, and Keigo Hirakawa(参考訳) 本稿では,EBSnoRと呼ばれるイベントベース除雪アルゴリズムを提案する。 我々は, ニーマン・ピアソン仮説テストを行い, 雪片と背景イベントにイベントストリームを分割する, イベントベースカメラデータを用いて, 画素上の雪片の滞留時間を測定する手法を開発した。 提案したEBSnoRの有効性は、前向きのイベントベースのカメラで周囲の車両の周囲に手動でアノテートされたバウンディングボックスを走らせるUDayton22EBSnowという新しいデータセットで検証された。 EBSnoRは、雪片に対応する事象を定量的に同定し、定量的に、EBSnoR前処理イベントデータは、イベントベースの車検出アルゴリズムの性能を改善した。

We propose an Event-Based Snow Removal algorithm called EBSnoR. We developed a technique to measure the dwell time of snowflakes on a pixel using event-based camera data, which is used to carry out a Neyman-Pearson hypothesis test to partition event stream into snowflake and background events. The effectiveness of the proposed EBSnoR was verified on a new dataset called UDayton22EBSnow, comprised of front-facing event-based camera in a car driving through snow with manually annotated bounding boxes around surrounding vehicles. Qualitatively, EBSnoR correctly identifies events corresponding to snowflakes; and quantitatively, EBSnoR-preprocessed event data improved the performance of event-based car detection algorithms.
翻訳日:2022-08-24 13:44:11 公開日:2022-08-22
# 顎顔面アセスメントビデオの自動時間分割

Automated Temporal Segmentation of Orofacial Assessment Videos ( http://arxiv.org/abs/2208.10591v1 )

ライセンス: Link先を確認
Saeid Alavi Naeini, Leif Simmatis, Deniz Jafari, Diego L. Guarin, Yana Yunusova, Babak Taati(参考訳) コンピュータビジョン技術は、口腔疾患の検査を自動化または部分的に自動化し、正確で客観的な評価を提供するのに役立つ。 このような自動システムの開発に向けて, 口腔顔面評価ビデオにおける反復検出と時間分割の2つのアプローチを評価した。 トロント・ニューロフェイス・データセットから筋萎縮性側索硬化症(als)と健康管理(hc)の参加者のビデオが得られた。 2つの繰り返し検出・解析手法について検討した。1つは追跡された顔のランドマークと上唇と下唇の乳頭皮膚節間距離のピーク検出(ベースライン解析)、もう1つはビデオデータの周期性を自動的に検出し半周期的繰り返しを解析するRepNet(Dwibedi et al, 2020)と呼ばれる事前訓練されたトランスフォーマーベースのディープラーニングモデルを用いた。 最大口開放 (OPEN) と「Buy Bobby a Puppy」 (BBP) の2つの口腔アセスメントタスクの実験的評価において、RepNetはランドマークに基づくアプローチよりも優れたパーシングを提供し、地上の真実のマニュアル解析に関して高い平均交叉対位 (IoU) で定量化した。 RepNetを用いた自動解析では,BBP反復時間に基づいてHCとALSの参加者を分離した。

Computer vision techniques can help automate or partially automate clinical examination of orofacial impairments to provide accurate and objective assessments. Towards the development of such automated systems, we evaluated two approaches to detect and temporally segment (parse) repetitions in orofacial assessment videos. Recorded videos of participants with amyotrophic lateral sclerosis (ALS) and healthy control (HC) individuals were obtained from the Toronto NeuroFace Dataset. Two approaches for repetition detection and parsing were examined: one based on engineered features from tracked facial landmarks and peak detection in the distance between the vermilion-cutaneous junction of the upper and lower lips (baseline analysis), and another using a pre-trained transformer-based deep learning model called RepNet (Dwibedi et al, 2020), which automatically detects periodicity, and parses periodic and semi-periodic repetitions in video data. In experimental evaluation of two orofacial assessments tasks, - repeating maximum mouth opening (OPEN) and repeating the sentence "Buy Bobby a Puppy" (BBP) - RepNet provided better parsing than the landmark-based approach, quantified by higher mean intersection-over-union (IoU) with respect to ground truth manual parsing. Automated parsing using RepNet also clearly separated HC and ALS participants based on the duration of BBP repetitions, whereas the landmark-based method could not.
翻訳日:2022-08-24 13:43:56 公開日:2022-08-22
# RIBAC:コンパクトDNNに対するロバストで受け入れがたいバックドア攻撃を目指して

RIBAC: Towards Robust and Imperceptible Backdoor Attack against Compact DNN ( http://arxiv.org/abs/2208.10608v1 )

ライセンス: Link先を確認
Huy Phan, Cong Shi, Yi Xie, Tianfang Zhang, Zhuohang Li, Tianming Zhao, Jian Liu, Yan Wang, Yingying Chen, Bo Yuan(参考訳) 最近のバックドア攻撃は、ディープニューラルネットワーク(DNN)モデルのセキュリティに対する新たな脅威となっている。 現在までに、ほとんどの研究は非圧縮モデルに対するバックドア攻撃に焦点を当てているが、実際の応用で広く使われている圧縮DNNの脆弱性はほとんど利用されていない。 本稿では,コンパクトDNNモデル(RIBAC)に対するロバストおよび非受容性バックドアアタックの研究と開発について述べる。 設計ノブの系統的分析と探索を行うことで,適切なトリガパターン,モデルパラメータ,プルーニングマスクを効率的に学習できるフレームワークを提案する。 これにより、高いトリガーステルス性、高い攻撃成功率、高いモデル効率を同時に達成できる。 最先端の防御メカニズムに対するテストを含む、さまざまなデータセットにわたる広範囲な評価は、RIBACの高堅牢性、ステルス性、モデル効率を示す。 コードはhttps://github.com/huyvnphan/ECCV2022-RIBACで公開されている。

Recently backdoor attack has become an emerging threat to the security of deep neural network (DNN) models. To date, most of the existing studies focus on backdoor attack against the uncompressed model; while the vulnerability of compressed DNNs, which are widely used in the practical applications, is little exploited yet. In this paper, we propose to study and develop Robust and Imperceptible Backdoor Attack against Compact DNN models (RIBAC). By performing systematic analysis and exploration on the important design knobs, we propose a framework that can learn the proper trigger patterns, model parameters and pruning masks in an efficient way. Thereby achieving high trigger stealthiness, high attack success rate and high model efficiency simultaneously. Extensive evaluations across different datasets, including the test against the state-of-the-art defense mechanisms, demonstrate the high robustness, stealthiness and model efficiency of RIBAC. Code is available at https://github.com/huyvnphan/ECCV2022-RIBAC
翻訳日:2022-08-24 13:43:29 公開日:2022-08-22
# 胎児超音波の解剖学的・認識的コントラスト表現学習

Anatomy-Aware Contrastive Representation Learning for Fetal Ultrasound ( http://arxiv.org/abs/2208.10642v1 )

ライセンス: Link先を確認
Zeyu Fu, Jianbo Jiao, Robail Yasrab, Lior Drukker, Aris T. Papageorghiou and J. Alison Noble(参考訳) 自己監督型コントラスト表現学習は、伝達学習のためのラベルのない医療データセットから有意義な視覚的表現を学習する利点を提供する。 しかし、現在の対照的な学習アプローチを、ドメイン固有の解剖学的特徴を考慮せずに医療データに適用すると、外観や意味論に矛盾する視覚的表現につながる可能性がある。 本稿では,解剖情報を組み込んだ解剖学的・認識型コントラスト学習(awcl)により,医用画像の視覚的表現を改善することを提案する。 提案手法は, 解剖学的に類似した同じ又は異なる超音波スキャンから正の対を抽出し, 表現学習を改善することを目的としている。 比較学習において,粗粒・細粒の粒度を有する解剖情報を包含する効果について実験的に検討し,クラス内差を保った微細な解剖情報の学習が,それよりも効果的であることを見出した。 また, 解剖学的比がAWCLフレームワークに与える影響を解析し, 解剖学的に類似した試料を用いて正のペアを構成することにより, より良い品質表現が得られることを示した。 大規模胎児超音波データセットを用いた実験により,本手法は3つの臨床下流課題によく移行する表現の学習に有効であることを示し,imagenet教師あり,現在最先端のコントラスト学習法と比較して優れた性能を得ることができた。 特に、AWCLはImageNetの教師あり手法を13.8%、最先端のコントラストベースの手法を7.1%上回る。

Self-supervised contrastive representation learning offers the advantage of learning meaningful visual representations from unlabeled medical datasets for transfer learning. However, applying current contrastive learning approaches to medical data without considering its domain-specific anatomical characteristics may lead to visual representations that are inconsistent in appearance and semantics. In this paper, we propose to improve visual representations of medical images via anatomy-aware contrastive learning (AWCL), which incorporates anatomy information to augment the positive/negative pair sampling in a contrastive learning manner. The proposed approach is demonstrated for automated fetal ultrasound imaging tasks, enabling the positive pairs from the same or different ultrasound scans that are anatomically similar to be pulled together and thus improving the representation learning. We empirically investigate the effect of inclusion of anatomy information with coarse- and fine-grained granularity, for contrastive learning and find that learning with fine-grained anatomy information which preserves intra-class difference is more effective than its counterpart. We also analyze the impact of anatomy ratio on our AWCL framework and find that using more distinct but anatomically similar samples to compose positive pairs results in better quality representations. Experiments on a large-scale fetal ultrasound dataset demonstrate that our approach is effective for learning representations that transfer well to three clinical downstream tasks, and achieves superior performance compared to ImageNet supervised and the current state-of-the-art contrastive learning methods. In particular, AWCL outperforms ImageNet supervised method by 13.8% and state-of-the-art contrastive-based method by 7.1% on a cross-domain segmentation task.
翻訳日:2022-08-24 13:43:12 公開日:2022-08-22
# SpeedFolding: ガーメントの効果的なバイマダルフォールディングを学習する

SpeedFolding: Learning Efficient Bimanual Folding of Garments ( http://arxiv.org/abs/2208.10552v1 )

ライセンス: Link先を確認
Yahav Avigal, Lars Berscheid, Tamim Asfour, Torsten Kr\"oger, Ken Goldberg(参考訳) 衣料品の複雑な力学と高次元構成空間のため、衣料品の信頼性と効率性はロボット操作における長年の課題である。 直感的なアプローチは、まずは折り畳む前に平滑な構成で衣服を操作することである。 本研究では,(1)スムーズな構成と(2)折りたたみ構成に,ユーザが定義した命令を折りたたみ線として与える信頼性と効率のよいバイマニュアルシステムであるSpeedFoldingを開発した。 私たちの主な貢献は、多様なバイマニュアルアクションプリミティブのセットをパラメータ化するために、グリップポーズのペアを予測することができる新しいニューラルネットワークアーキテクチャです。 ロボットは4300人の注意と自己監督のアクションから学んだ後、平均で平均93%の成功率で、ランダムな初期配置から衣服を折り畳むことができる。 実世界の実験では、色、形状、硬さの異なる衣服に一般化できることが示されている。 前作ではFPH(Folds Per Hour)を3-6回達成したが、SpeedFoldingは30-40回達成した。

Folding garments reliably and efficiently is a long standing challenge in robotic manipulation due to the complex dynamics and high dimensional configuration space of garments. An intuitive approach is to initially manipulate the garment to a canonical smooth configuration before folding. In this work, we develop SpeedFolding, a reliable and efficient bimanual system, which given user-defined instructions as folding lines, manipulates an initially crumpled garment to (1) a smoothed and (2) a folded configuration. Our primary contribution is a novel neural network architecture that is able to predict pairs of gripper poses to parameterize a diverse set of bimanual action primitives. After learning from 4300 human-annotated and self-supervised actions, the robot is able to fold garments from a random initial configuration in under 120s on average with a success rate of 93%. Real-world experiments show that the system is able to generalize to unseen garments of different color, shape, and stiffness. While prior work achieved 3-6 Folds Per Hour (FPH), SpeedFolding achieves 30-40 FPH.
翻訳日:2022-08-24 13:36:35 公開日:2022-08-22
# PU-MFA : マルチスケール機能によるポイントクラウドアップサンプリング

PU-MFA : Point Cloud Up-sampling via Multi-scale Features Attention ( http://arxiv.org/abs/2208.10968v1 )

ライセンス: Link先を確認
Hyungjun Lee, Sejoon Lim(参考訳) 近年,3dスキャナ技術の開発により,ポイントクラウドを用いた研究が増加している。 この傾向により、高品質のポイントクラウドに対する需要が増加しているが、高品質のポイントクラウドを得るためのコストが高騰している。 そのため、近年の特筆すべき深層学習の発展に伴い、深層学習を用いて低品質の点雲から高品質の点雲を生成するポイントクラウドアップサンプリング研究が注目される分野の1つとなっている。 本稿では,マルチスケール特徴注意(PU-MFA)を用いたポイントクラウドアップサンプリング手法を提案する。 PU-MFAは、マルチスケールの特徴や注意機構を用いて優れた性能を報告した以前の研究にインスパイアされ、U-Net構造を通して両者をマージする。 さらにPU-MFAは、グローバル機能を効果的に洗練するために、マルチスケールの機能を適応的に利用する。 PU-MFAの性能は、合成点クラウドデータセットであるPU-GANデータセットと実走査点クラウドデータセットであるKITTIデータセットを用いて、様々な実験を通じて、他の最先端手法と比較された。 その結果, PU-MFAは, 他の最先端手法と比較して定量的, 定性的評価において優れた性能を示し, 提案手法の有効性を実証した。 PU-MFAのアテンションマップも可視化し,マルチスケール特徴の効果を示した。

Recently, research using point clouds has been increasing with the development of 3D scanner technology. According to this trend, the demand for high-quality point clouds is increasing, but there is still a problem with the high cost of obtaining high-quality point clouds. Therefore, with the recent remarkable development of deep learning, point cloud up-sampling research, which uses deep learning to generate high-quality point clouds from low-quality point clouds, is one of the fields attracting considerable attention. This paper proposes a new point cloud up-sampling method called Point cloud Up-sampling via Multi-scale Features Attention (PU-MFA). Inspired by previous studies that reported good performance using the multi-scale features or attention mechanisms, PU-MFA merges the two through a U-Net structure. In addition, PU-MFA adaptively uses multi-scale features to refine the global features effectively. The performance of PU-MFA was compared with other state-of-the-art methods through various experiments using the PU-GAN dataset, which is a synthetic point cloud dataset, and the KITTI dataset, which is the real-scanned point cloud dataset. In various experimental results, PU-MFA showed superior performance in quantitative and qualitative evaluation compared to other state-of-the-art methods, proving the effectiveness of the proposed method. The attention map of PU-MFA was also visualized to show the effect of multi-scale features.
翻訳日:2022-08-24 13:26:45 公開日:2022-08-22
# 高分解能マルチスペクトル画像を用いた大規模都市環境における個体木検出

Individual Tree Detection in Large-Scale Urban Environments using High-Resolution Multispectral Imagery ( http://arxiv.org/abs/2208.10607v1 )

ライセンス: Link先を確認
Jonathan Ventura, Milo Honsberger, Cameron Gonsalves, Julian Rice, Camille Pawlak, Natalie L.R. Love, Skyler Han, Viet Nguyen, Keilana Sugano, Jacqueline Doremus, G. Andrew Fricker, Jenn Yost, Matt Ritter(参考訳) 高分解能マルチスペクトル空中画像を用いた都市環境における個々の木検出のための新しい深層学習手法を提案する。 我々は畳み込みニューラルネットワークを用いて、ピーク探索アルゴリズムを用いて局所化された個々の木の位置を示す信頼マップを回帰する。 本手法は,公共空間と私的空間の両方で木を検知し,非常に広い範囲に拡張可能な空間被覆を提供する。 南カリフォルニアの5都市を対象とした調査では、Fスコア0.735、RMSE2.157mを達成した。 筆者らは,カリフォルニア州の都市森林における全樹木の地図作成に本手法を応用し,今後の都市林業研究を支援する可能性を示唆した。

We introduce a novel deep learning method for detection of individual trees in urban environments using high-resolution multispectral aerial imagery. We use a convolutional neural network to regress a confidence map indicating the locations of individual trees, which are localized using a peak finding algorithm. Our method provides complete spatial coverage by detecting trees in both public and private spaces, and can scale to very large areas. In our study area spanning five cities in Southern California, we achieved an F-score of 0.735 and an RMSE of 2.157 m. We used our method to produce a map of all trees in the urban forest of California, indicating the potential for our method to support future urban forestry studies at unprecedented scales.
翻訳日:2022-08-24 13:16:00 公開日:2022-08-22
# InstanceFormer: オンラインビデオインスタンスセグメンテーションフレームワーク

InstanceFormer: An Online Video Instance Segmentation Framework ( http://arxiv.org/abs/2208.10547v1 )

ライセンス: Link先を確認
Rajat Koner, Tanveer Hannan, Suprosanna Shit, Sahand Sharifzadeh, Matthias Schubert, Thomas Seidl, Volker Tresp(参考訳) 最近のtransformerベースのオフラインビデオインスタンスセグメンテーション(vis)アプローチは、成果を奨励し、オンラインアプローチを大きく上回っている。 しかし、ビデオ全体への依存と、フル時空間的注意によって引き起こされる膨大な計算複雑性は、ビデオの処理などの現実的な応用において制限される。 本稿では,一段変換器を用いた効率的なオンラインVISフレームワークであるInstanceFormerを提案する。 短期および長期の依存関係と時間的一貫性をモデル化するための3つの新しいコンポーネントを提案する。 まず、先行インスタンスの表現、位置、意味情報を伝播して短期的な変化をモデル化する。 第二に、デコーダに新しいメモリクロスアテンションを提案し、ある時間ウィンドウ内で、ネットワークが以前のインスタンスを検索できるようにする。 最後に、すべてのフレームにまたがるインスタンスの表現に一貫性を課すために、時間的コントラスト損失を用いる。 記憶の注意と時間的コヒーレンスは、オクルージョンのような困難なシナリオを含む、長距離依存性モデリングに特に有用である。 提案するインスタンスフォーマは、従来のオンラインベンチマークメソッドを、複数のデータセットに対して大きなマージンで上回っている。 最も重要なのは、YouTube-VIS-2021やOVISといった、挑戦的で長いデータセットに対するオフラインアプローチを上回ることだ。 コードはhttps://github.com/rajatkoner08/InstanceFormerで入手できる。

Recent transformer-based offline video instance segmentation (VIS) approaches achieve encouraging results and significantly outperform online approaches. However, their reliance on the whole video and the immense computational complexity caused by full Spatio-temporal attention limit them in real-life applications such as processing lengthy videos. In this paper, we propose a single-stage transformer-based efficient online VIS framework named InstanceFormer, which is especially suitable for long and challenging videos. We propose three novel components to model short-term and long-term dependency and temporal coherence. First, we propagate the representation, location, and semantic information of prior instances to model short-term changes. Second, we propose a novel memory cross-attention in the decoder, which allows the network to look into earlier instances within a certain temporal window. Finally, we employ a temporal contrastive loss to impose coherence in the representation of an instance across all frames. Memory attention and temporal coherence are particularly beneficial to long-range dependency modeling, including challenging scenarios like occlusion. The proposed InstanceFormer outperforms previous online benchmark methods by a large margin across multiple datasets. Most importantly, InstanceFormer surpasses offline approaches for challenging and long datasets such as YouTube-VIS-2021 and OVIS. Code is available at https://github.com/rajatkoner08/InstanceFormer.
翻訳日:2022-08-24 13:07:38 公開日:2022-08-22
# CADOps-Net:境界表現からCAD操作タイプとステップを共同学習する

CADOps-Net: Jointly Learning CAD Operation Types and Steps from Boundary-Representations ( http://arxiv.org/abs/2208.10555v1 )

ライセンス: Link先を確認
Elona Dupont, Kseniya Cherenkova, Anis Kacem, Sk Aziz Ali, Ilya Arzhannikov, Gleb Gusev, Djamila Aouada(参考訳) 3dリバースエンジニアリングは、コンピュータ支援設計(cad)業界で完全に達成されたゴールではない。 本研究の目的はCADモデルの構築履歴を復元することである。 本稿では,CADモデルのバウンダリ表現(B-Rep)から,CAD操作タイプと異なるCAD動作ステップへの分解を共同で学習する,新しいディープニューラルネットワークCADOps-Netを提案する。 この共同学習は、B-Repを様々なCAD操作によって同じ構成ステップで作成された部品に分割することができ、設計履歴のさらなる回復のための関連情報を提供する。 さらに,CAD操作型ラベルとステップラベルを付加した3,7kドルのCADモデルを含む新しいCC3D-Opsデータセットを提案する。 既存のデータセットと比較して、CC3D-Opsモデルの複雑さと多様性は、産業目的で使用されるものに近い。 提案したCC3D-OpsとFusion360データセットを用いて実験を行い、CADOps-Netの最先端技術に関する競争性能を実証し、CAD操作タイプとステップの協調学習の重要性を検証した。

3D reverse engineering is a long sought-after, yet not completely achieved goal in the Computer-Aided Design (CAD) industry. The objective is to recover the construction history of a CAD model. Starting from a Boundary Representation (B-Rep) of a CAD model, this paper proposes a new deep neural network, CADOps-Net, that jointly learns the CAD operation types and the decomposition into different CAD operation steps. This joint learning allows to divide a B-Rep into parts that were created by various types of CAD operations at the same construction step; therefore providing relevant information for further recovery of the design history. Furthermore, we propose the novel CC3D-Ops dataset that includes over $37k$ CAD models annotated with CAD operation type labels and step labels. Compared to existing datasets, the complexity and variety of CC3D-Ops models are closer to those used for industrial purposes. Our experiments, conducted on the proposed CC3D-Ops and the publicly available Fusion360 datasets, demonstrate the competitive performance of CADOps-Net with respect to state-of-the-art, and confirm the importance of the joint learning of CAD operation types and steps.
翻訳日:2022-08-24 13:07:19 公開日:2022-08-22
# Few-Shot分類のためのトランスダクティブデカップリング変分推論

Transductive Decoupled Variational Inference for Few-Shot Classification ( http://arxiv.org/abs/2208.10559v1 )

ライセンス: Link先を確認
Anuj Singh, Hadi Jamali-Rad(参考訳) 少数のサンプルから学ぶための万能性は、人間の知能の目印である。 少数ショット学習は、この能力を機械に超越する試みだ。 本稿では,確率的深層学習の期待とパワーに触発されて,画像の表現を意味的かつラベル付き潜在変数に分離し,同時に相互に推論する,少数ショット分類のための新しい変分推論ネットワークを提案する。 TRIDENTの推論機構の一部として,新規な注目機能抽出モジュール(AttFEXと呼ぶ)を組み込んで,タスクの照会とサポートの両方の画像を活用してタスク認識を誘導する。 我々の大規模な実験結果は、TRIDENTの有効性を裏付け、最も単純なバックボーンを使用することで、最も広く採用されているデータセットであるminiImageNetとtyredImageNet(それぞれ4%と5%の改善)に新しい最先端の技術を設定できること、そして最近の挑戦的なクロスドメインのminiImagenet --> CUBシナリオが、既存のクロスドメインベースラインよりも大きなマージン(最大20%の改善)を提供することを示した。 コードと実験はgithubリポジトリにある。 https://github.com/anujinho/trident

The versatility to learn from a handful of samples is the hallmark of human intelligence. Few-shot learning is an endeavour to transcend this capability down to machines. Inspired by the promise and power of probabilistic deep learning, we propose a novel variational inference network for few-shot classification (coined as TRIDENT) to decouple the representation of an image into semantic and label latent variables, and simultaneously infer them in an intertwined fashion. To induce task-awareness, as part of the inference mechanics of TRIDENT, we exploit information across both query and support images of a few-shot task using a novel built-in attention-based transductive feature extraction module (we call AttFEX). Our extensive experimental results corroborate the efficacy of TRIDENT and demonstrate that, using the simplest of backbones, it sets a new state-of-the-art in the most commonly adopted datasets miniImageNet and tieredImageNet (offering up to 4% and 5% improvements, respectively), as well as for the recent challenging cross-domain miniImagenet --> CUB scenario offering a significant margin (up to 20% improvement) beyond the best existing cross-domain baselines. Code and experimentation can be found in our GitHub repository: https://github.com/anujinho/trident
翻訳日:2022-08-24 13:07:00 公開日:2022-08-22
# オープンセットのIrisプレゼンテーション攻撃検出技術の現状

State Of The Art In Open-Set Iris Presentation Attack Detection ( http://arxiv.org/abs/2208.10564v1 )

ライセンス: Link先を確認
Aidan Boyd, Jeremy Speth, Lucas Parzianello, Kevin Bowyer, Adam Czajka(参考訳) iris認識のためのプレゼンテーションアタック検出(pad)の研究は、トレーニングデータに存在しないプレゼンテーションアタックタイプに一般化する能力を強調し、"クローズドセット"シナリオの評価よりも大きく進んでいる。 本稿では,オープンセットアイリスPADにおける最先端の理解と拡張にいくつかの貢献を行う。 まず、Iris PADの現在までの最も信頼性の高い評価について述べる。 本論文のジャーナル版に15万枚の画像を追加し,真正の虹彩と7種類のプレゼンテーション攻撃装置(PAI)を表す45万枚の画像を作成することで,この問題に対して利用可能な最大規模の画像データセットをキュレートした。 クローズドセット評価における最良のアルゴリズムでさえ、オープンセットシナリオにおいて複数の攻撃タイプに対して破滅的な障害を示すことを示す。 この中には、最新のLivDet-Iris 2020コンペティションでうまく機能するアルゴリズムも含まれている。 第2に,本稿で新たに提案されている5つのオープンソースのirisプレゼンテーションアタックアルゴリズムの精度を評価し,livdet-iris 2020の勝者をかなりの差で破るアンサンブル手法を構築した。 本稿では, 閉集合アイリスPADが, 全てのPAIが訓練中に認識されている場合, 精度が極めて高く, オープンセットアイリスPADが正しく評価されている場合, 未解決であることを示す。 本論文のジャーナル版で公開された,新たに作成されたデータセット,新たなオープンソースアルゴリズム,評価プロトコルは,研究者がこの問題の進展を計測するために利用できる実験的な成果物を提供する。

Research in presentation attack detection (PAD) for iris recognition has largely moved beyond evaluation in "closed-set" scenarios, to emphasize ability to generalize to presentation attack types not present in the training data. This paper offers several contributions to understand and extend the state-of-the-art in open-set iris PAD. First, it describes the most authoritative evaluation to date of iris PAD. We have curated the largest publicly-available image dataset for this problem, drawing from 26 benchmarks previously released by various groups, and adding 150,000 images being released with the journal version of this paper, to create a set of 450,000 images representing authentic iris and seven types of presentation attack instrument (PAI). We formulate a leave-one-PAI-out evaluation protocol, and show that even the best algorithms in the closed-set evaluations exhibit catastrophic failures on multiple attack types in the open-set scenario. This includes algorithms performing well in the most recent LivDet-Iris 2020 competition, which may come from the fact that the LivDet-Iris protocol emphasizes sequestered images rather than unseen attack types. Second, we evaluate the accuracy of five open-source iris presentation attack algorithms available today, one of which is newly-proposed in this paper, and build an ensemble method that beats the winner of the LivDet-Iris 2020 by a substantial margin. This paper demonstrates that closed-set iris PAD, when all PAIs are known during training, is a solved problem, with multiple algorithms showing very high accuracy, while open-set iris PAD, when evaluated correctly, is far from being solved. The newly-created dataset, new open-source algorithms, and evaluation protocol, made publicly available with the journal version of this paper, provide the experimental artifacts that researchers can use to measure progress on this important problem.
翻訳日:2022-08-24 13:06:34 公開日:2022-08-22
# 協調的知覚に関する調査と枠組み--ヘテロジニアス・シングルトンから階層的協調へ

A Survey and Framework of Cooperative Perception: From Heterogeneous Singleton to Hierarchical Cooperation ( http://arxiv.org/abs/2208.10590v1 )

ライセンス: Link先を確認
Zhengwei Bai, Guoyuan Wu, Matthew J. Barth, Yongkang Liu, Emrah Akin Sisbot, Kentaro Oguchi, Zhitong Huang(参考訳) 環境の認識は、現代交通システムの安全性、移動性、持続可能性問題に対処するための革命的な解決策である、協調運転自動化(CDA)を実現するための最も基本的な鍵の1つである。 現在、物体認識のためのコンピュータビジョンの分野では前例のない進化が起きているが、現状の認識手法は、必然的に物理的閉塞と限定的な単一車両システムの受容領域のために、洗練された現実世界の交通環境に苦戦している。 複数の空間的に分離された知覚ノードに基づいて、協調知覚(CP)は、運転自動化のボトルネックを解き放つために生まれる。 本稿では,cp研究の進展を総合的に概観し分析し,我々の知る限りでは,統一cpフレームワークを提案するのは今回が初めてである。 各種センサに基づくCPシステムのアーキテクチャと分類を概観し、CPシステムのワークフローと異なる構造について高レベルな記述を示す。 ノード構造, センサモーダリティ, 融合方式を概説し, 包括的文献を用いて解析し, 特定の手法の詳細な説明を行う。 階層的なCPフレームワークが提案され、続いて既存のデータセットとシミュレータをレビューし、CPの全体像をスケッチする。 議論は、現在の機会、オープンチャレンジ、今後のトレンドを強調する。

Perceiving the environment is one of the most fundamental keys to enabling Cooperative Driving Automation (CDA), which is regarded as the revolutionary solution to addressing the safety, mobility, and sustainability issues of contemporary transportation systems. Although an unprecedented evolution is now happening in the area of computer vision for object perception, state-of-the-art perception methods are still struggling with sophisticated real-world traffic environments due to the inevitably physical occlusion and limited receptive field of single-vehicle systems. Based on multiple spatially separated perception nodes, Cooperative Perception (CP) is born to unlock the bottleneck of perception for driving automation. In this paper, we comprehensively review and analyze the research progress on CP and, to the best of our knowledge, this is the first time to propose a unified CP framework. Architectures and taxonomy of CP systems based on different types of sensors are reviewed to show a high-level description of the workflow and different structures for CP systems. Node structure, sensor modality, and fusion schemes are reviewed and analyzed with comprehensive literature to provide detailed explanations of specific methods. A Hierarchical CP framework is proposed, followed by a review of existing Datasets and Simulators to sketch an overall landscape of CP. Discussion highlights the current opportunities, open challenges, and anticipated future trends.
翻訳日:2022-08-24 13:06:01 公開日:2022-08-22
# 正規化スパースオートエンコーダによる良い反応座標の予測とMD軌道の今後の発展:新しい深層学習手法

Prediction of good reaction coordinates and future evolution of MD trajectories using Regularized Sparse Autoencoders: A novel deep learning approach ( http://arxiv.org/abs/2208.10962v1 )

ライセンス: Link先を確認
Abhijit Gupta and Arnab Mukherjee(参考訳) 化学反応の進行を決定する上でRCが果たす重要な役割を考えると、反応座標(RC)は研究の活発な領域である。 反応座標の選択は、しばしばヒューリスティックな知識に基づいている。 しかし、この選択に必須の基準は、座標が反応状態と生成状態の両方を不当に捉えなければならないことである。 また、座標は最も遅く、他の全ての自由度が反応座標に沿って容易に平衡できるようにすべきである。 また、座標は最も遅く、他の全ての自由度が反応座標に沿って容易に平衡できるようにすべきである。 我々は、エネルギーベースモデルである正規化スパースオートエンコーダを用いて、重要な反応座標を発見した。 反応座標の発見とともに、我々のモデルは分子動力学(MD)軌道の進化を予測する。 規則化を強制する疎性を含むことは、小さなが重要な反応座標の選択に役立ちます。 アラニンジペプチド系とプロフラビンおよびdna系という2つのモデルシステムを用いて,水環境下でプロフラビンのdna小溝へのインターカレーションを示した。 我々はmd軌道を多変量時系列としてモデル化し、潜在変数モデルは多段時系列予測のタスクを実行する。 このアイデアは、一般的なスパースコーディングアプローチにインスパイアされ、各入力サンプルを代表パターンの集合から取られた少数の要素の線形結合として表現する。

Identifying reaction coordinates(RCs) is an active area of research, given the crucial role RCs play in determining the progress of a chemical reaction. The choice of the reaction coordinate is often based on heuristic knowledge. However, an essential criterion for the choice is that the coordinate should capture both the reactant and product states unequivocally. Also, the coordinate should be the slowest one so that all the other degrees of freedom can easily equilibrate along the reaction coordinate. Also, the coordinate should be the slowest one so that all the other degrees of freedom can easily equilibrate along the reaction coordinate. We used a regularised sparse autoencoder, an energy-based model, to discover a crucial set of reaction coordinates. Along with discovering reaction coordinates, our model also predicts the evolution of a molecular dynamics(MD) trajectory. We showcased that including sparsity enforcing regularisation helps in choosing a small but important set of reaction coordinates. We used two model systems to demonstrate our approach: alanine dipeptide system and proflavine and DNA system, which exhibited intercalation of proflavine into DNA minor groove in an aqueous environment. We model MD trajectory as a multivariate time series, and our latent variable model performs the task of multi-step time series prediction. This idea is inspired by the popular sparse coding approach - to represent each input sample as a linear combination of few elements taken from a set of representative patterns.
翻訳日:2022-08-24 13:02:54 公開日:2022-08-22
# 無線通信ネットワークのための知識グラフの表現学習

Representation Learning of Knowledge Graph for Wireless Communication Networks ( http://arxiv.org/abs/2208.10496v1 )

ライセンス: Link先を確認
Shiwen He, Yeyu Ou, Liangpeng Wang, Hang Zhan, Peng Ren, Yongming Huang(参考訳) 第5世代の無線通信技術の適用により、よりスマートな端末が使用され、大量のデータを生成するようになり、これらの無線データの扱い方や利用方法に関する広範な研究が進められている。 研究者は現在、モンテカルロシミュレーションによって生成される大量のデータに基づいて、上層アプリケーションデータの研究や、特定の問題に関するインテリジェントな送信方法の研究に重点を置いている。 本稿では,無線通信プロトコルとドメインエキスパート知識に基づいて知識グラフを構築することにより,無線データの内在的関係を理解することを目的とする。 まず,5G/B5Gテストネットワークを介して収集した無線コアネットワークデータの内在要因の知識グラフを構築する。 次に、グラフ畳み込みニューラルネットワークに基づく新しいモデルは、グラフの表現を学習するために設計され、グラフノードを分類し、関係予測をシミュレートするために使用される。 提案モデルは,ノードの自動分類とネットワーク異常原因追跡を実現する。 また、教師なしの方法で公開データセットにも適用される。 最後に,提案モデルの分類精度は,VGAE や ARVGE などの既存の教師なしグラフニューラルネットワークモデルよりも優れていることを示す。

With the application of the fifth-generation wireless communication technologies, more smart terminals are being used and generating huge amounts of data, which has prompted extensive research on how to handle and utilize these wireless data. Researchers currently focus on the research on the upper-layer application data or studying the intelligent transmission methods concerning a specific problem based on a large amount of data generated by the Monte Carlo simulations. This article aims to understand the endogenous relationship of wireless data by constructing a knowledge graph according to the wireless communication protocols, and domain expert knowledge and further investigating the wireless endogenous intelligence. We firstly construct a knowledge graph of the endogenous factors of wireless core network data collected via a 5G/B5G testing network. Then, a novel model based on graph convolutional neural networks is designed to learn the representation of the graph, which is used to classify graph nodes and simulate the relation prediction. The proposed model realizes the automatic nodes classification and network anomaly cause tracing. It is also applied to the public datasets in an unsupervised manner. Finally, the results show that the classification accuracy of the proposed model is better than the existing unsupervised graph neural network models, such as VGAE and ARVGE.
翻訳日:2022-08-24 12:50:13 公開日:2022-08-22
# 高速で軽量で効率的なディープラーニングモデルのための設計自動化:調査

Design Automation for Fast, Lightweight, and Effective Deep Learning Models: A Survey ( http://arxiv.org/abs/2208.10498v1 )

ライセンス: Link先を確認
Dalin Zhang, Kaixuan Chen, Yan Zhao, Bin Yang, Lina Yao, Christian S. Jensen(参考訳) ディープラーニング技術は、幅広いタスクにおいて顕著な効果を示しており、ディープラーニングは、エッジコンピューティングを含む多数のアプリケーションを前進させる可能性を秘めている。 重要な課題は、深層モデルの適用がかなりのメモリと計算コストを発生させることが多いが、エッジデバイスは通常、デバイス間で大きく異なる非常に限られたストレージと計算能力しか提供しないことだ。 これらの特徴により、エッジデバイスの可能性を解き放つディープラーニングソリューションの構築が困難になる。 この課題に取り組むための有望なアプローチは、軽量で少しのストレージしか必要とせず、計算オーバーヘッドの少ない効果的なディープラーニングモデルの設計を自動化することである。 この調査は、エッジコンピューティングをターゲットとしたディープラーニングモデルの設計自動化技術の研究を包括的にカバーする。 有効性、明度、計算コストの観点からモデルの熟練度を定量化するために一般的に使用される主要な指標の概要と比較を提供する。 この調査は、ディープモデル設計自動化技術の最先端技術である、自動ニューラルネットワーク検索、自動モデル圧縮、統合自動設計と圧縮の3つのカテゴリをカバーする。 最後に、今後の研究の課題と方向性について述べる。

Deep learning technologies have demonstrated remarkable effectiveness in a wide range of tasks, and deep learning holds the potential to advance a multitude of applications, including in edge computing, where deep models are deployed on edge devices to enable instant data processing and response. A key challenge is that while the application of deep models often incurs substantial memory and computational costs, edge devices typically offer only very limited storage and computational capabilities that may vary substantially across devices. These characteristics make it difficult to build deep learning solutions that unleash the potential of edge devices while complying with their constraints. A promising approach to addressing this challenge is to automate the design of effective deep learning models that are lightweight, require only a little storage, and incur only low computational overheads. This survey offers comprehensive coverage of studies of design automation techniques for deep learning models targeting edge computing. It offers an overview and comparison of key metrics that are used commonly to quantify the proficiency of models in terms of effectiveness, lightness, and computational costs. The survey then proceeds to cover three categories of the state-of-the-art of deep model design automation techniques: automated neural architecture search, automated model compression, and joint automated design and compression. Finally, the survey covers open issues and directions for future research.
翻訳日:2022-08-24 12:49:56 公開日:2022-08-22
# 最適化されたニューラルネットワークと脳における異なるスペクトル表現

Different Spectral Representations in Optimized Artificial Neural Networks and Brains ( http://arxiv.org/abs/2208.10576v1 )

ライセンス: Link先を確認
Richard C. Gerum, Cassidy Pirlot, Alona Fyshe, Joel Zylberberg(参考訳) 最近の研究では、哺乳類の視覚野のスペクトル特性、すなわち神経活動の共分散行列の$\sim 1/n$固有スペクトルと一致する人工ニューラルネットワーク(ANN)が、敵の攻撃に対する高い物体認識性能と堅牢性を達成することが示唆されている。 しかし、我々の知る限り、ANNのスペクトル特性の修正がパフォーマンスに与える影響を体系的に検討する以前の研究は行われていない。 このギャップを埋めるために、我々はスペクトル正規化器を体系的に探索し、ANNの固有スペクトルは異なる指数を持つ1/n^\alpha$の電力法に従うことを強制した。 より大きなパワー(約2~3)は、高密度ネットワークに対する敵攻撃に対する検証精度の向上とロバスト性の向上に繋がることがわかった。 この驚くべき発見は、浅層ネットワークと深層ネットワークの両方に適用され、脳に似たスペクトル($\alpha \sim 1$に相当する)がANNのパフォーマンスと堅牢性を常に最適化するという考えを覆す。 低$\alpha$値 最適化された検証精度と、簡単なオブジェクト認識タスクを実行するネットワークに対する敵意攻撃に対する堅牢性(手書き桁のmnist画像の分類) より複雑なタスク(cifar-10自然画像の分類)については、より低い$\alpha$値 最適化された検証精度 より高い$\alpha$値 最適化された敵意ロバスト性(英語版)が得られた。 これらの結果は2つの主な意味を持つ。 まず、脳のようなスペクトル特性(\alpha \sim 1$) \emph{always} annのパフォーマンスを最適化するという考えに疑問を投げかけた。 第二に、微調整されたスペクトル正規化器が選択した設計メトリック、すなわち精度と/またはロバスト性を最適化する可能性を示す。

Recent studies suggest that artificial neural networks (ANNs) that match the spectral properties of the mammalian visual cortex -- namely, the $\sim 1/n$ eigenspectrum of the covariance matrix of neural activities -- achieve higher object recognition performance and robustness to adversarial attacks than those that do not. To our knowledge, however, no previous work systematically explored how modifying the ANN's spectral properties affects performance. To fill this gap, we performed a systematic search over spectral regularizers, forcing the ANN's eigenspectrum to follow $1/n^\alpha$ power laws with different exponents $\alpha$. We found that larger powers (around 2--3) lead to better validation accuracy and more robustness to adversarial attacks on dense networks. This surprising finding applied to both shallow and deep networks and it overturns the notion that the brain-like spectrum (corresponding to $\alpha \sim 1$) always optimizes ANN performance and/or robustness. For convolutional networks, the best $\alpha$ values depend on the task complexity and evaluation metric: lower $\alpha$ values optimized validation accuracy and robustness to adversarial attack for networks performing a simple object recognition task (categorizing MNIST images of handwritten digits); for a more complex task (categorizing CIFAR-10 natural images), we found that lower $\alpha$ values optimized validation accuracy whereas higher $\alpha$ values optimized adversarial robustness. These results have two main implications. First, they cast doubt on the notion that brain-like spectral properties ($\alpha \sim 1$) \emph{always} optimize ANN performance. Second, they demonstrate the potential for fine-tuned spectral regularizers to optimize a chosen design metric, i.e., accuracy and/or robustness.
翻訳日:2022-08-24 12:49:37 公開日:2022-08-22
# DIDER: 解釈可能な動的進化関係の発見

DIDER: Discovering Interpretable Dynamically Evolving Relations ( http://arxiv.org/abs/2208.10592v1 )

ライセンス: Link先を確認
Enna Sachdeva, Chiho Choi(参考訳) 動的に進化するマルチエージェント相互作用の効果的な理解は、社会システムにおけるエージェントの基本的な振る舞いを捉える上で重要である。 通常、これらの相互作用を直接観察することは困難であり、従って潜在相互作用のモデリングは複雑な振る舞いを実現するのに不可欠である。 動的ニューラルリレーショナル推論(DNRI)に関する最近の研究は、各ステップで明示的なエージェント間相互作用をキャプチャする。 しかし、各ステップでの予測はノイズの多い相互作用をもたらし、ホット後の検査なしに本質的な解釈性に欠ける。 さらに、予測された相互作用を分析するために、地上の真理アノテーションにアクセスする必要がある。 本稿では、内在的解釈可能性を備えた汎用的なエンドツーエンドインタラクションモデリングフレームワークであるDIDERについて紹介する。 DIDERは、潜時相互作用予測のタスクをサブインタラクション予測と持続時間推定に切り離すことにより、エージェント間相互作用の解釈可能なシーケンスを発見する。 長期間にわたってサブインタラクション型の一貫性を付与することにより,ポストホック検査を必要とせずに本質的な解釈性を実現する。 合成と実世界の両方のデータセット上でDIDERを評価する。 実験の結果, 乱れと解釈可能な動的関係のモデル化により, 軌道予測タスクの性能が向上することが示された。

Effective understanding of dynamically evolving multiagent interactions is crucial to capturing the underlying behavior of agents in social systems. It is usually challenging to observe these interactions directly, and therefore modeling the latent interactions is essential for realizing the complex behaviors. Recent work on Dynamic Neural Relational Inference (DNRI) captures explicit inter-agent interactions at every step. However, prediction at every step results in noisy interactions and lacks intrinsic interpretability without post-hoc inspection. Moreover, it requires access to ground truth annotations to analyze the predicted interactions, which are hard to obtain. This paper introduces DIDER, Discovering Interpretable Dynamically Evolving Relations, a generic end-to-end interaction modeling framework with intrinsic interpretability. DIDER discovers an interpretable sequence of inter-agent interactions by disentangling the task of latent interaction prediction into sub-interaction prediction and duration estimation. By imposing the consistency of a sub-interaction type over an extended time duration, the proposed framework achieves intrinsic interpretability without requiring any post-hoc inspection. We evaluate DIDER on both synthetic and real-world datasets. The experimental results demonstrate that modeling disentangled and interpretable dynamic relations improves performance on trajectory forecasting tasks.
翻訳日:2022-08-24 12:49:00 公開日:2022-08-22
# LEAPER: トランスファーラーニングによるクラウドFPGAベースのシステムモデリング

LEAPER: Modeling Cloud FPGA-based Systems via Transfer Learning ( http://arxiv.org/abs/2208.10606v1 )

ライセンス: Link先を確認
Gagandeep Singh, Dionysios Diamantopoulos, Juan G\'omez-Luna, Sander Stuijk, Henk Corporaal, Onur Mutlu(参考訳) 機械学習ベースのモデルは、高速で正確なパフォーマンス予測を提供するモデルを構築することでFPGAのダウンストリーム実装プロセスの遅さを克服する手段として、最近注目を集めている。 しかし、これらのモデルは、(1)訓練には大量のデータ(fpga合成と実装レポートから抽出された特徴)が必要であり、それは、時間を要するfpga設計サイクルのためにコスト非効率であり、(2)特定の環境向けに訓練されたモデルは、未知の環境に対して予測できない。 プラットフォームへのアクセスが一般的にコストがかかるクラウドシステムでは、MLモデルのデータ収集は、システムのトータルコスト所有者シップ(TCO)を大幅に増加させる可能性がある。 これらの制約を克服するために,既存のMLベースモデルを未知の環境に適応させ,高速かつ正確な性能と資源利用予測を提供するFPGAベースのシステムのためのトランスファーラーニングベースのアプローチであるLEAPERを提案する。 実験の結果,5ショット学習によるクラウド環境での予測に転送モデルを使用する場合,平均85%の精度が得られ,設計空間探索時間の10倍,数日から数時間に短縮できることがわかった。

Machine-learning-based models have recently gained traction as a way to overcome the slow downstream implementation process of FPGAs by building models that provide fast and accurate performance predictions. However, these models suffer from two main limitations: (1) training requires large amounts of data (features extracted from FPGA synthesis and implementation reports), which is cost-inefficient because of the time-consuming FPGA design cycle; (2) a model trained for a specific environment cannot predict for a new, unknown environment. In a cloud system, where getting access to platforms is typically costly, data collection for ML models can significantly increase the total cost-ownership (TCO) of a system. To overcome these limitations, we propose LEAPER, a transfer learning-based approach for FPGA-based systems that adapts an existing ML-based model to a new, unknown environment to provide fast and accurate performance and resource utilization predictions. Experimental results show that our approach delivers, on average, 85% accuracy when we use our transferred model for prediction in a cloud environment with 5-shot learning and reduces design-space exploration time by 10x, from days to only a few hours.
翻訳日:2022-08-24 12:48:41 公開日:2022-08-22
# Doc-GCN:文書レイアウト解析のための不均一グラフ畳み込みネットワーク

Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout Analysis ( http://arxiv.org/abs/2208.10970v1 )

ライセンス: Link先を確認
Siwen Luo, Yihao Ding, Siqu Long, Soyeon Caren Han, Josiah Poon(参考訳) ダウンストリームアプリケーションのための構造化された機械可読フォーマットに文書を解析する場合、構造化されていないデジタル文書のレイアウトを認識することが重要である。 ドキュメントレイアウト分析における最近の研究は、通常、文書を理解するのにコンピュータビジョンモデルに依存し、コンテキスト情報や文書コンポーネントの関係などの他の情報を無視している。 我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。 まず、構文、意味、密度、外観/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築する。 次に、情報の各側面を表すグラフ畳み込みネットワークを適用し、プールを用いてそれらを統合する。 最後に、各アスペクトを集約し、文書レイアウトコンポーネント分類のための2層MLPにフィードする。 我々のDoc-GCNは、広く使われている3つのDLAデータセットにおいて、最先端の新たな結果を達成する。

Recognizing the layout of unstructured digital documents is crucial when parsing the documents into the structured, machine-readable format for downstream applications. Recent studies in Document Layout Analysis usually rely on computer vision models to understand documents while ignoring other information, such as context information or relation of document components, which are vital to capture. Our Doc-GCN presents an effective way to harmonize and integrate heterogeneous aspects for Document Layout Analysis. We first construct graphs to explicitly describe four main aspects, including syntactic, semantic, density, and appearance/visual information. Then, we apply graph convolutional networks for representing each aspect of information and use pooling to integrate them. Finally, we aggregate each aspect and feed them into 2-layer MLPs for document layout component classification. Our Doc-GCN achieves new state-of-the-art results in three widely used DLA datasets.
翻訳日:2022-08-24 12:42:53 公開日:2022-08-22
# AIによる橋梁の早期警報システムの実現に向けて

Towards an AI-based Early Warning System for Bridge Scour ( http://arxiv.org/abs/2208.10500v1 )

ライセンス: Link先を確認
Negin Yousefpour and Oscar Correa(参考訳) スクリューは、世界中の多くの地域で橋の故障の原因の1つである。 せん断深度推定のための既存の経験方程式の信頼性の欠如と、せん断の複雑さと不確かさを物理現象として考慮し、より信頼性の高いせん断リスク評価ソリューションを開発することが不可欠である。 本研究では,橋脚に設置したソナーおよびステージセンサから得られたリアルタイムモニタリングデータに基づいて,せん断の早期予測のための新しいAI手法を提案する。 長期記憶ネットワーク(lstms,long-short term memory networks)は,アラスカ・スコーア・モニタリング・プログラムから得られた11年以上にわたって,河川ステージとベッドの標高測定を用いて,時系列予測に有効なディープラーニングアルゴリズムである。 スクーア予測におけるaiモデルの能力は、3つのケーススタディブリッジで示される。 その結果, LSTMは, 橋脚周辺の流れおよび河床変動の経時的および季節的変化を, せん断と充填のサイクルを通じて捉えることができ, 早ければ7日前まで, 今後のせん断深度を合理的に予測できることがわかった。 提案手法は,新たなaiに基づく早期警戒システムの開発のために交通当局によって実現され,橋梁スコーア管理に優れていることが期待される。

Scour is the number one cause of bridge failure in many parts of the world. Considering the lack of reliability in existing empirical equations for scour depth estimation and the complexity and uncertainty of scour as a physical phenomenon, it is essential to develop more reliable solutions for scour risk assessment. This study introduces a novel AI approach for early forecast of scour based on real-time monitoring data obtained from sonar and stage sensors installed at bridge piers. Long-short Term Memory networks (LSTMs), a prominent Deep Learning algorithm successfully used for time-series forecasting in other fields, were developed and trained using river stage and bed elevation readings for more than 11 years obtained from Alaska scour monitoring program. The capability of the AI models in scour prediction is shown for three case-study bridges. Results show that LSTMs can capture the temporal and seasonal patterns of both flow and river bed variations around bridge piers, through cycles of scour and filling and can provide reasonable predictions of upcoming scour depth as early as seven days in advance. It is expected that the proposed solution can be implemented by transportation authorities for development of emerging AI-based early warning systems, enabling superior bridge scour management.
翻訳日:2022-08-24 12:31:11 公開日:2022-08-22
# Oracle の強化学習における不確実性指標によるポリシの導入

Some Supervision Required: Incorporating Oracle Policies in Reinforcement Learning via Epistemic Uncertainty Metrics ( http://arxiv.org/abs/2208.10533v1 )

ライセンス: Link先を確認
Jun Jet Tai, Jordan K. Terry, Mauro S. Innocente, James Brusey, Nadjim Horri(参考訳) 強化学習における本質的な問題は、どのような行動(または状態の価値)をとるか不確実な政策に対処することである。 モデルの不確かさは、より正式には認識的不確実性と呼ばれ、サンプリングノイズを超えるモデルの予測誤差を指す。 本稿では,q値関数における認識的不確実性推定のための指標を提案し,パスワイズ認識的不確実性(pathwise epistemic uncertainty)と呼ぶ。 さらに、F値と呼ばれる近似上界を計算する方法を開発した。 後者をDeep Q-Networks (DQN) に実験的に適用し、強化学習における不確実性推定が学習進捗の有用な指標であることを示す。 そこで我々は,不確実性が高い一方で,既存の(学習済みあるいはハードコーディング済みの)オラクルポリシーから学習することで,アクター批判アルゴリズムのサンプル効率を向上させるための新しいアプローチを提案する。 これをCCGE(Critical Confidence Guided Exploration)と呼ぶ。 我々は,F値測定値を用いて,ソフトアクタ・クリティカル(SAC)にCCGEを実装し,いくつかの人気のあるGym環境に適用し,限られた文脈でバニラSACよりも優れたサンプル効率と総合的な報酬が得られることを示す。

An inherent problem in reinforcement learning is coping with policies that are uncertain about what action to take (or the value of a state). Model uncertainty, more formally known as epistemic uncertainty, refers to the expected prediction error of a model beyond the sampling noise. In this paper, we propose a metric for epistemic uncertainty estimation in Q-value functions, which we term pathwise epistemic uncertainty. We further develop a method to compute its approximate upper bound, which we call F -value. We experimentally apply the latter to Deep Q-Networks (DQN) and show that uncertainty estimation in reinforcement learning serves as a useful indication of learning progress. We then propose a new approach to improving sample efficiency in actor-critic algorithms by learning from an existing (previously learned or hard-coded) oracle policy while uncertainty is high, aiming to avoid unproductive random actions during training. We term this Critic Confidence Guided Exploration (CCGE). We implement CCGE on Soft Actor-Critic (SAC) using our F-value metric, which we apply to a handful of popular Gym environments and show that it achieves better sample efficiency and total episodic reward than vanilla SAC in limited contexts.
翻訳日:2022-08-24 12:30:50 公開日:2022-08-22
# オフポリティランキングを用いた進化的RLのサンプル効率の向上

Improving Sample Efficiency in Evolutionary RL Using Off-Policy Ranking ( http://arxiv.org/abs/2208.10583v1 )

ライセンス: Link先を確認
Eshwar S R, Shishir Kolathaya, Gugan Thoppe(参考訳) evolution strategy (es) は自然進化の概念に基づいた強力なブラックボックス最適化手法である。 それぞれのイテレーションで重要なステップは、フィットネススコアに基づいて候補のソリューションをランク付けすることである。 強化学習(RL)におけるESメソッドの場合、このランキングステップは複数のポリシーを評価する必要がある。 それぞれの政策のスコアは、そのポリシーを使用して環境と何度も対話することによって推定される。 ランク付けが完了すると、トップランクのポリシーに関連するデータだけがその後の学習に使用されるので、これは多くの無駄なやりとりにつながります。 サンプル効率を向上させるために,フィットネス関数の局所近似に基づいて,新しいランク付けのオフポリシー代替案を提案する。 我々は、Augmented Random Search (ARS)と呼ばれる最先端のES手法の文脈で、我々のアイデアを実証する。 mujocoタスクのシミュレーションは、オリジナルのarsと比較して、我々のオフポリティリティの亜種は、報酬しきい値に到達するのに類似した実行時間を持つが、データ量は70%程度しかないことを示している。 また、最近の信頼領域esを上回っている。 私たちのアイデアは、他のESメソッドにも拡張可能であるべきだと考えています。

Evolution Strategy (ES) is a powerful black-box optimization technique based on the idea of natural evolution. In each of its iterations, a key step entails ranking candidate solutions based on some fitness score. For an ES method in Reinforcement Learning (RL), this ranking step requires evaluating multiple policies. This is presently done via on-policy approaches: each policy's score is estimated by interacting several times with the environment using that policy. This leads to a lot of wasteful interactions since, once the ranking is done, only the data associated with the top-ranked policies is used for subsequent learning. To improve sample efficiency, we propose a novel off-policy alternative for ranking, based on a local approximation for the fitness function. We demonstrate our idea in the context of a state-of-the-art ES method called the Augmented Random Search (ARS). Simulations in MuJoCo tasks show that, compared to the original ARS, our off-policy variant has similar running times for reaching reward thresholds but needs only around 70% as much data. It also outperforms the recent Trust Region ES. We believe our ideas should be extendable to other ES methods as well.
翻訳日:2022-08-24 12:30:28 公開日:2022-08-22
# ニューロン解析によるグラフニューラルネットワークのグローバル概念に基づく解釈可能性

Global Concept-Based Interpretability for Graph Neural Networks via Neuron Analysis ( http://arxiv.org/abs/2208.10609v1 )

ライセンス: Link先を確認
Han Xuanyuan, Pietro Barbiero, Dobrik Georgiev, Lucie Charlotte Magister, Pietro Li\'o(参考訳) グラフニューラルネットワーク(gnn)は、さまざまなグラフ関連タスクに非常に有効であるが、解釈可能性や透明性に欠ける。 現在の説明可能性のアプローチは通常ローカルで、GNNをブラックボックスとして扱う。 モデルの内部には見えず、モデルと説明に対する人間の信頼を阻害する。 視覚モデルにおける高レベルセマンティック概念を検出するニューロンの能力により、個々のGNNニューロンの振る舞いを新しい分析により解析し、GNNの解釈可能性に関する疑問に答え、GNNニューロンの解釈可能性を評価するための新しい指標を提案する。 本稿では,ニューロンレベルの概念を用いて,GNNのグローバルな説明を生成する手法を提案する。 具体的には これは、GNNニューロンが概念検出器として機能し、ノード次数と近傍特性の論理的組成として定式化された概念と強い整合性を持つことを示す最初の研究である。 二 検出された概念の重要性を定量的に評価し、トレーニング期間とニューロンレベルの解釈可能性とのトレードオフを識別する。 論理的な説明によって裏打ちされた個々の解釈可能な概念に説明を内包することができ、バイアスの可能性を低減し、ユーザーフレンドリー性を向上させることができる。

Graph neural networks (GNNs) are highly effective on a variety of graph-related tasks; however, they lack interpretability and transparency. Current explainability approaches are typically local and treat GNNs as black-boxes. They do not look inside the model, inhibiting human trust in the model and explanations. Motivated by the ability of neurons to detect high-level semantic concepts in vision models, we perform a novel analysis on the behaviour of individual GNN neurons to answer questions about GNN interpretability, and propose new metrics for evaluating the interpretability of GNN neurons. We propose a novel approach for producing global explanations for GNNs using neuron-level concepts to enable practitioners to have a high-level view of the model. Specifically, (i) to the best of our knowledge, this is the first work which shows that GNN neurons act as concept detectors and have strong alignment with concepts formulated as logical compositions of node degree and neighbourhood properties; (ii) we quantitatively assess the importance of detected concepts, and identify a trade-off between training duration and neuron-level interpretability; (iii) we demonstrate that our global explainability approach has advantages over the current state-of-the-art -- we can disentangle the explanation into individual interpretable concepts backed by logical descriptions, which reduces potential for bias and improves user-friendliness.
翻訳日:2022-08-24 12:30:11 公開日:2022-08-22
# 異常ロバスト幾何知覚のための推定契約

Estimation Contracts for Outlier-Robust Geometric Perception ( http://arxiv.org/abs/2208.10521v1 )

ライセンス: Link先を確認
Luca Carlone(参考訳) 外乱推定は基本的な問題であり、統計学者や実践家によって広く研究されている。 ここ数年、高次元推定問題に対する扱いやすい外れ値ロバスト手法の開発に焦点をあてた「アルゴリズムロバスト統計」が研究分野をまたいで収束してきた。 この収束にもかかわらず、分野間の研究活動はほとんどが互いに切り離されている。 本稿では,ロバスト統計学におけるロボット工学とコンピュータビジョンにおける幾何知覚のための認証外乱推定に関する最近の研究を橋渡しする。 特に、ロバストな線形回帰(<<50%外周率の低外周例に適用可能)とリスト分解可能な回帰(>50%外周率の高外周例に適用可能)について、ロボット工学や視覚学で一般的に見られる設定に適応し、拡張する。 (i)変数(回転、ポーズなど)は、凸でない領域に属する。 (ii)測定値はベクトル値であり、 (iii)外れ値の個数は、事前には分かっていない。 我々は、新しいアルゴリズムを提案するのではなく、現代の推定アルゴリズムが保証されている入力測定の条件を提供し、外れ値の存在下での基底真理に近い見積もりを復元する。 これらの条件は、私たちが"見積契約"と呼ぶものです。 提案する既存の結果の拡張に加えて,本論文の主な貢献は次のとおりである。 (i)共通点や相違点を指摘して並列研究路線を統一すること。 (ii)実践者に対して、アクセス可能で自己完結したプレゼンテーションにおいて、高度な資料(例えば、二乗証明の要約)を導入すること。 (三)直近の機会を指摘し、外乱的幾何学的知覚に疑問を呈する。

Outlier-robust estimation is a fundamental problem and has been extensively investigated by statisticians and practitioners. The last few years have seen a convergence across research fields towards "algorithmic robust statistics", which focuses on developing tractable outlier-robust techniques for high-dimensional estimation problems. Despite this convergence, research efforts across fields have been mostly disconnected from one another. This paper bridges recent work on certifiable outlier-robust estimation for geometric perception in robotics and computer vision with parallel work in robust statistics. In particular, we adapt and extend recent results on robust linear regressions (applicable to the low-outlier case with << 50% outliers) and list-decodable regression (applicable to the high-outlier case with >> 50% outliers) to the setup commonly found in robotics and vision, where (i) variables (e.g., rotations, poses) belong to a non-convex domain, (ii) measurements are vector-valued, and (iii) the number of outliers is not known a priori. The emphasis here is on performance guarantees: rather than proposing new algorithms, we provide conditions on the input measurements under which modern estimation algorithms are guaranteed to recover an estimate close to the ground truth in the presence of outliers. These conditions are what we call an "estimation contract". Besides the proposed extensions of existing results, we believe the main contributions of this paper are (i) to unify parallel research lines by pointing out commonalities and differences, (ii) to introduce advanced material (e.g., sum-of-squares proofs) in an accessible and self-contained presentation for the practitioner, and (iii) to point out a few immediate opportunities and open questions in outlier-robust geometric perception.
翻訳日:2022-08-24 12:27:21 公開日:2022-08-22
# 合成顔のヒト検診におけるAIガイダンスの価値

The Value of AI Guidance in Human Examination of Synthetically-Generated Faces ( http://arxiv.org/abs/2208.10544v1 )

ライセンス: Link先を確認
Aidan Boyd, Patrick Tinsley, Kevin Bowyer, Adam Czajka(参考訳) 顔画像合成は、人間が人工的に生成された顔とを効果的に区別できる点を超えて進歩してきた。 近年開発された合成顔画像検出器は、特にモデルの訓練過程において人間の知覚知性によって導かれる「人間と異なる」識別能力を誇っている。 そこで本稿では, 人間の誘導による顔検出が, 人間の誘導を伴わないモデルと比較して, 合成画像検出のタスクにおいて, 非熟練の人間の操作者を支援することができるかどうかを検討する。 被験者1,560名以上の被験者を対象に大規模な実験を行い,画像が本物か合成的に生成した顔かを分類した。 合計で3,780枚の顔画像に対する56,015個のアノテーションが収集された。 被験者はまずAIサポートなしでサンプルを検査し、続いてサンプルを提出した。 (a)AIの判断(「合成」または「音響」) b) クラスアクティベーションは、モデルがその決定の正当性を判断する場所、又は (c)AIの決定とAIの正当性マップの両方。 合成顔は6つの現代的な生成的敵ネットワークで生成された。 この実験から得られた興味深い観察は、(1)人間誘導で訓練されたモデルは、伝統的にエントロピー損失を用いて訓練されたモデルと比較して、人間の顔画像の検査により良い支持を与える、(2)人間に提示された二項決定は、サリエンシマップよりもより良い支持を与える、(3)AIの精度を理解することは、与えられたモデルに対する信頼を高め、全体的な精度を高めることに役立つ。 本研究は,人工顔検出において,機械が支援する人間はランダムに精度が向上するが,ai支援による人間への供給方法や信頼の構築が,人間-aiタンデムの高い有効性を決定する重要な要因であることを示す。

Face image synthesis has progressed beyond the point at which humans can effectively distinguish authentic faces from synthetically generated ones. Recently developed synthetic face image detectors boast "better-than-human" discriminative ability, especially those guided by human perceptual intelligence during the model's training process. In this paper, we investigate whether these human-guided synthetic face detectors can assist non-expert human operators in the task of synthetic image detection when compared to models trained without human-guidance. We conducted a large-scale experiment with more than 1,560 subjects classifying whether an image shows an authentic or synthetically-generated face, and annotate regions that supported their decisions. In total, 56,015 annotations across 3,780 unique face images were collected. All subjects first examined samples without any AI support, followed by samples given (a) the AI's decision ("synthetic" or "authentic"), (b) class activation maps illustrating where the model deems salient for its decision, or (c) both the AI's decision and AI's saliency map. Synthetic faces were generated with six modern Generative Adversarial Networks. Interesting observations from this experiment include: (1) models trained with human-guidance offer better support to human examination of face images when compared to models trained traditionally using cross-entropy loss, (2) binary decisions presented to humans offers better support than saliency maps, (3) understanding the AI's accuracy helps humans to increase trust in a given model and thus increase their overall accuracy. This work demonstrates that although humans supported by machines achieve better-than-random accuracy of synthetic face detection, the ways of supplying humans with AI support and of building trust are key factors determining high effectiveness of the human-AI tandem.
翻訳日:2022-08-24 12:24:24 公開日:2022-08-22
# ソースフリーおよびブラックボックスドメイン適応のためのターゲット表現の改善に向けて

Toward Better Target Representation for Source-Free and Black-Box Domain Adaptation ( http://arxiv.org/abs/2208.10531v1 )

ライセンス: Link先を確認
Qucheng Peng, Zhengming Ding, Lingjuan Lyu, Lichao Sun, Chen Chen(参考訳) ドメイン適応(domain adaptation)は、ラベル付きソースドメインとラベルなしのターゲットドメインを整合させることを目的としている。 残念ながら、このパラダイムはデータのプライバシとセキュリティに対する懸念を高めます。 最近の研究では、ソースデータを公開することなく、ソース訓練されたモデルをターゲットドメインに適応させるソースフリー設定によって、これらの懸念を解消しようとしている。 しかし、Source-Freeパラダイムは、ソースモデルに対する敵対的な攻撃のため、データ漏洩のリスクがある。 そのため、ソースモデルの出力のみを利用できるブラックボックス設定が提案されている。 本稿では、ソースフリー適応とブラックボックス適応の両方に対処し、周波数ミックスアップと相互学習(fmml)から、better target representationという新しい手法を提案する。 具体的には、補間におけるタスク関連オブジェクトを強調表示し、ターゲットモデルに対するクラス一貫性と線形挙動を向上させるために、新しいデータ拡張手法である Frequency MixUp を導入する。 さらに,ドメイン適応問題に対して相互学習と呼ばれるネットワーク正規化手法を導入する。 自己知識蒸留によりターゲットモデル内の知識を伝達し、マルチスケールなターゲット表現を学習することで、ソースドメインへの過度な適合を軽減する。 大規模な実験により,両設定下でのベンチマークデータセットの最先端性能が得られた。

Domain adaptation aims at aligning the labeled source domain and the unlabeled target domain, and most existing approaches assume the source data is accessible. Unfortunately, this paradigm raises concerns in data privacy and security. Recent studies try to dispel these concerns by the Source-Free setting, which adapts the source-trained model towards target domain without exposing the source data. However, the Source-Free paradigm is still at risk of data leakage due to adversarial attacks to the source model. Hence, the Black-Box setting is proposed, where only the outputs of source model can be utilized. In this paper, we address both the Source-Free adaptation and the Black-Box adaptation, proposing a novel method named better target representation from Frequency Mixup and Mutual Learning (FMML). Specifically, we introduce a new data augmentation technique as Frequency MixUp, which highlights task-relevant objects in the interpolations, thus enhancing class-consistency and linear behavior for target models. Moreover, we introduce a network regularization method called Mutual Learning to the domain adaptation problem. It transfers knowledge inside the target model via self-knowledge distillation and thus alleviates overfitting on the source domain by learning multi-scale target representations. Extensive experiments show that our method achieves state-of-the-art performance on several benchmark datasets under both settings.
翻訳日:2022-08-24 12:19:56 公開日:2022-08-22
# 非滑らかな非凸最適化のための単純かつ最適確率勾配法

Simple and Optimal Stochastic Gradient Methods for Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2208.10025v1 )

ライセンス: Link先を確認
Zhize Li, Jian Li(参考訳) 非凸における定常点や局所極小を求める確率勾配アルゴリズムを,非滑らかな正則化問題,有限サム問題,オンライン最適化問題などを用いて提案し,解析する。 まず,ProxSVRG+と呼ばれる分散還元に基づく簡単な確率勾配アルゴリズムを提案する。 我々は, ProxSVRG+ のクリーンかつ厳密な解析を行い, 決定論的近位勾配降下(ProxGD)よりも広い範囲のミニバッチサイズで優れており, Reddi et al. (2016b) で提案されたオープンな問題を解く。 また、 ProxSVRG+ は ProxSVRG (Reddi et al., 2016b) よりもはるかに少ないオラクルコールを使用し、完全な勾配計算を回避してオンライン設定に拡張する。 さらに、SARAH(Nguyen et al., 2017)に基づくSSRGDと呼ばれる最適アルゴリズムを提案し、SSRGDがProxSVRG+の勾配複雑性をさらに向上し、既知の下界(Fang et al., 2018; Li et al., 2021)と一致する最適上界を実現することを示す。 さらに、proxsvrg+ と ssrgd は、有限平均の場合の非凸関数に対する polyak-\l{}ojasiewicz (pl) 条件のような対象関数の局所構造と自動的に適応し、前回のproxsvrg (reddi et al., 2016b) で再開することなく、両者が自動的により高速な大域的線形収束に切り替えられることを証明している。 最後に、$(\epsilon, \delta)$-local minimum を見つけるよりも、$(\epsilon, \delta)$-local minimum を見つけるより難しい問題に焦点を当てる。 ランダムな摂動を加えるだけで、SSRGDは$(\epsilon, \delta)$-local minimumを見つけることができる。 我々のアルゴリズムは定常点を求めるのとほぼ同等に単純であり、同様の最適率が得られる。

We propose and analyze several stochastic gradient algorithms for finding stationary points or local minimum in nonconvex, possibly with nonsmooth regularizer, finite-sum and online optimization problems. First, we propose a simple proximal stochastic gradient algorithm based on variance reduction called ProxSVRG+. We provide a clean and tight analysis of ProxSVRG+, which shows that it outperforms the deterministic proximal gradient descent (ProxGD) for a wide range of minibatch sizes, hence solves an open problem proposed in Reddi et al. (2016b). Also, ProxSVRG+ uses much less proximal oracle calls than ProxSVRG (Reddi et al., 2016b) and extends to the online setting by avoiding full gradient computations. Then, we further propose an optimal algorithm, called SSRGD, based on SARAH (Nguyen et al., 2017) and show that SSRGD further improves the gradient complexity of ProxSVRG+ and achieves the optimal upper bound, matching the known lower bound of (Fang et al., 2018; Li et al., 2021). Moreover, we show that both ProxSVRG+ and SSRGD enjoy automatic adaptation with local structure of the objective function such as the Polyak-\L{}ojasiewicz (PL) condition for nonconvex functions in the finite-sum case, i.e., we prove that both of them can automatically switch to faster global linear convergence without any restart performed in prior work ProxSVRG (Reddi et al., 2016b). Finally, we focus on the more challenging problem of finding an $(\epsilon, \delta)$-local minimum instead of just finding an $\epsilon$-approximate (first-order) stationary point (which may be some bad unstable saddle points). We show that SSRGD can find an $(\epsilon, \delta)$-local minimum by simply adding some random perturbations. Our algorithm is almost as simple as its counterpart for finding stationary points, and achieves similar optimal rates.
翻訳日:2022-08-23 14:47:43 公開日:2022-08-22
# 社会的に公正なセンターとリニアサブスペースクラスタリング

Socially Fair Center-based and Linear Subspace Clustering ( http://arxiv.org/abs/2208.10095v1 )

ライセンス: Link先を確認
Sruthi Gorantla, Kishen N. Gowda, Amit Deshpande, Anand Louis(参考訳) センターベースのクラスタリング(例えば$k$-means、$k$-medians)とリニアサブスペースを使ったクラスタリングは、現実世界のデータをより小さなクラスタに分割する最も一般的なテクニックである。 しかしながら、データがセンシティブな人口統計グループで構成されている場合、異なるセンシティブなグループに対するポイント毎のクラスタリングコストが著しく異なり、公正な関連害(例えば、サービス品質の違い)につながる可能性がある。 社会的に公平なクラスタリングの目標は、すべてのグループにおけるポイント毎のクラスタリングの最大コストを最小化することだ。 本研究では,センターベースクラスタリングと線形部分空間クラスタリングを社会的に公平に解決するための統一フレームワークを提案し,これらの問題に対して実用的かつ効率的な近似アルゴリズムを提供する。 複数のベンチマークデータセットにおいて、我々のアルゴリズムが最先端のベースラインと密接に一致するか、またはより優れていることを示すために、広範囲な実験を行いました。

Center-based clustering (e.g., $k$-means, $k$-medians) and clustering using linear subspaces are two most popular techniques to partition real-world data into smaller clusters. However, when the data consists of sensitive demographic groups, significantly different clustering cost per point for different sensitive groups can lead to fairness-related harms (e.g., different quality-of-service). The goal of socially fair clustering is to minimize the maximum cost of clustering per point over all groups. In this work, we propose a unified framework to solve socially fair center-based clustering and linear subspace clustering, and give practical, efficient approximation algorithms for these problems. We do extensive experiments to show that on multiple benchmark datasets our algorithms either closely match or outperform state-of-the-art baselines.
翻訳日:2022-08-23 14:47:01 公開日:2022-08-22
# 効率的な音声強調のための多視点アテンション転送

Multi-View Attention Transfer for Efficient Speech Enhancement ( http://arxiv.org/abs/2208.10367v1 )

ライセンス: Link先を確認
Wooseok Shin, Hyun Joon Park, Jin Sob Kim, Byung Hoon Lee, Sung Won Han(参考訳) 近年の深層学習モデルは、音声強調において高い性能を達成しているが、性能を著しく低下させることなく、高速で低複雑さのモデルを得るのは難しい。 従来の音声強調に関する知識蒸留研究では,その出力蒸留法が音声強調作業に適合しないため,この問題を解決できなかった。 本研究では,時間領域における効率的な音声強調モデルを得るために,特徴量に基づく蒸留方式であるマルチビューアテンショントランスファー(MV-AT)を提案する。 MV-ATは、マルチビュー特徴抽出モデルに基づいて、教師ネットワークのマルチビュー知識を追加パラメータなしで生徒ネットワークに転送する。 実験結果から,提案手法は,バレンティーニおよび深部雑音抑圧(dns)データセット上での様々な大きさの学生モデルの性能を一貫して向上させた。 提案手法を用いたMANNER-S-8.1GFは,提案手法と同等の性能を持つベースラインモデルと比較して,パラメータが15.4倍,パラメータが4.71倍になった。

Recent deep learning models have achieved high performance in speech enhancement; however, it is still challenging to obtain a fast and low-complexity model without significant performance degradation. Previous knowledge distillation studies on speech enhancement could not solve this problem because their output distillation methods do not fit the speech enhancement task in some aspects. In this study, we propose multi-view attention transfer (MV-AT), a feature-based distillation, to obtain efficient speech enhancement models in the time domain. Based on the multi-view features extraction model, MV-AT transfers multi-view knowledge of the teacher network to the student network without additional parameters. The experimental results show that the proposed method consistently improved the performance of student models of various sizes on the Valentini and deep noise suppression (DNS) datasets. MANNER-S-8.1GF with our proposed method, a lightweight model for efficient deployment, achieved 15.4x and 4.71x fewer parameters and floating-point operations (FLOPs), respectively, compared to the baseline model with similar performance.
翻訳日:2022-08-23 14:45:50 公開日:2022-08-22
# エージェントベースの市場モデルと相互作用する単純な学習エージェント

A simple learning agent interacting with an agent-based market model ( http://arxiv.org/abs/2208.10434v1 )

ライセンス: Link先を確認
Matthew Dicks, Tim Gebbie(参考訳) 本稿では,イベント駆動型金融市場モデルと相互作用する単一強化学習最適実行取引エージェントの学習ダイナミクスについて考察する。 トレーディングはイベント時にマッチングエンジンを介して非同期に行われる。 最適な実行エージェントは、初期オーダーサイズと異なるサイズの状態空間の異なるレベルで考慮される。 エージェントベースのモデルと市場への影響は、経験的スタイル化された事実と価格影響曲線の変化を探索するキャリブレーションアプローチを用いて考慮される。 収束、ボリューム軌道、アクショントレースプロットは学習ダイナミクスを視覚化するために使用される。 これは、最適な実行エージェントが、シミュレートされたリアクティブ市場フレームワーク内で最適なトレーディング決定を学習し、それによってシミュレートされた市場を変えるバックアクションを生成する方法を示す。

We consider the learning dynamics of a single reinforcement learning optimal execution trading agent when it interacts with an event driven agent-based financial market model. Trading takes place asynchronously through a matching engine in event time. The optimal execution agent is considered at different levels of initial order-sizes and differently sized state spaces. The resulting impact on the agent-based model and market are considered using a calibration approach that explores changes in the empirical stylised facts and price impact curves. Convergence, volume trajectory and action trace plots are used to visualise the learning dynamics. This demonstrates how an optimal execution agent learns optimal trading decisions inside a simulated reactive market framework and how this in turn generates a back-reaction that changes the simulated market through the introduction of strategic order-splitting.
翻訳日:2022-08-23 14:45:32 公開日:2022-08-22
# 雑音適応型知的プログラマブルメタイメージ

Noise-Adaptive Intelligent Programmable Meta-Imager ( http://arxiv.org/abs/2208.10171v1 )

ライセンス: Link先を確認
Chenqi Qian, Philipp del Hougne(参考訳) 本稿では,特定の情報抽出タスク(オブジェクト認識など)だけでなく,異なる種類の雑音にも適応する,コヒーレントなシーンイルミネーションのシーケンスを調整した,インテリジェントなプログラマブルな計算メタイメージシステムを提案する。 学習照明パターンが騒音にどう依存するかを体系的に研究し,学習照明パターンの強度と重なりの傾向を直感的に理解できることを見出した。 我々は,マイクロ波動的メタサーフェスアンテナ(dma)の解析結合双極子フォワードモデルに基づいて解析を行い,ノイズを含むプログラマブルな物理計測プロセスと,それに続くディジタル処理層からなる微分可能なエンドツーエンド情報フローパイプラインを定式化する。 このパイプラインは、プログラム可能な物理重み(コヒーレントなシーン照明を決定するDMA構成)とトレーニング可能なデジタル重みを共同で設計することを可能にする。 ノイズ適応型知的メタイメージングは、従来の擬似ランダム照明パターンを、十分なタスク関連情報の抽出を困難にする条件下において、遅延制約(許容測定回数の制限)と強いノイズ下で、明らかに優れています。 屋内監視と地球観測のプログラム可能なマイクロ波メタイメージングは、これらの状況に直面する。

We present an intelligent programmable computational meta-imager that tailors its sequence of coherent scene illuminations not only to a specific information-extraction task (e.g., object recognition) but also adapts to different types and levels of noise. We systematically study how the learned illumination patterns depend on the noise, and we discover that trends in intensity and overlap of the learned illumination patterns can be understood intuitively. We conduct our analysis based on an analytical coupled-dipole forward model of a microwave dynamic metasurface antenna (DMA); we formulate a differentiable end-to-end information-flow pipeline comprising the programmable physical measurement process including noise as well as the subsequent digital processing layers. This pipeline allows us to jointly inverse-design the programmable physical weights (DMA configurations that determine the coherent scene illuminations) and the trainable digital weights. Our noise-adaptive intelligent meta-imager outperforms the conventional use of pseudo-random illumination patterns most clearly under conditions that make the extraction of sufficient task-relevant information challenging: latency constraints (limiting the number of allowed measurements) and strong noise. Programmable microwave meta-imagers in indoor surveillance and earth observation will be confronted with these conditions.
翻訳日:2022-08-23 14:45:20 公開日:2022-08-22
# GENEA Challenge 2022: データ駆動型音声合成の大規模評価

The GENEA Challenge 2022: A large evaluation of data-driven co-speech gesture generation ( http://arxiv.org/abs/2208.10441v1 )

ライセンス: Link先を確認
Youngwoo Yoon, Pieter Wolfert, Taras Kucherenko, Carla Viegas, Teodor Nikolov, Mihail Tsakov, Gustav Eje Henter(参考訳) 本稿では,データ駆動型自動音声ジェスチャー生成のための第2回GENEAチャレンジについて報告する。 参加チームは同じ音声とモーションデータセットを使用してジェスチャ生成システムを構築した。 これらのシステムによって生成された動きは、標準化されたヴィジュアライゼーションパイプラインを使用してビデオにレンダリングされ、クラウドソーシングされた大規模ユーザ研究で評価された。 異なる研究論文を比較する場合とは異なり、結果の相違は方法の違いによってのみ生じ、システム間を直接比較することができる。 今年のデータセットは、ディヤドの会話に関わるさまざまな人の指を含む18時間のフルボディモーションキャプチャに基づいています。 10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。 各階層において、ジェスチャー動作の人間的類似度と、特定の音声信号に対するその適切性を評価した。 本評価は,これまでこの分野で大きな課題であったジェスチャの適性から人間らしいものを分離するものである。 評価結果は革命であり、啓示である。 いくつかの合成条件は、人間のモーションキャプチャーよりも人間に近いと評価されている。 我々の知る限りでは、これはかつて高忠実なアバターで示されたことはない。 一方、すべての合成動作は、元のモーションキャプチャー記録よりも音声に非常に適していないことが判明した。 追加資料はプロジェクトのWebサイトhttps://youngwoo-yoon.github.io/GENEAchallenge2022/から入手できる。

This paper reports on the second GENEA Challenge to benchmark data-driven automatic co-speech gesture generation. Participating teams used the same speech and motion dataset to build gesture-generation systems. Motion generated by all these systems was rendered to video using a standardised visualisation pipeline and evaluated in several large, crowdsourced user studies. Unlike when comparing different research papers, differences in results are here only due to differences between methods, enabling direct comparison between systems. This year's dataset was based on 18 hours of full-body motion capture, including fingers, of different persons engaging in dyadic conversation. Ten teams participated in the challenge across two tiers: full-body and upper-body gesticulation. For each tier we evaluated both the human-likeness of the gesture motion and its appropriateness for the specific speech signal. Our evaluations decouple human-likeness from gesture appropriateness, which previously was a major challenge in the field. The evaluation results are a revolution, and a revelation. Some synthetic conditions are rated as significantly more human-like than human motion capture. To the best of our knowledge, this has never been shown before on a high-fidelity avatar. On the other hand, all synthetic motion is found to be vastly less appropriate for the speech than the original motion-capture recordings. Additional material is available via the project website at https://youngwoo-yoon.github.io/GENEAchallenge2022/
翻訳日:2022-08-23 14:44:41 公開日:2022-08-22
# メンバーシップ・ドクター:機械学習モデルに対するメンバーシップ推論の総合的評価

Membership-Doctor: Comprehensive Assessment of Membership Inference Against Machine Learning Models ( http://arxiv.org/abs/2208.10445v1 )

ライセンス: Link先を確認
Xinlei He and Zheng Li and Weilin Xu and Cory Cornelius and Yang Zhang(参考訳) 機械学習モデルはセンシティブなデータを記憶する傾向があり、敵がモデルのトレーニングに入力サンプルを使用したかどうかを推測するメンバーシップ推論攻撃に対して脆弱である。 過去数年間、研究者は多くのメンバーシップ推論攻撃と防御を生み出してきた。 しかし、これらの攻撃と防御は様々な戦略を採用し、異なるモデルとデータセットで実行される。 しかし、包括的なベンチマークの欠如は、既存の攻撃と防御の強さと弱点を理解していないことを意味する。 このギャップを埋めるために、様々なメンバーシップ推論攻撃と防御の大規模測定を行った。 我々は9つの攻撃と6つの防御の研究を通してメンバーシップ推論を体系化し、総合評価において異なる攻撃と防御のパフォーマンスを測定する。 次に、これらの攻撃結果に対する脅威モデルの影響を定量化する。 同一アーキテクチャやシャドウモデルとターゲットモデルの同一分布といった脅威モデルのいくつかの仮定は不要であることがわかった。 また、実験室のデータセットではなく、インターネットから収集された実世界のデータに対する攻撃を最初に実施しました。 さらに, メンバシップ推論攻撃の性能を決定する要因について検討し, 過適合レベルが攻撃の成功に十分でないことを明らかにする。 代わりに、部材と非部材のエントロピー/クロスエントロピーのジェンセン-シャノン距離は、攻撃性能と相関する。 これにより、攻撃を実行することなく、メンバシップ推論のリスクを正確に予測する新しい方法が得られます。 最後に,データ拡張により既存攻撃の性能が大幅に低下することが判明し,攻撃性能を向上させるためにシャドートレーニングとアタックモデルにアダプティブアタックを用いた適応攻撃を提案する。

Machine learning models are prone to memorizing sensitive data, making them vulnerable to membership inference attacks in which an adversary aims to infer whether an input sample was used to train the model. Over the past few years, researchers have produced many membership inference attacks and defenses. However, these attacks and defenses employ a variety of strategies and are conducted in different models and datasets. The lack of comprehensive benchmark, however, means we do not understand the strengths and weaknesses of existing attacks and defenses. We fill this gap by presenting a large-scale measurement of different membership inference attacks and defenses. We systematize membership inference through the study of nine attacks and six defenses and measure the performance of different attacks and defenses in the holistic evaluation. We then quantify the impact of the threat model on the results of these attacks. We find that some assumptions of the threat model, such as same-architecture and same-distribution between shadow and target models, are unnecessary. We are also the first to execute attacks on the real-world data collected from the Internet, instead of laboratory datasets. We further investigate what determines the performance of membership inference attacks and reveal that the commonly believed overfitting level is not sufficient for the success of the attacks. Instead, the Jensen-Shannon distance of entropy/cross-entropy between member and non-member samples correlates with attack performance much better. This gives us a new way to accurately predict membership inference risks without running the attack. Finally, we find that data augmentation degrades the performance of existing attacks to a larger extent, and we propose an adaptive attack using augmentation to train shadow and attack models that improve attack performance.
翻訳日:2022-08-23 14:41:38 公開日:2022-08-22
# 心拍不整脈予測のための機械学習技術の検討

Survey of Machine Learning Techniques To Predict Heartbeat Arrhythmias ( http://arxiv.org/abs/2208.10463v1 )

ライセンス: Link先を確認
Samuel Armstrong(参考訳) バイオメディカルコンピュータ科学の研究の多くは、機械学習技術を使って正確な結果を与える。 しかし、これらの技術は、病院のライブフィードから抽出したデータのリアルタイム分析には有効ではないかもしれない。 このプロジェクトでは、さまざまなソースから異なる機械学習技術を比較して、高い精度だけでなく、実際の医療システムで使用するレイテンシとメモリオーバーヘッドの低減を実現する。

Many works in biomedical computer science research use machine learning techniques to give accurate results. However, these techniques may not be feasible for real-time analysis of data pulled from live hospital feeds. In this project, different machine learning techniques are compared from various sources to find one that provides not only high accuracy but also low latency and memory overhead to be used in real-world health care systems.
翻訳日:2022-08-23 14:41:10 公開日:2022-08-22
# 反応に対する一般介入による不変表現の学習

Learning Invariant Representations under General Interventions on the Response ( http://arxiv.org/abs/2208.10027v1 )

ライセンス: Link先を確認
Kang Du and Yu Xiang(参考訳) 近年、異なる環境から特徴と応答のペアを観察することが一般的になっている。 その結果、分散シフトによって異なる分布を持つデータに学習した予測器を適用する必要がある。 1つの原理的なアプローチは、トレーニングとテストモデルを記述するために構造因果モデルを採用することである。 しかし、この原則は、応答がインターバルされたときに実践的な設定で違反する可能性がある。 自然の疑問は、目に見えない環境で予測を促進するために他の形の不変性を特定することができるかどうかである。 この難解なシナリオを明らかにするために、追加機能を通じて介入を捕捉する明示的な関係である不変整合性(IMP)を導入する。 これは、反応に対する一般的な介入の統一的な処理を可能にする別の形の不変性をもたらす。 本手法の漸近的一般化誤差を離散的および連続的な環境条件下で解析し,半パラメトリック変動係数モデルに関連付けて連続ケースを処理した。 各種実験環境における既存手法と比較して競争性能を示すアルゴリズムを提案する。

It has become increasingly common nowadays to collect observations of feature and response pairs from different environments. As a consequence, one has to apply learned predictors to data with a different distribution due to distribution shifts. One principled approach is to adopt the structural causal models to describe training and test models, following the invariance principle which says that the conditional distribution of the response given its predictors remains the same across environments. However, this principle might be violated in practical settings when the response is intervened. A natural question is whether it is still possible to identify other forms of invariance to facilitate prediction in unseen environments. To shed light on this challenging scenario, we introduce invariant matching property (IMP) which is an explicit relation to capture interventions through an additional feature. This leads to an alternative form of invariance that enables a unified treatment of general interventions on the response. We analyze the asymptotic generalization errors of our method under both the discrete and continuous environment settings, where the continuous case is handled by relating it to the semiparametric varying coefficient models. We present algorithms that show competitive performance compared to existing methods over various experimental settings.
翻訳日:2022-08-23 14:33:57 公開日:2022-08-22
# MetaRF:わずかなトレイルでの反応収量予測のための微分可能なランダムフォレスト

MetaRF: Differentiable Random Forest for Reaction Yield Prediction with a Few Trails ( http://arxiv.org/abs/2208.10083v1 )

ライセンス: Link先を確認
Kexin Chen, Guangyong Chen, Junyou Li, Yuansheng Huang, Pheng-Ann Heng(参考訳) 人工知能は、多くの印象的な応用で医学化学の分野に深く革命をもたらしたが、これらの応用の成功には、高品質なアノテーションを備えた大量のトレーニングサンプルが必要である。 本稿では, 反応収率予測問題に焦点をあて, 数回の実験実験を行い, 新規な化学空間における高yield反応の選択を支援する。 この課題に対処するため,我々はまず,無作為林の注意重みをメタラーニングフレームワークによって自動的に最適化し,新たな試薬の性能を予測し,いくつかの追加サンプルを付与した,注意に基づく識別可能な無作為林モデルであるMetaRFを考案した。 数発の学習性能を向上させるため,実験で検証し,学習する貴重なサンプルを抽出する次元還元法を提案する。 提案手法は,3つの異なるデータセットで評価し,少ない予測で十分な性能を得る。 高スループット実験(hte)データセットでは、我々の方法論のトップ10の高yield反応の平均収率は、理想的な収率選択の結果に比較的近い。

Artificial intelligence has deeply revolutionized the field of medicinal chemistry with many impressive applications, but the success of these applications requires a massive amount of training samples with high-quality annotations, which seriously limits the wide usage of data-driven methods. In this paper, we focus on the reaction yield prediction problem, which assists chemists in selecting high-yield reactions in a new chemical space only with a few experimental trials. To attack this challenge, we first put forth MetaRF, an attention-based differentiable random forest model specially designed for the few-shot yield prediction, where the attention weight of a random forest is automatically optimized by the meta-learning framework and can be quickly adapted to predict the performance of new reagents while given a few additional samples. To improve the few-shot learning performance, we further introduce a dimension-reduction based sampling method to determine valuable samples to be experimentally tested and then learned. Our methodology is evaluated on three different datasets and acquires satisfactory performance on few-shot prediction. In high-throughput experimentation (HTE) datasets, the average yield of our methodology's top 10 high-yield reactions is relatively close to the results of ideal yield selection.
翻訳日:2022-08-23 14:33:39 公開日:2022-08-22
# SoK: 信頼性コンピューティングによる機械学習

SoK: Machine Learning with Confidential Computing ( http://arxiv.org/abs/2208.10134v1 )

ライセンス: Link先を確認
Fan Mo, Zahra Tarkhani, Hamed Haddadi(参考訳) 機械学習(ML)におけるプライバシとセキュリティの課題は、MLの広範な開発と、最近の大規模な攻撃面のデモとともに、対処すべき重要なトピックとなっている。 成熟したシステム指向のアプローチとして、機密コンピューティングは、さまざまなMLシナリオのプライバシとセキュリティを改善するために、学術と産業の両方でますます活用されている。 本稿では,機密コンピューティング支援mlセキュリティとプライバシ技術に関する知見を体系化する。 一 秘密の保証及び保証 ii) 整合性保証。 さらに重要な課題を特定し、MLのユースケースに対する既存のTrusted Execution Environment(TEE)システムにおける制約を専門的に分析する。 我々は、基盤となるプライバシー定義、分割されたML実行、ML専用のTEE設計、TEE対応ML、ML完全パイプライン保証など、将来的な作業について議論する。 これらの潜在的なソリューションは、計算とシステムコストを導入することなく、プライバシー保証のための非常に強力なTEE対応MLを実現するのに役立つ。

Privacy and security challenges in Machine Learning (ML) have become a critical topic to address, along with ML's pervasive development and the recent demonstration of large attack surfaces. As a mature system-oriented approach, confidential computing has been increasingly utilized in both academia and industry to improve privacy and security in various ML scenarios. In this paper, we systematize the findings on confidential computing-assisted ML security and privacy techniques for providing i) confidentiality guarantees and ii) integrity assurances. We further identify key challenges and provide dedicated analyses of the limitations in existing Trusted Execution Environment (TEE) systems for ML use cases. We discuss prospective works, including grounded privacy definitions, partitioned ML executions, dedicated TEE designs for ML, TEE-aware ML, and ML full pipeline guarantee. These potential solutions can help achieve a much strong TEE-enabled ML for privacy guarantees without introducing computation and system costs.
翻訳日:2022-08-23 14:33:18 公開日:2022-08-22
# 決定論的グラフウォーキングプログラムマイニング

Deterministic Graph-Walking Program Mining ( http://arxiv.org/abs/2208.10290v1 )

ライセンス: Link先を確認
Peter Belcak, Roger Wattenhofer(参考訳) その汎用性のため、グラフ構造はデータを構成する別々のエンティティ間の複雑な関係の表現を許容する。 グラフウォーキングプログラムを導入することにより、エッジと頂点の特徴の観点から2つの頂点集合間の接続の概念を定式化する。 長さが増加する順にプログラムを生成する決定論的グラフウォーキングプログラムをマイニングするアルゴリズムを2つ与える。 これらのプログラムはグラフ全体の文脈において与えられた2つの頂点集合間の線形長距離関係を特徴づける。

Owing to their versatility, graph structures admit representations of intricate relationships between the separate entities comprising the data. We formalise the notion of connection between two vertex sets in terms of edge and vertex features by introducing graph-walking programs. We give two algorithms for mining of deterministic graph-walking programs that yield programs in the order of increasing length. These programs characterise linear long-distance relationships between the given two vertex sets in the context of the whole graph.
翻訳日:2022-08-23 14:33:00 公開日:2022-08-22
# SCONE:ボリューム統合による未知環境の表面被覆最適化

SCONE: Surface Coverage Optimization in Unknown Environments by Volumetric Integration ( http://arxiv.org/abs/2208.10449v1 )

ライセンス: Link先を確認
Antoine Gu\'edon, Pascal Monasse, Vincent Lepetit(参考訳) 次回ベストビュー計算(NBV)は、ロボット工学における長年の課題であり、3Dオブジェクトやシーンを効率的に正確に再構築するための次の最も有益なセンサー位置を特定することである。 最近の方法と同様に、深度センサによるNBV予測も検討している。 シーンのボリューム表現に依存する学習ベースの手法はパスプランニングに適しているが、シーンのサイズに比較してスケールが良くなく、表面ベース表現を用いた方法よりも精度が低い。 しかし、後者はカメラを少数のポーズに制限している。 両表現の利点を得るため,体積表現上のモンテカルロ積分により表面積を最大化できることが示される。 この方法は、Lidarシステムのような深度センサーによって収集された任意の大きな点の雲と、NBVを予測するカメラのポーズの入力として、大きなシーンにスケールし、フリーカメラの動きを処理します。 大規模で複雑な3Dシーンからなる新しいデータセットに対するアプローチを実証する。

Next Best View computation (NBV) is a long-standing problem in robotics, and consists in identifying the next most informative sensor position(s) for reconstructing a 3D object or scene efficiently and accurately. Like most current methods, we consider NBV prediction from a depth sensor. Learning-based methods relying on a volumetric representation of the scene are suitable for path planning, but do not scale well with the size of the scene and have lower accuracy than methods using a surface-based representation. However, the latter constrain the camera to a small number of poses. To obtain the advantages of both representations, we show that we can maximize surface metrics by Monte Carlo integration over a volumetric representation. Our method scales to large scenes and handles free camera motion: It takes as input an arbitrarily large point cloud gathered by a depth sensor like Lidar systems as well as camera poses to predict NBV. We demonstrate our approach on a novel dataset made of large and complex 3D scenes.
翻訳日:2022-08-23 14:17:16 公開日:2022-08-22
# 事前予測はツリーベースのコード生成で支配的である

Antecedent Predictions Are Dominant for Tree-Based Code Generation ( http://arxiv.org/abs/2208.09998v1 )

ライセンス: Link先を確認
Yihong Dong, Ge Li, and Zhi Jin(参考訳) コード生成は自然言語(nl)の発話をコードスニペットに自動変換することに焦点を当てている。 Seq2Tree(Seq2Tree)メソッドは、ASTノードの先行予測に依存する抽象構文木(AST)ノードを生成する生成コードのコンパイル可能性を保証するコード生成のために提案されている。 既存のseq2treeメソッドは、先行予測とその後の予測の両方を等しく扱う傾向がある。 しかし、ast制約の下では、seq2treeモデルが不正確な先行予測に基づいて正しい後続予測を生成することは困難である。 したがって、先行予測はその後の予測よりも多くの注目を集めるべきである。 そこで本稿では,TRANX に基づく APTRANX (Antecedent Prioritized TRANX) という手法を提案する。 APTRANXにはAntecedent Prioritized (AP) Lossが含まれており、生成したASTノードの位置情報を活用することにより、先行予測に重要さを付加する。 より良い先行予測とそれに伴う予測により、APTRANXは性能を大幅に改善する。 本研究は,いくつかのベンチマークデータセットに対して広範囲な実験を行い,提案手法の優位性と汎用性を示す実験結果である。

Code generation focuses on the automatic conversion of natural language (NL) utterances into code snippets. The sequence-to-tree (Seq2Tree) methods, e.g., TRANX, are proposed for code generation, with the guarantee of the compilability of the generated code, which generate the subsequent Abstract Syntax Tree (AST) node relying on antecedent predictions of AST nodes. Existing Seq2Tree methods tend to treat both antecedent predictions and subsequent predictions equally. However, under the AST constraints, it is difficult for Seq2Tree models to produce the correct subsequent prediction based on incorrect antecedent predictions. Thus, antecedent predictions ought to receive more attention than subsequent predictions. To this end, in this paper, we propose an effective method, named APTRANX (Antecedent Prioritized TRANX), on the basis of TRANX. APTRANX contains an Antecedent Prioritized (AP) Loss, which helps the model attach importance to antecedent predictions by exploiting the position information of the generated AST nodes. With better antecedent predictions and accompanying subsequent predictions, APTRANX significantly improves the performance. We conduct extensive experiments on several benchmark datasets, and the experimental results demonstrate the superiority and generality of our proposed method compared with the state-of-the-art methods.
翻訳日:2022-08-23 14:16:33 公開日:2022-08-22
# entropic multi-marginal optimal transportの情報理論等価性:マルチエージェント通信の理論

Information-Theoretic Equivalence of Entropic Multi-Marginal Optimal Transport: a Theory for Multi-Agent Communication ( http://arxiv.org/abs/2208.10256v1 )

ライセンス: Link先を確認
Shuchan Wang(参考訳) 本稿では,エントロピー型マルチマルジナル最適輸送(MOT)の情報理論的等価性を提案する。 この等価性は、エントロピー最適輸送(OT)の場合に容易に還元できる。 OTは知識と信念の違いを比較するために広く用いられているため、異なる信念を持つエージェント間のコミュニケーションにこの結果を適用する。 我々の結果は、エントロピーOTがWangらによって与えられる情報理論的に最適であることを示す。 [2020]を一般化し、マルチエージェントケースに一般化する。 我々は、将来のマルチエージェントチームシステムにおけるOT理論に光を当てることができると考えている。

In this paper, we propose our information-theoretic equivalence of entropic multi-marginal optimal transport (MOT). This equivalence can be easily reduced to the case of entropic optimal transport (OT). Because OT is widely used to compare differences between knowledge or beliefs, we apply this result to the communication between agents with different beliefs. Our results formally prove the statement that entropic OT is information-theoretically optimal given by Wang et al. [2020] and generalize it to the multi-agent case. We believe that our work can shed light on OT theory in future multi-agent teaming systems.
翻訳日:2022-08-23 14:16:13 公開日:2022-08-22
# エントロピーに基づくシステム構造のインテリジェンス度の測定

An Entropy-based Measure of Intelligence Degree of System Structures ( http://arxiv.org/abs/2208.10266v1 )

ライセンス: Link先を確認
Wei Su(参考訳) 本稿では,特定の構造下でのシステムのインテリジェンスを測定する方法について検討する。 2つの指標は、与えられた構造の知性、すなわち、構造の機能多様性、および特定の環境下で順序を生成できる能力を特徴づけるものである。 いくつかの基本構造の知能度を計算するための知能度尺度が提案されている。 提案手法では, 提案手法では, 構造が他の構造よりも「スマート」であることを示す。 この結果は、自然生命の進化機構を解明し、高い知性を持つ生命のような構造を構築する可能性を付け加える。

In this paper, we investigate how to measure the intelligence of systems under specific structures. Two indicators are adopted to characterize the intelligence of a given structure, namely the function diversity of the structure, and the ability to generate order under specific environments. A measure of intelligence degree is proposed, with which the intelligence degree of several basic structures is calculated. It is shown that some structures are indeed "smarter" than the others under the proposed measure. The results add a possible way of revealing the evolution mechanism of natural life and constructing life-like structures with high intelligence degree.
翻訳日:2022-08-23 14:16:04 公開日:2022-08-22
# 形式契約はマルチエージェントRLにおける社会的ジレンマを軽減する

Get It in Writing: Formal Contracts Mitigate Social Dilemmas in Multi-Agent RL ( http://arxiv.org/abs/2208.10469v1 )

ライセンス: Link先を確認
Phillip J.K. Christoffersen, Andreas A. Haupt, Dylan Hadfield-Menell(参考訳) マルチエージェント強化学習 (MARL) は, 共通環境において独立して機能する自動システムの訓練を行う強力なツールである。 しかし、個々のインセンティブとグループインセンティブが分かれる場合、最適以下の行動につながる可能性がある。 人間はこれらの社会的ジレンマを解決することができる。 marlではこのような協力的な行動を利己的なエージェントで再現することはオープンな問題である。 本研究は,MARLにおけるエージェント間のインセンティブのばらつきを克服するため,経済学からの正式な契約について考察する。 我々は, エージェントが事前に規定された条件下で, 国家依存の報酬移転に自発的に同意するマルコフゲームの拡張を提案する。 私たちの貢献は理論的かつ実証的です。 第一に、この拡張により、完全観察されたマルコフゲームの全ての部分ゲーム完全平衡は、十分に豊かな契約空間を与えられた社会的に最適な振る舞いを示すことが示される。 次に,最先端のrlアルゴリズムが社会最適政策を学習することを示すことで,ゲーム理論解析を補完する。 私たちの実験には、Stag HuntやPrisoner's Dilemmaといった古典的な静的ジレンマや、トラフィック、汚染管理、一般的なプール資源管理をシミュレートする動的相互作用が含まれています。

Multi-agent reinforcement learning (MARL) is a powerful tool for training automated systems acting independently in a common environment. However, it can lead to sub-optimal behavior when individual incentives and group incentives diverge. Humans are remarkably capable at solving these social dilemmas. It is an open problem in MARL to replicate such cooperative behaviors in selfish agents. In this work, we draw upon the idea of formal contracting from economics to overcome diverging incentives between agents in MARL. We propose an augmentation to a Markov game where agents voluntarily agree to binding state-dependent transfers of reward, under pre-specified conditions. Our contributions are theoretical and empirical. First, we show that this augmentation makes all subgame-perfect equilibria of all fully observed Markov games exhibit socially optimal behavior, given a sufficiently rich space of contracts. Next, we complement our game-theoretic analysis by showing that state-of-the-art RL algorithms learn socially optimal policies given our augmentation. Our experiments include classic static dilemmas like Stag Hunt, Prisoner's Dilemma and a public goods game, as well as dynamic interactions that simulate traffic, pollution management and common pool resource management.
翻訳日:2022-08-23 14:15:53 公開日:2022-08-22
# transnet:カテゴリレベルの透明オブジェクトポーズ推定

TransNet: Category-Level Transparent Object Pose Estimation ( http://arxiv.org/abs/2208.10002v1 )

ライセンス: Link先を確認
Huijie Zhang, Anthony Opipari, Xiaotong Chen, Jiyue Zhu, Zeren Yu, Odest Chadwicke Jenkins(参考訳) 透明物体は視覚知覚システムに複数の異なる課題を示す。 まず、視覚的な特徴を区別できないため、透明なオブジェクトは不透明なオブジェクトよりも検出やローカライズが難しくなる。 人間でさえ、反射や屈折がほとんどない透明な表面、例えばガラスのドアは知覚が難しい。 第二の課題は、通常不透明物体の知覚に使用される一般的な深度センサーは、そのユニークな反射特性のために透明物体の正確な深度測定を得ることができないことである。 これらの課題から、同じカテゴリ(例えばカップ)内の透明なオブジェクトインスタンスが、同じカテゴリの通常の不透明なオブジェクトよりも互いに類似していることを観察した。 そこで本研究では,この観察から,インスタンスレベルのポーズ推定ではなく,カテゴリレベルの透明なオブジェクトポーズ推定の可能性について検討する。 局所的な深度補完と表面正規推定を用いてカテゴリレベルの透明なオブジェクトポーズを推定する2段階パイプラインであるTransNetを提案する。 TransNetは、最近の大規模透明オブジェクトデータセットにおけるポーズ推定精度を評価し、最先端のカテゴリレベルのポーズ推定手法と比較する。 この結果から,トランスネットは透明物体のポーズ推定精度の向上を実現し,それを含むアブレーション研究から得られた重要な結果は,今後の性能向上の方向性を示唆している。

Transparent objects present multiple distinct challenges to visual perception systems. First, their lack of distinguishing visual features makes transparent objects harder to detect and localize than opaque objects. Even humans find certain transparent surfaces with little specular reflection or refraction, e.g. glass doors, difficult to perceive. A second challenge is that common depth sensors typically used for opaque object perception cannot obtain accurate depth measurements on transparent objects due to their unique reflective properties. Stemming from these challenges, we observe that transparent object instances within the same category (e.g. cups) look more similar to each other than to ordinary opaque objects of that same category. Given this observation, the present paper sets out to explore the possibility of category-level transparent object pose estimation rather than instance-level pose estimation. We propose TransNet, a two-stage pipeline that learns to estimate category-level transparent object pose using localized depth completion and surface normal estimation. TransNet is evaluated in terms of pose estimation accuracy on a recent, large-scale transparent object dataset and compared to a state-of-the-art category-level pose estimation approach. Results from this comparison demonstrate that TransNet achieves improved pose estimation accuracy on transparent objects and key findings from the included ablation studies suggest future directions for performance improvements.
翻訳日:2022-08-23 14:09:35 公開日:2022-08-22
# 自律運転のための協調認知の現状と将来展望

Collaborative Perception for Autonomous Driving: Current Status and Future Trend ( http://arxiv.org/abs/2208.10371v1 )

ライセンス: Link先を確認
Shunli Ren, Siheng Chen, Wenjun Zhang(参考訳) 認識は自動運転システムの重要なモジュールの1つであり、近年は大きな進歩を遂げている。 しかし、個々の車両の能力の制限は、知覚性能の向上のボトルネックをもたらす。 個々の知覚の限界を突破するために、車両が情報を共有し、視線や視野を超えた環境を認識できるようにする協調的知覚が提案されている。 本稿では,基本的な概念の導入,コラボレーティブモードの一般化,コラボレーティブセンシングの鍵となる要素と応用の要約など,コラボレーティブセンシング技術に関する関連研究のレビューを行う。 最後に,本研究領域のオープンな課題と課題について議論し,さらなる方向性を示す。

Perception is one of the crucial module of the autonomous driving system, which has made great progress recently. However, limited ability of individual vehicles results in the bottleneck of improvement of the perception performance. To break through the limits of individual perception, collaborative perception has been proposed which enables vehicles to share information to perceive the environments beyond line-of-sight and field-of-view. In this paper, we provide a review of the related work about the promising collaborative perception technology, including introducing the fundamental concepts, generalizing the collaboration modes and summarizing the key ingredients and applications of collaborative perception. Finally, we discuss the open challenges and issues of this research area and give some potential further directions.
翻訳日:2022-08-23 14:09:13 公開日:2022-08-22
# easy to hard: コンテキスト対応ドキュメントランキングのための2つのカリキュラム学習フレームワーク

From Easy to Hard: A Dual Curriculum Learning Framework for Context-Aware Document Ranking ( http://arxiv.org/abs/2208.10226v1 )

ライセンス: Link先を確認
Yutao Zhu, Jian-Yun Nie, Yixuan Su, Haonan Chen, Xinyu Zhang, Zhicheng Dou(参考訳) 検索セッションにおけるコンテキスト情報は,ユーザの検索意図を捉える上で重要である。 セッション中の文書のランキングを改善するために、ユーザ行動シーケンスをモデル化するための様々なアプローチが提案されている。 通常、(検索コンテキスト、ドキュメント)ペアのトレーニングサンプルは、トレーニング期間毎にランダムにサンプリングされる。 実際、ユーザの検索意図を理解し、文書の関連性を判断する困難さは、ある検索コンテキストによって大きく異なる。 異なる困難のトレーニングサンプルを混ぜ合わせると、モデルの最適化プロセスが混乱する可能性がある。 そこで本研究では,検索コンテキストと候補文書のマッチング信号を,難易度の高い方法で学習する,文脈対応文書ランキングのカリキュラム学習フレームワークを提案する。 このようにして、我々はモデルを徐々にグローバルな最適化に向けて導くことを目指している。 正と負の両方の例を利用するために、2つのカリキュラムが設計されている。 2つの実問合せログデータセットを用いた実験により,提案フレームワークは既存のいくつかの手法の性能を大幅に向上し,文脈対応文書ランキングのカリキュラム学習の有効性を示す。

Contextual information in search sessions is important for capturing users' search intents. Various approaches have been proposed to model user behavior sequences to improve document ranking in a session. Typically, training samples of (search context, document) pairs are sampled randomly in each training epoch. In reality, the difficulty to understand user's search intent and to judge document's relevance varies greatly from one search context to another. Mixing up training samples of different difficulties may confuse the model's optimization process. In this work, we propose a curriculum learning framework for context-aware document ranking, in which the ranking model learns matching signals between the search context and the candidate document in an easy-to-hard manner. In so doing, we aim to guide the model gradually toward a global optimum. To leverage both positive and negative examples, two curricula are designed. Experiments on two real query log datasets show that our proposed framework can improve the performance of several existing methods significantly, demonstrating the effectiveness of curriculum learning for context-aware document ranking.
翻訳日:2022-08-23 14:05:58 公開日:2022-08-22
# パスワード案内における深層学習に関する調査

On Deep Learning in Password Guessing, a Survey ( http://arxiv.org/abs/2208.10413v1 )

ライセンス: Link先を確認
Fangyi Yu(参考訳) パスワードのセキュリティは、攻撃者が使用する戦略の完全な理解に依存している。 残念ながら、現実の敵は、パスワードのセキュリティ研究をシミュレートするのが難しい辞書攻撃のような実用的推測手法を使っている。 辞書攻撃は、実際の脅威を表すために慎重に設定され、修正されなければならない。 しかしこのアプローチには、複製が難しいドメイン固有の知識と専門知識が必要です。 本稿では,ユーザのパスワード構造や組み合わせに関するドメイン知識や仮定を必要としない,深層学習に基づくパスワード推測手法を比較した。 関連するモデルカテゴリは、Recurrent Neural Networks、Generative Adversarial Networks、Autoencoder、Atention Mechanismである。 さらに,非標的オフライン攻撃によるパスワード推測におけるIWGANのバリエーションの利用に関する有望な実験設計を提案した。 これらの高度な戦略を用いることで、パスワードのセキュリティを強化し、より正確で効率的なパスワード強度測定器を作成できる。

The security of passwords is dependent on a thorough understanding of the strategies used by attackers. Unfortunately, real-world adversaries use pragmatic guessing tactics like dictionary attacks, which are difficult to simulate in password security research. Dictionary attacks must be carefully configured and modified to be representative of the actual threat. This approach, however, needs domain-specific knowledge and expertise that are difficult to duplicate. This paper compares various deep learning-based password guessing approaches that do not require domain knowledge or assumptions about users' password structures and combinations. The involved model categories are Recurrent Neural Networks, Generative Adversarial Networks, Autoencoder, and Attention mechanisms. Additionally, we proposed a promising research experimental design on using variations of IWGAN on password guessing under non-targeted offline attacks. Using these advanced strategies, we can enhance password security and create more accurate and efficient Password Strength Meters.
翻訳日:2022-08-23 14:05:43 公開日:2022-08-22
# 多文化植物の自動栽培

Automated Pruning of Polyculture Plants ( http://arxiv.org/abs/2208.10472v1 )

ライセンス: Link先を確認
Mark Presten, Rishi Parikh, Shrey Aeron, Sandeep Mukherjee, Simeon Adebola, Satvik Sharma, Mark Theis, Walter Teitelbaum, and Ken Goldberg(参考訳) ポリカルチャーの農業は環境に有利であるが、モノカルチャーの農業よりもかなり多くの耕作を必要とする。 自動プルーニングのための新しいハードウェアとアルゴリズムを提案する。 頭上カメラを用いて、物理的規模の庭テストベッドからデータを収集し、学習済みのPhenotyping畳み込みニューラルネットワークとBounding Disk Trackingアルゴリズムを使用して、個々の植物分布を評価し、庭の状態を毎日推定する。 この庭の状態から、AlphaGardenSimは植物を自律的に産卵する。 訓練されたニューラルネットワークは、植物上の特定のプルーンポイントを検出してターゲットとする。 FarmBotのガントリーシステムと互換性のある2つのカスタムデザインプルーニングツールを実験的に評価し、制御アルゴリズムにより自律的なカットを実行する。 我々は,60日間の園芸サイクルを4回実施した。 その結果, 平均的なキャノピー被覆率 0.84 をサイクルの終わりまでに維持しながら, 刈り込みせん断により 0.94 の正規化植物多様性を自律的に達成できることが示唆された。 コード、ビデオ、データセットについてはhttps://sites.google.com/berkeley.edu/pruningpolycultureを参照。

Polyculture farming has environmental advantages but requires substantially more pruning than monoculture farming. We present novel hardware and algorithms for automated pruning. Using an overhead camera to collect data from a physical scale garden testbed, the autonomous system utilizes a learned Plant Phenotyping convolutional neural network and a Bounding Disk Tracking algorithm to evaluate the individual plant distribution and estimate the state of the garden each day. From this garden state, AlphaGardenSim selects plants to autonomously prune. A trained neural network detects and targets specific prune points on the plant. Two custom-designed pruning tools, compatible with a FarmBot gantry system, are experimentally evaluated and execute autonomous cuts through controlled algorithms. We present results for four 60-day garden cycles. Results suggest the system can autonomously achieve 0.94 normalized plant diversity with pruning shears while maintaining an average canopy coverage of 0.84 by the end of the cycles. For code, videos, and datasets, see https://sites.google.com/berkeley.edu/pruningpolyculture.
翻訳日:2022-08-23 14:05:28 公開日:2022-08-22
# 平均場ゲームにおける学習相関平衡

Learning Correlated Equilibria in Mean-Field Games ( http://arxiv.org/abs/2208.10138v1 )

ライセンス: Link先を確認
Paul Muller, Romuald Elie, Mark Rowland, Mathieu Lauriere, Julien Perolat, Sarah Perrin, Matthieu Geist, Georgios Piliouras, Olivier Pietquin, Karl Tuyls(参考訳) 現在、交通ルーティング環境からスマートグリッドに至るまで、多くの大規模システムの設計は、ゲーム理論の平衡概念に依存している。 しかし、通常、$N$-playerゲームのサイズが$N$で指数関数的に大きくなるにつれて、標準的なゲーム理論解析は低数のプレイヤーを超えて効果的に実現不可能になる。 近年のアプローチは、匿名の$N$-playerゲームの近似であるMean-Fieldゲームを考えることでこの制限を回避しており、プレイヤーの数は無限であり、個々のプレイヤーの状態ではなく、人口の国家分布が関心の対象である。 しかし、最も研究されている平均場平衡である平均場ナッシュ平衡の実用計算性は、通常、既知のアルゴリズムが収束するために必要な単調性や収縮性といった、有益な非遺伝的構造特性に依存する。 本研究では,平均フィールド相関と粗相関平衡の概念を発達させることにより,平均フィールドゲームを研究するための代替ルートを提供する。 3つの古典的アルゴリズムを用いて、ゲームの構造について追加の仮定を必要とせずに、より効率的に学習できることを示す。 さらに、文献にすでに存在する概念と対応性を確立し、平均-フィールド-$N$-プレイヤ遷移の最適性境界を導出し、これらのアルゴリズムの単純なゲーム上での収束を実証的に示す。

The designs of many large-scale systems today, from traffic routing environments to smart grids, rely on game-theoretic equilibrium concepts. However, as the size of an $N$-player game typically grows exponentially with $N$, standard game theoretic analysis becomes effectively infeasible beyond a low number of players. Recent approaches have gone around this limitation by instead considering Mean-Field games, an approximation of anonymous $N$-player games, where the number of players is infinite and the population's state distribution, instead of every individual player's state, is the object of interest. The practical computability of Mean-Field Nash equilibria, the most studied Mean-Field equilibrium to date, however, typically depends on beneficial non-generic structural properties such as monotonicity or contraction properties, which are required for known algorithms to converge. In this work, we provide an alternative route for studying Mean-Field games, by developing the concepts of Mean-Field correlated and coarse-correlated equilibria. We show that they can be efficiently learnt in \emph{all games}, without requiring any additional assumption on the structure of the game, using three classical algorithms. Furthermore, we establish correspondences between our notions and those already present in the literature, derive optimality bounds for the Mean-Field - $N$-player transition, and empirically demonstrate the convergence of these algorithms on simple games.
翻訳日:2022-08-23 14:04:33 公開日:2022-08-22
# 単語長の最適性。 理論的基礎と実証的研究

The optimality of word lengths. Theoretical foundations and an empirical study ( http://arxiv.org/abs/2208.10384v1 )

ライセンス: Link先を確認
Sonia Petrini, Antoni Casas-i-Mu\~noz, Jordi Cluet-i-Martinell, Mengxue Wang, Christian Bentz and Ramon Ferrer-i-Cancho(参考訳) ヒトの言語に見られる最も強固なパターンの1つは、zipfの短縮の法則、すなわちより頻繁に使われる単語がより短い傾向である。 zipfの先駆的な研究以来、この法則は圧縮の顕現、すなわち形式の長さの最小化、すなわち自然コミュニケーションの普遍的な原理として見なされてきた。 言語が最適化されているという主張はトレンドになっているが、言語の最適化の度合いを測定する試みはかなり少ない。 ここでは、圧縮が、例外なく、測定単位とは独立に、幅広い言語のサンプルに現れることを実証する。 文字の文字中の単語長と、音声言語における時間長の両方を検出することができる。 さらに、最適化の程度を測定するために、ランダムベースラインに対する単純な公式を導出し、双対正規化された2つのスコア、すなわち、最小ベースラインとランダムベースラインの両方について正規化する。 これらと他のスコアの理論的・統計的利点とデメリットを分析した。 最高のスコアを生かして、言語における単語長の最適度を初めて定量化する。 これは、単語の長さを文字で測定すると、言語は平均で62または67%、時間で測定すると平均で65%に最適化されていることを示している。 一般に、単語の長さは文字中の単語の長さよりも最適化されている。 ここで報告した分析以外にも、我々の研究は、他の種の発声やジェスチャーの最適度を計測し、書き言葉、話し言葉、署名された人間の言語と比較する方法を定めています。

One of the most robust patterns found in human languages is Zipf's law of abbreviation, that is, the tendency of more frequent words to be shorter. Since Zipf's pioneering research, this law has been viewed as a manifestation of compression, i.e. the minimization of the length of forms - a universal principle of natural communication. Although the claim that languages are optimized has become trendy, attempts to measure the degree of optimization of languages have been rather scarce. Here we demonstrate that compression manifests itself in a wide sample of languages without exceptions, and independently of the unit of measurement. It is detectable for both word lengths in characters of written language as well as durations in time in spoken language. Moreover, to measure the degree of optimization, we derive a simple formula for a random baseline and present two scores that are dualy normalized, namely, they are normalized with respect to both the minimum and the random baseline. We analyze the theoretical and statistical advantages and disadvantages of these and other scores. Harnessing the best score, we quantify for the first time the degree of optimality of word lengths in languages. This indicates that languages are optimized to 62 or 67 percent on average (depending on the source) when word lengths are measured in characters, and to 65 percent on average when word lengths are measured in time. In general, spoken word durations are more optimized than written word lengths in characters. Beyond the analyses reported here, our work paves the way to measure the degree of optimality of the vocalizations or gestures of other species, and to compare them against written, spoken, or signed human languages.
翻訳日:2022-08-23 14:03:40 公開日:2022-08-22
# SVD-NAS:低ランク近似とニューラルアーキテクチャ検索の結合

SVD-NAS: Coupling Low-Rank Approximation and Neural Architecture Search ( http://arxiv.org/abs/2208.10404v1 )

ライセンス: Link先を確認
Zhewen Yu, Christos-Savvas Bouganis(参考訳) トレーニング済みのDeep Neural Networksを圧縮する作業は、データアクセス要件から実践者を解放するという大きなメリットのために、研究コミュニティの幅広い関心を集めている。 この領域では、低ランク近似は有望な手法であるが、既存のソリューションは限られた設計選択数と見なされ、設計空間を効率的に探索することができず、精度の低下と圧縮率の低下を招いた。 上記の制限に対処するために、低ランク近似とニューラルアーキテクチャ探索の領域を結合するSVD-NASフレームワークを提案する。 SVD-NASは、低ランク近似のよりきめ細かい設計空間である低ランクアーキテクチャ空間LR空間を導入することで、以前の作品の設計選択を一般化し拡張する。 その後、この研究は、LR空間を効率的に横断する勾配差に基づく探索を提案する。 この詳細かつ詳細な設計選択の探求により、cnnモデルのパラメータ、フラップ、レイテンシの削減に加えて、精度が向上した。 その結果、SVD-NASは、データ制限問題設定における最先端手法よりも、ImageNet上で2.06-12.85pp高い精度を実現している。 SVD-NASはhttps://github.com/Yu-Zhewen/SVD-NASでオープンソース化されている。

The task of compressing pre-trained Deep Neural Networks has attracted wide interest of the research community due to its great benefits in freeing practitioners from data access requirements. In this domain, low-rank approximation is a promising method, but existing solutions considered a restricted number of design choices and failed to efficiently explore the design space, which lead to severe accuracy degradation and limited compression ratio achieved. To address the above limitations, this work proposes the SVD-NAS framework that couples the domains of low-rank approximation and neural architecture search. SVD-NAS generalises and expands the design choices of previous works by introducing the Low-Rank architecture space, LR-space, which is a more fine-grained design space of low-rank approximation. Afterwards, this work proposes a gradient-descent-based search for efficiently traversing the LR-space. This finer and more thorough exploration of the possible design choices results in improved accuracy as well as reduction in parameters, FLOPS, and latency of a CNN model. Results demonstrate that the SVD-NAS achieves 2.06-12.85pp higher accuracy on ImageNet than state-of-the-art methods under the data-limited problem setting. SVD-NAS is open-sourced at https://github.com/Yu-Zhewen/SVD-NAS.
翻訳日:2022-08-23 14:01:15 公開日:2022-08-22
# 等価なハイパーグラフニューラルネットワーク

Equivariant Hypergraph Neural Networks ( http://arxiv.org/abs/2208.10428v1 )

ライセンス: Link先を確認
Jinwoo Kim, Saeyoon Oh, Sungjun Cho, Seunghoon Hong(参考訳) コンピュータビジョンと機械学習の多くの問題は、高次関係を表すハイパーグラフの学習として考えられる。 ハイパーグラフ学習の最近のアプローチは、メッセージパッシングに基づくグラフニューラルネットワークを拡張している。 一方、テンソルベースの同変ニューラルネットワークは、最大表現性を享受するが、その応用は、重い計算と固定階ハイパーエッジの厳密な仮定のため、ハイパーグラフに限られている。 これらの問題を解き、汎用ハイパーグラフ学習のための最大表現同値層を実現する最初の試みであるehnn(equivariant hypergraph neural network)を提案する。 また,ハイパーネットワーク (ehnn-mlp) とセルフ・アテンション (ehnn-transformer) の2つのフレームワークを実践的に実現し, 実装が容易で, 理論上はほとんどのメッセージパッシングアプローチよりも表現豊かである。 合成kエッジ識別,半教師付き分類,視覚的キーポイントマッチングなど,ハイパーグラフ学習のさまざまな問題において,その能力を示すとともに,強力なメッセージパッシングベースラインに対するパフォーマンス向上を報告した。 実装はhttps://github.com/jw9730/ehnnで利用可能です。

Many problems in computer vision and machine learning can be cast as learning on hypergraphs that represent higher-order relations. Recent approaches for hypergraph learning extend graph neural networks based on message passing, which is simple yet fundamentally limited in modeling long-range dependencies and expressive power. On the other hand, tensor-based equivariant neural networks enjoy maximal expressiveness, but their application has been limited in hypergraphs due to heavy computation and strict assumptions on fixed-order hyperedges. We resolve these problems and present Equivariant Hypergraph Neural Network (EHNN), the first attempt to realize maximally expressive equivariant layers for general hypergraph learning. We also present two practical realizations of our framework based on hypernetworks (EHNN-MLP) and self-attention (EHNN-Transformer), which are easy to implement and theoretically more expressive than most message passing approaches. We demonstrate their capability in a range of hypergraph learning problems, including synthetic k-edge identification, semi-supervised classification, and visual keypoint matching, and report improved performances over strong message passing baselines. Our implementation is available at https://github.com/jw9730/ehnn.
翻訳日:2022-08-23 14:00:55 公開日:2022-08-22
# 多変量時系列に対するシェープレットに基づく反事実説明

Shapelet-Based Counterfactual Explanations for Multivariate Time Series ( http://arxiv.org/abs/2208.10462v1 )

ライセンス: Link先を確認
Omar Bahri, Soukaina Filali Boubrahimi, Shah Muhammad Hamdi(参考訳) 機械学習とディープラーニングのモデルがさまざまな領域で広く普及するにつれ、意思決定プロセスに採用される主な留意事項は、ブラックボックスの性質である。 説明可能な人工知能(XAI)パラダイムは最近、モデルの不透明度を減らす能力によって、多くの勢いを増している。 XAIメソッドは、意思決定プロセスにおけるステークホルダの信頼を高めるだけでなく、開発者の公正性の確保にも役立っている。 近年、透明なモデルやポストホックな説明の作成に費やされている。 しかし、時系列データに対して開発されたメソッドは少なく、多変量データセットに関してはさらに少ない。 本研究では,形状素の固有解釈可能性を利用して,モデル非依存多変量時系列(MTS)の反実的説明アルゴリズムを開発する。 反事実は、最終的な決定を変更するために入力に対してどのような変更を行う必要があるかを示すことによって、ブラックボックスモデルの説明に多大な影響を与える可能性がある。 我々は,現実の太陽フレア予測データセット上での我々のアプローチをテストし,高品質の偽物を生成することを証明した。 さらに, MTS の反ファクト生成アルゴリズムとの比較では, 視覚的に解釈できるだけでなく, 近接性, 疎性, 妥当性の点で説明が優れている。

As machine learning and deep learning models have become highly prevalent in a multitude of domains, the main reservation in their adoption for decision-making processes is their black-box nature. The Explainable Artificial Intelligence (XAI) paradigm has gained a lot of momentum lately due to its ability to reduce models opacity. XAI methods have not only increased stakeholders' trust in the decision process but also helped developers ensure its fairness. Recent efforts have been invested in creating transparent models and post-hoc explanations. However, fewer methods have been developed for time series data, and even less when it comes to multivariate datasets. In this work, we take advantage of the inherent interpretability of shapelets to develop a model agnostic multivariate time series (MTS) counterfactual explanation algorithm. Counterfactuals can have a tremendous impact on making black-box models explainable by indicating what changes have to be performed on the input to change the final decision. We test our approach on a real-life solar flare prediction dataset and prove that our approach produces high-quality counterfactuals. Moreover, a comparison to the only MTS counterfactual generation algorithm shows that, in addition to being visually interpretable, our explanations are superior in terms of proximity, sparsity, and plausibility.
翻訳日:2022-08-23 14:00:20 公開日:2022-08-22
# フロントエンドJavaScriptコード生成のためのタスク拡張によるドメイン知識の取り込み

Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation ( http://arxiv.org/abs/2208.10091v1 )

ライセンス: Link先を確認
Sijie Shen, Xiang Zhu, Yihong Dong, Qizhi Guo, Yankun Zhen, Ge Li(参考訳) コード生成は、自然言語記述からコードスニペットを自動的に生成することを目的としている。 一般的に、主流のコード生成方法は、自然言語記述とコードの両方を含む大量のペアトレーニングデータに依存している。 しかし、ドメイン固有のシナリオでは、コード生成のためのこのような大きなペアリングコーパスの構築は、直接利用可能なペアリングデータがなく、高品質なトレーニングデータセットを構築するためにコード記述を手作業で書くことが必要となるため、難しい。 限られたトレーニングデータのため、生成モデルは十分に訓練されておらず、過度に適合する可能性が高いため、実際の使用には不満足である。 そこで本稿では,従来のtranxモデルを拡張してsubtokenレベルのコード生成をサポートすることで,補助タスクとsubtoken-tranxモデルを通じて,コード生成モデルにドメイン知識を組み込むタスク拡張手法を提案する。 提案手法を検証するため,実世界のコード生成データセットを収集し,実験を行う。 実験の結果,我々のデータセットでは,subtoken-level tranxモデルがオリジナルのtranxモデルとtransformerモデルよりも優れており,subtoken-tranxの正確なマッチング精度はタスク拡張法により12.75\%向上した。 いくつかのコードカテゴリにおけるモデル性能は、産業システムにおける適用要件を満たしている。 提案手法はalibabaの \emph{bizcook}プラットフォームで採用されている。 私たちの知る限りでは、これは産業開発環境で採用される最初のドメインコード生成システムです。

Code generation aims to generate a code snippet automatically from natural language descriptions. Generally, the mainstream code generation methods rely on a large amount of paired training data, including both the natural language description and the code. However, in some domain-specific scenarios, building such a large paired corpus for code generation is difficult because there is no directly available pairing data, and a lot of effort is required to manually write the code descriptions to construct a high-quality training dataset. Due to the limited training data, the generation model cannot be well trained and is likely to be overfitting, making the model's performance unsatisfactory for real-world use. To this end, in this paper, we propose a task augmentation method that incorporates domain knowledge into code generation models through auxiliary tasks and a Subtoken-TranX model by extending the original TranX model to support subtoken-level code generation. To verify our proposed approach, we collect a real-world code generation dataset and conduct experiments on it. Our experimental results demonstrate that the subtoken-level TranX model outperforms the original TranX model and the Transformer model on our dataset, and the exact match accuracy of Subtoken-TranX improves significantly by 12.75\% with the help of our task augmentation method. The model performance on several code categories has satisfied the requirements for application in industrial systems. Our proposed approach has been adopted by Alibaba's \emph{BizCook} platform. To the best of our knowledge, this is the first domain code generation system adopted in industrial development environments.
翻訳日:2022-08-23 13:58:08 公開日:2022-08-22
# KEEP:知識抽出とプラギングによるオンラインレコメンデーションのための産業事前学習フレームワーク

KEEP: An Industrial Pre-Training Framework for Online Recommendation via Knowledge Extraction and Plugging ( http://arxiv.org/abs/2208.10174v1 )

ライセンス: Link先を確認
Yujing Zhang, Zhangming Chan, Shuhao Xu, Weijie Bian, Shuguang Han, Hongbo Deng, Bo Zheng(参考訳) 産業推薦システムは通常、複数のサブシステムの結果を含むハイブリッドリストを提示する。 実際には、各サブシステムは、異なるサブシステム間の干渉を避けるために、独自のフィードバックデータで最適化されている。 しかし、このようなデータの使用は、 \textit{data sparsity} のため、オンラインパフォーマンスを最適化する可能性がある。 この問題を軽減するために,Webスケールおよび長時間のインプレッションデータを含む‘textit{super- domain}’から知識を抽出し,さらにオンラインレコメンデーションタスク(ダウンストリームタスク)を支援することを提案する。 そこで本稿では,2段階からなる2段階フレームワークである新しい産業用 \textbf{k}nowl\textbf{e}dge \textbf{e}xtraction と \textbf{p}lugging (\textbf{keep}) フレームワークを提案する。 1)スーパードメイン上の教師付き事前学習知識抽出モジュール、 2) 抽出した知識を下流モデルに組み込むプラグインネットワーク。 これにより、オンラインレコメンデーションのインクリメンタルなトレーニングに適している。 さらに,KEEPの効率的な実証的アプローチを設計し,大規模産業システムにおけるKEEP導入時の実体験を紹介する。 2つの実世界のデータセットで実施された実験は、KEEPが有望な結果が得られることを示した。 KEEPはAlibabaのディスプレイ広告システムにも展開されており、CTRは$5.4\%、RPMは$4.7\%となっている。

An industrial recommender system generally presents a hybrid list that contains results from multiple subsystems. In practice, each subsystem is optimized with its own feedback data to avoid the disturbance among different subsystems. However, we argue that such data usage may lead to sub-optimal online performance because of the \textit{data sparsity}. To alleviate this issue, we propose to extract knowledge from the \textit{super-domain} that contains web-scale and long-time impression data, and further assist the online recommendation task (downstream task). To this end, we propose a novel industrial \textbf{K}nowl\textbf{E}dge \textbf{E}xtraction and \textbf{P}lugging (\textbf{KEEP}) framework, which is a two-stage framework that consists of 1) a supervised pre-training knowledge extraction module on super-domain, and 2) a plug-in network that incorporates the extracted knowledge into the downstream model. This makes it friendly for incremental training of online recommendation. Moreover, we design an efficient empirical approach for KEEP and introduce our hands-on experience during the implementation of KEEP in a large-scale industrial system. Experiments conducted on two real-world datasets demonstrate that KEEP can achieve promising results. It is notable that KEEP has also been deployed on the display advertising system in Alibaba, bringing a lift of $+5.4\%$ CTR and $+4.7\%$ RPM.
翻訳日:2022-08-23 13:57:42 公開日:2022-08-22
# NOSMOG: グラフ上でのノイズロバストと構造認識型MLPの学習

NOSMOG: Learning Noise-robust and Structure-aware MLPs on Graphs ( http://arxiv.org/abs/2208.10010v1 )

ライセンス: Link先を確認
Yijun Tian, Chuxu Zhang, Zhichun Guo, Xiangliang Zhang, Nitesh V. Chawla(参考訳) グラフニューラルネットワーク(GNN)は、非ユークリッド構造データを扱う上での有効性を実証しているが、マルチホップデータ依存性によって課されるスケーラビリティの制約のため、実際のアプリケーションにデプロイすることは困難である。 既存の方法は、訓練されたGNNから派生したラベルを使用して、ノードコンテンツ機能のみにマルチ層パーセプトロン(MLP)をトレーニングすることで、このスケーラビリティ問題に対処しようとする。 MLPの性能は大幅に改善されるが、2つの問題は、グラフ構造情報の無知とノード特徴雑音に対する感度の2つである。 本稿では,Noise-robust Structure-aware MLPs On Graphs (NOSMOG) を学習し,その課題を克服する。 具体的には、まずノード内容と位置特徴を補完し、MPPがグラフ構造情報をキャプチャするのに役立つ。 次に,MLPに構造ノード類似性を注入するための新しい表現類似度蒸留法を設計する。 最後に,特徴雑音に対する安定学習を確実にし,さらに性能を向上させるために,対向的特徴拡張を導入する。 NOSMOGは、7つのデータセットにわたるトランスダクティブとインダクティブの両方の設定において、GNNと最先端の手法より優れており、競争力のある推論効率を維持している。

While Graph Neural Networks (GNNs) have demonstrated their efficacy in dealing with non-Euclidean structural data, they are difficult to be deployed in real applications due to the scalability constraint imposed by multi-hop data dependency. Existing methods attempt to address this scalability issue by training multi-layer perceptrons (MLPs) exclusively on node content features using labels derived from trained GNNs. Even though the performance of MLPs can be significantly improved, two issues prevent MLPs from outperforming GNNs and being used in practice: the ignorance of graph structural information and the sensitivity to node feature noises. In this paper, we propose to learn NOise-robust Structure-aware MLPs On Graphs (NOSMOG) to overcome the challenges. Specifically, we first complement node content with position features to help MLPs capture graph structural information. We then design a novel representational similarity distillation strategy to inject structural node similarities into MLPs. Finally, we introduce the adversarial feature augmentation to ensure stable learning against feature noises and further improve performance. Extensive experiments demonstrate that NOSMOG outperforms GNNs and the state-of-the-art method in both transductive and inductive settings across seven datasets, while maintaining a competitive inference efficiency.
翻訳日:2022-08-23 13:53:40 公開日:2022-08-22
# データマップによるディープラーニングに有効なデータセットの評価と構築

Evaluating and Crafting Datasets Effective for Deep Learning With Data Maps ( http://arxiv.org/abs/2208.10033v1 )

ライセンス: Link先を確認
Jay Bishnu and Andrew Gondoputro(参考訳) ディープラーニングモデル構築の迅速な開発により、適切なトレーニングデータの必要性が高まっている。 大規模なデータセット(時には“ビッグデータ”と呼ばれる)の人気は、品質評価から注目を集めている。 大規模なデータセットのトレーニングには、過剰なシステムリソースと実現不可能な時間を要することが多い。 さらに、教師付き機械学習プロセスは、完全に自動化されていない。教師付き学習では、大規模なデータセットは、手動でサンプルをラベル付けするのにより多くの時間を必要とする。 そこで本研究では,モデルの学習がいかに困難かによって分類されたサンプルの適切な分布を用いて,初期トレーニングセッション後の分散モデルの精度に匹敵する小さなデータセットをキュレートする手法を提案する。

Rapid development in deep learning model construction has prompted an increased need for appropriate training data. The popularity of large datasets - sometimes known as "big data" - has diverted attention from assessing their quality. Training on large datasets often requires excessive system resources and an infeasible amount of time. Furthermore, the supervised machine learning process has yet to be fully automated: for supervised learning, large datasets require more time for manually labeling samples. We propose a method of curating smaller datasets with comparable out-of-distribution model accuracy after an initial training session using an appropriate distribution of samples classified by how difficult it is for a model to learn from them.
翻訳日:2022-08-23 13:53:12 公開日:2022-08-22
# 帰納正規化器を用いたロバストベイズ非負行列分解

Robust Bayesian Nonnegative Matrix Factorization with Implicit Regularizers ( http://arxiv.org/abs/2208.10053v1 )

ライセンス: Link先を確認
Jun Lu, Christine P. Chai(参考訳) 非負行列因子化(nmf)を学習するために暗黙のノルム正規化を伴う確率論的モデルを導入し、欠落値の予測やデータ内の隠れパターンの発見によく用いられる。 潜在因子に対する非負性制約は、指数関数に基づく指数密度や分布など、非負の部分空間に基づく事前の選択によって処理される。 ギブスサンプリングに基づくベイズ推定手法を用いる。 我々は,がんにおける薬物感受性のゲノム (GDSC $IC_{50}$) や,サイズや次元の異なる遺伝子体メチル化などの実世界のデータセット上でモデルを評価し,提案したベイズ的NMF GL$_2^2$およびGL$_\infty$モデルが,競合するベイズ的NMFアプローチと比較して頑健な予測を導き,過度に適合しないことを示す。

We introduce a probabilistic model with implicit norm regularization for learning nonnegative matrix factorization (NMF) that is commonly used for predicting missing values and finding hidden patterns in the data, in which the matrix factors are latent variables associated with each data dimension. The nonnegativity constraint for the latent factors is handled by choosing priors with support on the nonnegative subspace, e.g., exponential density or distribution based on exponential function. Bayesian inference procedure based on Gibbs sampling is employed. We evaluate the model on several real-world datasets including Genomics of Drug Sensitivity in Cancer (GDSC $IC_{50}$) and Gene body methylation with different sizes and dimensions, and show that the proposed Bayesian NMF GL$_2^2$ and GL$_\infty$ models lead to robust predictions for different data values and avoid overfitting compared with competitive Bayesian NMF approaches.
翻訳日:2022-08-23 13:53:02 公開日:2022-08-22
# LTE4G:グラフニューラルネットワークの専門家

LTE4G: Long-Tail Experts for Graph Neural Networks ( http://arxiv.org/abs/2208.10205v1 )

ライセンス: Link先を確認
Sukwon Yun, Kibum Kim, Kanghoon Yoon, Chanyoung Park(参考訳) 既存のグラフニューラルネットワーク(gnn)は、通常、クラス分布とノード次数分布の両方がバランスのとれた状況になる。 しかし、現実の状況では、いくつかのクラス(例えば、ヘッドクラス)が他のクラス(例えば、テールクラス)を支配下に置く場合や、ノード次数の観点から、既存のGNNの適用は、結局、テールケースに一般化するに足りなくなる。 最近の研究では、グラフ上の長い尾の状況を扱う方法が提案されているが、それらはクラス長尾性または次長尾性にのみ焦点をあてている。 本稿では,Long-Tail Experts for Graphs(LTE4G)と呼ばれるGNNの学習フレームワークを提案する。 中心となる考え方は、クラスと次数の長期性の両方を考慮してバランスよく分割されたノードの各サブセットに専門家GNNモデルを割り当てることである。 各バランスの取れた部分集合について専門家を訓練した後、我々は知識蒸留法を採用して2つのクラス単位の学生、すなわち、ヘッドクラスとテールクラスのノードを分類する責任を負うヘッドクラスとテールクラスの学生を得る。 LTE4Gは,手動グラフと自然不均衡グラフの両方で評価されたノード分類において,幅広い最先端手法よりも優れていることを示す。 LTE4Gのソースコードはhttps://github.com/SukwonYun/LTE4Gにある。

Existing Graph Neural Networks (GNNs) usually assume a balanced situation where both the class distribution and the node degree distribution are balanced. However, in real-world situations, we often encounter cases where a few classes (i.e., head class) dominate other classes (i.e., tail class) as well as in the node degree perspective, and thus naively applying existing GNNs eventually fall short of generalizing to the tail cases. Although recent studies proposed methods to handle long-tail situations on graphs, they only focus on either the class long-tailedness or the degree long-tailedness. In this paper, we propose a novel framework for training GNNs, called Long-Tail Experts for Graphs (LTE4G), which jointly considers the class long-tailedness, and the degree long-tailedness for node classification. The core idea is to assign an expert GNN model to each subset of nodes that are split in a balanced manner considering both the class and degree long-tailedness. After having trained an expert for each balanced subset, we adopt knowledge distillation to obtain two class-wise students, i.e., Head class student and Tail class student, each of which is responsible for classifying nodes in the head classes and tail classes, respectively. We demonstrate that LTE4G outperforms a wide range of state-of-the-art methods in node classification evaluated on both manual and natural imbalanced graphs. The source code of LTE4G can be found at https://github.com/SukwonYun/LTE4G.
翻訳日:2022-08-23 13:52:40 公開日:2022-08-22
# コンパクト潜在行動空間における効率的な計画

Efficient Planning in a Compact Latent Action Space ( http://arxiv.org/abs/2208.10291v1 )

ライセンス: Link先を確認
Zhengyao Jiang, Tianjun Zhang, Michael Janner, Yueying Li, Tim Rockt\"aschel, Edward Grefenstette, Yuandong Tian(参考訳) 計画に基づくシーケンスモデリング手法は連続制御において大きな可能性を秘めているが、高次元のステートアクションシーケンスにスケールすることは、高い計算複雑性と高次元空間における計画の自然な難しさのために、まだ未解決の課題である。 本稿では,高動作次元にスケールする計画ベースシーケンスモデリングRL法であるTorjectory Autoencoding Planner (TAP)を提案する。 状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて、TAPは現在の状態が与えられた軌跡の条件分布をモデル化する。 RLエージェントとしてデプロイされると、TAPは高次元連続的なアクション空間におけるステップバイステップの計画を避けるが、ビームサーチにより最適な遅延コードシーケンスを求める。 軌道トランスフォーマーの$o(d^3)$複雑性とは異なり、tapは状態作用次元に関する計算複雑性を一定の$o(c)$で計画する。 我々の経験的評価は、次元の増大に伴うTAPの強みも示している。 高度な状態と動作の次元を持つロボットハンド操作タスクの場合、tapはttを含む既存のモデルベースのメソッドを大きなマージンで上回り、強力なモデルフリーのアクタ批判ベースラインを上回っている。

While planning-based sequence modelling methods have shown great potential in continuous control, scaling them to high-dimensional state-action sequences remains an open challenge due to the high computational complexity and innate difficulty of planning in high-dimensional spaces. We propose the Trajectory Autoencoding Planner (TAP), a planning-based sequence modelling RL method that scales to high state-action dimensionalities. Using a state-conditional Vector-Quantized Variational Autoencoder (VQ-VAE), TAP models the conditional distribution of the trajectories given the current state. When deployed as an RL agent, TAP avoids planning step-by-step in a high-dimensional continuous action space but instead looks for the optimal latent code sequences by beam search. Unlike $O(D^3)$ complexity of Trajectory Transformer, TAP enjoys constant $O(C)$ planning computational complexity regarding state-action dimensionality $D$. Our empirical evaluation also shows the increasingly strong performance of TAP with the growing dimensionality. For Adroit robotic hand manipulation tasks with high state and action dimensionality, TAP surpasses existing model-based methods, including TT, with a large margin and also beats strong model-free actor-critic baselines.
翻訳日:2022-08-23 13:52:12 公開日:2022-08-22
# 変化点検出のための潜在確率微分方程式

Latent Neural Stochastic Differential Equations for Change Point Detection ( http://arxiv.org/abs/2208.10317v1 )

ライセンス: Link先を確認
Artem Ryzhikov, Mikhail Hushchyn and Denis Derkach(参考訳) 変化点検出アルゴリズムの目的は、プロセスの時間発展における突然の変化を見つけることである。 本稿では,変化点検出問題に対する潜時神経確率微分方程式の適用について紹介する。 我々は,合成および実世界のデータセットとベンチマークを用いて,モデルの検出能力と性能を実証する。 研究されたシナリオのほとんどは、提案アルゴリズムが最先端のアルゴリズムより優れていることを示している。 また、このアプローチの強みと限界についても議論し、さらなる改善の方向性を示します。

The purpose of change point detection algorithms is to locate an abrupt change in the time evolution of a process. In this paper, we introduce an application of latent neural stochastic differential equations for change point detection problem. We demonstrate the detection capabilities and performance of our model on a range of synthetic and real-world datasets and benchmarks. Most of the studied scenarios show that the proposed algorithm outperforms the state-of-the-art algorithms. We also discuss the strengths and limitations of this approach and indicate directions for further improvements.
翻訳日:2022-08-23 13:51:51 公開日:2022-08-22
# 注意機構のための混合プール戦略

Mix-Pooling Strategy for Attention Mechanism ( http://arxiv.org/abs/2208.10322v1 )

ライセンス: Link先を確認
Shanshan Zhong, Wushao Wen, Jinghui Qin(参考訳) 近年,コンピュータビジョンにおける畳み込みニューラルネットワークの内部情報を活用することで,モデル性能を起動する効果的な自己認識モジュールが多数提案されている。 概して、グローバル平均プーリングを採用することにより、自己保持機構の性能がさらに向上することを妨げるため、自己保持機構のプーリング戦略の設計を無視する作業も数多く行われている。 しかし,大域的マックスプールと大域的ミンプールの単純な線形結合が,大域的平均プール性能に匹敵する,あるいは超えたプール戦略をもたらす現象を実証する。 この経験的観察に基づいて,グローバルマックスプールとグローバルミンプールに基づく自己適応型プーリング戦略と,アテンションマップを作成するための軽量モジュールを採用した,簡便かつ効果的なセルフアテンションモジュールspenetを提案する。 SPENetの有効性は、広く使われているベンチマークデータセットと一般的な自己注意ネットワークに関する広範な実験によって実証されている。

Recently many effective self-attention modules are proposed to boot the model performance by exploiting the internal information of convolutional neural networks in computer vision. In general, many previous works ignore considering the design of the pooling strategy of the self-attention mechanism since they adopt the global average pooling for granted, which hinders the further improvement of the performance of the self-attention mechanism. However, we empirically find and verify a phenomenon that the simple linear combination of global max-pooling and global min-pooling can produce pooling strategies that match or exceed the performance of global average pooling. Based on this empirical observation, we propose a simple-yet-effective self-attention module SPENet, which adopts a self-adaptive pooling strategy based on global max-pooling and global min-pooling and a lightweight module for producing the attention map. The effectiveness of SPENet is demonstrated by extensive experiments on widely used benchmark datasets and popular self-attention networks.
翻訳日:2022-08-23 13:51:45 公開日:2022-08-22
# ツリーベース分類器の実世界ロバスト性

Real-world-robustness of tree-based classifiers ( http://arxiv.org/abs/2208.10354v1 )

ライセンス: Link先を確認
Christoph Schweimer and Sebastian Scher(参考訳) 最近、信頼できるAIの概念が注目を集めている。 信頼できるAIに関連する側面の1つは、MLモデルの堅牢性である。 本研究では,最近導入された実世界ロバストネス尺度(自然発生する入力データの歪みに対するロバストネス尺度)を木に基づく分類器に対してどのように計算するかを示す。 実世界のロバスト性を計算する元の方法は、すべてのブラックボックス分類器で機能するが、近似に過ぎない。 ここでは,自然歪が多変量正規分布によって与えられるという仮定の下で,実世界ロバストネスが木に基づく分類器に対して正確に計算できることを示す。

The concept of trustworthy AI has gained widespread attention lately. One of the aspects relevant to trustworthy AI is robustness of ML models. In this study, we show how to compute the recently introduced measure of real-world-robustness - a measure for robustness against naturally occurring distortions of input data - for tree-based classifiers. The original method for computing real-world-robustness works for all black box classifiers, but is only an approximation. Here we show how real-world-robustness, under the assumption that the natural distortions are given by multivariate normal distributions, can be exactly computed for tree-based classifiers.
翻訳日:2022-08-23 13:51:28 公開日:2022-08-22
# フェースボイスアソシエーションのための分岐核融合と直交射影の学習

Learning Branched Fusion and Orthogonal Projection for Face-Voice Association ( http://arxiv.org/abs/2208.10238v1 )

ライセンス: Link先を確認
Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Sajid Javed, Muhammad Haroon Yousaf, Alessio Del Bue(参考訳) 近年は、YouTubeの音声視覚情報を活用したセレブの顔と声の関連を確立することへの関心が高まっている。 先行研究では、マッチングや検証タスクに適した埋め込み空間を学ぶために、メトリック学習手法を採用する。 しかし、そのような定式化は、距離依存性のマージンパラメータ依存性、実行時のトレーニングの複雑さの低さ、慎重に作られた負のマイニング手順に依存するため、限定的である。 本研究は, 顔声関連課題に対する識別的共同埋め込み空間の実現に向けて, 効果的かつ効率的な監督と組み合わさった豊かな表現が重要であると仮定する。 そこで本研究では,両モードの相補的手がかりを利用して,密集した融合埋め込みを形成し,直交制約を通した識別ラベルに基づいてクラスタ化する軽量なプラグアンドプレイ機構を提案する。 提案するメカニズムをFOP(fusion and orthogonal projection)として作成し,2ストリームネットワークでインスタンス化する。 全体的なフレームワークはVoxCeleb1とMAV-Celebのデータセットに基づいて、クロスモーダル検証やマッチングを含むさまざまなタスクで評価される。 その結果,本手法は現在の最先端手法に対して良好に機能し,提案手法は現代手法よりも効率的かつ効率的であることがわかった。 さらに,複数の言語が対人関係に与える影響を分析するために,クロスモーダル検証とマッチングタスクを活用する。 コード: \url{https://github.com/msaadsaeed/fop}

Recent years have seen an increased interest in establishing association between faces and voices of celebrities leveraging audio-visual information from YouTube. Prior works adopt metric learning methods to learn an embedding space that is amenable for associated matching and verification tasks. Albeit showing some progress, such formulations are, however, restrictive due to dependency on distance-dependent margin parameter, poor run-time training complexity, and reliance on carefully crafted negative mining procedures. In this work, we hypothesize that an enriched representation coupled with an effective yet efficient supervision is important towards realizing a discriminative joint embedding space for face-voice association tasks. To this end, we propose a light-weight, plug-and-play mechanism that exploits the complementary cues in both modalities to form enriched fused embeddings and clusters them based on their identity labels via orthogonality constraints. We coin our proposed mechanism as fusion and orthogonal projection (FOP) and instantiate in a two-stream network. The overall resulting framework is evaluated on VoxCeleb1 and MAV-Celeb datasets with a multitude of tasks, including cross-modal verification and matching. Results reveal that our method performs favourably against the current state-of-the-art methods and our proposed formulation of supervision is more effective and efficient than the ones employed by the contemporary methods. In addition, we leverage cross-modal verification and matching tasks to analyze the impact of multiple languages on face-voice association. Code is available: \url{https://github.com/msaadsaeed/FOP}
翻訳日:2022-08-23 13:42:58 公開日:2022-08-22
# ニューロシンボリック視覚対話

Neuro-Symbolic Visual Dialog ( http://arxiv.org/abs/2208.10353v1 )

ライセンス: Link先を確認
Adnen Abdessaied, Mihai B\^ace, Andreas Bulling(参考訳) 本稿では,多面的視覚的な推論のための深層学習とシンボリックプログラム実行を組み合わせた最初の手法であるニューロシンボリックビジュアルダイアログ(nsvd)を提案する。 NSVDは、視覚的ダイアログに固有の2つの重要な課題、長距離共参照解決と質問応答性能において、既存の純粋接続法よりも大幅に優れている。 我々は,より現実的で厳密な評価手法を提案し,精度を計算する際に,全対話履歴の予測結果を使用する。 そこで本研究では,本モデルの2つの変種について述べるとともに,この新手法により,clevr-dialogの精度が99.72%向上したことを示す。 さらに,我々のニューロシンボリックモデルは,平均的第1次障害ラウンドが高く,不完全なダイアログ履歴に対して頑健であり,訓練中のダイアログの最大3倍の長さのダイアログに留まらず,質問タイプやシーンを認識できない方がよいことを示した。

We propose Neuro-Symbolic Visual Dialog (NSVD) -the first method to combine deep learning and symbolic program execution for multi-round visually-grounded reasoning. NSVD significantly outperforms existing purely-connectionist methods on two key challenges inherent to visual dialog: long-distance co-reference resolution as well as vanishing question-answering performance. We demonstrate the latter by proposing a more realistic and stricter evaluation scheme in which we use predicted answers for the full dialog history when calculating accuracy. We describe two variants of our model and show that using this new scheme, our best model achieves an accuracy of 99.72% on CLEVR-Dialog -a relative improvement of more than 10% over the state of the art while only requiring a fraction of training data. Moreover, we demonstrate that our neuro-symbolic models have a higher mean first failure round, are more robust against incomplete dialog histories, and generalise better not only to dialogs that are up to three times longer than those seen during training but also to unseen question types and scenes.
翻訳日:2022-08-23 13:42:09 公開日:2022-08-22
# 医用セマンティック・トランスを用いたラジオグラフィーレポート生成

A Medical Semantic-Assisted Transformer for Radiographic Report Generation ( http://arxiv.org/abs/2208.10358v1 )

ライセンス: Link先を確認
Zhanyu Wang, Mingkang Tang, Lei Wang, Xiu Li, Luping Zhou(参考訳) 放射線写真の自動レポート生成は、医療画像を記述するための正確なセマンティック・コヒーレンス・レポートを自動的に生成することを目的とした、困難なクロスドメインタスクである。 この分野での最近の進歩にもかかわらず、少なくとも以下の面ではまだ多くの課題がある。 まず、x線画像は互いに非常によく似ており、既存の手法のようにcnnを視覚特徴抽出器として用いると、細かな視差を捉えることは困難である。 さらに、セマンティック情報は、生成タスク(例えば、画像キャプション)の性能を高めるために広く応用されているが、既存の手法では効果的な医用セマンティック機能を提供できないことが多い。 そこで,本稿では,入力された細粒画像特徴間の高次相互作用を捉えるために,バイリニア・プーリングを用いたメモリ提示型スパースアテンションブロックを提案する。 さらに,詳細な意味概念を予測するための新しい医療概念生成ネットワーク(mcgn)を導入し,それらを報告生成プロセスに導入した。 提案手法は,最近発表されたMIMIC-CXRのベンチマークで有望な性能を示す。 画像キャプションや医療報告生成において、最先端の複数の手法よりも優れています。

Automated radiographic report generation is a challenging cross-domain task that aims to automatically generate accurate and semantic-coherence reports to describe medical images. Despite the recent progress in this field, there are still many challenges at least in the following aspects. First, radiographic images are very similar to each other, and thus it is difficult to capture the fine-grained visual differences using CNN as the visual feature extractor like many existing methods. Further, semantic information has been widely applied to boost the performance of generation tasks (e.g. image captioning), but existing methods often fail to provide effective medical semantic features. Toward solving those problems, in this paper, we propose a memory-augmented sparse attention block utilizing bilinear pooling to capture the higher-order interactions between the input fine-grained image features while producing sparse attention. Moreover, we introduce a novel Medical Concepts Generation Network (MCGN) to predict fine-grained semantic concepts and incorporate them into the report generation process as guidance. Our proposed method shows promising performance on the recently released largest benchmark MIMIC-CXR. It outperforms multiple state-of-the-art methods in image captioning and medical report generation.
翻訳日:2022-08-23 13:41:48 公開日:2022-08-22
# fight fire with fire: reversing skin adversarial examples by multiscale diffusive and denoising aggregation mechanism (特集:火と火)

Fight Fire With Fire: Reversing Skin Adversarial Examples by Multiscale Diffusive and Denoising Aggregation Mechanism ( http://arxiv.org/abs/2208.10373v1 )

ライセンス: Link先を確認
Yongwei Wang, Yuan Li, Zhiqi Shen(参考訳) 皮膚癌診断モデルが早期スクリーニングや医療介入において重要な役割を担っている。 コンピュータ支援型皮膚がん分類システムでは、ディープラーニングアプローチを採用している。 しかし、最近の研究では、皮膚がんの診断モデルの性能を著しく低下させる敵の攻撃に対する極端な脆弱性が明らかになっている。 これらの脅威を軽減するため,本研究は,皮膚がん画像における逆工学的逆方向の摂動による,シンプルで効果的かつ資源効率のよい防御機構を示す。 具体的には、医用画像領域における識別構造をよりよく保存するために、まず、マルチスケールの画像ピラミッドが確立される。 逆効果を中和するために、異方性ガウス雑音を注入して異なるスケールの皮膚画像を徐々に拡散させ、逆効果例をクリーン画像多様体に移動させる。 さらに、逆方向のノイズを逆転させ、冗長なノイズを抑えるため、隣接するスケールの画像情報を集約する新しいマルチスケールデノナイズ機構を慎重に設計する。 皮膚がんの多クラス分類データセットであるISIC 2019において,本手法の防御効果を評価した。 実験の結果,本手法は異なる攻撃による逆向きの摂動を効果的に回避し,皮膚がんの診断モデルにおいて最先端の手法を著しく上回ることがわかった。

Reliable skin cancer diagnosis models play an essential role in early screening and medical intervention. Prevailing computer-aided skin cancer classification systems employ deep learning approaches. However, recent studies reveal their extreme vulnerability to adversarial attacks -- often imperceptible perturbations to significantly reduce performances of skin cancer diagnosis models. To mitigate these threats, this work presents a simple, effective and resource-efficient defense framework by reverse engineering adversarial perturbations in skin cancer images. Specifically, a multiscale image pyramid is first established to better preserve discriminative structures in medical imaging domain. To neutralize adversarial effects, skin images at different scales are then progressively diffused by injecting isotropic Gaussian noises to move the adversarial examples to the clean image manifold. Crucially, to further reverse adversarial noises and suppress redundant injected noises, a novel multiscale denoising mechanism is carefully designed that aggregates image information from neighboring scales. We evaluated the defensive effectiveness of our method on ISIC 2019, a largest skin cancer multiclass classification dataset. Experimental results demonstrate that the proposed method can successfully reverse adversarial perturbations from different attacks and significantly outperform some state-of-the-art methods in defending skin cancer diagnosis models.
翻訳日:2022-08-23 13:41:28 公開日:2022-08-22
# 深部マルチタスク学習支援タスクとしての奥行き推定を用いた画像分類におけるノイズとデータセットサイズ制限の影響の最小化

Minimizing the Effect of Noise and Limited Dataset Size in Image Classification Using Depth Estimation as an Auxiliary Task with Deep Multitask Learning ( http://arxiv.org/abs/2208.10390v1 )

ライセンス: Link先を確認
Khashayar Namdar, Partoo Vafaeikia, Farzad Khalvati(参考訳) 汎用性は機械学習(ML)画像分類器の最終的な目標であり、ノイズと限られたデータセットサイズが主な関心事である。 我々は、深層マルチタスク学習(dMTL)の枠組みを活用し、画像深度推定を補助課題として取り入れることで、これらの課題に取り組む。 MNISTデータセットのカスタマイズと深度拡張による導出について a)マルチタスク損失関数は、dMTLを実装する最も効果的な方法である。 b) 限られたデータセットのサイズは、主に分類の正確性に寄与し、 c) 深度推定は、主に騒音の影響を受けます。 結果をさらに検証するため,シーン分類タスクのためのNYU Depth V2データセットを手作業でラベル付けした。 この分野への貢献として、我々はpythonネイティブフォーマットのデータをオープンソースデータセットとして公開し、シーンラベルを提供しました。 MNISTとNYU-Depth-V2の実験では、データセットがノイズでサンプル数が限られている場合、dMTLは分類器の一般化性を向上させる。

Generalizability is the ultimate goal of Machine Learning (ML) image classifiers, for which noise and limited dataset size are among the major concerns. We tackle these challenges through utilizing the framework of deep Multitask Learning (dMTL) and incorporating image depth estimation as an auxiliary task. On a customized and depth-augmented derivation of the MNIST dataset, we show a) multitask loss functions are the most effective approach of implementing dMTL, b) limited dataset size primarily contributes to classification inaccuracy, and c) depth estimation is mostly impacted by noise. In order to further validate the results, we manually labeled the NYU Depth V2 dataset for scene classification tasks. As a contribution to the field, we have made the data in python native format publicly available as an open-source dataset and provided the scene labels. Our experiments on MNIST and NYU-Depth-V2 show dMTL improves generalizability of the classifiers when the dataset is noisy and the number of examples is limited.
翻訳日:2022-08-23 13:41:03 公開日:2022-08-22
# FurryGAN: 高品質フォアグラウンド対応画像合成

FurryGAN: High Quality Foreground-aware Image Synthesis ( http://arxiv.org/abs/2208.10422v1 )

ライセンス: Link先を確認
Jeongmin Bae, Mingi Kwon, Youngjung Uh(参考訳) 前景認識画像合成は、前景マスクと同様に画像を生成することを目的としている。 一般的なアプローチは、前景画像と背景画像とのマスクブレンドとしてイメージを定式化することである。 どちらかのイメージが他方を圧倒し、つまり、マスクが完全に満ちたり空になったり、前景と背景が有意義に分離されないような、自明な解決策にたどり着くのは難しい問題である。 FurryGANには3つの重要な要素がある。 1)前景画像と複合画像の両方を現実的とする。 2)粗いマスクと細かいマスクの組み合わせとしてマスクを設計し、 3)判別器の補助マスク予測器で発電機を誘導する。 本手法では, 毛髪, 毛皮, ウイスカーをまったく教師なしで覆う, 精細なアルファマスクを施した写実的画像を生成する。

Foreground-aware image synthesis aims to generate images as well as their foreground masks. A common approach is to formulate an image as an masked blending of a foreground image and a background image. It is a challenging problem because it is prone to reach the trivial solution where either image overwhelms the other, i.e., the masks become completely full or empty, and the foreground and background are not meaningfully separated. We present FurryGAN with three key components: 1) imposing both the foreground image and the composite image to be realistic, 2) designing a mask as a combination of coarse and fine masks, and 3) guiding the generator by an auxiliary mask predictor in the discriminator. Our method produces realistic images with remarkably detailed alpha masks which cover hair, fur, and whiskers in a fully unsupervised manner.
翻訳日:2022-08-23 13:40:45 公開日:2022-08-22
# dp-rewrite:差分プライベートテキスト書き換えにおける再現性と透明性に向けて

DP-Rewrite: Towards Reproducibility and Transparency in Differentially Private Text Rewriting ( http://arxiv.org/abs/2208.10400v1 )

ライセンス: Link先を確認
Timour Igamberdiev, Thomas Arnold, Ivan Habernal(参考訳) 差分プライバシー(DP)によるテキスト書き換えは、テキスト文書中の個人のプライバシーを保護するための具体的な理論的保証を提供する。 実際には、既存のシステムはプライバシを保護するクレームを検証する手段を欠いている可能性があり、透明性と再現性の問題に繋がる。 dp-rewriteは,モジュール性,拡張性,高度にカスタマイズ可能な,プライベートなテキスト書き換えのためのオープンソースフレームワークである。 本システムでは,様々なダウンストリームデータセット,モデル,事前学習手順,評価指標を組み込んで,プライベートテキスト書き換え研究をリードし,検証するためのフレキシブルな方法を提供する。 本研究では,本ソフトウェアを実演するために,ADePT DPテキスト書き換えシステムのケーススタディとして,事前学習アプローチにおけるプライバシリークを検出する実験を行った。 我々のシステムは公開されており、コミュニティがDPテキストの書き直し研究をよりアクセスしやすく透明にすることを願っている。

Text rewriting with differential privacy (DP) provides concrete theoretical guarantees for protecting the privacy of individuals in textual documents. In practice, existing systems may lack the means to validate their privacy-preserving claims, leading to problems of transparency and reproducibility. We introduce DP-Rewrite, an open-source framework for differentially private text rewriting which aims to solve these problems by being modular, extensible, and highly customizable. Our system incorporates a variety of downstream datasets, models, pre-training procedures, and evaluation metrics to provide a flexible way to lead and validate private text rewriting research. To demonstrate our software in practice, we provide a set of experiments as a case study on the ADePT DP text rewriting system, detecting a privacy leak in its pre-training approach. Our system is publicly available, and we hope that it will help the community to make DP text rewriting research more accessible and transparent.
翻訳日:2022-08-23 13:40:31 公開日:2022-08-22
# Lirot.ai: クラウドソーシング型網膜画像セグメンテーションのための新しいプラットフォーム

Lirot.ai: A Novel Platform for Crowd-Sourcing Retinal Image Segmentations ( http://arxiv.org/abs/2208.10100v1 )

ライセンス: Link先を確認
Jonathan Fhima, Jan Van Eijgen, Moti Freiman, Ingeborg Stalmans and Joachim A. Behar(参考訳) 導入: 教師付きディープラーニング(DL)タスクには、大きな注釈付きデータセットが必要である。 医学データサイエンスにおいて、dlモデルを開発するための大きな制限の1つは、大量の注釈付き例がないことである。 これは、アノテートに必要な時間と専門知識によることが多い。 画像セグメンテーションの促進とクラウドソーシングのための新しいプラットフォームであるLirot.aiを紹介する。 メソッド: Lirot.aiは、Lirot.ai-appという名前のiPadOSクライアントアプリケーション、Lirot.ai-serverという名前のバックエンドサーバ、python APIネームのLirot.ai-APIの3つのコンポーネントで構成されている。 Lirot.ai-appはSwift 5.6で開発され、Lirot.ai-serverはファイアベースバックエンドである。 Lirot.ai-APIはデータベースの管理を可能にする。 Lirot.ai-appは必要なだけ多くのiPadOSデバイスにインストールでき、アノテータは同時にリモートでセグメンテーションを行うことができる。 私たちはapple pencilの互換性を取り入れ、セグメンテーションを他のコンピュータベースの代替品よりも高速で、より正確で、専門家にとって直感的なものにしています。 結果: 基準血管セグメンテーションを用いた網膜底部データセットの作成にLirot.aiを応用した。 議論と今後の作業:我々は、アノテートされる画像を選択し、アノテータに配布するより効率的なプロセスを含むことによって、網膜底部データセットの拡大を継続するために、アクティブラーニング戦略を使用する。

Introduction: For supervised deep learning (DL) tasks, researchers need a large annotated dataset. In medical data science, one of the major limitations to develop DL models is the lack of annotated examples in large quantity. This is most often due to the time and expertise required to annotate. We introduce Lirot.ai, a novel platform for facilitating and crowd-sourcing image segmentations. Methods: Lirot.ai is composed of three components; an iPadOS client application named Lirot.ai-app, a backend server named Lirot.ai-server and a python API name Lirot.ai-API. Lirot.ai-app was developed in Swift 5.6 and Lirot.ai-server is a firebase backend. Lirot.ai-API allows the management of the database. Lirot.ai-app can be installed on as many iPadOS devices as needed so that annotators may be able to perform their segmentation simultaneously and remotely. We incorporate Apple Pencil compatibility, making the segmentation faster, more accurate, and more intuitive for the expert than any other computer-based alternative. Results: We demonstrate the usage of Lirot.ai for the creation of a retinal fundus dataset with reference vasculature segmentations. Discussion and future work: We will use active learning strategies to continue enlarging our retinal fundus dataset by including a more efficient process to select the images to be annotated and distribute them to annotators.
翻訳日:2022-08-23 13:37:22 公開日:2022-08-22
# SWEM:Sequential Weighted expectation-Maximizationによるリアルタイムビデオオブジェクトセグメンテーションを目指して

SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization ( http://arxiv.org/abs/2208.10128v1 )

ライセンス: Link先を確認
Zhihui Lin, Tianyu Yang, Maomao Li, Ziyu Wang, Chun Yuan, Wenhao Jiang, and Wei Liu(参考訳) マッチングに基づく手法、特に時空メモリに基づく手法は、半教師付きビデオオブジェクトセグメンテーション(VOS)における他のソリューションよりもはるかに優れている。 しかし、継続的な成長と冗長なテンプレート機能は非効率な推論につながる。 そこで本研究では,メモリ特性の冗長性を大幅に低減するために,SWEM(Sequential Weighted expectation-Maximization)ネットワークを提案する。 フレーム間の特徴冗長性のみを検出する従来の方法とは異なり、SWEMはシーケンシャル重み付きEMアルゴリズムを利用してフレーム内とフレーム間の両方をマージする。 さらに,フレーム特性の適応重み付けにより,ハードサンプル表現の柔軟性が向上し,テンプレートの識別性が向上した。 さらに,提案手法は,VOSシステムの安定な推論複雑性を保証するため,メモリに一定数のテンプレート機能を保持する。 DAVISとYouTube-VOSデータセットの大規模な実験はSWEMの高効率(36 FPS)と高パフォーマンス(84.3\% $\mathcal{J}\&\mathcal{F}$ on DAVIS 2017 Validation dataset)を検証する。 コードは、https://github.com/lmm077/SWEMで入手できる。

Matching-based methods, especially those based on space-time memory, are significantly ahead of other solutions in semi-supervised video object segmentation (VOS). However, continuously growing and redundant template features lead to an inefficient inference. To alleviate this, we propose a novel Sequential Weighted Expectation-Maximization (SWEM) network to greatly reduce the redundancy of memory features. Different from the previous methods which only detect feature redundancy between frames, SWEM merges both intra-frame and inter-frame similar features by leveraging the sequential weighted EM algorithm. Further, adaptive weights for frame features endow SWEM with the flexibility to represent hard samples, improving the discrimination of templates. Besides, the proposed method maintains a fixed number of template features in memory, which ensures the stable inference complexity of the VOS system. Extensive experiments on commonly used DAVIS and YouTube-VOS datasets verify the high efficiency (36 FPS) and high performance (84.3\% $\mathcal{J}\&\mathcal{F}$ on DAVIS 2017 validation dataset) of SWEM. Code is available at: https://github.com/lmm077/SWEM.
翻訳日:2022-08-23 13:37:00 公開日:2022-08-22
# クロスエントロピーによる知識蒸留の再考

Rethinking Knowledge Distillation via Cross-Entropy ( http://arxiv.org/abs/2208.10139v1 )

ライセンス: Link先を確認
Zhendong Yang, Zhe Li, Yuan Gong, Tianke Zhang, Shanshan Lao, Chun Yuan, Yu Li(参考訳) 知識蒸留(kd)は広く発展し、様々なタスクを加速した。 古典的なKD法は、元のクロスエントロピー(CE)損失にKD損失を加える。 我々はKD損失を分解してCE損失との関係を探ろうとする。 意外なことに、CE損失とCE損失と同じ形態の余剰損失の組合せと見なすことができる。 しかし, 余分な損失が生徒の相対確率を低下させ, 教師の絶対確率を学習させる。 さらに、2つの確率の合計が異なるため、最適化が困難である。 この問題に対処するため,定式化を改訂し,分散損失を提案する。 さらに,教師の目標出力をソフトな目標として活用し,ソフトな損失を提案する。 ソフトロスと分散損失を組み合わせた新しいKD損失(NKD)を提案する。 さらに,学生の目標出力を円滑にし,教師なしの訓練対象として扱い,教師なしの新しいKD損失(tf-NKD)を提案する。 CIFAR-100 と ImageNet の最先端性能を実現する。 例えば、ResNet-34 を教師として、ResNet18 の ImageNet Top-1 の精度を 69.90% から 71.96% に引き上げる。 MobileNet、ResNet-18、SwinTransformer-Tinyの教師なしのトレーニングでは、それぞれ0.83%、0.86%、0.30%の70.04%、70.76%、81.48%を達成した。 コードはhttps://github.com/yzd-v/cls_kdで入手できる。

Knowledge Distillation (KD) has developed extensively and boosted various tasks. The classical KD method adds the KD loss to the original cross-entropy (CE) loss. We try to decompose the KD loss to explore its relation with the CE loss. Surprisingly, we find it can be regarded as a combination of the CE loss and an extra loss which has the identical form as the CE loss. However, we notice the extra loss forces the student's relative probability to learn the teacher's absolute probability. Moreover, the sum of the two probabilities is different, making it hard to optimize. To address this issue, we revise the formulation and propose a distributed loss. In addition, we utilize teachers' target output as the soft target, proposing the soft loss. Combining the soft loss and the distributed loss, we propose a new KD loss (NKD). Furthermore, we smooth students' target output to treat it as the soft target for training without teachers and propose a teacher-free new KD loss (tf-NKD). Our method achieves state-of-the-art performance on CIFAR-100 and ImageNet. For example, with ResNet-34 as the teacher, we boost the ImageNet Top-1 accuracy of ResNet18 from 69.90% to 71.96%. In training without teachers, MobileNet, ResNet-18 and SwinTransformer-Tiny achieve 70.04%, 70.76%, and 81.48%, which are 0.83%, 0.86%, and 0.30% higher than the baseline, respectively. The code is available at https://github.com/yzd-v/cls_KD.
翻訳日:2022-08-23 13:36:33 公開日:2022-08-22
# STS:マルチビュー3D検出のための全周時間ステレオ

STS: Surround-view Temporal Stereo for Multi-view 3D Detection ( http://arxiv.org/abs/2208.10145v1 )

ライセンス: Link先を確認
Zengran Wang, Chen Min, Zheng Ge, Yinhao Li, Zeming Li, Hongyu Yang, Di Huang(参考訳) 多視点3Dオブジェクト検出には,正確な深度学習が不可欠である。 近年のアプローチは主に単眼画像から奥行きを学習するが、これは単眼深度学習が不適切であることによる本質的困難に直面する。 本研究では, 単分子深度法の代わりに, フレーム間の幾何学的対応を利用して正確な深度学習を容易にする新しいSurround-view Temporal Stereo(STS)技術を提案する。 具体的には、エゴ車周りの全カメラからの視界を統一された視界、すなわちサラウンドビューとみなし、時間的ステレオマッチングを行う。 stsからの異なるフレーム間の幾何学的対応を利用して単眼深度と組み合わせ、最終深度予測を行う。 nuScenesの総合的な実験により、STSは特に中距離と長距離の物体の3D検出能力を大幅に向上させることが示された。 BEVDepthとResNet-50のバックボーンでは、STSはmAPとNDSをそれぞれ2.6%改善し、1.4%改善した。 大きなバックボーンと大きな解像度を使用する場合、一貫した改善が観察され、その効果を示している。

Learning accurate depth is essential to multi-view 3D object detection. Recent approaches mainly learn depth from monocular images, which confront inherent difficulties due to the ill-posed nature of monocular depth learning. Instead of using a sole monocular depth method, in this work, we propose a novel Surround-view Temporal Stereo (STS) technique that leverages the geometry correspondence between frames across time to facilitate accurate depth learning. Specifically, we regard the field of views from all cameras around the ego vehicle as a unified view, namely surroundview, and conduct temporal stereo matching on it. The resulting geometrical correspondence between different frames from STS is utilized and combined with the monocular depth to yield final depth prediction. Comprehensive experiments on nuScenes show that STS greatly boosts 3D detection ability, notably for medium and long distance objects. On BEVDepth with ResNet-50 backbone, STS improves mAP and NDS by 2.6% and 1.4%, respectively. Consistent improvements are observed when using a larger backbone and a larger image resolution, demonstrating its effectiveness
翻訳日:2022-08-23 13:36:08 公開日:2022-08-22
# 分布外一般化のためのメタ因果特徴学習

Meta-Causal Feature Learning for Out-of-Distribution Generalization ( http://arxiv.org/abs/2208.10156v1 )

ライセンス: Link先を確認
Yuqing Wang, Xiangxian Li, Zhuang Qi, Jingyu Li, Xuelong Li, Xiangxu Meng, Lei Meng(参考訳) 因果推論は分布外一般化問題(OOD)を扱う強力なツールとなり、不変な特徴を抽出することを目指している。 しかし、従来の手法では、複数のデータ分割から因果学習を行い、不均衡なデータ分布からのバイアス付き表現学習と、不均質な情報源からの不変特徴学習の難しさをもたらす。 これらの課題に対処するため,本論文では,バランス化されたタスク生成モジュール(BTG)とメタ因果的特徴学習モジュール(MCFL)を含む,バランスされたメタ因果学習者(BMCL)を提案する。 具体的には、BTGモジュールは、サンプルクラスとコンテキストの比率に制約のある自己学習分割アルゴリズムによってバランスの取れたサブセットを生成することを学習する。 MCFLモジュールは、異なる分布に適応したメタリアナーを訓練する。 nico++データセットで実施した実験により、bmclは分類のためにクラス不変な視覚領域を効果的に識別できることが確認された。

Causal inference has become a powerful tool to handle the out-of-distribution (OOD) generalization problem, which aims to extract the invariant features. However, conventional methods apply causal learners from multiple data splits, which may incur biased representation learning from imbalanced data distributions and difficulty in invariant feature learning from heterogeneous sources. To address these issues, this paper presents a balanced meta-causal learner (BMCL), which includes a balanced task generation module (BTG) and a meta-causal feature learning module (MCFL). Specifically, the BTG module learns to generate balanced subsets by a self-learned partitioning algorithm with constraints on the proportions of sample classes and contexts. The MCFL module trains a meta-learner adapted to different distributions. Experiments conducted on NICO++ dataset verified that BMCL effectively identifies the class-invariant visual regions for classification and may serve as a general framework to improve the performance of the state-of-the-art methods.
翻訳日:2022-08-23 13:35:48 公開日:2022-08-22
# 素早い一致意味セグメンテーション

Prompt-Matched Semantic Segmentation ( http://arxiv.org/abs/2208.10159v1 )

ライセンス: Link先を確認
Lingbo Liu, Bruce X.B. Yu, Jianlong Chang, Qi Tian, Chang-Wen Chen(参考訳) 本研究の目的は,事前学習した基礎モデルを画像意味セグメンテーションの下流の様々なタスクに効果的かつ効率的に適応する方法を検討することである。 従来の手法は通常、特定のデータセットごとにネットワーク全体を微調整し、これらのネットワークの膨大なパラメータを保存するのは重荷だった。 いくつかの最近の研究は、効率的なチューニングのために視覚的なプロンプトを学ぶために、トレーニング可能なパラメータを凍結ネットワークに挿入しようと試みた。 しかし、これらの作業は標準モジュールの本来の構造を大きく変更し、標準モジュールとそのパラメータが埋め込まれた多くの既存の高速推論デバイスでは動作不能になった。 そこで本稿では,タスク指向チューニングのための視覚的プロンプトを適応的に生成しながら,基礎モデルの本来の構造を維持した新しいステージ間プロンプトマッチングフレームワークを提案する。 具体的には、事前訓練されたモデルをまず複数のステージに分割し、そのパラメータを凍結し、すべてのセマンティックセグメンテーションタスクで共有する。 次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2段階間の階層的な補間を行い、中間意味写像のガイダンスの下で各タスクの適切なプロンプトを学習する。 このようにして、凍結モデルの事前学習された知識を刺激し、下流のデータセット上で意味概念を効果的に学習することができる。 5つのベンチマークで行った実験により,提案手法はパラメータ効率と性能効率のトレードオフを期待できることを示す。

The objective of this work is to explore how to effectively and efficiently adapt pre-trained foundation models to various downstream tasks of image semantic segmentation. Conventional methods usually fine-tuned the whole networks for each specific dataset and it was burdensome to store the massive parameters of these networks. A few recent works attempted to insert some trainable parameters into the frozen network to learn visual prompts for efficient tuning. However, these works significantly modified the original structure of standard modules, making them inoperable on many existing high-speed inference devices, where standard modules and their parameters have been embedded. To facilitate prompt-based semantic segmentation, we propose a novel Inter-Stage Prompt-Matched Framework, which maintains the original structure of the foundation model while generating visual prompts adaptively for task-oriented tuning. Specifically, the pre-trained model is first divided into multiple stages, and their parameters are frozen and shared for all semantic segmentation tasks. A lightweight module termed Semantic-aware Prompt Matcher is then introduced to hierarchically interpolate between two stages to learn reasonable prompts for each specific task under the guidance of interim semantic maps. In this way, we can better stimulate the pre-trained knowledge of the frozen model to learn semantic concepts effectively on downstream datasets. Extensive experiments conducted on five benchmarks show that the proposed method can achieve a promising trade-off between parameter efficiency and performance effectiveness.
翻訳日:2022-08-23 13:35:30 公開日:2022-08-22
# 軽量半教師付きセマンティクスセグメンテーションに向けた多粒度蒸留法

Multi-Granularity Distillation Scheme Towards Lightweight Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2208.10169v1 )

ライセンス: Link先を確認
Jie Qin, Jie Wu, Ming Li, Xuefeng Xiao, Min Zheng, Xingang Wang(参考訳) セミスーパービジョンセマンティックセグメンテーションの分野での進歩の度合いは様々であるが、最近の成功の多くは未解決のモデルに関わっており、軽量解はまだ研究されていない。 既存の知識蒸留技術はラベル付きデータからピクセルレベルの概念により多くの注意を払っているため、ラベル付きデータの中でより有益な手がかりを必要としない。 その結果、我々は、新しい多粒度蒸留(MGD)方式による軽量SSSSモデルを初めて提供し、多粒度を3つの側面から捉えた。 一 相補的な教員構造 二 ラベル付き未表示のデータ協同蒸留 三 階層的及び多段階的損失設定 特に、mgdはラベルなしのデータ協調蒸留スキームとして定式化されており、半教師あり設定で必須となる多様なデータ特性を最大限に活用するのに役立つ。 画像レベルのセマンティクス感受性損失、領域レベルのコンテントアウェアロス、ピクセルレベルの一貫性損失は、構造的に相補的な教師を通して階層的な蒸留抽象化を強化するために設定される。 PASCAL VOC2012とCityscapesの実験結果から、MGDは多様なパーティションプロトコルの下で大きなマージンで競合するアプローチより優れていることが明らかになった。 例えば、ResNet-18とMobileNet-v2のバックボーンのパフォーマンスは、Cityscapesの1/16パーティションプロトコルでそれぞれ11.5%と4.6%向上している。 モデルバックボーンのFLOPは3.4-5.3x(ResNet-18)と38.7-59.6x(MobileNetv2)で圧縮されるが、良好なセグメンテーション結果が得られる。

Albeit with varying degrees of progress in the field of Semi-Supervised Semantic Segmentation, most of its recent successes are involved in unwieldy models and the lightweight solution is still not yet explored. We find that existing knowledge distillation techniques pay more attention to pixel-level concepts from labeled data, which fails to take more informative cues within unlabeled data into account. Consequently, we offer the first attempt to provide lightweight SSSS models via a novel multi-granularity distillation (MGD) scheme, where multi-granularity is captured from three aspects: i) complementary teacher structure; ii) labeled-unlabeled data cooperative distillation; iii) hierarchical and multi-levels loss setting. Specifically, MGD is formulated as a labeled-unlabeled data cooperative distillation scheme, which helps to take full advantage of diverse data characteristics that are essential in the semi-supervised setting. Image-level semantic-sensitive loss, region-level content-aware loss, and pixel-level consistency loss are set up to enrich hierarchical distillation abstraction via structurally complementary teachers. Experimental results on PASCAL VOC2012 and Cityscapes reveal that MGD can outperform the competitive approaches by a large margin under diverse partition protocols. For example, the performance of ResNet-18 and MobileNet-v2 backbone is boosted by 11.5% and 4.6% respectively under 1/16 partition protocol on Cityscapes. Although the FLOPs of the model backbone is compressed by 3.4-5.3x (ResNet-18) and 38.7-59.6x (MobileNetv2), the model manages to achieve satisfactory segmentation results.
翻訳日:2022-08-23 13:35:02 公開日:2022-08-22
# TaCo:コントラスト学習によるテキスト属性認識

TaCo: Textual Attribute Recognition via Contrastive Learning ( http://arxiv.org/abs/2208.10180v1 )

ライセンス: Link先を確認
Chang Nie, Yiqing Hu, Yanqiu Qu, Hao Liu, Deqiang Jiang, Bo Ren(参考訳) フォントのようなテキスト属性は文書形式やページスタイルの中核設計要素であるため、自動属性認識は包括的な実用的応用を好む。 既存のアプローチはすでに、異なる属性を区別する上で満足なパフォーマンスをもたらしているが、それでも微妙な違いだけで類似属性を区別することに苦慮している。 さらに、予期せぬ画像の歪みが現れる現実のシナリオでは、パフォーマンスが著しく低下する。 本稿では,最も一般的な文書シーンに合わせたテキスト属性認識のためのコントラストフレームワークであるTaCoを提案することによって,これらの課題に対処することを目的とする。 具体的には、TaCoは対照的な学習を活用して、曖昧でオープンな属性から生じるあいまいなトラップを排除します。 この目標を達成するために、3つの視点から学習パラダイムを設計する。 1)属性ビューの生成。 2)微妙に重要な詳細を抽出し、 3) 学習のための価値あるビューペアを活用し, 事前学習の可能性を完全に解き放つ。 大規模な実験により、TaCoは監督対象を超越し、複数の属性認識タスクにおける最先端の進歩を示す。 TaCoのオンラインサービスは利用可能になる。

As textual attributes like font are core design elements of document format and page style, automatic attributes recognition favor comprehensive practical applications. Existing approaches already yield satisfactory performance in differentiating disparate attributes, but they still suffer in distinguishing similar attributes with only subtle difference. Moreover, their performance drop severely in real-world scenarios where unexpected and obvious imaging distortions appear. In this paper, we aim to tackle these problems by proposing TaCo, a contrastive framework for textual attribute recognition tailored toward the most common document scenes. Specifically, TaCo leverages contrastive learning to dispel the ambiguity trap arising from vague and open-ended attributes. To realize this goal, we design the learning paradigm from three perspectives: 1) generating attribute views, 2) extracting subtle but crucial details, and 3) exploiting valued view pairs for learning, to fully unlock the pre-training potential. Extensive experiments show that TaCo surpasses the supervised counterparts and advances the state-of-the-art remarkably on multiple attribute recognition tasks. Online services of TaCo will be made available.
翻訳日:2022-08-23 13:34:29 公開日:2022-08-22
# 仮想ロボットと実ロボットによる審美的自動タイムラプス写真生成

Aesthetics Driven Autonomous Time-Lapse Photography Generation by Virtual and Real Robots ( http://arxiv.org/abs/2208.10181v1 )

ライセンス: Link先を確認
Xiaobo Gao, Qi Kuang, Xin Jin, Bin Zhou, Boyan Dong, Xunyu Wang(参考訳) タイムラプス撮影は、短時間で時間の経過を反映し、視覚的魅力を強化することができるため、映画やプロモーション映画で使用される。 しかし、長時間を要し、安定した撮影を必要とするため、写真家にとって大きな課題である。 本稿では,仮想ロボットと実ロボットを用いたタイムラプス撮影システムを提案する。 ユーザがタイムラプスビデオを効率的に撮影するために,まず,タイムラプス撮影のパラメータ化を行い,パラメータ最適化手法を提案する。 異なるパラメータに対して、画像とビデオの美的品質評価ネットワークを含む異なる審美モデルを用いて最適なパラメータを生成する。 そして,ユーザがパラメータを閲覧・調整し,仮想ロボットを用いて3次元シーンで仮想撮影を行うためのタイムラプス写真インタフェースを提案する。 システムはパラメーターをエクスポートし、実際のロボットに提供することで、タイムラプスビデオを現実世界で撮影することができる。 また,タイムラプス映像の美的品質を自動的に評価できるタイムラプス写真美的評価手法を提案する。 実験結果から,本手法はタイムラプス映像を効率よく得ることが示された。 ユーザスタディも行っています。 その結果,本システムはプロの写真家と同様の効果を示し,より効率的であることがわかった。

Time-lapse photography is employed in movies and promotional films because it can reflect the passage of time in a short time and strengthen the visual attraction. However, since it takes a long time and requires the stable shooting, it is a great challenge for the photographer. In this article, we propose a time-lapse photography system with virtual and real robots. To help users shoot time-lapse videos efficiently, we first parameterize the time-lapse photography and propose a parameter optimization method. For different parameters, different aesthetic models, including image and video aesthetic quality assessment networks, are used to generate optimal parameters. Then we propose a time-lapse photography interface to facilitate users to view and adjust parameters and use virtual robots to conduct virtual photography in a three-dimensional scene. The system can also export the parameters and provide them to real robots so that the time-lapse videos can be filmed in the real world. In addition, we propose a time-lapse photography aesthetic assessment method that can automatically evaluate the aesthetic quality of time-lapse video. The experimental results show that our method can efficiently obtain the time-lapse videos. We also conduct a user study. The results show that our system has the similar effect as professional photographers and is more efficient.
翻訳日:2022-08-23 13:34:13 公開日:2022-08-22
# PoseBERT: 時間的3次元人体モデリングのためのジェネリックトランスフォーマーモジュール

PoseBERT: A Generic Transformer Module for Temporal 3D Human Modeling ( http://arxiv.org/abs/2208.10211v1 )

ライセンス: Link先を確認
Fabien Baradel, Romain Br\'egier, Thibault Groueix, Philippe Weinzaepfel, Yannis Kalantidis, Gr\'egory Rogez(参考訳) ビデオにおける人間のポーズ推定のための最先端モデルのトレーニングには、本当に難しくて高価なアノテーションを持つデータセットが必要である。 近年、トランスフォーマーはボディポーズシーケンスモデリングに利用されてきたが、関連する手法は擬似地下真理を利用して、そのようなモデルを学ぶのに利用可能な、現在限られたトレーニングデータを増やしている。 本稿では,3次元モーションキャプチャ(MoCap)データをマスクモデリングにより完全にトレーニングしたトランスフォーマーモジュールPoseBERTを紹介する。 シンプルで汎用的で汎用的で、任意のイメージベースモデルの上にプラグインして、時間情報を活用するビデオベースモデルに変換することができる。 全身(SMPL)と片手(MANO)の3次元パラメトリックモデルにおいて,3次元骨格キーポイントから3次元パラメトリックモデルへの異なる入力を持つPoseBERTの変種を紹介した。 PoseBERTトレーニングはタスクに依存しないため、モデルは微調整なしでポーズ修正、将来のポーズ予測、動作完了などのタスクに適用することができる。 実験結果から,PoseBERTを様々な最先端ポーズ推定手法上に付加することで,性能が常に向上する一方,計算コストの低さにより,ロボットハンドをウェブカメラでスムーズにアニメーション化するための実時間デモに使用することができることがわかった。 テストコードとモデルはhttps://github.com/naver/posebertで入手できる。

Training state-of-the-art models for human pose estimation in videos requires datasets with annotations that are really hard and expensive to obtain. Although transformers have been recently utilized for body pose sequence modeling, related methods rely on pseudo-ground truth to augment the currently limited training data available for learning such models. In this paper, we introduce PoseBERT, a transformer module that is fully trained on 3D Motion Capture (MoCap) data via masked modeling. It is simple, generic and versatile, as it can be plugged on top of any image-based model to transform it in a video-based model leveraging temporal information. We showcase variants of PoseBERT with different inputs varying from 3D skeleton keypoints to rotations of a 3D parametric model for either the full body (SMPL) or just the hands (MANO). Since PoseBERT training is task agnostic, the model can be applied to several tasks such as pose refinement, future pose prediction or motion completion without finetuning. Our experimental results validate that adding PoseBERT on top of various state-of-the-art pose estimation methods consistently improves their performances, while its low computational cost allows us to use it in a real-time demo for smoothly animating a robotic hand via a webcam. Test code and models are available at https://github.com/naver/posebert.
翻訳日:2022-08-23 13:33:54 公開日:2022-08-22
# PLMCL:マルチラベル画像分類のための部分ラベルモーメント学習

PLMCL: Partial-Label Momentum Curriculum Learning for Multi-Label Image Classification ( http://arxiv.org/abs/2208.09999v1 )

ライセンス: Link先を確認
Rabab Abdelfattah, Xin Zhang, Zhenyao Wu, Xinyi Wu, Xiaofeng Wang, and Song Wang(参考訳) マルチラベル画像分類は、画像内の全ての可能なラベルを予測することを目的としている。 訓練画像のすべてのラベルに注釈を付けるのにコストがかかるという事実から、通常は部分ラベル学習問題として定式化される。 既存の部分ラベル学習の研究は、各トレーニングイメージがラベルのサブセットのみでアノテートされた場合に焦点を当てている。 特別なケースは、各トレーニング画像に1つの正のラベルをアノテートすることである。 本稿では,アノテーションの負担をさらに軽減し,分類器の性能を向上させるために,訓練画像のサブセットのみをラベル付けし,それぞれに正のラベルを1つだけ付け,残りの部分をラベル付けしない,新たな部分ラベル設定を提案する。 この新たな設定を扱うために,PLMCL (Partial Label Momentum Curriculum Learning) というエンド・ツー・エンドのディープ・ネットワークを提案する。 この新しい運動量に基づく法は, 擬似ラベルの更新速度を考慮した各訓練画像のソフト擬似ラベルを更新することにより, 特に観測されたラベルの欠如と疑似ラベルの信頼性の欠如により, 信頼性の低い局所最小値へのトラッピングを回避する。 さらに,異なるラベルに対して適応的に学習を行うための信頼度対応スケジューラを提案する。 大規模実験により,提案するplmclは,3つの異なるデータセットの様々な部分ラベル設定において,最先端のマルチラベル分類手法に勝ることが証明された。

Multi-label image classification aims to predict all possible labels in an image. It is usually formulated as a partial-label learning problem, given the fact that it could be expensive in practice to annotate all labels in every training image. Existing works on partial-label learning focus on the case where each training image is annotated with only a subset of its labels. A special case is to annotate only one positive label in each training image. To further relieve the annotation burden and enhance the performance of the classifier, this paper proposes a new partial-label setting in which only a subset of the training images are labeled, each with only one positive label, while the rest of the training images remain unlabeled. To handle this new setting, we propose an end-to-end deep network, PLMCL (Partial Label Momentum Curriculum Learning), that can learn to produce confident pseudo labels for both partially-labeled and unlabeled training images. The novel momentum-based law updates soft pseudo labels on each training image with the consideration of the updating velocity of pseudo labels, which help avoid trapping to low-confidence local minimum, especially at the early stage of training in lack of both observed labels and confidence on pseudo labels. In addition, we present a confidence-aware scheduler to adaptively perform easy-to-hard learning for different labels. Extensive experiments demonstrate that our proposed PLMCL outperforms many state-of-the-art multi-label classification methods under various partial-label settings on three different datasets.
翻訳日:2022-08-23 13:30:59 公開日:2022-08-22
# 多様な大規模建物データセットと新しい建物抽出用プラグ・アンド・プレイドメイン一般化法

A diverse large-scale building dataset and a novel plug-and-play domain generalization method for building extraction ( http://arxiv.org/abs/2208.10004v1 )

ライセンス: Link先を確認
Muying Luo, Shunping Ji, Shiqing Wei(参考訳) 本稿では,新しい建物データセットを導入し,高分解能リモートセンシング画像からの建物抽出を容易にする新しいドメイン一般化手法を提案する。 現在のビルディングデータセットの問題点は、多様性が欠如していること、ラベルの品質が不十分であること、一般化能力の優れた建物抽出モデルのトレーニングにはあまり使われていないこと、実際のシーンでモデルの実際のパフォーマンスを適切に評価することである。 これらの問題を解決するために、whu-mix building datasetという、より実践指向の多様で大規模で高品質なビルディングデータセットを構築しました。 WHU-Mixビルディングデータセットは、世界中から収集された43,727の多様な画像を含むトレーニング/検証セットと、5大陸5都市からの8402の画像を含むテストセットで構成されている。 さらに,建物抽出モデルの一般化能力をさらに向上するため,建物抽出モデルのフロンドエンドに効率的なプラグアンドプレイモジュールとして組み込むことができる領域一般化手法であるバッチスタイル混合(BSM)を提案する。 本研究により, 建物抽出モデルの性能向上を図るため, WHU-Mixビルディングデータセットの可能性を確認し, 他の既存データセットと比較してmIoUが6~36%改善した。 他のデータセットにおける不正確なラベルの悪影響は、約20%のIoU減少を引き起こす可能性がある。 また,提案するbsmモジュールの性能は,13%のドメイン一般化のないベースラインモデルと,miouの最近のドメイン一般化法を4~15%上回って,モデルの一般化能力とロバスト性を高めることが確認された。

In this paper, we introduce a new building dataset and propose a novel domain generalization method to facilitate the development of building extraction from high-resolution remote sensing images. The problem with the current building datasets involves that they lack diversity, the quality of the labels is unsatisfactory, and they are hardly used to train a building extraction model with good generalization ability, so as to properly evaluate the real performance of a model in practical scenes. To address these issues, we built a diverse, large-scale, and high-quality building dataset named the WHU-Mix building dataset, which is more practice-oriented. The WHU-Mix building dataset consists of a training/validation set containing 43,727 diverse images collected from all over the world, and a test set containing 8402 images from five other cities on five continents. In addition, to further improve the generalization ability of a building extraction model, we propose a domain generalization method named batch style mixing (BSM), which can be embedded as an efficient plug-and-play module in the frond-end of a building extraction model, providing the model with a progressively larger data distribution to learn data-invariant knowledge. The experiments conducted in this study confirmed the potential of the WHU-Mix building dataset to improve the performance of a building extraction model, resulting in a 6-36% improvement in mIoU, compared to the other existing datasets. The adverse impact of the inaccurate labels in the other datasets can cause about 20% IoU decrease. The experiments also confirmed the high performance of the proposed BSM module in enhancing the generalization ability and robustness of a model, exceeding the baseline model without domain generalization by 13% and the recent domain generalization methods by 4-15% in mIoU.
翻訳日:2022-08-23 13:30:34 公開日:2022-08-22
# FairDisCo: 異方性学習による皮膚科におけるより公正なAI

FairDisCo: Fairer AI in Dermatology via Disentanglement Contrastive Learning ( http://arxiv.org/abs/2208.10013v1 )

ライセンス: Link先を確認
Siyi Du, Ben Hers, Nourhan Bayasi, Ghassan Hamarneh, Rafeef Garbi(参考訳) 深層学習モデルは皮膚病変の診断の自動化に成功している。 しかしながら、これらのモデルの予測における民族的格差は、通常、より暗い肌型の病変が不足し、診断精度が低く、ほとんど注目されない。 本稿では,FairDisCoを提案する。FairDisCoは,付加的なネットワークブランチを用いて,不公平性を表す表現からスキン型情報を除去し,特徴抽出を強化するための非干渉型深層学習フレームワークである。 皮膚タイプの異なる2つの皮膚病変データセット, fitzpatrick17k と various dermatology images (ddi) について,fairdisco を3つのフェアネス法,すなわち再サンプリング法,再強調法,属性認識法と比較した。 DPMとEOMの2つのフェアネス指標を多クラスに適用し,皮膚病変分類における皮膚型バイアスを強調した。 皮膚病変分類におけるFairDisCoの有効性について検討した。

Deep learning models have achieved great success in automating skin lesion diagnosis. However, the ethnic disparity in these models' predictions, where lesions on darker skin types are usually underrepresented and have lower diagnosis accuracy, receives little attention. In this paper, we propose FairDisCo, a disentanglement deep learning framework with contrastive learning that utilizes an additional network branch to remove sensitive attributes, i.e. skin-type information from representations for fairness and another contrastive branch to enhance feature extraction. We compare FairDisCo to three fairness methods, namely, resampling, reweighting, and attribute-aware, on two newly released skin lesion datasets with different skin types: Fitzpatrick17k and Diverse Dermatology Images (DDI). We adapt two fairness-based metrics DPM and EOM for our multiple classes and sensitive attributes task, highlighting the skin-type bias in skin lesion classification. Extensive experimental evaluation demonstrates the effectiveness of FairDisCo, with fairer and superior performance on skin lesion classification tasks.
翻訳日:2022-08-23 13:30:03 公開日:2022-08-22
# gcisg: 改良されたsyn-to-real一般化のための因果不変学習

GCISG: Guided Causal Invariant Learning for Improved Syn-to-real Generalization ( http://arxiv.org/abs/2208.10024v1 )

ライセンス: Link先を確認
Gilhyun Nam, Gyeongjae Choi, Kyungmin Lee(参考訳) 人工的なデータを用いたディープラーニングモデルのトレーニングは、トレーニングデータが不足している場合には代替になり得るが、大きなドメインギャップによる一般化性能の低下に悩まされる。 本稿では,データ生成のための因果フレームワークを用いて,ドメイン間隙を特徴付ける。 実データと合成データは共通のコンテンツ変数を持つが、異なるスタイル変数を持つと仮定する。 したがって、合成データセットでトレーニングされたモデルでは、ニュアサンススタイル変数を学習するため、一般化が不十分な場合がある。 そこで,本研究では,共変不変表現をモデルに学習させることを奨励する因果不変性学習を提案する。 さらに,実領域の意味的知識の破滅的な忘れを防止し,簡便かつ効果的な特徴蒸留法を提案する。 要約すると、本手法は、Syn-to-real Generalizationの性能を効果的に向上するガイド因果不変Syn-to-real Generalizationと呼ぶ。 提案手法の有効性を実証的に検証し,特に画像分類やセマンティクスセグメンテーションなどの視覚的シント・リアル領域一般化タスクにおいて最先端の手法を実現する。

Training a deep learning model with artificially generated data can be an alternative when training data are scarce, yet it suffers from poor generalization performance due to a large domain gap. In this paper, we characterize the domain gap by using a causal framework for data generation. We assume that the real and synthetic data have common content variables but different style variables. Thus, a model trained on synthetic dataset might have poor generalization as the model learns the nuisance style variables. To that end, we propose causal invariance learning which encourages the model to learn a style-invariant representation that enhances the syn-to-real generalization. Furthermore, we propose a simple yet effective feature distillation method that prevents catastrophic forgetting of semantic knowledge of the real domain. In sum, we refer to our method as Guided Causal Invariant Syn-to-real Generalization that effectively improves the performance of syn-to-real generalization. We empirically verify the validity of proposed methods, and especially, our method achieves state-of-the-art on visual syn-to-real domain generalization tasks such as image classification and semantic segmentation.
翻訳日:2022-08-23 13:29:43 公開日:2022-08-22
# マルチカメラ3Dオブジェクト検出のための簡易ベースライン

A Simple Baseline for Multi-Camera 3D Object Detection ( http://arxiv.org/abs/2208.10035v1 )

ライセンス: Link先を確認
Yunpeng Zhang, Wenzhao Zheng, Zheng Zhu, Guan Huang, Jie Zhou, Jiwen Lu(参考訳) 周囲カメラによる3d物体検出は、自動運転にとって有望な方向だった。 本稿では,マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。 多視点情報と従来のモノクロ3Dオブジェクト検出への取り組みを構築するため、このフレームワークはサンプルワイドオブジェクトの提案に基づいて構築され、2段階的に動作するように設計されている。 まず,複数の特徴を抽出し,各単眼画像に対する視点オブジェクトの提案を生成する。 次に、マルチビューの提案を集約し、detr3dスタイルのマルチビューとマルチスケールのビジュアル機能で反復的に洗練する。 改良された提案は、エンドツーエンドで検出結果にデコードされる。 性能をさらに向上するため,提案生成と共に補助枝を組み込んで特徴学習を強化する。 また,2段階学習の一貫性を促進するために,目標フィルタリングと教師強制の方法も設計する。 nuScenesの3次元オブジェクト検出ベンチマークにおいて、SimMODの有効性を実証し、新しい最先端性能を実現するために広範囲にわたる実験を行った。 コードはhttps://github.com/zhangyp15/SimMOD.comで入手できる。

3D object detection with surrounding cameras has been a promising direction for autonomous driving. In this paper, we present SimMOD, a Simple baseline for Multi-camera Object Detection, to solve the problem. To incorporate multi-view information as well as build upon previous efforts on monocular 3D object detection, the framework is built on sample-wise object proposals and designed to work in a two-stage manner. First, we extract multi-scale features and generate the perspective object proposals on each monocular image. Second, the multi-view proposals are aggregated and then iteratively refined with multi-view and multi-scale visual features in the DETR3D-style. The refined proposals are end-to-end decoded into the detection results. To further boost the performance, we incorporate the auxiliary branches alongside the proposal generation to enhance the feature learning. Also, we design the methods of target filtering and teacher forcing to promote the consistency of two-stage training. We conduct extensive experiments on the 3D object detection benchmark of nuScenes to demonstrate the effectiveness of SimMOD and achieve new state-of-the-art performance. Code will be available at https://github.com/zhangyp15/SimMOD.
翻訳日:2022-08-23 13:29:24 公開日:2022-08-22
# 長期学習のための分布オーバーラップ係数を用いた校正ハイパー球表現に向けて

Towards Calibrated Hyper-Sphere Representation via Distribution Overlap Coefficient for Long-tailed Learning ( http://arxiv.org/abs/2208.10043v1 )

ライセンス: Link先を確認
Hualiang Wang, Siming Fu, Xiaoxuan He, Hangxiang Fang, Zuozhu Liu, Haoji Hu(参考訳) ロングテール学習は、実世界のシナリオにおける厳しいクラス不均衡の下で、ヘッドクラスがトレーニング手順を支配する重要な課題に取り組むことを目的としている。 しかし、表現空間におけるヘッドクラスの優位度を定量化する方法についてはほとんど注目されていない。 これにより,コサインに基づく分類器を,分布重なり係数を計算することで,超球面上での表現品質を定量的に測定できるvMF分類器(von Mises-Fisher)混合モデルに一般化する。 我々の知る限り、これは分布重なり係数の観点から分類器と特徴の表現品質を測定する最初の研究である。 さらに,分類器重み間の干渉を緩和し,分類器重みと整合性を持たせるために,クラス間差分とクラス間整合損失項を定式化する。 さらに, クラス間重なり係数を用いて, 性能をゼロコストで向上させる手法を考案した。 提案手法は,画像分類,セマンティックセグメンテーション,インスタンスセグメンテーションタスク(例えば,ImageNet-LTのResNetXt-50で55.0\%の精度を達成)において,従来よりも優れた性能を実現している。 私たちのコードはhttps://github.com/vipailab/vmf\_opで利用可能です。

Long-tailed learning aims to tackle the crucial challenge that head classes dominate the training procedure under severe class imbalance in real-world scenarios. However, little attention has been given to how to quantify the dominance severity of head classes in the representation space. Motivated by this, we generalize the cosine-based classifiers to a von Mises-Fisher (vMF) mixture model, denoted as vMF classifier, which enables to quantitatively measure representation quality upon the hyper-sphere space via calculating distribution overlap coefficient. To our knowledge, this is the first work to measure representation quality of classifiers and features from the perspective of distribution overlap coefficient. On top of it, we formulate the inter-class discrepancy and class-feature consistency loss terms to alleviate the interference among the classifier weights and align features with classifier weights. Furthermore, a novel post-training calibration algorithm is devised to zero-costly boost the performance via inter-class overlap coefficients. Our method outperforms previous work with a large margin and achieves state-of-the-art performance on long-tailed image classification, semantic segmentation, and instance segmentation tasks (e.g., we achieve 55.0\% overall accuracy with ResNetXt-50 in ImageNet-LT). Our code is available at https://github.com/VipaiLab/vMF\_OP.
翻訳日:2022-08-23 13:29:06 公開日:2022-08-22
# 視覚テクスチャ認識のための多層深層特徴抽出

Multilayer deep feature extraction for visual texture recognition ( http://arxiv.org/abs/2208.10044v1 )

ライセンス: Link先を確認
Lucas O. Lyra, Antonio Elias Fabris, Joao B. Florindo(参考訳) 畳み込みニューラルネットワークは、人間のレベルよりも優れたリアルタイム結果を達成する画像分類に成功している。 しかし、テクスチャ画像は、これらの画像が現れるいくつかの問題におけるトレーニング用データの可用性の制限、クラス間の類似度の高さ、表現対象のグローバルな視点の欠如など、これらのモデルにはまだいくつかの課題がある。 本稿では,テクスチャ分類における畳み込みニューラルネットワークの精度向上に着目した。 これは、事前学習されたニューラルネットワークの複数の畳み込み層から特徴を抽出し、フィッシャーベクトルを用いてそれらの特徴を集約することで行われる。 初期の畳み込み層から機能を利用する理由はドメイン固有でない情報を得るためである。 ブラジルの植物種同定の実践的課題として,ベンチマークデータセットのテクスチャ分類における本手法の有効性を検証する。 どちらのシナリオにおいても、複数の層で計算されたフィッシャーベクトルは最先端の手法よりも優れており、初期の畳み込み層は分類のためのテクスチャイメージに関する重要な情報を提供する。

Convolutional neural networks have shown successful results in image classification achieving real-time results superior to the human level. However, texture images still pose some challenge to these models due, for example, to the limited availability of data for training in several problems where these images appear, high inter-class similarity, the absence of a global viewpoint of the object represented, and others. In this context, the present paper is focused on improving the accuracy of convolutional neural networks in texture classification. This is done by extracting features from multiple convolutional layers of a pretrained neural network and aggregating such features using Fisher vector. The reason for using features from earlier convolutional layers is obtaining information that is less domain specific. We verify the effectiveness of our method on texture classification of benchmark datasets, as well as on a practical task of Brazilian plant species identification. In both scenarios, Fisher vectors calculated on multiple layers outperform state-of-art methods, confirming that early convolutional layers provide important information about the texture image for classification.
翻訳日:2022-08-23 13:28:37 公開日:2022-08-22
# 参照限定合成ゼロショット学習

Reference-Limited Compositional Zero-Shot Learning ( http://arxiv.org/abs/2208.10046v1 )

ライセンス: Link先を確認
Siteng Huang, Qiyao Wei, Donglin Wang(参考訳) compositional zero-shot learning (czsl)とは、人工知能システムが世界を学習し理解するための必須の能力である、既知の視覚プリミティブの未熟な構成を認識することを指す。 既存のベンチマークではかなりの進歩があったが、一般的なCZSL手法は、実世界の見えない環境での学習において一般的である、少数ショットと少数参照合成の課題に対処できるかどうかを疑っている。 そこで,本論文では,少数のサンプルのみを含む限定的構成を基準とし,観察された原始物の見当たらない構成を同定し,難解な参照限定合成ゼロショット学習(rl-czsl)問題について検討する。 本稿では,不十分な参照情報から効率的に構成性を学習し,未知の合成に一般化できるメタ合成グラフ学習器(metacgl)を提案する。 さらに、多様な合成ラベルを持つ自然画像からなる2つの新しい大規模データセットでベンチマークを構築し、rl-czslのより現実的な環境を提供します。 評価実験の結果,提案手法は,参照が作曲学習に限られている場合の未知の合成を認識できる。

Compositional zero-shot learning (CZSL) refers to recognizing unseen compositions of known visual primitives, which is an essential ability for artificial intelligence systems to learn and understand the world. While considerable progress has been made on existing benchmarks, we suspect whether popular CZSL methods can address the challenges of few-shot and few referential compositions, which is common when learning in real-world unseen environments. To this end, we study the challenging reference-limited compositional zero-shot learning (RL-CZSL) problem in this paper, i.e. , given limited seen compositions that contain only a few samples as reference, unseen compositions of observed primitives should be identified. We propose a novel Meta Compositional Graph Learner (MetaCGL) that can efficiently learn the compositionality from insufficient referential information and generalize to unseen compositions. Besides, we build a benchmark with two new large-scale datasets that consist of natural images with diverse compositional labels, providing more realistic environments for RL-CZSL. Extensive experiments in the benchmarks show that our method achieves state-of-the-art performance in recognizing unseen compositions when reference is limited for compositional learning.
翻訳日:2022-08-23 13:28:17 公開日:2022-08-22
# Minkowski Tracker: 連続物体検出・追跡のためのスパース時空間R-CNN

Minkowski Tracker: A Sparse Spatio-Temporal R-CNN for Joint Object Detection and Tracking ( http://arxiv.org/abs/2208.10056v1 )

ライセンス: Link先を確認
JunYoung Gwak, Silvio Savarese, Jeannette Bohg(参考訳) マルチタスク学習の最近の研究は、単一のニューラルネットワークで関連する問題を解決する利点を明らかにしている。 3Dオブジェクト検出とマルチオブジェクト追跡(MOT)は、時間を通してオブジェクトインスタンスの位置を予測し、関連付ける2つの非常に絡み合った問題である。 しかし、3D MOTの以前の研究のほとんどは、検出器を前もって分離したパイプラインとして扱い、検出器の出力をトラッカーへの入力とする。 本研究では,オブジェクト検出と追跡を協調的に解決するスパース時空間R-CNNであるMinkowski Trackerを提案する。 地域ベースのCNN(R-CNN)に着想を得て、トラックへの割り当て確率を予測するオブジェクト検出器R-CNNの第2段階として、トラッキングを解決することを提案する。 まず、minkowski trackerは4dポイントクラウドを入力として、4dスパース畳み込みエンコーダネットワークを介して時空間バードズ・アイビュー(bev)特徴マップを生成する。 そして、提案したTrackAlignは、BEV機能からトラックエリア(ROI)機能を集約する。 最後に、Minkowski TrackerはROI特徴から予測される検出-トラック一致確率に基づいて、トラックとその信頼性スコアを更新する。 大規模実験の結果,提案手法の性能向上には4つの要因があることがわかった。 1. 4Dエンコーダの時間的推論による検出性能の向上 2. 物体検出とMOTのマルチタスク学習は相互に強化する 3. トラック間マッチングスコアは、暗黙の動きモデルを学び、トラック割り当てを強化する 4. トラック一致点の検出はトラック信頼点の品質を向上させる。 その結果、Minkowski Trackerは手動モデルなしでNuscenesデータセット追跡タスクの最先端のパフォーマンスを達成した。

Recent research in multi-task learning reveals the benefit of solving related problems in a single neural network. 3D object detection and multi-object tracking (MOT) are two heavily intertwined problems predicting and associating an object instance location across time. However, most previous works in 3D MOT treat the detector as a preceding separated pipeline, disjointly taking the output of the detector as an input to the tracker. In this work, we present Minkowski Tracker, a sparse spatio-temporal R-CNN that jointly solves object detection and tracking. Inspired by region-based CNN (R-CNN), we propose to solve tracking as a second stage of the object detector R-CNN that predicts assignment probability to tracks. First, Minkowski Tracker takes 4D point clouds as input to generate a spatio-temporal Bird's-eye-view (BEV) feature map through a 4D sparse convolutional encoder network. Then, our proposed TrackAlign aggregates the track region-of-interest (ROI) features from the BEV features. Finally, Minkowski Tracker updates the track and its confidence score based on the detection-to-track match probability predicted from the ROI features. We show in large-scale experiments that the overall performance gain of our method is due to four factors: 1. The temporal reasoning of the 4D encoder improves the detection performance 2. The multi-task learning of object detection and MOT jointly enhances each other 3. The detection-to-track match score learns implicit motion model to enhance track assignment 4. The detection-to-track match score improves the quality of the track confidence score. As a result, Minkowski Tracker achieved the state-of-the-art performance on Nuscenes dataset tracking task without hand-designed motion models.
翻訳日:2022-08-23 13:27:54 公開日:2022-08-22
# 転送学習と位相データ解析を用いた対話語抽出

Dialogue Term Extraction using Transfer Learning and Topological Data Analysis ( http://arxiv.org/abs/2208.10448v1 )

ライセンス: Link先を確認
Renato Vukovic, Michael Heck, Benjamin Matthias Ruppik, Carel van Niekerk, Marcus Zibrowius, Milica Ga\v{s}i\'c(参考訳) 目標指向対話システムは元々、ユーザが問い合わせ、さらにドメイン、スロット、値によって記述できる固定されたエンティティのデータセットに対する自然な言語インターフェースとして設計されていた。 ドメイン、スロット、値に関する知識が変化しうる適応可能な対話システムへと進むにつれ、これらの用語を生の対話や関連する非対話データから大規模に抽出する必要性が高まっている。 本稿では,対話におけるドメイン,スロット,値の実現を,純粋にデータ駆動方式で検出できるさまざまな機能を検討することで,この方向への重要な一歩を踏み出します。 私たちが調査する機能は、単語埋め込み、言語モデリング機能、および単語埋め込み空間の位相的特徴に由来する。 各機能セットの有用性を調べるために、広く使われているマルチウォズデータセットに基づいたシードモデルをトレーニングする。 次に、このモデルを別のコーパスであるSchema-Guided Dialogueデータセットに適用する。 提案手法は, 単語埋め込みのみに依存するアプローチよりも優れている。 また、それぞれの機能が異なる種類のコンテンツを発見する責任があることも示しています。 我々は、オントロジーの誘導に向けたさらなる研究が保証され、対話や自然言語処理の研究にトポロジデータ分析の活用が継続されていると信じている。

Goal oriented dialogue systems were originally designed as a natural language interface to a fixed data-set of entities that users might inquire about, further described by domain, slots, and values. As we move towards adaptable dialogue systems where knowledge about domains, slots, and values may change, there is an increasing need to automatically extract these terms from raw dialogues or related non-dialogue data on a large scale. In this paper, we take an important step in this direction by exploring different features that can enable systems to discover realizations of domains, slots, and values in dialogues in a purely data-driven fashion. The features that we examine stem from word embeddings, language modelling features, as well as topological features of the word embedding space. To examine the utility of each feature set, we train a seed model based on the widely used MultiWOZ data-set. Then, we apply this model to a different corpus, the Schema-Guided Dialogue data-set. Our method outperforms the previously proposed approach that relies solely on word embeddings. We also demonstrate that each of the features is responsible for discovering different kinds of content. We believe our results warrant further research towards ontology induction, and continued harnessing of topological data analysis for dialogue and natural language processing research.
翻訳日:2022-08-23 13:13:05 公開日:2022-08-22
# コンペティションゲームにおける強化学習におけるコンペティタリーの活用

Incorporating Rivalry in Reinforcement Learning for a Competitive Game ( http://arxiv.org/abs/2208.10327v1 )

ライセンス: Link先を確認
Pablo Barros, Ozge Nilay Yalc{\i}n, Ana Tanevska, Alessandra Sciutti(参考訳) 近年のソーシャルエージェントによる強化学習の進歩により、特定のインタラクションタスクにおいて人間レベルのパフォーマンスを達成することが可能になった。 しかしながら、ほとんどの対話的なシナリオは最終目標としてバージョンのみを持っておらず、その代わりに、人間と対話する際のこれらのエージェントの社会的影響は重要であり、ほとんど解明されていない。 そこで本研究では,競争行動の社会的影響に基づく新しい強化学習機構を提案する。 提案モデルでは, 人工エージェントの学習を調節するための競合スコアを導出するために, 客観的, 社会的認知的メカニズムを集約する。 提案モデルについて検討するために,Chef's Hat Card Gameを用いた対話型ゲームシナリオを設計し,エージェントのプレイスタイルの変化と,ゲームにおける人間のプレイ体験に与える影響について検討する。 以上の結果から,人間は,他のエージェントと対戦する際に特定の社会的特徴を検知できることが明らかとなった。 我々は, 人為的競争スコアを構成する異なる社会的特徴と客観的特徴が, 結果にどのように寄与するかについて議論し, 本研究を締めくくった。

Recent advances in reinforcement learning with social agents have allowed such models to achieve human-level performance on specific interaction tasks. However, most interactive scenarios do not have a version alone as an end goal; instead, the social impact of these agents when interacting with humans is as important and largely unexplored. In this regard, this work proposes a novel reinforcement learning mechanism based on the social impact of rivalry behavior. Our proposed model aggregates objective and social perception mechanisms to derive a rivalry score that is used to modulate the learning of artificial agents. To investigate our proposed model, we design an interactive game scenario, using the Chef's Hat Card Game, and examine how the rivalry modulation changes the agent's playing style, and how this impacts the experience of human players in the game. Our results show that humans can detect specific social characteristics when playing against rival agents when compared to common agents, which directly affects the performance of the human players in subsequent games. We conclude our work by discussing how the different social and objective features that compose the artificial rivalry score contribute to our results.
翻訳日:2022-08-23 13:11:36 公開日:2022-08-22
# 細粒化エンティティタイピングのためのタイプエンリッチ階層的コントラスト戦略

Type-enriched Hierarchical Contrastive Strategy for Fine-Grained Entity Typing ( http://arxiv.org/abs/2208.10081v1 )

ライセンス: Link先を確認
Xinyu Zuo, Haijin Liang, Ning Jing, Shuang Zeng, Zhou Fang and Yu Luo(参考訳) きめ細かいエンティティ型付け(FET)は、テキストで言及されるエンティティの特定の意味型を推論することを目的としている。 FETの現代的な方法は、主に特定の型がどのように見えるかを学ぶことに焦点を当てている。 そして、型の違いを直接モデル化する作業はほとんどなく、ある型が他と異なる範囲をモデルに知らせる。 この問題を軽減するため,FETのための階層型コントラスト戦略を提案する。 本手法は階層型間の差異を直接モデル化し,多面的類似型を識別する能力を向上させる。 一方、型情報を直接認識できるように、型をエンティティコンテキストに埋め込む。 一方、階層構造上に制約付きコントラスト戦略を設計し、型の違いを直接モデル化し、異なる粒度の型間の区別性を同時に知覚する。 BBN, OntoNotes, FIGER の3つのベンチマークによる実験結果から,本手法がFET上で有意な性能を発揮することを示す。

Fine-grained entity typing (FET) aims to deduce specific semantic types of the entity mentions in text. Modern methods for FET mainly focus on learning what a certain type looks like. And few works directly model the type differences, that is, let models know the extent that one type is different from others. To alleviate this problem, we propose a type-enriched hierarchical contrastive strategy for FET. Our method can directly model the differences between hierarchical types and improve the ability to distinguish multi-grained similar types. On the one hand, we embed type into entity contexts to make type information directly perceptible. On the other hand, we design a constrained contrastive strategy on the hierarchical structure to directly model the type differences, which can simultaneously perceive the distinguishability between types at different granularity. Experimental results on three benchmarks, BBN, OntoNotes, and FIGER show that our method achieves significant performance on FET by effectively modeling type differences.
翻訳日:2022-08-23 13:05:39 公開日:2022-08-22
# Text-to-SQLの最近の進歩 - 私たちが持っているもの、期待するものについての調査

Recent Advances in Text-to-SQL: A Survey of What We Have and What We Expect ( http://arxiv.org/abs/2208.10099v1 )

ライセンス: Link先を確認
Naihao Deng, Yulong Chen, Yue Zhang(参考訳) Text-to-SQLは、自然言語のセマンティクスをSQLクエリに変換する能力と、自然言語インターフェイスをデータベースシステムに構築する実践的応用によって、自然言語処理とデータベースコミュニティの両方から注目を集めている。 テキストからsqlへの大きな課題は、自然発話の意味をエンコードし、sqlクエリにデコードし、これら2つの形式間の意味を翻訳することにある。 これらの課題は、最近の進歩によって異なる程度に対処されてきた。 しかし、このタスクには包括的調査の欠如が残っている。 この目的のために,データセット,手法,評価のためのテキストからsqlへの最近の進歩を概観し,この体系的な調査を行い,上記の課題に取り組み,今後の方向性について検討する。 この調査が,既存の作業への迅速なアクセスと将来の研究のモチベーションに役立てられることを期待しています。

Text-to-SQL has attracted attention from both the natural language processing and database communities because of its ability to convert the semantics in natural language into SQL queries and its practical application in building natural language interfaces to database systems. The major challenges in text-to-SQL lie in encoding the meaning of natural utterances, decoding to SQL queries, and translating the semantics between these two forms. These challenges have been addressed to different extents by the recent advances. However, there is still a lack of comprehensive surveys for this task. To this end, we review recent progress on text-to-SQL for datasets, methods, and evaluation and provide this systematic survey, addressing the aforementioned challenges and discussing potential future directions. We hope that this survey can serve as quick access to existing work and motivate future research.
翻訳日:2022-08-23 13:05:22 公開日:2022-08-22
# PANDA: Prompt Transferは効率的なモデル適応のための知識蒸留と出会う

PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation ( http://arxiv.org/abs/2208.10160v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du and Dacheng Tao(参考訳) 事前学習された言語モデル(plm)を凍結し、追加のソフトプロンプトのパラメータを微調整するプロンプトチューニングは、plmが数十億のパラメータを持つ場合でも、フルパラメータの微調整(すなわちモデルチューニング)に対する競合性能を示すが、小さなplmの場合でもパフォーマンスは低い。 したがって、ターゲットプロンプトを同じソースタスクのトレーニングされたプロンプトで初期化するプロンプト転送(pot)が、プロンプトチューニングを改善するために最近提案されている。 しかしながら、そのようなバニラPoTアプローチは、通常、準最適性能を達成する。 i)PoTは、ソースターゲット対の類似性に敏感であり、 (ii) 対象タスクのソースプロンプトで初期化されたプロンプトを直接微調整することは、ソース知識を壊滅的に忘れてしまう可能性がある。 これらの問題に対応するため、我々は、転送可能性(無視)を正確に予測する新しい指標を提案する。 (i)と、知識蒸留技術を利用して、ソースプロンプトからターゲットプロンプトへの「知識」を微妙な方法で伝達し、破滅的な忘れ物(注意)を効果的に緩和する新規なポットアプローチ(パンダ) (ii) さらに,各ソースとターゲットのペアに対して適応的なプロンプト転送を実現するために,パンダ手法の知識伝達を制御するために,我々の測定値を使用する。 5スケールのplmにまたがる21のソースと9のターゲットデータセットの189の組合せに関する広範囲で体系的な実験が示す。 1) 提案手法は, 即時転送可能性の予測に有効である。 2) PANDAは,全てのタスクおよびモデルサイズにおいて,バニラPoTアプローチを2.3%(最大24.1%)上回っている。 3) PANDAアプローチでは,様々な PLM スケールのシナリオにおけるモデルチューニングよりも,プロンプトチューニングの方が競争力があり,パフォーマンスも向上する。 コードとモデルは受け入れ次第リリースされる。

Prompt-tuning, which freezes pretrained language models (PLMs) and only fine-tunes few parameters of additional soft prompt, shows competitive performance against full-parameter fine-tuning (i.e.model-tuning) when the PLM has billions of parameters, but still performs poorly in the case of smaller PLMs. Hence, prompt transfer (PoT), which initializes the target prompt with the trained prompt of similar source tasks, is recently proposed to improve over prompt-tuning. However, such a vanilla PoT approach usually achieves sub-optimal performance, as (i) the PoT is sensitive to the similarity of source-target pair and (ii) directly fine-tuning the prompt initialized with source prompt on target task might lead to catastrophic forgetting of source knowledge. In response to these problems, we propose a new metric to accurately predict the prompt transferability (regarding (i)), and a novel PoT approach (namely PANDA) that leverages the knowledge distillation technique to transfer the "knowledge" from the source prompt to the target prompt in a subtle manner and alleviate the catastrophic forgetting effectively (regarding (ii)). Furthermore, to achieve adaptive prompt transfer for each source-target pair, we use our metric to control the knowledge transfer in our PANDA approach. Extensive and systematic experiments on 189 combinations of 21 source and 9 target datasets across 5 scales of PLMs demonstrate that: 1) our proposed metric works well to predict the prompt transferability; 2) our PANDA consistently outperforms the vanilla PoT approach by 2.3% average score (up to 24.1%) among all tasks and model sizes; 3) with our PANDA approach, prompt-tuning can achieve competitive and even better performance than model-tuning in various PLM scales scenarios. Code and models will be released upon acceptance.
翻訳日:2022-08-23 13:05:09 公開日:2022-08-22
# Locate Then Ask:マルチホップ質問回答のためのステップワイズ推論

Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question Answering ( http://arxiv.org/abs/2208.10297v1 )

ライセンス: Link先を確認
Siyuan Wang, Zhongyu Wei, Zhihao Fan, Qi Zhang, Xuanjing Huang(参考訳) マルチホップ推論は、複雑な質問に答えるために複数の文書を集約する必要がある。 既存の手法は通常、説明可能な推論過程を図解する問題を解決するために、より単純な単一ホップ問題に分解する。 しかし、各推論ステップの支持事実に基づいて、不正確な分解を引き起こす傾向があることを無視する。 本稿では,各中間ステップにおいて,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込むための解釈可能な段階的推論フレームワークを提案する。 我々は中間ホップ推論と最終ホップ推論の両方に統一的なリーダモデルを採用し、より正確で堅牢なマルチホップ推論に共同最適化を採用する。 本稿では,HotpotQAと2WikiMultiHopQAの2つのベンチマークデータセットについて実験を行った。 その結果,本手法は性能を効果的に向上させると同時に,分解の監督を必要とせず,解釈可能な推論プロセスをもたらすことがわかった。

Multi-hop reasoning requires aggregating multiple documents to answer a complex question. Existing methods usually decompose the multi-hop question into simpler single-hop questions to solve the problem for illustrating the explainable reasoning process. However, they ignore grounding on the supporting facts of each reasoning step, which tends to generate inaccurate decompositions. In this paper, we propose an interpretable stepwise reasoning framework to incorporate both single-hop supporting sentence identification and single-hop question generation at each intermediate step, and utilize the inference of the current hop for the next until reasoning out the final result. We employ a unified reader model for both intermediate hop reasoning and final hop inference and adopt joint optimization for more accurate and robust multi-hop reasoning. We conduct experiments on two benchmark datasets HotpotQA and 2WikiMultiHopQA. The results show that our method can effectively boost performance and also yields a better interpretable reasoning process without decomposition supervision.
翻訳日:2022-08-23 13:04:34 公開日:2022-08-22
# サンスクリットにおける文脈感性複合型同定のための新しいマルチタスク学習手法

A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type Identification in Sanskrit ( http://arxiv.org/abs/2208.10310v1 )

ライセンス: Link先を確認
Jivnesh Sandhan, Ashish Gupta, Hrishikesh Terdalkar, Tushar Sandhan, Suvendu Samanta, Laxmidhar Behera and Pawan Goyal(参考訳) サンスクリットでは複合化現象が普遍的である。 思考の表現における簡潔さを達成するのに役立ち、同時に言語の語彙的・構造的構成も豊かにする。 本研究では,サンスクリット複合型識別(SaCTI)タスクに着目し,複合語の構成要素間の意味的関係を識別する問題を考察する。 以前のアプローチでは、コンポーネントから得られる語彙情報のみに依存しており、SaCTIに有用な最も重要な文脈情報や構文情報を無視していた。 しかし、SaCTIタスクは、主に複合コンポーネント間の暗黙的に符号化されたコンテキスト依存の意味関係のため、難しい。 そこで本研究では,文脈情報を取り込んで,形態素的タグ付けと係り受け解析を2つの補助タスクとして活用する,新しいマルチタスク学習アーキテクチャを提案する。 SaCTIのベンチマークデータセットの実験では、最先端システムと比較して6.1ポイント(精度)と7.7ポイント(F1スコア)の絶対ゲインを示している。 さらに,複数言語による実験により,提案手法の有効性が実証された。コードとデータセットはhttps://github.com/ashishgupta2598/sactiで公開されている。

The phenomenon of compounding is ubiquitous in Sanskrit. It serves for achieving brevity in expressing thoughts, while simultaneously enriching the lexical and structural formation of the language. In this work, we focus on the Sanskrit Compound Type Identification (SaCTI) task, where we consider the problem of identifying semantic relations between the components of a compound word. Earlier approaches solely rely on the lexical information obtained from the components and ignore the most crucial contextual and syntactic information useful for SaCTI. However, the SaCTI task is challenging primarily due to the implicitly encoded context-sensitive semantic relation between the compound components. Thus, we propose a novel multi-task learning architecture which incorporates the contextual information and enriches the complementary syntactic information using morphological tagging and dependency parsing as two auxiliary tasks. Experiments on the benchmark datasets for SaCTI show 6.1 points (Accuracy) and 7.7 points (F1-score) absolute gain compared to the state-of-the-art system. Further, our multi-lingual experiments demonstrate the efficacy of the proposed architecture in English and Marathi languages.The code and datasets are publicly available at https://github.com/ashishgupta2598/SaCTI
翻訳日:2022-08-23 13:04:18 公開日:2022-08-22
# バックドア型ニューラルネットワークの異常検出手法--顔認識を事例として

An anomaly detection approach for backdoored neural networks: face recognition as a case study ( http://arxiv.org/abs/2208.10231v1 )

ライセンス: Link先を確認
Alexander Unnervik and S\'ebastien Marcel(参考訳) バックドア攻撃により、攻撃者は任意のアルゴリズムや機械学習の適切な振る舞いを危険にさらす機能を組み込むことができる。 この隠れた機能は、攻撃者がアクティベートするまでアルゴリズムを正常に使用するためには動作しない。 バックドア攻撃がいかにステルスかを考えると、そのようなネットワークが境界やアクセス制御のように重要なアプリケーションにデプロイされる場合、これらのバックドアの結果は破滅的なものになる可能性がある。 本稿では,トレーニングデータとトレーニングネットワークのクリーンな部分へのアクセスを含む,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。 バックドアの性質やセットアップを前提にすることなく、さまざまなトリガー、場所、アイデンティティペアを考慮する際に、期待できる可能性を強調します。 提案手法をバックドア型ネットワークの新たなデータセット上でテストし,完全なスコアで検出性能を報告した。

Backdoor attacks allow an attacker to embed functionality jeopardizing proper behavior of any algorithm, machine learning or not. This hidden functionality can remain inactive for normal use of the algorithm until activated by the attacker. Given how stealthy backdoor attacks are, consequences of these backdoors could be disastrous if such networks were to be deployed for applications as critical as border or access control. In this paper, we propose a novel backdoored network detection method based on the principle of anomaly detection, involving access to the clean part of the training data and the trained network. We highlight its promising potential when considering various triggers, locations and identity pairs, without the need to make any assumptions on the nature of the backdoor and its setup. We test our method on a novel dataset of backdoored networks and report detectability results with perfect scores.
翻訳日:2022-08-23 13:01:08 公開日:2022-08-22
# 結束因子の同定と除去による胸部x線画像解析の最適化

Optimising Chest X-Rays for Image Analysis by Identifying and Removing Confounding Factors ( http://arxiv.org/abs/2208.10320v1 )

ライセンス: Link先を確認
Shahab Aslani, Watjana Lilaonitkul, Vaishnavi Gnanananthan, Divya Raj, Bojidar Rangelov, Alexandra L Young, Yipeng Hu, Paul Taylor, Daniel C Alexander, Joseph Jacob(参考訳) 新型コロナウイルス(COVID-19)のパンデミック(パンデミック)の間、新型コロナウイルス(COVID-19)の診断のための緊急設定で実施される画像の量は、臨床用CXRの取得が広範囲に及んだ。 この変化は、使用されるCXRプロジェクション、画像アノテーションの追加、および臨床画像の呼吸努力と回転の程度で見られる。 画像分析コミュニティは、新型コロナウイルスの自動診断アルゴリズムを開発することで、新型コロナウイルスの感染拡大に伴う放射線学部門の負担を軽減しようとしている。 新型コロナウイルスの診断のためのディープラーニングアルゴリズムを改善するために、大規模な公開可能なCXRデータセットが活用されている。 しかし、公開データセット内の臨床的に取得されたCXRの変動品質は、アルゴリズムのパフォーマンスに大きな影響を及ぼす可能性がある。 新型コロナウイルスの診断は、画像ラベルなどの画像上の非解剖学的特徴からアルゴリズムによって推測されることがある。 これらの画像ショートカットはデータセット固有のものであり、AIシステムの汎用性を制限する可能性がある。 したがって、CXR画像解析に先立つ重要な第一歩は、CXR画像の鍵電位バイアスの理解と修正である。 本研究では、新型コロナウイルスの胸部X線データセットを前処理し、望ましくないバイアスを取り除くための、シンプルで効果的なステップワイズアプローチを提案する。 それぞれのステップが与える影響を示すため,アブレーション研究を行う。 以上の結果から,提案パイプラインを用いることで,covid-19検出アルゴリズムの精度が最大13%向上する可能性が示唆された。

During the COVID-19 pandemic, the sheer volume of imaging performed in an emergency setting for COVID-19 diagnosis has resulted in a wide variability of clinical CXR acquisitions. This variation is seen in the CXR projections used, image annotations added and in the inspiratory effort and degree of rotation of clinical images. The image analysis community has attempted to ease the burden on overstretched radiology departments during the pandemic by developing automated COVID-19 diagnostic algorithms, the input for which has been CXR imaging. Large publicly available CXR datasets have been leveraged to improve deep learning algorithms for COVID-19 diagnosis. Yet the variable quality of clinically-acquired CXRs within publicly available datasets could have a profound effect on algorithm performance. COVID-19 diagnosis may be inferred by an algorithm from non-anatomical features on an image such as image labels. These imaging shortcuts may be dataset-specific and limit the generalisability of AI systems. Understanding and correcting key potential biases in CXR images is therefore an essential first step prior to CXR image analysis. In this study, we propose a simple and effective step-wise approach to pre-processing a COVID-19 chest X-ray dataset to remove undesired biases. We perform ablation studies to show the impact of each individual step. The results suggest that using our proposed pipeline could increase accuracy of the baseline COVID-19 detection algorithm by up to 13%.
翻訳日:2022-08-23 13:00:55 公開日:2022-08-22
# 生成モデルを用いたゼロサムマルコフゲームにおけるミニマックス最適マルチエージェントRL

Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a Generative Model ( http://arxiv.org/abs/2208.10458v1 )

ライセンス: Link先を確認
Gen Li, Yuejie Chi, Yuting Wei, Yuxin Chen(参考訳) 本稿では,マルチエージェント強化学習における最も基本的な設定である2人プレイのゼロサムマルコフゲームについて,nash平衡(ne)サンプル最適学習を目標とする。 以前の結果は、使用中のサンプリングプロトコルに関係なく、複数のエージェントの呪いと長い水平線の障壁という2つの障害の少なくとも1つに悩まされていた。 我々は、フレキシブルなサンプリング機構である生成モデルへのアクセスを前提として、この問題の解決に向けて一歩踏み出した。 非定常有限ホライゾンマルコフゲームに焦点をあてて、学習アルゴリズム $\mathsf{Nash}\text{-}\mathsf{Q}\text{-}\mathsf{FTRL}$ と、FTRL力学の下で特定の分解性を保証するボーナス項を微妙に設計した対数学習における最適化原理(特にFTRL法)を利用する適応型スケジューリングスキームを開発する。 アルゴリズムは$\varepsilon$-approximate markov neポリシーを$ \widetilde{o}\bigg( \frac{h^4 s(a+b)}{\varepsilon^2} \bigg)$$サンプルを用いて学習し、$s$は状態の数、$h$は地平線、$a$(resp.~$b$)はmax-playerのアクションの数を表す(resp.~min-player)。 これはミニマックスの意味ではほとんど改善できない。 その過程で、FTRLに対して、独立した関心を持つかもしれない分散型量の役割を明確にする、洗練された後悔境界を導出する。

This paper is concerned with two-player zero-sum Markov games -- arguably the most basic setting in multi-agent reinforcement learning -- with the goal of learning a Nash equilibrium (NE) sample-optimally. All prior results suffer from at least one of the two obstacles: the curse of multiple agents and the barrier of long horizon, regardless of the sampling protocol in use. We take a step towards settling this problem, assuming access to a flexible sampling mechanism: the generative model. Focusing on non-stationary finite-horizon Markov games, we develop a learning algorithm $\mathsf{Nash}\text{-}\mathsf{Q}\text{-}\mathsf{FTRL}$ and an adaptive sampling scheme that leverage the optimism principle in adversarial learning (particularly the Follow-the-Regularized-Leader (FTRL) method), with a delicate design of bonus terms that ensure certain decomposability under the FTRL dynamics. Our algorithm learns an $\varepsilon$-approximate Markov NE policy using $$ \widetilde{O}\bigg( \frac{H^4 S(A+B)}{\varepsilon^2} \bigg) $$ samples, where $S$ is the number of states, $H$ is the horizon, and $A$ (resp.~$B$) denotes the number of actions for the max-player (resp.~min-player). This is nearly un-improvable in a minimax sense. Along the way, we derive a refined regret bound for FTRL that makes explicit the role of variance-type quantities, which might be of independent interest.
翻訳日:2022-08-23 13:00:35 公開日:2022-08-22
# Minimax AUC Fairness: Provable Convergence を用いた効率的なアルゴリズム

Minimax AUC Fairness: Efficient Algorithm with Provable Convergence ( http://arxiv.org/abs/2208.10451v1 )

ライセンス: Link先を確認
Zhenhuan Yang, Yan Lok Ko, Kush R. Varshney, Yiming Ying(参考訳) 一連の意思決定における機械学習モデルの使用は、社会的不平等を悪化させ、特に人種や性別によって定義された限界グループのメンバーに異質な影響をもたらす。 ROC曲線(AUC)の下の領域は、機械学習におけるスコアリング関数の性能を評価するために広く使われているが、他のパフォーマンス指標よりもアルゴリズム的公正さで研究されている。 AUC の双対の性質のため、AUC に基づく群フェアネス計量を定義することはペア独立であり、 \emph{intra-group} と \emph{inter-group} AUC の両方を含むこともある。 重要なことは、AUCの1つのカテゴリだけを考えると、AUC最適化の不公平さを軽減するには不十分である。 本稿では,実用性を維持しつつグループ内およびグループ間aucsを組み込んだミニマックス学習・バイアス緩和フレームワークを提案する。 このrawlsianフレームワークに基づいて,効率的な確率最適化アルゴリズムを設計し,最小群レベル auc への収束を証明する。 我々は,ミニマックスフレームワークと提案アルゴリズムの有効性を検証するために,合成データセットと実世界のデータセットの数値実験を行った。

The use of machine learning models in consequential decision making often exacerbates societal inequity, in particular yielding disparate impact on members of marginalized groups defined by race and gender. The area under the ROC curve (AUC) is widely used to evaluate the performance of a scoring function in machine learning, but is studied in algorithmic fairness less than other performance metrics. Due to the pairwise nature of the AUC, defining an AUC-based group fairness metric is pairwise-dependent and may involve both \emph{intra-group} and \emph{inter-group} AUCs. Importantly, considering only one category of AUCs is not sufficient to mitigate unfairness in AUC optimization. In this paper, we propose a minimax learning and bias mitigation framework that incorporates both intra-group and inter-group AUCs while maintaining utility. Based on this Rawlsian framework, we design an efficient stochastic optimization algorithm and prove its convergence to the minimum group-level AUC. We conduct numerical experiments on both synthetic and real-world datasets to validate the effectiveness of the minimax framework and the proposed optimization algorithm.
翻訳日:2022-08-23 12:54:40 公開日:2022-08-22
# スケール不変過程回帰

Scale invariant process regression ( http://arxiv.org/abs/2208.10461v1 )

ライセンス: Link先を確認
Matthias Wieler(参考訳) ガウス過程は、中小のデータセットにおける非パラメトリック回帰の先導手法である。 主な課題は、カーネルの選択とハイパーパラメータの最適化である。 本稿では,カーネル,長さスケール,分散,事前平均の指定を必要としない新しい回帰手法を提案する。 その唯一の超パラメータは、真の関数の仮定された正則性(微分可能性の度数)である。 我々はこれを、翻訳とスケール不変性の最小の仮定から構築する新しい非ガウス確率過程によって達成する。 このプロセスは階層的なガウス過程モデルとみなすことができ、ハイパーパラメータはプロセス自体に組み込まれている。 このプロセスで推論を行うには,必要な数学的ツールを開発する。 補間では、後部はポリハーモニックスプラインを平均としたt過程であることが判明した。 回帰について、正確な後続を述べ、その平均値(例えばポリハーモニックスプライン)とサンプリング法との近似分散を求める。 実験は最適化されたハイパーパラメータを持つガウス過程と同等の性能を示す。 最も重要な洞察は、他のモデル仮定なしで、正規性とスケールおよび翻訳不変性のみを仮定することで、動作する機械学習手法を導出することができることである。

Gaussian processes are the leading method for non-parametric regression on small to medium datasets. One main challenge is the choice of kernel and optimization of hyperparameters. We propose a novel regression method that does not require specification of a kernel, length scale, variance, nor prior mean. Its only hyperparameter is the assumed regularity (degree of differentiability) of the true function. We achieve this with a novel non-Gaussian stochastic process that we construct from minimal assumptions of translation and scale invariance. The process can be thought of as a hierarchical Gaussian process model, where the hyperparameters have been incorporated into the process itself. To perform inference with this process we develop the required mathematical tools. It turns out that for interpolation, the posterior is a t-process with a polyharmonic spline as mean. For regression, we state the exact posterior and find its mean (again a polyharmonic spline) and approximate variance with a sampling method. Experiments show a performance equal to that of Gaussian processes with optimized hyperparameters. The most important insight is that it is possible to derive a working machine learning method by assuming nothing but regularity and scale- and translation invariance, without any other model assumptions.
翻訳日:2022-08-23 12:54:21 公開日:2022-08-22
# 低曲げ・低歪マニフォールド埋め込みの学習:理論と応用

Learning Low Bending and Low Distortion Manifold Embeddings: Theory and Applications ( http://arxiv.org/abs/2208.10193v1 )

ライセンス: Link先を確認
Juliane Braunsmann, Marko Rajkovi\'c, Martin Rumpf, Benedikt Wirth(参考訳) エンコーダとデコーダで構成されるオートエンコーダは、高次元データの次元削減に機械学習で広く利用されている。 エンコーダは入力データ多様体を低次元の潜在空間に埋め込み、デコーダは逆写像を表し、潜在空間における多様体によるデータ多様体のパラメトリゼーションを提供する。 組み込み多様体の適切な規則性と構造は、クラスタ分析やデータ補間のようなさらなるデータ処理タスクを実質的に単純化するかもしれない。 本稿では,オートエンコーダのエンコーダ成分を学習するための新しい正規化を提案し,解析する。 トレーニングを行うには、入力多様体上の近傍点のペアに対して、局所リーマン距離とその局所リーマン平均を評価することができると仮定する。 損失汎関数は、入力多様体上の点対に対する異なるサンプリング戦略を伴うモンテカルロ積分によって計算される。 我々の主定理は埋め込み写像の幾何損失汎函数をサンプリング依存損失汎函数の$\gamma$-limit として定義する。 与えられた異なるデータ多様体をエンコードする画像データを用いた数値実験では、滑らかな多様体を潜在空間に埋め込むことが示されている。 外部平坦性の促進により、これらの埋め込みは、多様体上のあまり遠くない点の間の補間が、潜在空間における線型補間によって十分近似されるような正則である。

Autoencoders, which consist of an encoder and a decoder, are widely used in machine learning for dimension reduction of high-dimensional data. The encoder embeds the input data manifold into a lower-dimensional latent space, while the decoder represents the inverse map, providing a parametrization of the data manifold by the manifold in latent space. A good regularity and structure of the embedded manifold may substantially simplify further data processing tasks such as cluster analysis or data interpolation. We propose and analyze a novel regularization for learning the encoder component of an autoencoder: a loss functional that prefers isometric, extrinsically flat embeddings and allows to train the encoder on its own. To perform the training it is assumed that for pairs of nearby points on the input manifold their local Riemannian distance and their local Riemannian average can be evaluated. The loss functional is computed via Monte Carlo integration with different sampling strategies for pairs of points on the input manifold. Our main theorem identifies a geometric loss functional of the embedding map as the $\Gamma$-limit of the sampling-dependent loss functionals. Numerical tests, using image data that encodes different explicitly given data manifolds, show that smooth manifold embeddings into latent space are obtained. Due to the promotion of extrinsic flatness, these embeddings are regular enough such that interpolation between not too distant points on the manifold is well approximated by linear interpolation in latent space as one possible postprocessing.
翻訳日:2022-08-23 12:52:34 公開日:2022-08-22
# BRIEFは強力: モデルセグメンテーションとセキュアクラスタリングによるビザンチン・ロバストとプライバシ保護フェデレーションラーニング

BRIEF but Powerful: Byzantine-Robust and Privacy-Preserving Federated Learning via Model Segmentation and Secure clustering ( http://arxiv.org/abs/2208.10161v1 )

ライセンス: Link先を確認
Rui Wang, Xingkai Wang, Huanhuan Chen, Stjepan Picek, Zhen Liu and Kaitai Liang(参考訳) byzantine-robust federated learning(fl)は、悪意のあるクライアントに対抗し、攻撃成功率が非常に低いまま正確なグローバルモデルをトレーニングすることを目的としている。 しかし、既存のシステムのほとんどは、正直で半正直な設定でのみ堅牢である。 FLTrust (NDSS '21)は、クライアントの悪意ある多数派にコンテキストを拡張しているが、悪意のある入力をフィルタリングするために、トレーニング前にサーバに補助的なデータセットを提供することを強く制限している。 Private FLAME/FLGUARD (USENIX '22) は、半正直な多数派コンテキストにおける堅牢性と機密性の更新の両方を保証するソリューションを提供する。 悪意のあるコンテキスト、堅牢性、機密性の更新のトレードオフのバランスをとることは、今のところ不可能です。 この問題に対処するため,サーバ側とクライアント側で悪意あるマイノリティと多数を占めるBRIEF(Byzantine-robust and privacy-serving FL)システムを提案する。 具体的には,DBSCANアルゴリズムに基づいて,クラスタリング結果の精度を高めるために,ペア調整されたコサイン類似性によるクラスタリングの新しい手法を設計する。 悪意のある多数派の攻撃を防ぐために,同一クラスタ内のローカル更新を集約し,アグリゲーションを対応するクライアントに正しく送信する,Model Segmentationというアルゴリズムを開発した。 また、複数の暗号化ツールを使用して、トレーニングの正確性と機密性を犠牲にすることなく、クラスタリングタスクを実行します。 本稿では,詳細なセキュリティ証明と経験的評価と収束解析について述べる。 実験の結果, BRIEFの試験精度はFLベースライン(平均0.8%)にほぼ近いことがわかった。 同時に、攻撃成功率は約0%-5%である。 さらに、通信オーバーヘッドとランタイムをそれぞれ67%-89.17%、66.05%-68.75%に削減できるように設計を最適化します。

Byzantine-robust Federated Learning (FL) aims to counter malicious clients and to train an accurate global model while maintaining an extremely low attack success rate. Most of the existing systems, however, are only robust in honest/semi-honest majority settings. FLTrust (NDSS '21) extends the context to the malicious majority for clients but with a strong restriction that the server should be provided with an auxiliary dataset before training in order to filter malicious inputs. Private FLAME/FLGUARD (USENIX '22) gives a solution to guarantee both robustness and updates confidentiality in the semi-honest majority context. It is so far impossible to balance the trade-off among malicious context, robustness, and updates confidentiality. To tackle this problem, we propose a novel Byzantine-robust and privacy-preserving FL system, called BRIEF, to capture malicious minority and majority for server and client sides. Specifically, based on the DBSCAN algorithm, we design a new method for clustering via pairwise adjusted cosine similarity to boost the accuracy of the clustering results. To thwart attacks of malicious majority, we develop an algorithm called Model Segmentation, where local updates in the same cluster are aggregated together, and the aggregations are sent back to corresponding clients correctly. We also leverage multiple cryptographic tools to conduct clustering tasks without sacrificing training correctness and updates confidentiality. We present detailed security proof and empirical evaluation along with convergence analysis for BRIEF. The experimental results demonstrate that the testing accuracy of BRIEF is practically close to the FL baseline (0.8% gap on average). At the same time, the attack success rate is around 0%-5%. We further optimize our design so that the communication overhead and runtime can be decreased by {67%-89.17% and 66.05%-68.75%}, respectively.
翻訳日:2022-08-23 12:48:34 公開日:2022-08-22
# 非巡回共役クエリの非効率PAC学習性について

On the non-efficient PAC learnability of acyclic conjunctive queries ( http://arxiv.org/abs/2208.10255v1 )

ライセンス: Link先を確認
Balder ten Cate, Maurice Funk, Jean Christoph Jung, Carsten Lutz(参考訳) このメモは3つの目的を果たす。 (i)この概念クラスが多項式サイズの適合性に欠けており、これは計算学習理論の文献の多くで暗黙的に想定されている性質である、という複雑な事実に注意を払いながら、結合的問合せがおそらくは正しい(pac)モデルでは効率的に学習できないという事実を自己完結した表現を提供する。 二) 連結クエリ(cqs)の多くの制限されたクラスに適用できる強い負のpac学習可能性(「非循環性」の幅広い概念に対する非循環的cqsを含む。)を確立する。 3) CQは, メンバーシップクエリで効率よくPACを学習可能であることを示す。

This note serves three purposes: (i) we provide a self-contained exposition of the fact that conjunctive queries are not efficiently learnable in the Probably-Approximately-Correct (PAC) model, paying clear attention to the complicating fact that this concept class lacks the polynomial-size fitting property, a property that is tacitly assumed in much of the computational learning theory literature; (ii) we establish a strong negative PAC learnability result that applies to many restricted classes of conjunctive queries (CQs), including acyclic CQs for a wide range of notions of "acyclicity"; (iii) we show that CQs are efficiently PAC learnable with membership queries.
翻訳日:2022-08-23 12:47:57 公開日:2022-08-22
# バイオメディカル応用のための教師付きオートエンコーダを用いた半教師付き分類

Semi-supervised classification using a supervised autoencoder for biomedical applications ( http://arxiv.org/abs/2208.10315v1 )

ライセンス: Link先を確認
Cyprien Gille, Frederic Guyard and Michel Barlaud(参考訳) 本稿では,バイオメディカル応用のための半教師付き分類タスクを,教師付きオートエンコーダネットワークを含む新しい手法を提案する。 我々は,ラベルをオートエンコーダの潜在空間にエンコードするネットワークアーキテクチャを作成し,分類と再構成損失を組み合わせたグローバル基準を定義する。 二重降下アルゴリズムを用いてラベル付きデータ上で,Semi-Supervised AutoEncoder (SSAE) を訓練する。 次に,各クラスに分類信頼度スコアを提供する潜在空間に適用したsoftmax分類器を用いて,学習ネットワークを用いてラベルなしサンプルを分類する。 モデル,オプティマイザ,スケジューラ,損失関数に対して,PyTorchフレームワークを用いてSSAE方式を実装した。 半教師付きオートエンコーダ法(SSAE)と,ラベル伝搬やラベル拡散などの古典的半教師付き手法,および完全連結ニューラルネットワーク(FCNN)を比較した。 実験の結果、SSAEは人工データセットと2つの実世界の生物学的データセットの両方で、ラベル伝搬と拡散とフル接続ニューラルネットワークを上回ります。

In this paper we present a new approach to solve semi-supervised classification tasks for biomedical applications, involving a supervised autoencoder network. We create a network architecture that encodes labels into the latent space of an autoencoder, and define a global criterion combining classification and reconstruction losses. We train the Semi-Supervised AutoEncoder (SSAE) on labelled data using a double descent algorithm. Then, we classify unlabelled samples using the learned network thanks to a softmax classifier applied to the latent space which provides a classification confidence score for each class. We implemented our SSAE method using the PyTorch framework for the model, optimizer, schedulers, and loss functions. We compare our semi-supervised autoencoder method (SSAE) with classical semi-supervised methods such as Label Propagation and Label Spreading, and with a Fully Connected Neural Network (FCNN). Experiments show that the SSAE outperforms Label Propagation and Spreading and the Fully Connected Neural Network both on a synthetic dataset and on two real-world biological datasets.
翻訳日:2022-08-23 12:47:21 公開日:2022-08-22
# データ駆動単一チャネル音源分離のための周期定常信号の時空間構造

Exploiting Temporal Structures of Cyclostationary Signals for Data-Driven Single-Channel Source Separation ( http://arxiv.org/abs/2208.10325v1 )

ライセンス: Link先を確認
Gary C.F. Lee, Amir Weiss, Alejandro Lancho, Jennifer Tang, Yuheng Bu, Yury Polyanskiy, Gregory W. Wornell(参考訳) 本稿では,scss(single-channel source separation)の問題について検討し,様々なアプリケーション領域において特に適するサイクロスタリー信号に着目した。 従来のSCSSアプローチとは異なり、ソースの例だけがモデルではなく利用できるような設定を考慮し、データ駆動アプローチを刺激します。 サイクロ定常ガウス成分を基礎とするソースモデルに対しては、任意の分離法、モデルベース、あるいはデータ駆動に対して達成可能な平均二乗誤差(MSE)の低い境界を確立する。 分析の結果,最適分離操作と関連する実装課題が明らかになった。 計算的に魅力的な代替手段として,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。 提案手法は,適切なドメインインフォームドアーキテクチャ選択により,計算負荷を大幅に削減して最適性能にアプローチできることをシミュレーションで示す。

We study the problem of single-channel source separation (SCSS), and focus on cyclostationary signals, which are particularly suitable in a variety of application domains. Unlike classical SCSS approaches, we consider a setting where only examples of the sources are available rather than their models, inspiring a data-driven approach. For source models with underlying cyclostationary Gaussian constituents, we establish a lower bound on the attainable mean squared error (MSE) for any separation method, model-based or data-driven. Our analysis further reveals the operation for optimal separation and the associated implementation challenges. As a computationally attractive alternative, we propose a deep learning approach using a U-Net architecture, which is competitive with the minimum MSE estimator. We demonstrate in simulation that, with suitable domain-informed architectural choices, our U-Net method can approach the optimal performance with substantially reduced computational burden.
翻訳日:2022-08-23 12:47:03 公開日:2022-08-22
# 大規模エンティティアライメントのための高品質タスク分割

High-quality Task Division for Large-scale Entity Alignment ( http://arxiv.org/abs/2208.10366v1 )

ライセンス: Link先を確認
Bing Liu, Wen Hua, Guido Zuccon, Genghong Zhao, Xia Zhang(参考訳) エンティティアライメント(EA)は、同じ現実世界のオブジェクトを参照し、知識グラフ(KG)融合の重要なステップである同等のエンティティをマッチングすることを目的としている。 ほとんどのニューラルEAモデルは、GPUメモリと時間の過剰消費のため、大規模な実生活KGには適用できない。 1つの有望な解決策は、大きなEAタスクを複数のサブタスクに分割し、各サブタスクは元のKGの2つの小さなサブグラフに一致する必要があることである。 しかし、効果を失うことなくEAタスクを分割することは困難である。 既存の手法では、潜在的なマッピングのカバレッジが低く、コンテキストグラフに十分な証拠がなく、サブタスクサイズが大きく異なる。 本研究では,高品質タスク分割を伴う大規模EAのためのDivEAフレームワークを設計する。 EAサブタスクに、本来大きなEAタスクに存在する潜在的なマッピングの比率を組み込むため、EAタスクの局所性原理と訓練されたEAモデルのパワーを生かした他の発見手法を考案する。 対応するディスカバリメソッドに特有ののは、潜在的なマッピングの可能性の明示的なモデリングです。 また,コンテキストエンティティの情報度を定量化するためのエビデンスパッシング機構を導入し,サブタスクサイズを柔軟に制御した,最も有益なコンテキストグラフを求める。 大規模な実験は、DivEAが代替最先端ソリューションよりも高いEAパフォーマンスを達成することを示している。

Entity Alignment (EA) aims to match equivalent entities that refer to the same real-world objects and is a key step for Knowledge Graph (KG) fusion. Most neural EA models cannot be applied to large-scale real-life KGs due to their excessive consumption of GPU memory and time. One promising solution is to divide a large EA task into several subtasks such that each subtask only needs to match two small subgraphs of the original KGs. However, it is challenging to divide the EA task without losing effectiveness. Existing methods display low coverage of potential mappings, insufficient evidence in context graphs, and largely differing subtask sizes. In this work, we design the DivEA framework for large-scale EA with high-quality task division. To include in the EA subtasks a high proportion of the potential mappings originally present in the large EA task, we devise a counterpart discovery method that exploits the locality principle of the EA task and the power of trained EA models. Unique to our counterpart discovery method is the explicit modelling of the chance of a potential mapping. We also introduce an evidence passing mechanism to quantify the informativeness of context entities and find the most informative context graphs with flexible control of the subtask size. Extensive experiments show that DivEA achieves higher EA performance than alternative state-of-the-art solutions.
翻訳日:2022-08-23 12:46:48 公開日:2022-08-22
# 運動ネットワークの定数

Constants of motion network ( http://arxiv.org/abs/2208.10387v1 )

ライセンス: Link先を確認
Muhammad Firmansyah Kasim, Yi Heng Lim(参考訳) 物理学の美しさは、常に変化する系において、運動定数として知られる保存量が存在することである。 運動の定数を見つけることはシステムの力学を理解する上で重要であるが、通常は数学的な習熟度と手動の分析作業を必要とする。 本稿では,システムのダイナミクスとデータから運動定数を同時に学習できるニューラルネットワークを提案する。 検出された運動定数を利用することで、ダイナミクスに関するより良い予測を導き、ハミルトニアンベースのニューラルネットワークよりも広い範囲のシステムに取り組むことができる。 さらに,本手法の訓練経過を,新しい物理系の研究に役立つシステムにおける運動定数の指標として用いることができる。

The beauty of physics is that there is usually a conserved quantity in an always-changing system, known as the constant of motion. Finding the constant of motion is important in understanding the dynamics of the system, but typically requires mathematical proficiency and manual analytical work. In this paper, we present a neural network that can simultaneously learn the dynamics of the system and the constants of motion from data. By exploiting the discovered constants of motion, it can produce better predictions on dynamics and can work on a wider range of systems than Hamiltonian-based neural networks. In addition, the training progresses of our method can be used as an indication of the number of constants of motion in a system which could be useful in studying a novel physical system.
翻訳日:2022-08-23 12:46:27 公開日:2022-08-22
# metafi:メタバースアバターシミュレーションのためのコモディティwifiを用いたデバイスフリーポーズ推定

MetaFi: Device-Free Pose Estimation via Commodity WiFi for Metaverse Avatar Simulation ( http://arxiv.org/abs/2208.10414v1 )

ライセンス: Link先を確認
Jianfei Yang, Yunjiao Zhou, He Huang, Han Zou, Lihua Xie(参考訳) アバター(Avatar)とは、仮想世界において、異なる活動に従事し、メタバースで他のオブジェクトと対話できる物理ユーザーの代表である。 アバターのシミュレーションには正確な人間のポーズ推定が必要である。 カメラベースのソリューションは優れたパフォーマンスをもたらすが、プライバシー問題に遭遇し、特にスマートホームにおいて様々な照明が原因でパフォーマンスが低下した。 本稿では、メタバースアバターシミュレーション、すなわちMetaFiのためのWiFiベースのIoT対応ヒューマンポーズ推定手法を提案する。 具体的には、ディープニューラルネットワークは、カスタマイズされた畳み込み層と残留ブロックで設計され、チャネル状態情報を人間のポーズランドマークにマップする。 正確なコンピュータビジョンモデルからアノテーションを学ぶことが義務付けられ、クロスモーダル監督を実現している。 WiFiはユビキタスで、照明にも頑丈で、スマートホームのアバターアプリケーションにとって実現可能なソリューションだ。 実験は現実世界で行われ、MetaFiは95.23%のPCK@50で非常に高い性能を達成している。

Avatar refers to a representative of a physical user in the virtual world that can engage in different activities and interact with other objects in metaverse. Simulating the avatar requires accurate human pose estimation. Though camera-based solutions yield remarkable performance, they encounter the privacy issue and degraded performance caused by varying illumination, especially in smart home. In this paper, we propose a WiFi-based IoT-enabled human pose estimation scheme for metaverse avatar simulation, namely MetaFi. Specifically, a deep neural network is designed with customized convolutional layers and residual blocks to map the channel state information to human pose landmarks. It is enforced to learn the annotations from the accurate computer vision model, thus achieving cross-modal supervision. WiFi is ubiquitous and robust to illumination, making it a feasible solution for avatar applications in smart home. The experiments are conducted in the real world, and the results show that the MetaFi achieves very high performance with a PCK@50 of 95.23%.
翻訳日:2022-08-23 12:41:12 公開日:2022-08-22
# 事前知識を用いた多目的パラメータ最適化のための効率的なユーティリティ関数学習

Efficient Utility Function Learning for Multi-Objective Parameter Optimization with Prior Knowledge ( http://arxiv.org/abs/2208.10300v1 )

ライセンス: Link先を確認
Farha A. Khan, J\"org P. Dietrich, Christian Wirth(参考訳) マルチオブジェクト最適化における現在の最先端は、与えられたユーティリティ関数を仮定し、インタラクティブにユーティリティ関数を学習するか、または完全なParetoフロントを決定しようとする。 しかしながら、実世界の問題における結果誘発は、しばしば暗黙的かつ明示的な専門家の知識に基づいているため、ユーティリティ関数の定義が困難である。 これを軽減するため、好み学習によって専門家の知識を用いて、オフラインでユーティリティ関数を学習する。 他の作品とは対照的に、結果の選好(pairwise)だけでなく、ユーティリティ関数空間に関する粗い情報も使用しています。 これにより、特に非常に少ない結果を使用する場合、ユーティリティ関数の推定を改善することができる。 さらに,ユーティリティ関数学習タスクにおける不確かさをモデル化し,最適化チェーン全体を通して伝達する。 ユーティリティ関数を学習する手法は,高品質な結果をもたらす一方で,専門家の関与を繰り返す必要をなくす。 本稿では,提案手法のサンプル効率と品質向上を4つの領域で示し,特にサーロゲートユーティリティ関数が真のエキスパートユーティリティ関数を正確に捉えることができない場合について述べる。 また, 良好な結果を得るには, 誘導不確実性を検討し, 実世界領域で一般的な問題であるバイアスドサンプルの効果を分析することが重要であることを示した。

The current state-of-the-art in multi-objective optimization assumes either a given utility function, learns a utility function interactively or tries to determine the complete Pareto front, requiring a post elicitation of the preferred result. However, result elicitation in real world problems is often based on implicit and explicit expert knowledge, making it difficult to define a utility function, whereas interactive learning or post elicitation requires repeated and expensive expert involvement. To mitigate this, we learn a utility function offline, using expert knowledge by means of preference learning. In contrast to other works, we do not only use (pairwise) result preferences, but also coarse information about the utility function space. This enables us to improve the utility function estimate, especially when using very few results. Additionally, we model the occurring uncertainties in the utility function learning task and propagate them through the whole optimization chain. Our method to learn a utility function eliminates the need of repeated expert involvement while still leading to high-quality results. We show the sample efficiency and quality gains of the proposed method in 4 domains, especially in cases where the surrogate utility function is not able to exactly capture the true expert utility function. We also show that to obtain good results, it is important to consider the induced uncertainties and analyze the effect of biased samples, which is a common problem in real world domains.
翻訳日:2022-08-23 12:37:16 公開日:2022-08-22
# BigBraveBN: 多数のノードを持つベイズネットワークのための構造学習アルゴリズム

BigBraveBN: algorithm of structural learning for bayesian networks with a large number of nodes ( http://arxiv.org/abs/2208.10312v1 )

ライセンス: Link先を確認
Yury Kaminsky, Irina Deeva(参考訳) ベイジアンネットワークの学習はNPハード問題であり、ノード数の増加に伴い、ベイジアンネットワークの構造を学ぶための古典的アルゴリズムは非効率になる。 近年,ノード数の多いベイズネットワーク(50以上のノード)を学習するための手法やアルゴリズムが開発されている。 しかし、これらのソリューションには欠点があり、例えば、1種類のデータ(離散的または連続的)しか操作しないし、そのアルゴリズムは特定のデータの性質(医学的、社会的など)を満たすように作られている。 本稿では,多数のノード(100以上)を持つ大規模ベイズネットワークを学習するためのBigBraveBNアルゴリズムを提案する。 このアルゴリズムは、複数のグループのインスタンスの相互発生を測定するブレーブ係数を利用する。 これらのグループを形成するために、相互情報(mi)尺度に基づく近接近傍の手法を用いる。 論文の実験的部分では、bigbravebnのパフォーマンスと、離散と連続の両方の複数のデータセット上の既存のソリューションを比較します。 実験部は実データに関するテストも表している。 以上の実験結果はベイジアンネットワークの構造学習におけるBigBraveBNアルゴリズムの有効性を示す。

Learning a Bayesian network is an NP-hard problem and with an increase in the number of nodes, classical algorithms for learning the structure of Bayesian networks become inefficient. In recent years, some methods and algorithms for learning Bayesian networks with a high number of nodes (more than 50) were developed. But these solutions have their disadvantages, for instance, they only operate one type of data (discrete or continuous) or their algorithm has been created to meet a specific nature of data (medical, social, etc.). The article presents a BigBraveBN algorithm for learning large Bayesian Networks with a high number of nodes (over 100). The algorithm utilizes the Brave coefficient that measures the mutual occurrence of instances in several groups. To form these groups, we use the method of nearest neighbours based on the Mutual information (MI) measure. In the experimental part of the article, we compare the performance of BigBraveBN to other existing solutions on multiple data sets both discrete and continuous. The experimental part also represents tests on real data. The aforementioned experimental results demonstrate the efficiency of the BigBraveBN algorithm in structure learning of Bayesian Networks.
翻訳日:2022-08-23 12:36:54 公開日:2022-08-22
# 還元損失のある強化学習におけるサンプルの優先順位付け

Prioritizing Samples in Reinforcement Learning with Reducible Loss ( http://arxiv.org/abs/2208.10483v1 )

ライセンス: Link先を確認
Shivakanth Sujit, Somjit Nath, Pedro H. M. Braga, Samira Ebrahimi Kahou(参考訳) ほとんどの強化学習アルゴリズムは、経験的再生バッファを利用して、エージェントが過去に観察したサンプルを繰り返しトレーニングする。 これは破滅的な忘れを防げるが、それぞれのサンプルに同じ重要性を割り当てることは単純な戦略である。 本稿では,サンプルから学べる量に基づいて,サンプルを優先順位付けする手法を提案する。 サンプルの学習能力は、このサンプルに関連するトレーニング損失が経時的に着実に減少することと定義する。 学習能力の高いサンプルを優先するアルゴリズムを開発し,ノイズや確率によって引き起こされる難易度の高いサンプルに低い優先度を割り当てる。 実験により,本手法はランダムサンプリングよりも頑健であり,トレーニング損失,すなわちバニラ優先経験再生で使用される時間差損失に対して,単に優先順位付けするよりも優れていることが示された。

Most reinforcement learning algorithms take advantage of an experience replay buffer to repeatedly train on samples the agent has observed in the past. This prevents catastrophic forgetting, however simply assigning equal importance to each of the samples is a naive strategy. In this paper, we propose a method to prioritize samples based on how much we can learn from a sample. We define the learn-ability of a sample as the steady decrease of the training loss associated with this sample over time. We develop an algorithm to prioritize samples with high learn-ability, while assigning lower priority to those that are hard-to-learn, typically caused by noise or stochasticity. We empirically show that our method is more robust than random sampling and also better than just prioritizing with respect to the training loss, i.e. the temporal difference loss, which is used in vanilla prioritized experience replay.
翻訳日:2022-08-23 12:36:36 公開日:2022-08-22
# マーケティングキャンペーン効果のための階層型カプセル予測ネットワーク

Hierarchical Capsule Prediction Network for Marketing Campaigns Effect ( http://arxiv.org/abs/2208.10113v1 )

ライセンス: Link先を確認
Zhixuan Chu, Hui Ding, Guang Zeng, Yuchen Huang, Tan Yan, Yulin Kang, Sheng Li(参考訳) マーケティングキャンペーン(英: Marketing campaigns)は、ビジネスの目標を推進できる戦略的な活動の集合である。 実際の産業シナリオにおけるマーケティングキャンペーンの効果予測は非常に複雑であり、マーケティングキャンペーンに介入することなく、事前知識が観察データからしばしば学習されるという事実から困難である。 さらに、各科目は常に複数のマーケティングキャンペーンの干渉を受けている。 したがって,単一マーケティングキャンペーンの効果を解析し,評価することは容易ではない。 我々の知る限り、このような問題を解決する効果的な手法は今のところ存在しない。つまり、複数のイベントが絡み合った階層構造に基づく個人レベルの予測タスクをモデル化する。 本稿では,効果予測タスクにかかわるパースツリー状構造の詳細な分析を行い,さらに,マーケティングキャンペーンの効果を予測する階層的カプセル予測ネットワーク(hapnet)を確立する。 合成データと実データの両方に基づく広範な結果は,最先端手法よりもモデルが優れていることを示し,実産業応用において顕著な実用性を示す。

Marketing campaigns are a set of strategic activities that can promote a business's goal. The effect prediction for marketing campaigns in a real industrial scenario is very complex and challenging due to the fact that prior knowledge is often learned from observation data, without any intervention for the marketing campaign. Furthermore, each subject is always under the interference of several marketing campaigns simultaneously. Therefore, we cannot easily parse and evaluate the effect of a single marketing campaign. To the best of our knowledge, there are currently no effective methodologies to solve such a problem, i.e., modeling an individual-level prediction task based on a hierarchical structure with multiple intertwined events. In this paper, we provide an in-depth analysis of the underlying parse tree-like structure involved in the effect prediction task and we further establish a Hierarchical Capsule Prediction Network (HapNet) for predicting the effects of marketing campaigns. Extensive results based on both the synthetic data and real data demonstrate the superiority of our model over the state-of-the-art methods and show remarkable practicability in real industrial applications.
翻訳日:2022-08-23 12:35:08 公開日:2022-08-22
# 雑音下でのロバストな表情認識のための動的適応しきい値学習

Dynamic Adaptive Threshold based Learning for Noisy Annotations Robust Facial Expression Recognition ( http://arxiv.org/abs/2208.10221v1 )

ライセンス: Link先を確認
Darshan Gera, Naveen Siva Kumar Badveeti, Bobbili Veerendra Raj Kumar and S Balasubramanian(参考訳) 実世界の表情認識(FER)データセットは、クラウドソーシング、表現の曖昧さ、アノテーションの主観性、クラス間の類似性によるノイズの多いアノテーションに悩まされている。 しかし、近年のディープネットワークはノイズの多いアノテーションを記憶する能力が強く、機能埋め込みや一般化の貧弱につながる。 ノイズの多いアノテーションを扱うために、トレーニング中に動的クラス固有のしきい値に基づいてクリーンサンプルを選択する動的FER学習フレームワーク(DNFER)を提案する。 具体的には、dnferは選択されたクリーンサンプルを用いた教師付きトレーニングと、すべてのサンプルを用いた教師なし一貫したトレーニングに基づいている。 訓練中、各ミニバッチの平均後方クラス確率を動的クラス固有の閾値として使用し、教師付きトレーニングのクリーンサンプルを選択する。 この閾値はノイズレートとは独立しており、他の方法とは異なりクリーンなデータを必要としない。 さらに、全てのサンプルから学習するために、弱増強画像と強増強画像との間の後部分布を教師なし整合損失を用いて整列する。 我々は,RAFDB,FERPlus,SFEW,AffectNetなどの実雑音付きFERデータセットに対して,DNFERの堅牢性を示す。

The real-world facial expression recognition (FER) datasets suffer from noisy annotations due to crowd-sourcing, ambiguity in expressions, the subjectivity of annotators and inter-class similarity. However, the recent deep networks have strong capacity to memorize the noisy annotations leading to corrupted feature embedding and poor generalization. To handle noisy annotations, we propose a dynamic FER learning framework (DNFER) in which clean samples are selected based on dynamic class specific threshold during training. Specifically, DNFER is based on supervised training using selected clean samples and unsupervised consistent training using all the samples. During training, the mean posterior class probabilities of each mini-batch is used as dynamic class-specific threshold to select the clean samples for supervised training. This threshold is independent of noise rate and does not need any clean data unlike other methods. In addition, to learn from all samples, the posterior distributions between weakly-augmented image and strongly-augmented image are aligned using an unsupervised consistency loss. We demonstrate the robustness of DNFER on both synthetic as well as on real noisy annotated FER datasets like RAFDB, FERPlus, SFEW and AffectNet.
翻訳日:2022-08-23 12:31:36 公開日:2022-08-22
# protopformer: 画像認識のための視覚トランスフォーマーの原型的部分に集中する

ProtoPFormer: Concentrating on Prototypical Parts in Vision Transformers for Interpretable Image Recognition ( http://arxiv.org/abs/2208.10431v1 )

ライセンス: Link先を確認
Mengqi Xue, Qihan Huang, Haofei Zhang, Lechao Cheng, Jie Song, Minghui Wu, Mingli Song(参考訳) プロトタイプ部分ネットワーク(ProtoPNet)は、説明可能な人工知能(XAI)のための自己探索的特性のため、多くのフォローアップ研究が注目されている。 しかし、ProtoPNetを視覚変換器(ViT)のバックボーンに直接適用する場合、学習したプロトタイプは、背景によってアクティベートされ、フォアグラウンドに注意を払わない比較的高い確率で'ディストラクション'の問題がある。 長期依存をモデル化する強力な能力により、トランスフォーマーベースのプロトネットは原型的な部分に集中することが難しくなり、固有の解釈性を著しく損なう。 本稿では,vitsを用いたプロトタイプベース手法を画像認識に適宜かつ効果的に適用するための原型的部分変換器(protopformer)を提案する。 提案手法では,ViTのアーキテクチャ特性に応じて,対象の全体的特徴と部分的特徴をキャプチャし,強調するためのグローバルおよびローカルプロトタイプを提案する。 グローバルプロトタイプは、背景の影響を排除しつつ、前景に集中するようローカルプロトタイプを誘導するオブジェクトのグローバルビューを提供するために採用されている。 その後、局所プロトタイプは、それぞれの原型的な視覚部分に集中するように明示的に監督され、全体的な解釈可能性を高める。 大規模な実験により,提案したグローバルプロトタイプとローカルプロトタイプは相互に正し,最終決定を共同で行うことが可能であることが実証された。 さらに、ProtoPFormerは、最先端(SOTA)のプロトタイプベースラインよりも優れたパフォーマンスと視覚化結果を実現している。 私たちのコードはhttps://github.com/zju-vipa/protopformerでリリースされています。

Prototypical part network (ProtoPNet) has drawn wide attention and boosted many follow-up studies due to its self-explanatory property for explainable artificial intelligence (XAI). However, when directly applying ProtoPNet on vision transformer (ViT) backbones, learned prototypes have a ''distraction'' problem: they have a relatively high probability of being activated by the background and pay less attention to the foreground. The powerful capability of modeling long-term dependency makes the transformer-based ProtoPNet hard to focus on prototypical parts, thus severely impairing its inherent interpretability. This paper proposes prototypical part transformer (ProtoPFormer) for appropriately and effectively applying the prototype-based method with ViTs for interpretable image recognition. The proposed method introduces global and local prototypes for capturing and highlighting the representative holistic and partial features of targets according to the architectural characteristics of ViTs. The global prototypes are adopted to provide the global view of objects to guide local prototypes to concentrate on the foreground while eliminating the influence of the background. Afterwards, local prototypes are explicitly supervised to concentrate on their respective prototypical visual parts, increasing the overall interpretability. Extensive experiments demonstrate that our proposed global and local prototypes can mutually correct each other and jointly make final decisions, which faithfully and transparently reason the decision-making processes associatively from the whole and local perspectives, respectively. Moreover, ProtoPFormer consistently achieves superior performance and visualization results over the state-of-the-art (SOTA) prototype-based baselines. Our code has been released at https://github.com/zju-vipa/ProtoPFormer.
翻訳日:2022-08-23 12:31:16 公開日:2022-08-22
# 薬理学におけるNLPの実態調査:方法論,課題,資源,知識,ツール

Survey of NLP in Pharmacology: Methodology, Tasks, Resources, Knowledge, and Tools ( http://arxiv.org/abs/2208.10228v1 )

ライセンス: Link先を確認
Dimitar Trajanov, Vangel Trajkovski, Makedonka Dimitrieva, Jovana Dobreva, Milos Jovanovik, Matej Klemen, Ale\v{s} \v{Z}agar, Marko Robnik-\v{S}ikonja(参考訳) 自然言語処理(英: Natural Language Processing, NLP)は、人工知能の分野であり、人間の言語を処理し、ある程度理解し、様々な用途で利用する。 この領域はここ数年で急速に発展し、現在では大規模テキストコーパスから関連するパターンを抽出するためにディープニューラルネットワークの現代的な変種を使用している。 本研究の主な目的は、薬理学分野における最近のNLPの使用状況を調べることである。 我々の研究が示すように、NLPは薬理学における非常に関連性の高い情報抽出および処理手法である。 何千もの医療文書の知的な検索から、ソーシャルメディアにおける敵対的な薬物相互作用の痕跡を見つけるまで、広く使われている。 我々は5つのカテゴリに分けて、現代のNLP方法論、一般的なタスク、関連するテキストデータ、知識ベース、有用なプログラミングライブラリを調査しました。 5つのカテゴリをそれぞれを適切なサブカテゴリに分割し,その主な特性とアイデアを表形式で要約した。 結果として得られた調査は、実践者や関心のあるオブザーバーにとって有用な、この領域の包括的概要を示す。

Natural language processing (NLP) is an area of artificial intelligence that applies information technologies to process the human language, understand it to a certain degree, and use it in various applications. This area has rapidly developed in the last few years and now employs modern variants of deep neural networks to extract relevant patterns from large text corpora. The main objective of this work is to survey the recent use of NLP in the field of pharmacology. As our work shows, NLP is a highly relevant information extraction and processing approach for pharmacology. It has been used extensively, from intelligent searches through thousands of medical documents to finding traces of adversarial drug interactions in social media. We split our coverage into five categories to survey modern NLP methodology, commonly addressed tasks, relevant textual data, knowledge bases, and useful programming libraries. We split each of the five categories into appropriate subcategories, describe their main properties and ideas, and summarize them in a tabular form. The resulting survey presents a comprehensive overview of the area, useful to practitioners and interested observers.
翻訳日:2022-08-23 12:30:49 公開日:2022-08-22
# 弱スーパービジョンによる三重表現のための知識グラフ埋め込みの再構築

Repurposing Knowledge Graph Embeddings for Triple Representation via Weak Supervision ( http://arxiv.org/abs/2208.10328v1 )

ライセンス: Link先を確認
Alexander Kalinowski and Yuan An(参考訳) 知識グラフ埋め込み技術の大部分は、エンティティと述語を別々の埋め込み行列として扱い、アグリゲーション関数を使って入力トリプルの表現を構築する。 しかし、これらの集約は損失であり、述語に含まれる情報のような元の三重項の意味を捉えていない。 これらの欠点に対処するため、現在の手法では、事前学習されたモデルからのエンティティや述語埋め込みを使わずに、スクラッチから三重埋め込みを学習する。 本稿では,事前学習した知識グラフの埋め込みから弱い監視信号を生成することで,三重埋め込みを学習するための新しい微調整手法を設計する。 本研究では,知識グラフからトリプルを自動的にサンプリングし,事前学習した組込みモデルからペアワイズ類似度を推定する手法を開発した。 これらのペアの類似度スコアは、細い三重表現のためにシームズ様のニューラルネットワークに供給される。 提案手法は,広く研究されている2つの知識グラフ上で評価し,3重分類と3重クラスタリングタスクにおいて,最先端の3重埋め込み法よりも一貫した改善を示す。

The majority of knowledge graph embedding techniques treat entities and predicates as separate embedding matrices, using aggregation functions to build a representation of the input triple. However, these aggregations are lossy, i.e. they do not capture the semantics of the original triples, such as information contained in the predicates. To combat these shortcomings, current methods learn triple embeddings from scratch without utilizing entity and predicate embeddings from pre-trained models. In this paper, we design a novel fine-tuning approach for learning triple embeddings by creating weak supervision signals from pre-trained knowledge graph embeddings. We develop a method for automatically sampling triples from a knowledge graph and estimating their pairwise similarities from pre-trained embedding models. These pairwise similarity scores are then fed to a Siamese-like neural architecture to fine-tune triple representations. We evaluate the proposed method on two widely studied knowledge graphs and show consistent improvement over other state-of-the-art triple embedding methods on triple classification and triple clustering tasks.
翻訳日:2022-08-23 12:25:46 公開日:2022-08-22
# マルチバッチ創発エンティティのための帰納的知識グラフ推論

Inductive Knowledge Graph Reasoning for Multi-batch Emerging Entities ( http://arxiv.org/abs/2208.10378v1 )

ライセンス: Link先を確認
Yuanning Cui and Yuxin Wang and Zequn Sun and Wenqiang Liu and Yiqiao Jiang and Kexin Han and Wei Hu(参考訳) 長年にわたり、既知の事実から新たな結論を推論することを目的とした知識グラフ(KG)の推論は、主に静的なKGに焦点を当ててきた。 実生活における知識の増大は、KGを拡大する誘導的推論能力を実現する必要性を高める。 既存の帰納的作業は、新しいエンティティがバッチで1度だけ出現すると仮定し、新しいエンティティが継続的に現れる実際のシナリオを過度に単純化する。 この研究は、複数のバッチに新しいエンティティが出現する、より現実的で挑戦的な設定へと飛び込みます。 そこで本研究では,歩行に基づく帰納的推論モデルを提案する。 具体的には、アダプティブリレーションアグリゲーションを持つグラフ畳み込みネットワークは、隣り合うリレーションを使ってエンティティをエンコードして更新するように設計されている。 近隣の様々な重要性を捉えるために、集約中にクエリ対応のフィードバックアテンション機構を用いる。 さらに,新たなエンティティの疎リンク問題を軽減するために,信頼に値する事実をkgsに付加するリンク拡張戦略を提案する。 このマルチバッチ発生シナリオをシミュレートするための3つの新しいデータセットを構築した。 実験結果から,提案手法は誘導的KG推論における最先端の埋め込みモデル,ウォークベースモデル,ルールベースモデルよりも優れていた。

Over the years, reasoning over knowledge graphs (KGs), which aims to infer new conclusions from known facts, has mostly focused on static KGs. The unceasing growth of knowledge in real life raises the necessity to enable the inductive reasoning ability on expanding KGs. Existing inductive work assumes that new entities all emerge once in a batch, which oversimplifies the real scenario that new entities continually appear. This study dives into a more realistic and challenging setting where new entities emerge in multiple batches. We propose a walk-based inductive reasoning model to tackle the new setting. Specifically, a graph convolutional network with adaptive relation aggregation is designed to encode and update entities using their neighboring relations. To capture the varying neighbor importance, we employ a query-aware feedback attention mechanism during the aggregation. Furthermore, to alleviate the sparse link problem of new entities, we propose a link augmentation strategy to add trustworthy facts into KGs. We construct three new datasets for simulating this multi-batch emergence scenario. The experimental results show that our proposed model outperforms state-of-the-art embedding-based, walk-based and rule-based models on inductive KG reasoning.
翻訳日:2022-08-23 12:25:26 公開日:2022-08-22
# 外国語としてのイメージ:全視覚・視覚言語課題の準備

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks ( http://arxiv.org/abs/2208.10442v1 )

ライセンス: Link先を確認
Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu Wei(参考訳) 言語、ビジョン、マルチモーダル事前学習の大規模な収束が生まれている。 本研究では,視覚と視覚言語の両方で最先端の伝達性能を実現する汎用多目的基礎モデルBEiT-3を提案する。 具体的には、バックボーンアーキテクチャ、事前トレーニングタスク、モデルのスケールアップという3つの側面から大きな収束を進めます。 汎用モデリングのためのマルチウェイトランスフォーマーを導入し、モジュールアーキテクチャは深層融合とモダリティ固有符号化の両方を可能にする。 共有されたバックボーンに基づいて、画像(Imglish)、テキスト(英語)、画像-テキストペア(並列文)を統一的にマスクした「言語」モデリングを行う。 実験の結果,BEiT-3はオブジェクト検出(COCO),セマンティックセグメンテーション(ADE20K),画像分類(ImageNet),視覚的推論(NLVR2),視覚的質問応答(VQAv2),画像キャプション(COCO),クロスモーダル検索(Flickr30K,COCO)で最先端の性能が得られることがわかった。

A big convergence of language, vision, and multimodal pretraining is emerging. In this work, we introduce a general-purpose multimodal foundation model BEiT-3, which achieves state-of-the-art transfer performance on both vision and vision-language tasks. Specifically, we advance the big convergence from three aspects: backbone architecture, pretraining task, and model scaling up. We introduce Multiway Transformers for general-purpose modeling, where the modular architecture enables both deep fusion and modality-specific encoding. Based on the shared backbone, we perform masked "language" modeling on images (Imglish), texts (English), and image-text pairs ("parallel sentences") in a unified manner. Experimental results show that BEiT-3 obtains state-of-the-art performance on object detection (COCO), semantic segmentation (ADE20K), image classification (ImageNet), visual reasoning (NLVR2), visual question answering (VQAv2), image captioning (COCO), and cross-modal retrieval (Flickr30K, COCO).
翻訳日:2022-08-23 12:24:44 公開日:2022-08-22
# 必要条件解析を用いた多タスク理解のための補助タスクや逆タスクの同定

Identifying Auxiliary or Adversarial Tasks Using Necessary Condition Analysis for Adversarial Multi-task Video Understanding ( http://arxiv.org/abs/2208.10077v1 )

ライセンス: Link先を確認
Stephen Su, Samuel Kwong, Qingyu Zhao, De-An Huang, Juan Carlos Niebles, Ehsan Adeli(参考訳) 近年,ビデオ理解のためのマルチタスク学習への関心が高まっている。 本研究では,モデルが適切に動作すべき補助タスクと,モデルがうまく動作すべきでない逆タスクの両方を組み込むことで,マルチタスク学習の概念を一般化する。 必要な条件分析(NCA)は、これらのタスクがどのカテゴリに入るべきかを決定するためのデータ駆動型アプローチである。 提案するフレームワークであるAMT(Adversarial Multi-Task Neural Networks)は,NCAがHVU(Holistic Video Understanding)データセットのシーン認識と判断した対向タスクをペナルティ化し,アクション認識を改善する。 これは、モデルが常にマルチタスク学習のすべてのタスクでうまく機能するように奨励されるべきという共通の仮定を覆す。 同時に、ATTは既存の手法の一般化としてマルチタスク学習の利点をすべて保持し、アクション認識を支援する補助タスクとしてオブジェクト認識を使用している。 HVUの2つの挑戦的なScene-Invariantテストスプリットを導入し、トレーニング中に遭遇しないアクションシーンのコクレンスに基づいてモデルを評価する。 提案手法は,約3%の精度向上を実現し,相関バイアスのあるシーン特徴ではなく,アクション特徴への参画を促す。

There has been an increasing interest in multi-task learning for video understanding in recent years. In this work, we propose a generalized notion of multi-task learning by incorporating both auxiliary tasks that the model should perform well on and adversarial tasks that the model should not perform well on. We employ Necessary Condition Analysis (NCA) as a data-driven approach for deciding what category these tasks should fall in. Our novel proposed framework, Adversarial Multi-Task Neural Networks (AMT), penalizes adversarial tasks, determined by NCA to be scene recognition in the Holistic Video Understanding (HVU) dataset, to improve action recognition. This upends the common assumption that the model should always be encouraged to do well on all tasks in multi-task learning. Simultaneously, AMT still retains all the benefits of multi-task learning as a generalization of existing methods and uses object recognition as an auxiliary task to aid action recognition. We introduce two challenging Scene-Invariant test splits of HVU, where the model is evaluated on action-scene co-occurrences not encountered in training. We show that our approach improves accuracy by ~3% and encourages the model to attend to action features instead of correlation-biasing scene features.
翻訳日:2022-08-23 12:22:51 公開日:2022-08-22
# モーメントコントラスト学習とグループパッチ埋め込みを組み合わせた全スライド画像からの患者レベルのマイクロサテライト安定性評価

Patient-level Microsatellite Stability Assessment from Whole Slide Images By Combining Momentum Contrast Learning and Group Patch Embeddings ( http://arxiv.org/abs/2208.10429v1 )

ライセンス: Link先を確認
Daniel Shats, Hadar Hezi, Guy Shani, Yosef E. Maruvka and Moti Freiman(参考訳) 大腸癌のマイクロサテライト安定性の評価は,治療体制のパーソナライズに重要である。 近年, ヘマトキシリンおよびエオシン染色生検全スライド画像(WSI)からマイクロサテライト状態を決定するために, 畳み込み神経ネットワーク(CNN)とトランスファーラーニング(transfer-learning)アプローチの併用が提案されている。 しかし、wsiの高分解能はwsi全体の直接分類を事実上妨げている。 現在のアプローチでは、まずwsiから抽出された小さなパッチを分類し、次にパッチレベルの分類ロジットを集約して患者レベルのステータスを推測することで、wsiハイレゾを回避している。 このようなアプローチは、高解像度のwsiデータに存在する重要な情報をキャプチャする能力を制限する。 本稿では,wsi高分解能情報を活用するための効果的な手法として,パッチ埋め込みの運動量比較学習と,それらの組込み群に対する患者レベル分類器の訓練を提案する。 提案手法は, パッチレベル分類と患者レベルのアグリゲーションによる安定性の向上 (AUC, $0.91 \pm 0.01$ vs. $0.85 \pm 0.04$, p-value$<0.01$) と比較して, 最大7.4\%の精度を実現している。 私たちのコードはhttps://github.com/TechnionComputationalMRILab/colorectal_cancer_aiで確認できます。

Assessing microsatellite stability status of a patient's colorectal cancer is crucial in personalizing treatment regime. Recently, convolutional-neural-networks (CNN) combined with transfer-learning approaches were proposed to circumvent traditional laboratory testing for determining microsatellite status from hematoxylin and eosin stained biopsy whole slide images (WSI). However, the high resolution of WSI practically prevent direct classification of the entire WSI. Current approaches bypass the WSI high resolution by first classifying small patches extracted from the WSI, and then aggregating patch-level classification logits to deduce the patient-level status. Such approaches limit the capacity to capture important information which resides at the high resolution WSI data. We introduce an effective approach to leverage WSI high resolution information by momentum contrastive learning of patch embeddings along with training a patient-level classifier on groups of those embeddings. Our approach achieves up to 7.4\% better accuracy compared to the straightforward patch-level classification and patient level aggregation approach with a higher stability (AUC, $0.91 \pm 0.01$ vs. $0.85 \pm 0.04$, p-value$<0.01$). Our code can be found at https://github.com/TechnionComputationalMRILab/colorectal_cancer_ai.
翻訳日:2022-08-23 12:19:35 公開日:2022-08-22
# BARReL:視覚による強化学習における対人ロバストネスに対するボトルネック注意

BARReL: Bottleneck Attention for Adversarial Robustness in Vision-Based Reinforcement Learning ( http://arxiv.org/abs/2208.10481v1 )

ライセンス: Link先を確認
Eugene Bykovets, Yannick Metz, Mennatallah El-Assady, Daniel A. Keim, Joachim M. Buhmann(参考訳) 敵の摂動に対するロバスト性はコンピュータビジョンの多くの領域で研究されている。 この堅牢性は視覚に基づく強化学習に特に関係しており、自律的なエージェントの行動は、現実世界では安全性に批判的か影響を受けやすい。 視覚ベースの強化学習エージェントの勾配に基づく敵攻撃に対する感受性を調査し,潜在的な防御性を評価する。 我々は、CNNアーキテクチャに含まれるBottleneck Attention Modules(BAM)が、敵攻撃に対する堅牢性を高める潜在的なツールとして機能することを観察した。 本研究では,学習した注意マップを用いて空間的活性化を正常な領域に制限することにより,畳み込み層の活性化を回復する方法を示す。 多くのRL環境において、BAMで強化されたアーキテクチャは推論中にロバスト性を高める。 最後に,今後の研究の方向性について論じる。

Robustness to adversarial perturbations has been explored in many areas of computer vision. This robustness is particularly relevant in vision-based reinforcement learning, as the actions of autonomous agents might be safety-critic or impactful in the real world. We investigate the susceptibility of vision-based reinforcement learning agents to gradient-based adversarial attacks and evaluate a potential defense. We observe that Bottleneck Attention Modules (BAM) included in CNN architectures can act as potential tools to increase robustness against adversarial attacks. We show how learned attention maps can be used to recover activations of a convolutional layer by restricting the spatial activations to salient regions. Across a number of RL environments, BAM-enhanced architectures show increased robustness during inference. Finally, we discuss potential future research directions.
翻訳日:2022-08-23 12:18:39 公開日:2022-08-22
# 大規模言語モデルにおける選択衝突バイアス

Selection Collider Bias in Large Language Models ( http://arxiv.org/abs/2208.10063v1 )

ライセンス: Link先を確認
Emily McMilin(参考訳) 本稿では,サンプル選択誘導コライダーバイアス(選択コライダーバイアス)の背景にある因果的メカニズムを動機付け,Large Language Models (LLMs) が実世界で無条件に独立なエンティティ間の非条件依存を学習できるようにする。 選択型衝突型バイアスは,不特定な学習課題において増幅され,結果として生じるスプリアス相関の大きさはスケール非依存にみえる。 選択コライダーバイアスは克服し難いが,モデルが予測に不確実であるかどうかを判断するために,結果の素因的相関を利用する手法について述べるとともに,Winogender Schemas 評価セットの拡張版において,タスクにおける人間の不確実性と性別代名詞の不特定性とを一致させることを示す。

In this paper we motivate the causal mechanisms behind sample selection induced collider bias (selection collider bias) that can cause Large Language Models (LLMs) to learn unconditional dependence between entities that are unconditionally independent in the real world. We show that selection collider bias can be amplified in underspecified learning tasks, and that the magnitude of the resulting spurious correlations appear scale agnostic. While selection collider bias can be difficult to overcome, we describe a method to exploit the resulting spurious correlations for determination of when a model may be uncertain about its prediction, and demonstrate that it matches human uncertainty in tasks with gender pronoun underspecification on an extended version of the Winogender Schemas evaluation set.
翻訳日:2022-08-23 12:16:39 公開日:2022-08-22
# 制約満足のための高速なグローバル検索ヒューリスティックとしてのCSP:グラフニューラルネットワークの一モデル

One Model, Any CSP: Graph Neural Networks as Fast Global Search Heuristics for Constraint Satisfaction ( http://arxiv.org/abs/2208.10227v1 )

ライセンス: Link先を確認
Jan T\"onshoff, Berke Kisin, Jakob Lindner, Martin Grohe(参考訳) 本稿では,任意の制約満足度問題(CSP)に対して,エンドツーエンドの探索ヒューリスティックとしてトレーニング可能な汎用グラフニューラルネットワークアーキテクチャを提案する。 我々のアーキテクチャは、純粋にデータ駆動方式で任意のCSPに対して問題固有のヒューリスティックを生成するために、ポリシー勾配降下で教師なしで訓練することができる。 このアプローチは、汎用的かつコンパクトなCSP用の新しいグラフ表現に基づいており、制約アリティ、関係性、ドメインサイズに関わらず、1つのGNNで可能なすべてのCSPインスタンスを処理できる。 従来のRLベースの手法とは異なり、我々はグローバルな検索行動空間で動作し、GNNが確率探索の各ステップで変数を変更できるようにします。 これにより,本手法はGNNの並列性を適切に活用することができる。 グラフカラー化, MaxCut, 3-SAT および MAX-k-SAT などの乱数データから、よく知られた重要な CSP に対するヒューリスティックスを学習する実験的な評価を行う。 我々のアプローチは、ニューラルネットワークの最適化に先行するアプローチをかなりのマージンで上回っている。 トレーニング中に見られるものよりも数桁大きく、構造的に複雑であるテストインスタンスで、従来の検索ヒューリスティックと競合し、さらに改善することができる。

We propose a universal Graph Neural Network architecture which can be trained as an end-2-end search heuristic for any Constraint Satisfaction Problem (CSP). Our architecture can be trained unsupervised with policy gradient descent to generate problem specific heuristics for any CSP in a purely data driven manner. The approach is based on a novel graph representation for CSPs that is both generic and compact and enables us to process every possible CSP instance with one GNN, regardless of constraint arity, relations or domain size. Unlike previous RL-based methods, we operate on a global search action space and allow our GNN to modify any number of variables in every step of the stochastic search. This enables our method to properly leverage the inherent parallelism of GNNs. We perform a thorough empirical evaluation where we learn heuristics for well known and important CSPs from random data, including graph coloring, MaxCut, 3-SAT and MAX-k-SAT. Our approach outperforms prior approaches for neural combinatorial optimization by a substantial margin. It can compete with, and even improve upon, conventional search heuristics on test instances that are several orders of magnitude larger and structurally more complex than those seen during training.
翻訳日:2022-08-23 12:14:16 公開日:2022-08-22
# マルチモーダルエンターメントによる画像テキスト検索の改訂

Revising Image-Text Retrieval via Multi-Modal Entailment ( http://arxiv.org/abs/2208.10126v1 )

ライセンス: Link先を確認
Xu Yan, Chunhui Ai, Ziqiang Cao, Min Cao, Sujian Li, Wenjie Chen, Guohong Fu(参考訳) 優れた画像テキスト検索モデルは高品質なラベル付きデータに依存する。 既存の画像テキスト検索データセットのビルダーは、キャプションがリンクされた画像と一致するように努力するが、キャプションが他の画像に合うのを防ぐことはできない。 このような多対多のマッチング現象は,1つのキャプションで最大178の画像を記述できる,広く使われている検索データセットにおいて非常によく見られる。 これらの大きなマッチング損失データは、トレーニングでモデルを混乱させるだけでなく、評価精度を弱める。 視覚的・テキスト的エンテインメントタスクにインスパイアされ,文が画像と関連キャプションによって関連付けられているかどうかを判断するマルチモーダルエンテインメント分類器を提案する。 その後、画像の弱いラベルとしてこれら付き字幕を付加して画像テキスト検索データセットを改訂し、検索モデルに他の負のサンプルと区別させる普遍的な可変学習率戦略を開発する。 実験では,手動で補正した画像テキスト検索データセットをアノテートして評価する。 その結果,提案手法は約78%の精度を実現し,画像-テキスト検索ベースラインの性能を一貫して向上させた。

An outstanding image-text retrieval model depends on high-quality labeled data. While the builders of existing image-text retrieval datasets strive to ensure that the caption matches the linked image, they cannot prevent a caption from fitting other images. We observe that such a many-to-many matching phenomenon is quite common in the widely-used retrieval datasets, where one caption can describe up to 178 images. These large matching-lost data not only confuse the model in training but also weaken the evaluation accuracy. Inspired by visual and textual entailment tasks, we propose a multi-modal entailment classifier to determine whether a sentence is entailed by an image plus its linked captions. Subsequently, we revise the image-text retrieval datasets by adding these entailed captions as additional weak labels of an image and develop a universal variable learning rate strategy to teach a retrieval model to distinguish the entailed captions from other negative samples. In experiments, we manually annotate an entailment-corrected image-text retrieval dataset for evaluation. The results demonstrate that the proposed entailment classifier achieves about 78% accuracy and consistently improves the performance of image-text retrieval baselines.
翻訳日:2022-08-23 12:13:31 公開日:2022-08-22
# 線形確率過程におけるラッジ相関のためのプロセスモチーフによるネットワーク推論

Network inference via process motifs for lagged correlation in linear stochastic processes ( http://arxiv.org/abs/2208.08871v2 )

ライセンス: Link先を確認
Alice C. Schwarze, Sara M. Ichinaga, Bingni W. Brunton(参考訳) 時系列データからの因果推論の大きな課題は、計算可能性と精度のトレードオフである。 平均回帰が遅い自己回帰モデルにおけるラグランジ共分散の過程モチーフに動機づけられ,ラグランジ相関行列から容易に計算できるペアワイズエッジ測度(pem)を介して因果関係のネットワークを推定する。 プロセスモチーフの共分散やラタグ分散への寄与を動機として, 因果関係や逆因果関係に正しい2つのPEMを定式化する。 本研究では,線形確率過程のシミュレーションからネットワーク干渉を考慮し,提案したPEMがネットワークを高精度かつ効率的に推論可能であることを示す。 具体的には、少し自己相関的な時系列データの場合、我々のアプローチはグランガー因果関係、転送エントロピー、収束クロスマップよりも高い確率を達成するが、これらの方法のどれよりも計算時間がずっと短い。 我々の高速かつ正確なPEMは、明確な理論的基盤を持つネットワーク推論の実装方法である。 それらは、Granger因果関係、ベクトル自己回帰、スパース逆共分散推定など、時系列データから線形モデルを推定するための現在のパラダイムに代わる有望な代替手段を提供する。

A major challenge for causal inference from time-series data is the trade-off between computational feasibility and accuracy. Motivated by process motifs for lagged covariance in an autoregressive model with slow mean-reversion, we propose to infer networks of causal relations via pairwise edge measure (PEMs) that one can easily compute from lagged correlation matrices. Motivated by contributions of process motifs to covariance and lagged variance, we formulate two PEMs that correct for confounding factors and for reverse causation. To demonstrate the performance of our PEMs, we consider network interference from simulations of linear stochastic processes, and we show that our proposed PEMs can infer networks accurately and efficiently. Specifically, for slightly autocorrelated time-series data, our approach achieves accuracies higher than or similar to Granger causality, transfer entropy, and convergent crossmapping -- but with much shorter computation time than possible with any of these methods. Our fast and accurate PEMs are easy-to-implement methods for network inference with a clear theoretical underpinning. They provide promising alternatives to current paradigms for the inference of linear models from time-series data, including Granger causality, vector-autoregression, and sparse inverse covariance estimation.
翻訳日:2022-08-23 10:35:32 公開日:2022-08-22
# TSCom-Net: 3Dテクスチャ補完ネットワーク

TSCom-Net: Coarse-to-Fine 3D Textured Shape Completion Network ( http://arxiv.org/abs/2208.08768v2 )

ライセンス: Link先を確認
Ahmet Serdar Karadeniz, Sk Aziz Ali, Anis Kacem, Elona Dupont, Djamila Aouada(参考訳) 3D部分的なテクスチャスキャンから3Dの人体形状を再構築することは、多くのコンピュータビジョンやグラフィックアプリケーション -- ボディアニメーションや仮想ドレッシング -- の基本的な課題である。 本研究では,3次元体形状と高分解能テクスチャ補完(BCom-Net)のためのニューラルネットワークアーキテクチャを提案する。 まず,Voxelized scanとその占有網を入力として用い,全身形状の再構築と頂点テクスチャの予測を行う,共同暗黙学習ネットワーク(SCom-NetとTCom-Net)の2段階に分割する。 第二に、予測された粗い頂点テクスチャを利用して部分的な「テクスチャアトラス」の欠落部分を塗りつぶす高分解能テクスチャ補完ネットワークである。 3DBodyTex.V2データセットの徹底的な実験的評価により,本手法は,異なる種類の部分形状を一般化しながら,最先端技術に対する競争的な結果が得られることが示された。 提案手法は,部分的テクスチャ化3Dスキャン(SHARP [38,1])2022 Challenge1からSHApe Recoveryのトラック1にランクインした。

Reconstructing 3D human body shapes from 3D partial textured scans remains a fundamental task for many computer vision and graphics applications -- e.g., body animation, and virtual dressing. We propose a new neural network architecture for 3D body shape and high-resolution texture completion -- BCom-Net -- that can reconstruct the full geometry from mid-level to high-level partial input scans. We decompose the overall reconstruction task into two stages - first, a joint implicit learning network (SCom-Net and TCom-Net) that takes a voxelized scan and its occupancy grid as input to reconstruct the full body shape and predict vertex textures. Second, a high-resolution texture completion network, that utilizes the predicted coarse vertex textures to inpaint the missing parts of the partial 'texture atlas'. A thorough experimental evaluation on 3DBodyTex.V2 dataset shows that our method achieves competitive results with respect to the state-of-the-art while generalizing to different types and levels of partial shapes. The proposed method has also ranked second in the track1 of SHApe Recovery from Partial textured 3D scans (SHARP [38,1]) 2022 challenge1.
翻訳日:2022-08-23 10:35:11 公開日:2022-08-22
# ラベル効率のよい自動診断・解析に向けて:組織画像解析における高度な深層学習に基づく弱視的・半監督的・自己監督的手法の総合的調査

Towards Label-efficient Automatic Diagnosis and Analysis: A Comprehensive Survey of Advanced Deep Learning-based Weakly-supervised, Semi-supervised and Self-supervised Techniques in Histopathological Image Analysis ( http://arxiv.org/abs/2208.08789v2 )

ライセンス: Link先を確認
Linhao Qu, Siyu Liu, Xiaoyu Liu, Manning Wang, Zhijian Song(参考訳) 病理組織像は, 疾患診断における金の基準であり, 予後と治療成績の予測に不可欠である, 豊富な表現型情報と病理パターンを含んでいる。 近年, コンピュータによる病理画像の自動解析技術は, 臨床実践において緊急に必要とされ, 畳み込みニューラルネットワークで表現される深層学習法が, デジタル病理学の分野で徐々に主流になりつつある。 しかし、この分野で大量の細粒度アノテートデータを得ることは非常に高価で難しい作業であり、大量のアノテートデータに基づく従来の教師付きアルゴリズムの開発を妨げている。 近年では従来の教師あり学習パラダイムから解放され始めており、最も代表的なものは弱アノテーションに基づく弱教師あり学習パラダイム、限定アノテーションに基づく半教師あり学習パラダイム、病理画像表現学習に基づく自己教師あり学習パラダイムの研究である。 これらの新しい手法は、アノテーション効率を目標とした、新しい病理画像診断と解析の波を導いた。 130以上の論文を対象とした調査では, 技術的・方法論的な観点から, 弱教師付き学習, 半教師付き学習, 自己教師付き学習に関する最新の研究を包括的かつ体系的に概観する。 最後に,これらの技術の重要な課題と今後の動向を示す。

Histopathological images contain abundant phenotypic information and pathological patterns, which are the gold standards for disease diagnosis and essential for the prediction of patient prognosis and treatment outcome. In recent years, computer-automated analysis techniques for histopathological images have been urgently required in clinical practice, and deep learning methods represented by convolutional neural networks have gradually become the mainstream in the field of digital pathology. However, obtaining large numbers of fine-grained annotated data in this field is a very expensive and difficult task, which hinders the further development of traditional supervised algorithms based on large numbers of annotated data. More recent studies have started to liberate from the traditional supervised paradigm, and the most representative ones are the studies on weakly supervised learning paradigm based on weak annotation, semi-supervised learning paradigm based on limited annotation, and self-supervised learning paradigm based on pathological image representation learning. These new methods have led a new wave of automatic pathological image diagnosis and analysis targeted at annotation efficiency. With a survey of over 130 papers, we present a comprehensive and systematic review of the latest studies on weakly supervised learning, semi-supervised learning, and self-supervised learning in the field of computational pathology from both technical and methodological perspectives. Finally, we present the key challenges and future trends for these techniques.
翻訳日:2022-08-23 10:34:50 公開日:2022-08-22
# COPE: エンドツーエンドのトレーニング可能なConstant Runtime Object Pose Estimation

COPE: End-to-end trainable Constant Runtime Object Pose Estimation ( http://arxiv.org/abs/2208.08807v2 )

ライセンス: Link先を確認
Stefan Thalhammer, Timothy Patten, Markus Vincze(参考訳) State-of-the-art object pose Estimationは、複数モデルの定式化を用いて、テスト画像内の複数のインスタンスを処理する。 その後、パースペクティブ-n-Pointsアルゴリズムを実行時に使用する。 残念ながら、マルチモデルの定式化は遅く、関連するオブジェクトインスタンスの数でうまくスケールしない。 近年のアプローチでは、上記の幾何学的対応から導いた場合、直接6次元オブジェクトのポーズ推定が可能であることが示されている。 本稿では,複数のオブジェクトの中間幾何学的表現を学習して,テスト画像中の全インスタンスの6Dポーズを直接回帰する手法を提案する。 固有のエンドツーエンドのトレーサビリティは、個々のオブジェクトインスタンスを個別に処理する要件を克服します。 相互に交わる結合を計算することで、仮説は別々のインスタンスにまとめられ、オブジェクトインスタンスの数に関して実行時のオーバーヘッドを無視できる。 複数の挑戦的な標準データセットの結果から、ポーズ推定性能は、35倍以上高速であるにもかかわらず、単一モデルの最先端アプローチよりも優れていることが示された。 さらに,90以上のオブジェクトインスタンスが存在する画像に対して,リアルタイム適用性(>24fps)を示す分析も提供する。 さらに,6次元ポーズを用いた幾何対応型オブジェクトポーズ推定の利点を示す。

State-of-the-art object pose estimation handles multiple instances in a test image by using multi-model formulations: detection as a first stage and then separately trained networks per object for 2D-3D geometric correspondence prediction as a second stage. Poses are subsequently estimated using the Perspective-n-Points algorithm at runtime. Unfortunately, multi-model formulations are slow and do not scale well with the number of object instances involved. Recent approaches show that direct 6D object pose estimation is feasible when derived from the aforementioned geometric correspondences. We present an approach that learns an intermediate geometric representation of multiple objects to directly regress 6D poses of all instances in a test image. The inherent end-to-end trainability overcomes the requirement of separately processing individual object instances. By calculating the mutual Intersection-over-Unions, pose hypotheses are clustered into distinct instances, which achieves negligible runtime overhead with respect to the number of object instances. Results on multiple challenging standard datasets show that the pose estimation performance is superior to single-model state-of-the-art approaches despite being more than ~35 times faster. We additionally provide an analysis showing real-time applicability (>24 fps) for images where more than 90 object instances are present. Further results show the advantage of supervising geometric-correspondence-based object pose estimation with the 6D pose.
翻訳日:2022-08-23 10:34:25 公開日:2022-08-22
# 衛星画像と深部生成モデルによる山火事予報

Wildfire Forecasting with Satellite Images and Deep Generative Model ( http://arxiv.org/abs/2208.09411v2 )

ライセンス: Link先を確認
Thai-Nam Hoang and Sang Truong and Chris Schmidt(参考訳) 森林火災の予報は、人文科学が成長させたい最も重要な課題の1つだ。 人間の生命を守る上で重要な役割を担っている。 一方,野生火災の予測は,その確率的・カオス的性質から困難である。 私たちは、一連のワイルドファイア画像をビデオとして解釈し、将来の火災がどのように振る舞うかを予測して、この問題に取り組みました。 しかし,将来的な不確実性を考慮した映像予測モデルの作成は困難である。 公表された試みの大部分は、確率的イメージ自動回帰リカレントネットワークに基づいており、計算コストや大規模なデータセットの限られた効率など、さまざまなパフォーマンスとアプリケーションの困難を生じさせる。 もう1つの可能性は、フレーム合成と時間力学を組み合わせた完全に潜時モデルを使用することである。 しかし, 設計・訓練上の問題から, 確率的映像予測のモデルはまだ提案されていない。 本稿では,動的に潜在空間で駆動される新しい確率時間モデルを導入することにより,これらの問題に対処する。 GOES-16データセットに対する従来の最先端のアプローチを、より軽く解釈しやすくすることで、ビデオのダイナミクスを自然に予測する。 結果は様々なベンチマークモデルで比較される。

Wildfire forecasting has been one of the most critical tasks that humanities want to thrive. It plays a vital role in protecting human life. Wildfire prediction, on the other hand, is difficult because of its stochastic and chaotic properties. We tackled the problem by interpreting a series of wildfire images as a video and used it to anticipate how the fire would behave in the future. However, creating video prediction models that account for the inherent uncertainty of the future is challenging. The bulk of published attempts is based on stochastic image-autoregressive recurrent networks, which raises various performance and application difficulties, such as computational cost and limited efficiency on massive datasets. Another possibility is to use entirely latent temporal models that combine frame synthesis and temporal dynamics. However, due to design and training issues, no such model for stochastic video prediction has yet been proposed in the literature. This paper addresses these issues by introducing a novel stochastic temporal model whose dynamics are driven in a latent space. It naturally predicts video dynamics by allowing our lighter, more interpretable latent model to beat previous state-of-the-art approaches on the GOES-16 dataset. Results will be compared towards various benchmarking models.
翻訳日:2022-08-23 10:34:06 公開日:2022-08-22
# UnCommonSense: 日常概念に関する情報的否定的知識

UnCommonSense: Informative Negative Knowledge about Everyday Concepts ( http://arxiv.org/abs/2208.09292v2 )

ライセンス: Link先を確認
Hiba Arnaout, Simon Razniewski, Gerhard Weikum, Jeff Z. Pan(参考訳) 日常概念に関する常識的な知識は、質問応答やチャットボットなど、AIアプリケーションにとって重要な資産である。 近年,構造化コモンセンス知識ベース(CSKB)の構築への関心が高まっている。 human commonsenseの重要な部分は、概念に当てはまらないプロパティであるが、既存のcskbは、ポジティブなステートメントしか保存しない。 さらに、cskbはオープンワールドの仮定の下で機能するので、欠落したステートメントは無効ではなく未知の真理を持つと考えられている。 本稿では,情報的否定的常識文を実現するUNCOMMONSENSEフレームワークを提案する。 対象概念が与えられると、それと同等の概念がcskbで識別され、そこでは局所閉世界仮定が仮定される。 このように、ターゲット概念に欠けている同等の概念に関する肯定的なステートメントは、否定的なステートメント候補のシードとなる。 大量の候補者が精査され、選抜され、情報によってランク付けされる。 内因性および外因性評価は,本手法が最先端の手法よりも優れていることを示す。 将来の研究のためのリソースとして、情報的否定の大規模なデータセットがリリースされている。

Commonsense knowledge about everyday concepts is an important asset for AI applications, such as question answering and chatbots. Recently, we have seen an increasing interest in the construction of structured commonsense knowledge bases (CSKBs). An important part of human commonsense is about properties that do not apply to concepts, yet existing CSKBs only store positive statements. Moreover, since CSKBs operate under the open-world assumption, absent statements are considered to have unknown truth rather than being invalid. This paper presents the UNCOMMONSENSE framework for materializing informative negative commonsense statements. Given a target concept, comparable concepts are identified in the CSKB, for which a local closed-world assumption is postulated. This way, positive statements about comparable concepts that are absent for the target concept become seeds for negative statement candidates. The large set of candidates is then scrutinized, pruned and ranked by informativeness. Intrinsic and extrinsic evaluations show that our method significantly outperforms the state-of-the-art. A large dataset of informative negations is released as a resource for future research.
翻訳日:2022-08-23 10:33:48 公開日:2022-08-22
# 機械学習ソフトウェアシステムにおける品質問題

Quality issues in Machine Learning Software Systems ( http://arxiv.org/abs/2208.08982v2 )

ライセンス: Link先を確認
Pierre-Olivier C\^ot\'e, Amin Nikanjam, Rached Bouchoucha, Foutse Khomh(参考訳) コンテキスト: 複雑な問題を解決するために機械学習(ML)を採用するために、さまざまな領域で需要が高まっている。 MLモデルはソフトウェアコンポーネントとして実装され、機械学習ソフトウェアシステム(MLSS)にデプロイされる。 問題:MLSSのサービス品質を保証するためには,強いニーズがある。 このようなシステムの不正または劣悪な決定は、他のシステムの誤動作、重大な財政的損失、さらには人間の生命への脅威につながる可能性がある。 MLSSの品質保証は難しい課題と考えられており、現在ホットな研究トピックとなっている。 さらに,MLSSにおける品質の諸側面を網羅することが重要である。 目的:本稿は実践者の視点から,MLSSにおける実際の品質問題の特徴を考察することを目的とする。 この実証研究は、MLSSの質の低下に関連する悪い実践のカタログを特定することを目的としている。 方法: 実践者や専門家との一連のインタビューを実施し,品質問題に対処する上で,彼らの経験やプラクティスを取得するのにインタビューが最善の方法であると信じます。 このステップで開発された問題のカタログは、MLSSの品質問題に対する重大度、根本原因、および可能な対策の特定にも役立ち、MLモデルやMLSSの効率的な品質保証ツールの開発を可能にします。

Context: An increasing demand is observed in various domains to employ Machine Learning (ML) for solving complex problems. ML models are implemented as software components and deployed in Machine Learning Software Systems (MLSSs). Problem: There is a strong need for ensuring the serving quality of MLSSs. False or poor decisions of such systems can lead to malfunction of other systems, significant financial losses, or even threat to human life. The quality assurance of MLSSs is considered as a challenging task and currently is a hot research topic. Moreover, it is important to cover all various aspects of the quality in MLSSs. Objective: This paper aims to investigate the characteristics of real quality issues in MLSSs from the viewpoint of practitioners. This empirical study aims to identify a catalog of bad-practices related to poor quality in MLSSs. Method: We plan to conduct a set of interviews with practitioners/experts, believing that interviews are the best method to retrieve their experience and practices when dealing with quality issues. We expect that the catalog of issues developed at this step will also help us later to identify the severity, root causes, and possible remedy for quality issues of MLSSs, allowing us to develop efficient quality assurance tools for ML models and MLSSs.
翻訳日:2022-08-23 10:33:34 公開日:2022-08-22
# クロスモーダルトランスフォーマーを用いたダンススタイルトランスファー

Dance Style Transfer with Cross-modal Transformer ( http://arxiv.org/abs/2208.09406v2 )

ライセンス: Link先を確認
Wenjie Yin, Hang Yin, Kim Baraka, Danica Kragic, and M{\aa}rten Bj\"orkman(参考訳) そこで本研究では,あるダンススタイルにおける既存のモーションクリップを,ダンスのモーションコンテキストを保ちつつ,別のダンススタイルのモーションクリップに変換する,ダンススタイル転送システムであるcycledanceを提案する。 提案手法は,既存のCycleGANアーキテクチャを拡張して音声シーケンスをモデル化し,マルチモーダルトランスフォーマーエンコーダを統合する。 シーケンス長に基づくカリキュラム学習を採用し,トレーニングを安定化する。 本手法は,移動フレーム間のリッチかつ長期的関係を捉え,移動伝達と合成作業において共通の課題である。 さらに,ダンス動作の文脈において,移動強度とコンテンツ保存の指標を新たに導入する。 5年以上のダンス経験を持つ30人を対象に,広範囲にわたるアブレーション研究と人間による研究を行った。 その結果, サイクルダンスは, 自然性, 伝達強度, コンテンツ保存において, ベースラインのサイクルガンを著しく上回って, ターゲットスタイルで現実的な動きを生じさせることがわかった。

We present CycleDance, a dance style transfer system to transform an existing motion clip in one dance style to a motion clip in another dance style while attempting to preserve motion context of the dance. Our method extends an existing CycleGAN architecture for modeling audio sequences and integrates multimodal transformer encoders to account for music context. We adopt sequence length-based curriculum learning to stabilize training. Our approach captures rich and long-term intra-relations between motion frames, which is a common challenge in motion transfer and synthesis work. We further introduce new metrics for gauging transfer strength and content preservation in the context of dance movements. We perform an extensive ablation study as well as a human study including 30 participants with 5 or more years of dance experience. The results demonstrate that CycleDance generates realistic movements with the target style, significantly outperforming the baseline CycleGAN on naturalness, transfer strength, and content preservation.
翻訳日:2022-08-23 10:33:16 公開日:2022-08-22