このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220326となっている論文です。

PDF登録状況(公開日: 20220326)

TitleAuthorsAbstract論文公表日・翻訳日
# Kクラス推定器とPULSEの分布ロバスト性

Distributional robustness of K-class estimators and the PULSE ( http://arxiv.org/abs/2005.03353v3 )

ライセンス: Link先を確認
Martin Emil Jakobsen and Jonas Peters(参考訳) 因果モデルは、任意に強い介入の下で最適な予測をするという点で堅牢であるが、介入が境界づけられたときは最適ではないかもしれない。 古典的Kクラス推定器は、Kクラス推定器とアンカー回帰との接続を確立することにより、そのような最適性を満たすことを証明する。 この接続は、因果係数の漸近的に妥当な信頼領域にあるという制約を受ける平均二乗予測誤差を最小化するインストゥルメンタル変数設定において、新たな推定器を動機付ける。 我々はこの推定器 PULSE (p-uncorrelated least squares estimator) と呼び、非凸であるにもかかわらずデータ駆動型Kクラス推定器として効率的に計算できることを示し、一貫性を証明する。 実データに基づく推定値の評価を行い,PULSEの変動性が低いことを示すシミュレーション実験を行った。 弱い楽器の設定を含むいくつかの設定があり、他の推定値よりも優れている。

While causal models are robust in that they are prediction optimal under arbitrarily strong interventions, they may not be optimal when the interventions are bounded. We prove that the classical K-class estimator satisfies such optimality by establishing a connection between K-class estimators and anchor regression. This connection further motivates a novel estimator in instrumental variable settings that minimizes the mean squared prediction error subject to the constraint that the estimator lies in an asymptotically valid confidence region of the causal coefficient. We call this estimator PULSE (p-uncorrelated least squares estimator), relate it to work on invariance, show that it can be computed efficiently as a data-driven K-class estimator, even though the underlying optimization problem is non-convex, and prove consistency. We evaluate the estimators on real data and perform simulation experiments illustrating that PULSE suffers from less variability. There are several settings including weak instrument settings, where it outperforms other estimators.
翻訳日:2022-12-05 22:56:26 公開日:2022-03-26
# 浅層ニューラルネットワークに対する動的中心極限理論

A Dynamical Central Limit Theorem for Shallow Neural Networks ( http://arxiv.org/abs/2008.09623v3 )

ライセンス: Link先を確認
Zhengdao Chen, Grant M. Rotskoff, Joan Bruna, Eric Vanden-Eijnden(参考訳) 最近の理論的研究は、幅が無限に傾く傾向にある漸近平均場限界における勾配降下によって訓練された広い浅層ニューラルネットワークのダイナミクスを特徴付けている。 初期化において、パラメータのランダムサンプリングは古典的中央極限定理(CLT)によって規定される平均場限界から逸脱する。 しかし、勾配降下はパラメータ間の相関を誘導するため、これらの変動がどのように進化するかを分析することが重要である。 ここでは, 平均極限付近の漸近的変動が, トレーニングを通して平均正方形に有界であることを証明するために, 動的CLTを用いる。 上界はモンテカルロ再サンプリング誤差によって与えられ、下層の測度の2ノルムに依存する分散は一般化誤差も制御する。 この2-ノルムは、トレーニング中に正規化用語として使われる。 さらに、平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、漸近的偏差が最終的にCLTスケーリングでなくなることが証明される。 また,これらの結果を数値実験で補完する。

Recent theoretical works have characterized the dynamics of wide shallow neural networks trained via gradient descent in an asymptotic mean-field limit when the width tends towards infinity. At initialization, the random sampling of the parameters leads to deviations from the mean-field limit dictated by the classical Central Limit Theorem (CLT). However, since gradient descent induces correlations among the parameters, it is of interest to analyze how these fluctuations evolve. Here, we use a dynamical CLT to prove that the asymptotic fluctuations around the mean limit remain bounded in mean square throughout training. The upper bound is given by a Monte-Carlo resampling error, with a variance that that depends on the 2-norm of the underlying measure, which also controls the generalization error. This motivates the use of this 2-norm as a regularization term during training. Furthermore, if the mean-field dynamics converges to a measure that interpolates the training data, we prove that the asymptotic deviation eventually vanishes in the CLT scaling. We also complement these results with numerical experiments.
翻訳日:2022-10-26 21:29:44 公開日:2022-03-26
# 生涯グラフ学習

Lifelong Graph Learning ( http://arxiv.org/abs/2009.00647v4 )

ライセンス: Link先を確認
Chen Wang, Yuheng Qiu, Dasong Gao, Sebastian Scherer(参考訳) グラフニューラルネットワーク(gnn)は多くのグラフ構造タスクの強力なモデルである。 既存のモデルは、トレーニング中にグラフの完全な構造が利用できると仮定することが多い。 しかし、実際には、グラフ構造化データはストリーミング形式で形成され、グラフの継続的な学習がしばしば必要となる。 本稿では、連続グラフ学習問題を正規グラフ学習問題に変換することで、GNNと生涯学習を橋渡しし、GNNが畳み込みニューラルネットワーク(CNN)のために開発された生涯学習技術を継承できるようにする。 本稿では,特徴を新しいノードとして,ノードを独立したグラフに変換する新しいトポロジーである特徴グラフを提案する。 これはノード分類の本来の問題をグラフ分類にうまく変換する。 実験では,古典的なグラフデータセットを連続的に学習することにより,特徴グラフネットワーク(FGN)の効率性と有効性を示す。 また,FGNはウェアラブルデバイスを用いた生涯の人間行動認識と特徴マッチングという,2つのアプリケーションにおいて優れた性能を発揮することを示す。 我々の知る限りでは、FGNはグラフ学習と生涯学習を新しいグラフトポロジーを通じて橋渡しする最初の方法である。 ソースコードはhttps://github.com/wang-chen/LGLで入手できる。

Graph neural networks (GNN) are powerful models for many graph-structured tasks. Existing models often assume that the complete structure of the graph is available during training. In practice, however, graph-structured data is usually formed in a streaming fashion so that learning a graph continuously is often necessary. In this paper, we bridge GNN and lifelong learning by converting a continual graph learning problem to a regular graph learning problem so GNN can inherit the lifelong learning techniques developed for convolutional neural networks (CNN). We propose a new topology, the feature graph, which takes features as new nodes and turns nodes into independent graphs. This successfully converts the original problem of node classification to graph classification. In the experiments, we demonstrate the efficiency and effectiveness of feature graph networks (FGN) by continuously learning a sequence of classical graph datasets. We also show that FGN achieves superior performance in two applications, i.e., lifelong human action recognition with wearable devices and feature matching. To the best of our knowledge, FGN is the first method to bridge graph learning and lifelong learning via a novel graph topology. Source code is available at https://github.com/wang-chen/LGL
翻訳日:2022-10-23 00:42:51 公開日:2022-03-26
# サーベイランスエバージョンゲームにおける可視性最適化

Visibility Optimization for Surveillance-Evasion Games ( http://arxiv.org/abs/2010.09001v2 )

ライセンス: Link先を確認
Louis Ly and Yen-Hsi Richard Tsai(参考訳) 監視回避差分ゲームでは,追跡者が常に移動中の回避者の視認性を維持する必要がある。 追突者は、回避者が閉塞されるとすぐに負ける。 ゲームの最適制御はハミルトン-ヤコビ-isaac方程式として定式化できる。 差動ゲームの終了時間に対応するフィードバック値関数を計算するためにアップウインドスキームを用いる。 値関数は最適制御を可能にするが、小さなグリッド上の1つの追従者や1つの回避者であっても計算は極めて高価である。 我々は監視ゲームの個別版を考える。 複数の追従者や回避者による監視回避ゲームにおける静的値関数に基づく2つの局所最適戦略を提案する。 モンテカルロ木探索と自己再生強化学習が深層ニューラルネットワークをトレーニングし,オンラインゲームプレイのための合理的な戦略を生成することを示す。 十分な計算資源とオフライントレーニング時間があれば、提案したモデルはポリシーを改善し続け、より高解像度に効率的にスケールすることができる。

We consider surveillance-evasion differential games, where a pursuer must try to constantly maintain visibility of a moving evader. The pursuer loses as soon as the evader becomes occluded. Optimal controls for game can be formulated as a Hamilton-Jacobi-Isaac equation. We use an upwind scheme to compute the feedback value function, corresponding to the end-game time of the differential game. Although the value function enables optimal controls, it is prohibitively expensive to compute, even for a single pursuer and single evader on a small grid. We consider a discrete variant of the surveillance-game. We propose two locally optimal strategies based on the static value function for the surveillance-evasion game with multiple pursuers and evaders. We show that Monte Carlo tree search and self-play reinforcement learning can train a deep neural network to generate reasonable strategies for on-line game play. Given enough computational resources and offline training time, the proposed model can continue to improve its policies and efficiently scale to higher resolutions.
翻訳日:2022-10-06 04:33:43 公開日:2022-03-26
# ソーシャルメディアを用いたクルド語短文の医療データセット分類

Medical Dataset Classification for Kurdish Short Text over Social Media ( http://arxiv.org/abs/2204.09660v1 )

ライセンス: Link先を確認
Ari M. Saeed, Shnya R. Hussein, Chro M. Ali, Tarik A. Rashid(参考訳) Facebookアプリケーションは、このデータセットのコメント収集のリソースとして使用され、データセットは6756のコメントからなり、MKD(Medicical Kurdish Dataset)を作成する。 サンプルはユーザーのコメントで、さまざまな投稿(医学、ニュース、経済、教育、スポーツ)から集められている。 生データセット上でプリプロセッシング技術としての6つのステップを実行し、文字を置き換えてコメントのノイズをきれいに除去する。 コメント(短いテキスト)は、正のクラス(医学的コメント)と負のクラス(医学的コメント)をテキスト分類としてラベル付けする。 負のクラスの割合は55%であり、正のクラスは45%である。

The Facebook application is used as a resource for collecting the comments of this dataset, The dataset consists of 6756 comments to create a Medical Kurdish Dataset (MKD). The samples are comments of users, which are gathered from different posts of pages (Medical, News, Economy, Education, and Sport). Six steps as a preprocessing technique are performed on the raw dataset to clean and remove noise in the comments by replacing characters. The comments (short text) are labeled for positive class (medical comment) and negative class (non-medical comment) as text classification. The percentage ratio of the negative class is 55% while the positive class is 45%.
翻訳日:2022-04-24 16:42:38 公開日:2022-03-26
# (参考訳) 神経多様体に基づくスパイキングニューラルネットワークによる皮質内脳-コンピューター間インタフェースデータの増強

A Spiking Neural Network based on Neural Manifold for Augmenting Intracortical Brain-Computer Interface Data ( http://arxiv.org/abs/2204.05132v1 )

ライセンス: CC BY 4.0
Shengjie Zheng, Wenyi Li, Lang Qian, Chenggang He, Xiaojian Li(参考訳) 脳-コンピュータインターフェース(BCI)は、脳内の神経信号をインストラクションに変換して外部デバイスを制御する。 しかし、十分なトレーニングデータを得ることは困難であり、制限もある。 先進的な機械学習手法の出現に伴い、脳-コンピュータインタフェースの能力はかつてないほど強化されてきたが、これらの手法はトレーニングに大量のデータを必要とするため、利用可能な限られたデータのデータ拡張が必要である。 ここでは、データジェネレータとしてスパイキングニューラルネットワーク(SNN)を用いる。 次世代ニューラルネットワークとして知られ、生体ニューロンからの神経情報処理を借用するため、一般的な人工脳知能に指向したアルゴリズムの1つと考えられている。 我々はSNNを用いて、生解釈可能なニューラルスパイク情報を生成し、元のニューラルデータの本質的なパターンに適合する。 このモデルは,BCIデコーダの一般化能力を向上させるために,新しいスパイク列車を直接合成できることを示す。 スパイク神経モデルの入力と出力はスパイク情報であり、脳にインスパイアされたインテリジェンスアプローチであり、将来的にはBCIとよりうまく統合できる。

Brain-computer interfaces (BCIs), transform neural signals in the brain into in-structions to control external devices. However, obtaining sufficient training data is difficult as well as limited. With the advent of advanced machine learning methods, the capability of brain-computer interfaces has been enhanced like never before, however, these methods require a large amount of data for training and thus require data augmentation of the limited data available. Here, we use spiking neural networks (SNN) as data generators. It is touted as the next-generation neu-ral network and is considered as one of the algorithms oriented to general artifi-cial intelligence because it borrows the neural information processing from bio-logical neurons. We use the SNN to generate neural spike information that is bio-interpretable and conforms to the intrinsic patterns in the original neural data. Ex-periments show that the model can directly synthesize new spike trains, which in turn improves the generalization ability of the BCI decoder. Both the input and output of the spiking neural model are spike information, which is a brain-inspired intelligence approach that can be better integrated with BCI in the future.
翻訳日:2022-04-17 09:46:27 公開日:2022-03-26
# (参考訳) 非専門家のための自動学習システムの実装

Implementation of an Automated Learning System for Non-experts ( http://arxiv.org/abs/2203.15784v1 )

ライセンス: CC BY 4.0
Phoenix X. Huang, Zhiwei Zhao, Chao Liu, Jingyi Liu, Wenze Hu, Xiaoyu Wang(参考訳) 非専門家向けの自動機械学習システムは、業界にとって人工知能を自身のアプリケーションに導入する上で非常に重要である。 本稿では,ユーザと対話するためのグラフィカルインターフェースに完全に依存するYMIRという自動機械学習システムのエンジニアリングシステム実装について詳述する。 トレーニング/検証データをシステムにインポートした後、AI知識のないユーザは、データをラベル付けし、モデルをトレーニングし、単にボタンをクリックするだけでデータマイニングと評価を行うことができる。 論文は以下の通り。 1)dockerコンテナによるモデルトレーニングと推論のオープン実装。 2)タスクおよびリソース管理の実装。 3)ラベルソフトウェアの統合。 4)HCI(Human Computer Interaction)を再構築した共同開発パラダイムによる実装。 また,本システムを用いたトレーニングモデルのケーススタディも提供する。 この論文は、業界アプリケーションの観点から、自動機械学習コミュニティの繁栄を促進することを願っています。 システムのコードはGitHubにすでにリリースされている(https://github.com/industryessentials/ymir)。

Automated machine learning systems for non-experts could be critical for industries to adopt artificial intelligence to their own applications. This paper detailed the engineering system implementation of an automated machine learning system called YMIR, which completely relies on graphical interface to interact with users. After importing training/validation data into the system, a user without AI knowledge can label the data, train models, perform data mining and evaluation by simply clicking buttons. The paper described: 1) Open implementation of model training and inference through docker containers. 2) Implementation of task and resource management. 3) Integration of Labeling software. 4) Implementation of HCI (Human Computer Interaction) with a rebuilt collaborative development paradigm. We also provide subsequent case study on training models with the system. We hope this paper can facilitate the prosperity of our automated machine learning community from industry application perspective. The code of the system has already been released to GitHub (https://github.com/industryessentials/ymir).
翻訳日:2022-04-03 03:20:57 公開日:2022-03-26
# (参考訳) モード分解に基づくfmriデータの時変位相同期

Mode decomposition-based time-varying phase synchronization for fMRI Data ( http://arxiv.org/abs/2203.13955v1 )

ライセンス: CC BY 4.0
Hamed Honari (1), Martin A. Lindquist (2) ((1) Department of Electrical and Computer Engineering, Johns Hopkins University, USA (2) Department of Biostatistics, Johns Hopkins University, USA)(参考訳) 近年,sing-state functional magnetic resonance imaging (rs-fmri) を用いた脳領域間の時間変動機能接続(tvc)の測定に注目が集まっている。 異なる脳領域の信号間の関係を評価する一つの方法は、その位相同期(PS)を時間にわたって測定することである。 しかし、分析を行うのに必要な帯域通過フィルタの型とカットオフの周波数を \textit{a priori} で選択する必要がある。 本稿では,この問題を回避する様々なモード分解(md)手法を用いた代替手法を検討する。 これらの手法により、異なる周波数の狭帯域成分に結合して信号のデータ駆動分解が可能となり、ps測定に必要な要件を満たすことができる。 実験モード分解(EMD)、二変量EMD(BEMD)、ノイズアシスト多変量EMD(na-MEMD)など、MDの様々なバリエーションを検討し、時間変化PSを推定する文脈で多変量モード分解(MVMD)を導入する。 我々は,一連のシミュレーションを用いたアプローチと,rs-fMRIデータへの適用を対比する。 以上の結果から,MVMDは他の評価MD手法よりも優れており,rs-fMRIデータの経時変化PSを確実に調査する手段としても有効であることが示唆された。

Recently there has been significant interest in measuring time-varying functional connectivity (TVC) between different brain regions using resting-state functional magnetic resonance imaging (rs-fMRI) data. One way to assess the relationship between signals from different brain regions is to measure their phase synchronization (PS) across time. However, this requires the \textit{a priori} choice of type and cut-off frequencies for the bandpass filter needed to perform the analysis. Here we explore alternative approaches based on the use of various mode decomposition (MD) techniques that circumvent this issue. These techniques allow for the data driven decomposition of signals jointly into narrow-band components at different frequencies, thus fulfilling the requirements needed to measure PS. We explore several variants of MD, including empirical mode decomposition (EMD), bivariate EMD (BEMD), noise-assisted multivariate EMD (na-MEMD), and introduce the use of multivariate variational mode decomposition (MVMD) in the context of estimating time-varying PS. We contrast the approaches using a series of simulations and application to rs-fMRI data. Our results show that MVMD outperforms other evaluated MD approaches, and further suggests that this approach can be used as a tool to reliably investigate time-varying PS in rs-fMRI data.
翻訳日:2022-04-03 03:12:45 公開日:2022-03-26
# (参考訳) マルチコントラストmriのためのトランスフォーマティブマルチスケールコンテクストマッチングとアグリゲーション

Transformer-empowered Multi-scale Contextual Matching and Aggregation for Multi-contrast MRI Super-resolution ( http://arxiv.org/abs/2203.13963v1 )

ライセンス: CC BY 4.0
Guangyuan Li, Jun Lv, Yapeng Tian, Qi Dou, Chengyan Wang, Chenliang Xu and Jing Qin(参考訳) 磁気共鳴イメージング(mri)は、同じ解剖学的構造のマルチコントラスト像を呈し、マルチコントラストスーパーレゾリューション(sr)技術を可能にする。 単一コントラストを用いたSR再構成と比較して、マルチコントラストSR再構成は、異なる画像モードに埋め込まれた多様な相補的な情報を活用することにより、SR画像の高画質化を約束する。 しかし, 従来の手法では, 異なるスケールのマルチコントラストの特徴が異なる解剖学的詳細を含まないため, それらの特徴に適合・融合する効果的な機構が欠如していること, 2) 複雑な解剖学的構造を持つ領域に不可欠な長距離依存関係の取得には不十分であること, の2つの欠点がある。 我々は,これらの問題を包括的に解決する新しいネットワークを提案し,このネットワークをMcMRSRと呼ぶ,革新的なマルチスケールコンテキストマッチングと集約技術を開発した。 まず、トランスフォーマーに参照画像とターゲット画像の両方の長距離依存性をモデル化させる。 次に,異なるスケールで参照特徴から対応するコンテキストをキャプチャするために,新しいマルチスケールコンテキストマッチング手法を提案する。 さらに,対象のSR MR画像の再構成を行うためのマルチスケールマッチング特徴を,徐々にインタラクティブに集約するマルチスケールアグリゲーション機構を導入する。 我々のネットワークは最先端のアプローチよりも優れており,臨床応用の可能性も大きい。 コードはhttps://github.com/XAIMI-Lab/McMRSRで公開されている。

Magnetic resonance imaging (MRI) can present multi-contrast images of the same anatomical structures, enabling multi-contrast super-resolution (SR) techniques. Compared with SR reconstruction using a single-contrast, multi-contrast SR reconstruction is promising to yield SR images with higher quality by leveraging diverse yet complementary information embedded in different imaging modalities. However, existing methods still have two shortcomings: (1) they neglect that the multi-contrast features at different scales contain different anatomical details and hence lack effective mechanisms to match and fuse these features for better reconstruction; and (2) they are still deficient in capturing long-range dependencies, which are essential for the regions with complicated anatomical structures. We propose a novel network to comprehensively address these problems by developing a set of innovative Transformer-empowered multi-scale contextual matching and aggregation techniques; we call it McMRSR. Firstly, we tame transformers to model long-range dependencies in both reference and target images. Then, a new multi-scale contextual matching method is proposed to capture corresponding contexts from reference features at different scales. Furthermore, we introduce a multi-scale aggregation mechanism to gradually and interactively aggregate multi-scale matched features for reconstructing the target SR MR image. Extensive experiments demonstrate that our network outperforms state-of-the-art approaches and has great potential to be applied in clinical practice. Codes are available at https://github.com/XAIMI-Lab/McMRSR.
翻訳日:2022-04-03 03:10:57 公開日:2022-03-26
# (参考訳) 深度重み付きDeep Priorを用いた電流源位置推定

Current Source Localization Using Deep Prior with Depth Weighting ( http://arxiv.org/abs/2203.13981v1 )

ライセンス: CC BY 4.0
Rio Yamana, Hajime Yano, Ryoichi Takashima, Tetsuya Takiguchi, Seiji Nakagawa(参考訳) 本稿では,畳み込みネットワークを用いた電流源のより複雑な事前分布を表す,deep priorに基づく新しいニューロン電流源定位法を提案する。 Deep Priorは、トレーニングデータを使用した学習を必要としない教師なしの学習アプローチの手段として提案されており、ランダムに初期化されたニューラルネットワークを使用して、ソース位置を単一の観測で更新する。 前回の研究では,脳内深部Prior-based current source localization法が提案されているが,SLORETAのような従来の手法とほとんど同じ性能ではなかった。 本稿では,深部Priorに基づくアプローチを改善するために,深度重み付けによって表面電流により多くのペナルティを割り当てるディーププライドについて,電流源の深さ重みを導入している。 その有効性は、シミュレーションされたMEGデータに対する電流源推定実験により確認される。

This paper proposes a novel neuronal current source localization method based on Deep Prior that represents a more complicated prior distribution of current source using convolutional networks. Deep Prior has been suggested as a means of an unsupervised learning approach that does not require learning using training data, and randomly-initialized neural networks are used to update a source location using a single observation. In our previous work, a Deep-Prior-based current source localization method in the brain has been proposed but the performance was not almost the same as those of conventional approaches, such as sLORETA. In order to improve the Deep-Prior-based approach, in this paper, a depth weight of the current source is introduced for Deep Prior, where depth weighting amounts to assigning more penalty to the superficial currents. Its effectiveness is confirmed by experiments of current source estimation on simulated MEG data.
翻訳日:2022-04-03 02:54:06 公開日:2022-03-26
# (参考訳) 単眼深度推定はセマンティックセグメンテーションの分類よりも事前訓練が優れているか?

Does Monocular Depth Estimation Provide Better Pre-training than Classification for Semantic Segmentation? ( http://arxiv.org/abs/2203.13987v1 )

ライセンス: CC BY 4.0
Dong Lao, Alex Wong and Stefano Soatto(参考訳) セマンティックセグメンテーションのためのディープニューラルネットワークのトレーニングは、労力を要するため、別のタスクのために事前トレーニングし、小さな注釈付きデータセットで微調整するのが一般的です。 state-of-the-artメソッドは、未制御バイアスを導入する事前トレーニングに画像分類を使用する。 ラベルなしビデオからの深度推定が事前学習に役立てる可能性があるという仮説を検証した。 セマンティックな情報がないにもかかわらず、画像全体をセマンティッククラスに分類するよりも、シーン幾何学を推定することはセマンティックセマンティックセマンティクスの課題に近いと論じる。 解析的検証は難易度が高いため,分類に基づく事前学習よりも5.7% mIoU と4.1% の精度を向上する事前学習スキームを導入することにより,仮説を実証的に検証する。 事前トレーニングにはアノテーションは必要ありませんが、仮説をテストするには必要です。 その目的のために,kitti (outdoor) と nyu-v2 (indoor) ベンチマークを用い,既存の非教師なし,自己教師なし,半教師なしの事前学習プロトコルに関する提案手法の利点と限界について幅広い議論を行った。

Training a deep neural network for semantic segmentation is labor-intensive, so it is common to pre-train it for a different task, and then fine-tune it with a small annotated dataset. State-of-the-art methods use image classification for pre-training, which introduces uncontrolled biases. We test the hypothesis that depth estimation from unlabeled videos may provide better pre-training. Despite the absence of any semantic information, we argue that estimating scene geometry is closer to the task of semantic segmentation than classifying whole images into semantic classes. Since analytical validation is intractable, we test the hypothesis empirically by introducing a pre-training scheme that yields an improvement of 5.7% mIoU and 4.1% pixel accuracy over classification-based pre-training. While annotation is not needed for pre-training, it is needed for testing the hypothesis. We use the KITTI (outdoor) and NYU-V2 (indoor) benchmarks to that end, and provide an extensive discussion of the benefits and limitations of the proposed scheme in relation to existing unsupervised, self-supervised, and semi-supervised pre-training protocols.
翻訳日:2022-04-03 02:27:07 公開日:2022-03-26
# (参考訳) 非重複データを用いたクロスドメインレコメンデーションのためのコードブック潜在因子の転送

Transfer of codebook latent factors for cross-domain recommendation with non-overlapping data ( http://arxiv.org/abs/2203.13995v1 )

ライセンス: CC BY 4.0
Sowmini Devi Veeramachaneni, Arun K Pujari, Vineet Padmanabhan, Vikas Kumar(参考訳) 協調フィルタリングに基づくレコメンダシステムは,ユーザの過去の取引や他の類似顧客からのフィードバックに基づいて,ユーザの関心項目の発見を指導する上で,多くのEコマースアプリケーションにおいて重要な役割を担っている。 Data Sparsityは、トランザクション数やフィードバックデータが少ないために発生するコラボレーティブフィルタリング技術の大きな欠点の1つです。 疎度問題を解決するため、トランスファーラーニング/クロスドメインレコメンデーションと呼ばれる手法が登場した。 伝達学習法では、スパース領域(ターゲット)の欠落評価を予測するために、他の高密度領域(ソース)からのデータが考慮される。 本稿では,ソースドメインのクラスタレベル評価パターン(コードブック)を共クラスタ化手法を用いて取得する,クロスドメイン推薦のための新しい転送学習手法を提案する。 その後、コードブックのユーザおよびアイテム潜在機能を学ぶために、MMMF(Maximum Margin Matrix Factorization)技術を適用した。 目標評価行列の予測は、これらの潜在特徴を最適化関数に新しい方法で導入することにより達成される。 実験では,本モデルにより,ベンチマークデータセット上でのターゲット行列の予測精度が向上することを示した。

Recommender systems based on collaborative filtering play a vital role in many E-commerce applications as they guide the user in finding their items of interest based on the user's past transactions and feedback of other similar customers. Data Sparsity is one of the major drawbacks with collaborative filtering technique arising due to the less number of transactions and feedback data. In order to reduce the sparsity problem, techniques called transfer learning/cross-domain recommendation has emerged. In transfer learning methods, the data from other dense domain(s) (source) is considered in order to predict the missing ratings in the sparse domain (target). In this paper, we come up with a novel transfer learning approach for cross-domain recommendation, wherein the cluster-level rating pattern(codebook) of the source domain is obtained via a co-clustering technique. Thereafter we apply the Maximum Margin Matrix factorization (MMMF) technique on the codebook in order to learn the user and item latent features of codebook. Prediction of the target rating matrix is achieved by introducing these latent features in a novel way into the optimisation function. In the experiments we demonstrate that our model improves the prediction accuracy of the target matrix on benchmark datasets.
翻訳日:2022-04-03 02:05:02 公開日:2022-03-26
# (参考訳) interactive virtual reality laboratory の体系的レビュー

A Systematic Review on Interactive Virtual Reality Laboratory ( http://arxiv.org/abs/2203.15783v1 )

ライセンス: CC BY 4.0
Fozlur Rahman, Marium Sana Mim, Feekra Baset Baishakhi, Mahmudul Hasan and Md. Kishor Morol(参考訳) 仮想現実は長年にわたって教育の重要な要素となっている。 これらの技術の品質と利点を理解するためには、どのように開発され、評価されたかを理解することが重要である。 新型コロナウイルス(COVID-19)以降、教育制度は大きく変化している。 ホワイトボードとプロジェクターを備えた教室から、仮想ミーティングでラップトップの前に自分の部屋を持つことにシフトした。 この点において、VRを用いた品質教育における作業の理解を目的とし、実験室やバーチャルラボにおけるバーチャルリアリティーが本研究の主目的である。 この研究の結果によると、バーチャルリアリティーを教育に応用することは、学生がより効果的に学び、より効果的に学習できるインタラクティブな体験を提供することで、視点、熱意、複雑な概念の知識を高めるのに役立つ。 これは、学習におけるvr利用の大幅な拡大の重要性を強調しており、その大半は、vrを使用する学生と、従来の学習方法を使用する生徒を比較するための科学的比較アプローチを採用している。

Virtual Reality has become a significant element of education throughout the years. To understand the quality and advantages of these techniques, it is important to understand how they were developed and evaluated. Since COVID-19, the education system has drastically changed a lot. It has shifted from being in a classroom with a whiteboard and projectors to having your own room in front of your laptop in a virtual meeting. In this respect, virtual reality in the laboratory or Virtual Laboratory is the main focus of this research, which is intended to comprehend the work done in quality education from a distance using VR. As per the findings of the study, adopting virtual reality in education can help students learn more effectively and also help them increase perspective, enthusiasm, and knowledge of complex notions by offering them an interactive experience in which they can engage and learn more effectively. This highlights the importance of a significant expansion of VR use in learning, the majority of which employ scientific comparison approaches to compare students who use VR to those who use the traditional method for learning.
翻訳日:2022-04-03 01:52:32 公開日:2022-03-26
# (参考訳) 深層伝達学習拡張現実モバイルアプリケーションにおける医用ボックス認識

Medicinal Boxes Recognition on a Deep Transfer Learning Augmented Reality Mobile Application ( http://arxiv.org/abs/2203.14031v1 )

ライセンス: CC BY-SA 4.0
Danilo Avola, Luigi Cinque, Alessio Fagioli, Gian Luca Foresti, Marco Raoul Marini, Alessio Mecca, Daniele Pannone(参考訳) 医学は病気を治すための基本的な側面である。 しかし、研究により、患者が正しいポソロジーを覚えることが困難であることが示されている。 より悪化するが、誤った服用は一般的に病気を悪化させる。 関連する全ての指示は対応する患者情報リーフレットにまとめられているが、後者は一般にナビゲートや理解が困難である。 この問題に対処し,患者を治療支援するために,本論文では,フレーム医薬に関する重要な詳細をユーザに提示する拡張現実モバイルアプリケーションを紹介する。 特にこのアプリは、深層ニューラルネットワーク、すなわち、そのパッケージから薬品を認識するために微調整された高密度ネットワークに基づく推論エンジンを実装している。 その後、カメラフィードにポソロジーや簡易なリーフレットなどの関連情報をオーバーレイして患者が薬を飲むのを助ける。 最適なハイパーパラメータを選択するための広範な実験が、このタスクに対処するために収集されたデータセット上で行われ、最終的に91.30\%の精度とリアルタイム能力を得た。

Taking medicines is a fundamental aspect to cure illnesses. However, studies have shown that it can be hard for patients to remember the correct posology. More aggravating, a wrong dosage generally causes the disease to worsen. Although, all relevant instructions for a medicine are summarized in the corresponding patient information leaflet, the latter is generally difficult to navigate and understand. To address this problem and help patients with their medication, in this paper we introduce an augmented reality mobile application that can present to the user important details on the framed medicine. In particular, the app implements an inference engine based on a deep neural network, i.e., a densenet, fine-tuned to recognize a medicinal from its package. Subsequently, relevant information, such as posology or a simplified leaflet, is overlaid on the camera feed to help a patient when taking a medicine. Extensive experiments to select the best hyperparameters were performed on a dataset specifically collected to address this task; ultimately obtaining up to 91.30\% accuracy as well as real-time capabilities.
翻訳日:2022-04-03 01:38:11 公開日:2022-03-26
# (参考訳) 人口ベースfMRI分類のためのコントラストグラフ学習

Contrastive Graph Learning for Population-based fMRI Classification ( http://arxiv.org/abs/2203.14044v1 )

ライセンス: CC BY 4.0
Xuesong Wang, Lina Yao, Islem Rekik, Yu Zhang(参考訳) 対照的な自己教師型学習は、帰納バイアスを伴うfMRI分類の恩恵を受けている。 その弱いラベル依存は、小さな医療データセットへの過剰フィットを防ぎ、高いクラス内ばらつきに取り組む。 それにもかかわらず、既存のコントラスト法は、3d医療画像のピクセルレベルの特徴のみに類似したペアを生成するが、重要な認知情報を示す機能的接続は未検討である。 さらに,患者集団の近隣情報を認識せずに,個々のコントラスト表現のラベルを予測し,患者間コントラストは集団分類に適した類似度尺度として機能する。 そこで我々は,FMRI分類のためのコントラスト関数接続グラフ学習を提案する。 機能接続グラフの表現は、異種患者ペアに対して「反発」される一方、同種患者ペアは互いに「引き合う」。 そして、類似した患者間の接続を強化する動的人口グラフを分類のために更新する。 マルチサイトデータセット adhd200 の実験により,提案手法の各種指標に対する優劣性が検証された。 まず、人口関係を視覚化し、潜在的なサブタイプを利用する。

Contrastive self-supervised learning has recently benefited fMRI classification with inductive biases. Its weak label reliance prevents overfitting on small medical datasets and tackles the high intraclass variances. Nonetheless, existing contrastive methods generate resemblant pairs only on pixel-level features of 3D medical images, while the functional connectivity that reveals critical cognitive information is under-explored. Additionally, existing methods predict labels on individual contrastive representation without recognizing neighbouring information in the patient group, whereas interpatient contrast can act as a similarity measure suitable for population-based classification. We hereby proposed contrastive functional connectivity graph learning for population-based fMRI classification. Representations on the functional connectivity graphs are "repelled" for heterogeneous patient pairs meanwhile homogeneous pairs "attract" each other. Then a dynamic population graph that strengthens the connections between similar patients is updated for classification. Experiments on a multi-site dataset ADHD200 validate the superiority of the proposed method on various metrics. We initially visualize the population relationships and exploit potential subtypes.
翻訳日:2022-04-03 01:28:43 公開日:2022-03-26
# (参考訳) rgb-dニューラルラミアンスフィールド--高速トレーニングのための局所サンプリング

RGB-D Neural Radiance Fields: Local Sampling for Faster Training ( http://arxiv.org/abs/2203.15587v1 )

ライセンス: CC BY 4.0
Arnab Dey and Andrew I. Comport(参考訳) シーンの3d表現を学ぶことは、何十年もの間コンピュータビジョンの難題だった。 神経放射場(NeRF)を用いた画像からの暗黙的神経表現の最近の進歩は有望な結果を示している。 以前のnerfベースの方法の制限には、長いトレーニング時間と不正確な基礎幾何学が含まれる。 提案手法はRGB-Dデータを利用して深度センシングを利用して局所サンプリングを改善することによりトレーニング時間を短縮する。 本稿では,より高速なトレーニング時間を実現するために,深度誘導型局所サンプリング戦略とニューラルネットワークアーキテクチャを提案する。

Learning a 3D representation of a scene has been a challenging problem for decades in computer vision. Recent advances in implicit neural representation from images using neural radiance fields(NeRF) have shown promising results. Some of the limitations of previous NeRF based methods include longer training time, and inaccurate underlying geometry. The proposed method takes advantage of RGB-D data to reduce training time by leveraging depth sensing to improve local sampling. This paper proposes a depth-guided local sampling strategy and a smaller neural network architecture to achieve faster training time without compromising quality.
翻訳日:2022-04-03 01:19:34 公開日:2022-03-26
# (参考訳) 強化学習を用いた複数電気自動車充電点の計算効率向上

Computationally efficient joint coordination of multiple electric vehicle charging points using reinforcement learning ( http://arxiv.org/abs/2203.14078v1 )

ライセンス: CC BY 4.0
Manu Lahariya, Nasrin Sadeghianpourhamami and Chris Develder(参考訳) 今日の電力網の大きな課題は、電気自動車(EV)充電による負荷の増加を管理することである。 需要応答(DR)ソリューションは、柔軟性、すなわちEV充電を時間とともにシフトさせ、過剰なピークを避けたり、バランスを改善する能力を活用することを目的としている。 既存の研究の多くは、1つのEV充電器の制御戦略に焦点をあてるか、複数段階のアプローチ(例えば、第一段階の集合制御決定ステップ、そして個別のEV制御決定)を用いるかのどちらかであるが、我々は、一度に複数の充電ポイントを協調的に調整するシングルステップのソリューションを提案する。 本稿では,その運用を制限する計算課題を特に解決するために,強化学習(rl)を用いた初期提案をさらに洗練する。 より正確には、EV充電調整プロセスの新しいマルコフ決定プロセス(MDP)を設計し、(以前の二次空間複雑性とは対照的に)線形空間と時間複雑性のみを示す。 そこで我々は,実際のEV充電セッションデータを用いたケーススタディにおいて,トレーニング時間の30%削減を実証した。 当社の新しいRLソリューションは、ビジネス・アズ・ユース・ポリシー(EVの到着時に完全課金する)とヒューリスティック・ポリシー(個別EVの充電を時間とともに均一に展開する)の20-30%に比べて、充電需要調整のパフォーマンスを40-50%向上させています。

A major challenge in todays power grid is to manage the increasing load from electric vehicle (EV) charging. Demand response (DR) solutions aim to exploit flexibility therein, i.e., the ability to shift EV charging in time and thus avoid excessive peaks or achieve better balancing. Whereas the majority of existing research works either focus on control strategies for a single EV charger, or use a multi-step approach (e.g., a first high level aggregate control decision step, followed by individual EV control decisions), we rather propose a single-step solution that jointly coordinates multiple charging points at once. In this paper, we further refine an initial proposal using reinforcement learning (RL), specifically addressing computational challenges that would limit its deployment in practice. More precisely, we design a new Markov decision process (MDP) formulation of the EV charging coordination process, exhibiting only linear space and time complexity (as opposed to the earlier quadratic space complexity). We thus improve upon earlier state-of-the-art, demonstrating 30% reduction of training time in our case study using real-world EV charging session data. Yet, we do not sacrifice the resulting performance in meeting the DR objectives: our new RL solutions still improve the performance of charging demand coordination by 40-50% compared to a business-as-usual policy (that charges EV fully upon arrival) and 20-30% compared to a heuristic policy (that uniformly spreads individual EV charging over time).
翻訳日:2022-04-03 01:14:06 公開日:2022-03-26
# (参考訳) ハールウェーブレットを用いた近赤外深度非依存画像デハージング

Near-Infrared Depth-Independent Image Dehazing using Haar Wavelets ( http://arxiv.org/abs/2203.14085v1 )

ライセンス: CC BY 4.0
Sumit Laha, Ankit Sharma, Shengnan Hu and Hassan Foroosh(参考訳) 本稿では,RGB画像から色情報と対応するNIR画像から抽出したエッジ情報をハールウェーブレットを用いて組み合わせたヘイズ除去のための融合アルゴリズムを提案する。 提案アルゴリズムは,同じ領域のRGBエッジ特徴よりも,画像のヘイズ領域においてNIRエッジ特徴が顕著であることを示す。 色とエッジの情報を組み合わせるために,融合過程で色とエッジの情報を比例的に分配するhaze-weight mapを提案する。 NIR画像は本質的にほとんどヘイズフリーなので、我々の研究は、散乱モデルに依存し、本質的に深度に依存しない手法を設計する既存の研究のような仮定をしていない。 これはアーティファクトの最小化に役立ち、復元されたヘイズフリーの画像により現実的な意味を与える。 大規模な実験により,提案アルゴリズムは既存の最先端手法と比較して,いくつかの重要な指標に対して質的かつ定量的に優れていることがわかった。

We propose a fusion algorithm for haze removal that combines color information from an RGB image and edge information extracted from its corresponding NIR image using Haar wavelets. The proposed algorithm is based on the key observation that NIR edge features are more prominent in the hazy regions of the image than the RGB edge features in those same regions. To combine the color and edge information, we introduce a haze-weight map which proportionately distributes the color and edge information during the fusion process. Because NIR images are, intrinsically, nearly haze-free, our work makes no assumptions like existing works that rely on a scattering model and essentially designing a depth-independent method. This helps in minimizing artifacts and gives a more realistic sense to the restored haze-free image. Extensive experiments show that the proposed algorithm is both qualitatively and quantitatively better on several key metrics when compared to existing state-of-the-art methods.
翻訳日:2022-04-03 00:51:15 公開日:2022-03-26
# (参考訳) インクリメンタルセグメンテーションのための不確かさを意識したコントラスト蒸留

Uncertainty-aware Contrastive Distillation for Incremental Semantic Segmentation ( http://arxiv.org/abs/2203.14098v1 )

ライセンス: CC BY 4.0
Guanglei Yang, Enrico Fini, Dan Xu, Paolo Rota, Mingli Ding, Moin Nabi, Xavier Alameda-Pineda, Elisa Ricci(参考訳) 深層学習における根本的な、そして困難な問題は、破滅的な忘れること、すなわち、新しいタスクを学ぶ際に古いタスクから得られた知識を保存するのにニューラルネットワークが失敗する傾向である。 この問題は研究コミュニティで広く研究されており、近年ではいくつかのインクリメンタル学習(il)アプローチが提案されている。 コンピュータビジョンにおける初期の研究は画像分類とオブジェクト検出に重点を置いていたが、最近では意味的セグメンテーションのためのいくつかのILアプローチが導入されている。 これらの以前の研究は、その単純さにもかかわらず、知識蒸留は破滅的な忘れを和らげるために効果的に使用できることを示した。 本稿では,本研究の方向性に従い,近年のコントラスト学習の文献に触発されて,新しい蒸留フレームワークである不確かさを意識したコントラスト蒸留(\method)を提案する。 一言で言えば、 \method~は、ミニバッチ内の全ての画像を考慮した新しい蒸留損失を導入し、同じクラスから全てのピクセルに関連付けられた機能間の類似性を強制し、異なるクラスからピクセルに対応するものを分離することで操作される。 壊滅的な忘れを緩和するために,新しいモデルの特徴と,凍結したモデルによって抽出された特徴との対比を行った。 提案手法は, 従来のIL手法と相乗効果があり, インクリメンタルセマンティックセマンティックセマンティックスセグメンテーションのために広く採用されている3つのベンチマーク上での最先端性能を実現することができる。 コードは \url{https://github.com/ygjwd12345/ucd} で入手できる。

A fundamental and challenging problem in deep learning is catastrophic forgetting, i.e. the tendency of neural networks to fail to preserve the knowledge acquired from old tasks when learning new tasks. This problem has been widely investigated in the research community and several Incremental Learning (IL) approaches have been proposed in the past years. While earlier works in computer vision have mostly focused on image classification and object detection, more recently some IL approaches for semantic segmentation have been introduced. These previous works showed that, despite its simplicity, knowledge distillation can be effectively employed to alleviate catastrophic forgetting. In this paper, we follow this research direction and, inspired by recent literature on contrastive learning, we propose a novel distillation framework, Uncertainty-aware Contrastive Distillation (\method). In a nutshell, \method~is operated by introducing a novel distillation loss that takes into account all the images in a mini-batch, enforcing similarity between features associated to all the pixels from the same classes, and pulling apart those corresponding to pixels from different classes. In order to mitigate catastrophic forgetting, we contrast features of the new model with features extracted by a frozen model learned at the previous incremental step. Our experimental results demonstrate the advantage of the proposed distillation technique, which can be used in synergy with previous IL approaches, and leads to state-of-art performance on three commonly adopted benchmarks for incremental semantic segmentation. The code is available at \url{https://github.com/ygjwd12345/UCD}.
翻訳日:2022-04-03 00:41:49 公開日:2022-03-26
# (参考訳) 広範囲欠落データの存在下でのガウス過程3次元形状モデリングの確率的登録

Probabilistic Registration for Gaussian Process 3D shape modelling in the presence of extensive missing data ( http://arxiv.org/abs/2203.14113v1 )

ライセンス: CC BY 4.0
Filipa Valdeira and Ricardo Ferreira and Alessandra Micheletti and Cl\'audia Soares(参考訳) ガウス過程は形状モデリングの強力なツールである。 この領域における既存の手法は、人間の頭部の一般的な場合ではうまく機能するが、より詳細で変形したデータを見ると、耳のような欠落したデータが多く、結果が満足できない。 これを解決するために,マルチアノテータのガウス過程回帰として形状適合問題を定式化し,標準確率登録と並列性を確立する。 得られたgpreg法は,最先端の登録法やgp登録の現在のアプローチと比較して,欠落データの広範囲な領域を扱う場合に優れた性能を示す。

Gaussian Processes are a powerful tool for shape modelling. While the existing methods on this area prove to work well for the general case of the human head, when looking at more detailed and deformed data, with a high prevalence of missing data, such as the ears, the results are not satisfactory. In order to overcome this, we formulate the shape fitting problem as a multi-annotator Gaussian Process Regression and establish a parallel with the standard probabilistic registration. The achieved method GPReg shows better performance when dealing with extensive areas of missing data when compared to a state-of-the-art registration method and the current approach for registration with GP.
翻訳日:2022-04-03 00:15:36 公開日:2022-03-26
# (参考訳) 不可避逆画像摂動のリバースエンジニアリング

Reverse Engineering of Imperceptible Adversarial Image Perturbations ( http://arxiv.org/abs/2203.14145v1 )

ライセンス: CC BY 4.0
Yifan Gong, Yuguang Yao, Yize Li, Yimeng Zhang, Xiaoming Liu, Xue Lin, Sijia Liu(参考訳) ニューラルネットワークに基づく画像分類器は、敵が作り出した小さな摂動を持つ画像によって容易に騙されることがよく認識されている。 このような敵対的な攻撃を発生し、防御するための膨大な研究がある。 しかし、次の問題は未解決のままである: 敵のイメージから敵の摂動をリバースエンジニアリングする方法? これは新たな逆学習パラダイム、-Reverse Engineering of Deceptions (RED)につながります。 成功すれば、赤は敵の摂動を推定し、元の画像を復元できます。 しかし、一方のRED目標を最適化することで、慎重に製作された小さな対向摂動を回復することは困難である。 例えば、純粋な画像復調法は、再構成誤差を最小限に抑えるのに過度に適合するが、真の対向摂動の分類特性をほとんど保持しない。 この課題に取り組むために、REDの問題を形式化し、REDのアプローチ設計に不可欠な原則のセットを特定します。 特に、予測アライメントと(空間変換の観点から)適切なデータ拡張は、一般化可能なREDアプローチを実現するための2つの基準であることがわかった。 REDの原則をイメージデノーミングと統合することにより,CDD-REDと呼ばれる新たなクラス識別デノナイズベースのREDフレームワークを提案する。 大規模な実験では、異なる評価指標(ピクセルレベル、予測レベルから属性レベルへのアライメント)と様々なアタック生成方法(FGSM、PGD、CW、AutoAttack、アダプティブアタックなど)の下でCDD-REDの有効性を示す。

It has been well recognized that neural network based image classifiers are easily fooled by images with tiny perturbations crafted by an adversary. There has been a vast volume of research to generate and defend such adversarial attacks. However, the following problem is left unexplored: How to reverse-engineer adversarial perturbations from an adversarial image? This leads to a new adversarial learning paradigm--Reverse Engineering of Deceptions (RED). If successful, RED allows us to estimate adversarial perturbations and recover the original images. However, carefully crafted, tiny adversarial perturbations are difficult to recover by optimizing a unilateral RED objective. For example, the pure image denoising method may overfit to minimizing the reconstruction error but hardly preserve the classification properties of the true adversarial perturbations. To tackle this challenge, we formalize the RED problem and identify a set of principles crucial to the RED approach design. Particularly, we find that prediction alignment and proper data augmentation (in terms of spatial transformations) are two criteria to achieve a generalizable RED approach. By integrating these RED principles with image denoising, we propose a new Class-Discriminative Denoising based RED framework, termed CDD-RED. Extensive experiments demonstrate the effectiveness of CDD-RED under different evaluation metrics (ranging from the pixel-level, prediction-level to the attribution-level alignment) and a variety of attack generation methods (e.g., FGSM, PGD, CW, AutoAttack, and adaptive attacks).
翻訳日:2022-04-02 23:52:34 公開日:2022-03-26
# 分散データ分析

Distributed data analytics ( http://arxiv.org/abs/2203.14088v1 )

ライセンス: Link先を確認
Richard Mortier, Hamed Haddadi, Sandra Servia, Liang Wang(参考訳) 機械学習(ML)技術は、データ分析アプリケーションやサービスを支配し始めている。 レコメンデーションシステムは、オンラインサービスプロバイダの重要なコンポーネントである。 金融業界は不正検出、リスク管理、コンプライアンスなどの分野で大量のデータを活用するためにMLを採用している。 Deep Learningは音声ベースのパーソナルアシスタントなどを支える技術だ。 ML技術のクラウドコンピューティングインフラストラクチャへの展開は、私たちの日常生活の多くの面に恩恵をもたらしています。 特に広告と関連するオンライン産業は、個人データ収集と分析ツールの展開を急速に加速させてきた。 従来、行動分析は、ユーザー行動や好みを推測できる機械学習モデルをトレーニングするために使用する前に、集中型クラウドインフラストラクチャで大量のデータを集めることに依存していた。 対照的に、トレーニングと推論のためのコードとモデルを収集する分散データ分析は、スマートフォンやホームアシスタントなど、ネットワークの端にあるユーザデバイスで利用可能な処理能力とメモリ容量の増加、これらのデバイスやサービスの非常に侵入的な性質に対する感受性の向上、およびプライバシー改善に対する付随的要求の2つの最近の発展によって、強化されている。 大量のデータの移動を削減すれば、エネルギー効率も向上し、デジタルインフラストラクチャの二酸化炭素排出量の増大を緩和し、サービスがクラウドホストされている場合よりもサービス間通信のレイテンシを低減します。 これらのアプローチは、しばしばプライバシー、ユーティリティ、効率上のトレードオフに問題をもたらし、ユーザーエンゲージメントを満足させる必要がある。

Machine Learning (ML) techniques have begun to dominate data analytics applications and services. Recommendation systems are a key component of online service providers. The financial industry has adopted ML to harness large volumes of data in areas such as fraud detection, risk-management, and compliance. Deep Learning is the technology behind voice-based personal assistants, etc. Deployment of ML technologies onto cloud computing infrastructures has benefited numerous aspects of our daily life. The advertising and associated online industries in particular have fuelled a rapid rise the in deployment of personal data collection and analytics tools. Traditionally, behavioural analytics relies on collecting vast amounts of data in centralised cloud infrastructure before using it to train machine learning models that allow user behaviour and preferences to be inferred. A contrasting approach, distributed data analytics, where code and models for training and inference are distributed to the places where data is collected, has been boosted by two recent, ongoing developments: increased processing power and memory capacity available in user devices at the edge of the network, such as smartphones and home assistants; and increased sensitivity to the highly intrusive nature of many of these devices and services and the attendant demands for improved privacy. Indeed, the potential for increased privacy is not the only benefit of distributing data analytics to the edges of the network: reducing the movement of large volumes of data can also improve energy efficiency, helping to ameliorate the ever increasing carbon footprint of our digital infrastructure, enabling much lower latency for service interactions than is possible when services are cloud-hosted. These approaches often introduce challenges in privacy, utility, and efficiency trade-offs, while having to ensure fruitful user engagement.
翻訳日:2022-03-29 17:48:54 公開日:2022-03-26
# Min-Max Stackelbergゲームにおけるロバストな非線形学習

Robust No-Regret Learning in Min-Max Stackelberg Games ( http://arxiv.org/abs/2203.14126v1 )

ライセンス: Link先を確認
Denizalp Goktas, Jiayi Zhao, Amy Greenwald(参考訳) 非regret学習アルゴリズムの振る舞いは、2人のプレイヤー min-max (すなわちゼロサム) ゲームでよく理解されている。 本稿では,第1プレイヤーの戦略が第2プレイヤーの行動に制約を与えるような,依存戦略セットを持つmin-maxゲームにおける非回帰学習の動作について検討する。 このようなゲームは逐次、すなわちmin-max stackelbergゲームとしてよく理解される。 我々は,第1のプレイヤーのみが非回帰アルゴリズムを用いて行動を選択するのに対して,第2のプレイヤーは最もよく反応するのに対し,第2のプレイヤーは2つの設定を考える。 前者の場合、非回帰力学がスタックルバーグ平衡に収束することを示す。 後者の場合、新しいタイプの後悔を導入し、ラグランジアン後悔(Lagrangian regret)と呼び、双方のプレイヤーがラグランジアン後悔を最小化すれば、プレイはスタックルバーグ均衡に収束することを示す。 次に、これらの2つの設定におけるオンラインミラー降下(OMD)ダイナミクスは、それぞれ既知のネスト(シーケンシャル)勾配降下(GDA)アルゴリズムと新しい同時GDAライクなアルゴリズムに対応し、これらのアルゴリズムのスタックルバーグ平衡への収束を確立する。 最後に,オンラインmin-max stackelbergゲームを用いてomdダイナミクスの摂動に対するロバスト性を分析する。 独立戦略セットを持つオンラインミニマックスゲームにおいて,OMDダイナミクスが堅牢であることを証明する。 従属の場合、オンラインフィッシャーマーケットでそれらをシミュレートすることで、OMDダイナミックスのロバスト性を実験的に実証する。

The behavior of no-regret learning algorithms is well understood in two-player min-max (i.e, zero-sum) games. In this paper, we investigate the behavior of no-regret learning in min-max games with dependent strategy sets, where the strategy of the first player constrains the behavior of the second. Such games are best understood as sequential, i.e., min-max Stackelberg, games. We consider two settings, one in which only the first player chooses their actions using a no-regret algorithm while the second player best responds, and one in which both players use no-regret algorithms. For the former case, we show that no-regret dynamics converge to a Stackelberg equilibrium. For the latter case, we introduce a new type of regret, which we call Lagrangian regret, and show that if both players minimize their Lagrangian regrets, then play converges to a Stackelberg equilibrium. We then observe that online mirror descent (OMD) dynamics in these two settings correspond respectively to a known nested (i.e., sequential) gradient descent-ascent (GDA) algorithm and a new simultaneous GDA-like algorithm, thereby establishing convergence of these algorithms to Stackelberg equilibrium. Finally, we analyze the robustness of OMD dynamics to perturbations by investigating online min-max Stackelberg games. We prove that OMD dynamics are robust for a large class of online min-max games with independent strategy sets. In the dependent case, we demonstrate the robustness of OMD dynamics experimentally by simulating them in online Fisher markets, a canonical example of a min-max Stackelberg game with dependent strategy sets.
翻訳日:2022-03-29 17:48:30 公開日:2022-03-26
# Nash, Conley, and Computation:ゲームダイナミクスにおける不可能性と不完全性

Nash, Conley, and Computation: Impossibility and Incompleteness in Game Dynamics ( http://arxiv.org/abs/2203.14129v1 )

ライセンス: Link先を確認
Jason Milionis, Christos Papadimitriou, Georgios Piliouras, Kelly Spendlove(参考訳) ゲームを繰り返しプレイするプレイヤーの振る舞いは,どのような条件下でナッシュ均衡に収束するのだろうか? プレイヤーの行動が離散時間または連続時間規則であると仮定すると、現在の混合戦略プロファイルは次の状態にマッピングされるので、力学系の理論における問題となる。 我々は、この理論、特に連鎖再帰、アトラクタ、およびコンリー指数の概念を適用して、一般的な不可能性の結果を証明する:任意の力学がナッシュ平衡に達しない開始点を持つように束縛されたゲームが存在する。 また、$\epsilon$-approximate Nash equilibriaに対してより強い結果が証明される: ゲーム力学が(適切な意味で)$\epsilon$-Nash equilibriaに収束できないようなゲームがあり、実際にはそのようなゲームの集合は正の測度を持つ。 さらなる数値的な結果は、ゼロから0.09$の間の任意の$\epsilon$に対して成り立つことを示している。 我々の結果は、ナッシュ平衡の概念(および計算にインスパイアされた近似)は全てのゲームに普遍的に適用可能であるが、力学の選択にかかわらず、長期挙動の予測因子として根本的に不完全であることを示す。

Under what conditions do the behaviors of players, who play a game repeatedly, converge to a Nash equilibrium? If one assumes that the players' behavior is a discrete-time or continuous-time rule whereby the current mixed strategy profile is mapped to the next, this becomes a problem in the theory of dynamical systems. We apply this theory, and in particular the concepts of chain recurrence, attractors, and Conley index, to prove a general impossibility result: there exist games for which any dynamics is bound to have starting points that do not end up at a Nash equilibrium. We also prove a stronger result for $\epsilon$-approximate Nash equilibria: there are games such that no game dynamics can converge (in an appropriate sense) to $\epsilon$-Nash equilibria, and in fact the set of such games has positive measure. Further numerical results demonstrate that this holds for any $\epsilon$ between zero and $0.09$. Our results establish that, although the notions of Nash equilibria (and its computation-inspired approximations) are universally applicable in all games, they are also fundamentally incomplete as predictors of long term behavior, regardless of the choice of dynamics.
翻訳日:2022-03-29 17:48:02 公開日:2022-03-26
# インターリービングツインネットワーク符号化によるニューラルネットワークの効率的な大域ロバスト性証明

Efficient Global Robustness Certification of Neural Networks via Interleaving Twin-Network Encoding ( http://arxiv.org/abs/2203.14141v1 )

ライセンス: Link先を確認
Zhilu Wang, Chao Huang, Qi Zhu(参考訳) 深層ニューラルネットワークの堅牢性は、特に安全クリティカルなシステムにデプロイされている場合、入力摂動下でモデル出力がどれほど敏感であるかを分析することが重要であるため、近年大きな関心を集めている。 以前のほとんどの作品は入力サンプル周辺の局所的ロバスト性に焦点が当てられていたが、入力空間全体の摂動下での最大出力変化を制限する大域的ロバスト性の研究はまだ不足している。 本稿では,混合整数線形プログラミング(milp)問題として,reluアクティベーション関数を用いたニューラルネットワークのグローバルロバスト性証明を定式化し,それに対処するための効率的なアプローチを提案する。 提案手法は, ニューラルネットワークの2つのコピーを並列にエンコードし, それらの間欠的な依存関係を付加する, 新たな2重ネットワーク符号化方式と, 緩和と精細化を活用し, 複雑さを低減した近似アルゴリズムを含む。 従来のグローバルロバスト性認証手法と比較した場合の作業のタイミング効率と過近似の厳密性を示す実験を行った。 安全クリティカルシステムにおけるニューラルネットワークのグローバルロバスト性を検証するためのアプローチの重要性と実用性を実証し,閉ループ制御安全性検証の事例研究を行った。

The robustness of deep neural networks has received significant interest recently, especially when being deployed in safety-critical systems, as it is important to analyze how sensitive the model output is under input perturbations. While most previous works focused on the local robustness property around an input sample, the studies of the global robustness property, which bounds the maximum output change under perturbations over the entire input space, are still lacking. In this work, we formulate the global robustness certification for neural networks with ReLU activation functions as a mixed-integer linear programming (MILP) problem, and present an efficient approach to address it. Our approach includes a novel interleaving twin-network encoding scheme, where two copies of the neural network are encoded side-by-side with extra interleaving dependencies added between them, and an over-approximation algorithm leveraging relaxation and refinement techniques to reduce complexity. Experiments demonstrate the timing efficiency of our work when compared with previous global robustness certification methods and the tightness of our over-approximation. A case study of closed-loop control safety verification is conducted, and demonstrates the importance and practicality of our approach for certifying the global robustness of neural networks in safety-critical systems.
翻訳日:2022-03-29 17:47:39 公開日:2022-03-26
# NUNet:乱流の非均一超解法のためのディープラーニング

NUNet: Deep Learning for Non-Uniform Super-Resolution of Turbulent Flows ( http://arxiv.org/abs/2203.14154v1 )

ライセンス: Link先を確認
Octavi Obiols-Sales, Abhinav Vishnu, Nicholas Malaya, Aparna Chandramowlishwaran(参考訳) 深層学習(DL)アルゴリズムは高分解能乱流(超解像)の再構成にますます人気が高まっている。 しかし、現在のdlアプローチは空間的に均一な超解像 - 計算流体力学 (cfd) のためのdlベースのサロゲートのスケーラビリティのための重要な性能限界である。 この課題に対処するために,我々は,非一様乱流超解像のためのディープラーニングベースの適応メッシュ改善(AMR)フレームワークであるNUNetを紹介する。 NUNetは入力された低解像度フローフィールドをパッチに分割し、各パッチをスコアし、ターゲットの解像度を予測する。 その結果、流体領域の領域を適応的に精製して目標精度を達成する空間的に不均一な流れ場を出力する。 Reynolds-Averaged Navier-Stokes (RANS) を用いてNUNetをトレーニングする。 nunetは顕著な識別性を示し、固形体まわりの流れにおける壁近傍領域やウェイク領域のような複雑な流動特性を持つ領域を精製する一方で、低精度範囲で滑らかな変化(自由流など)を持つ領域を残している。 したがって、NUNetは従来のOpenFOAM AMRソルバと優れた定性的かつ定量的な整合性を示す。 さらに、amrソルバと同じ収束保証に到達し、それを3.2-5.5倍加速し、その一般化能力を示している。 NUNetの関心領域のみを超解する能力のため、1024x1024空間解像度は最先端のDL法よりも7-28.5倍速く、メモリ使用量を4.4-7.65倍に削減し、スケーラビリティの向上を示す。

Deep Learning (DL) algorithms are becoming increasingly popular for the reconstruction of high-resolution turbulent flows (aka super-resolution). However, current DL approaches perform spatially uniform super-resolution - a key performance limiter for scalability of DL-based surrogates for Computational Fluid Dynamics (CFD). To address the above challenge, we introduce NUNet, a deep learning-based adaptive mesh refinement (AMR) framework for non-uniform super-resolution of turbulent flows. NUNet divides the input low-resolution flow field into patches, scores each patch, and predicts their target resolution. As a result, it outputs a spatially non-uniform flow field, adaptively refining regions of the fluid domain to achieve the target accuracy. We train NUNet with Reynolds-Averaged Navier-Stokes (RANS) solutions from three different canonical flows, namely turbulent channel flow, flat plate, and flow around ellipses. NUNet shows remarkable discerning properties, refining areas with complex flow features, such as near-wall domains and the wake region in flow around solid bodies, while leaving areas with smooth variations (such as the freestream) in the low-precision range. Hence, NUNet demonstrates an excellent qualitative and quantitative alignment with the traditional OpenFOAM AMR solver. Moreover, it reaches the same convergence guarantees as the AMR solver while accelerating it by 3.2-5.5x, including unseen-during-training geometries and boundary conditions, demonstrating its generalization capacities. Due to NUNet's ability to super-resolve only regions of interest, it predicts the same target 1024x1024 spatial resolution 7-28.5x faster than state-of-the-art DL methods and reduces the memory usage by 4.4-7.65x, showcasing improved scalability.
翻訳日:2022-03-29 17:47:13 公開日:2022-03-26
# ニューラルネットワークを用いたHodgkin-Huxley型生理学的ニューロンモデルの解析

Discovering dynamical features of Hodgkin-Huxley-type model of physiological neuron using artificial neural network ( http://arxiv.org/abs/2203.14138v1 )

ライセンス: Link先を確認
Pavel V. Kuptsov, Nataliya V. Stankevich, Elmira R. Bagautdinova(参考訳) 2つの高速変数と1つの遅い変数を持つ固いODEシステムであるHodgkin-Huxley型モデルを考える。 パラメータ範囲について、モデルの原バージョンは不安定な固定点を持ち、発破からスパイクダイナミクスへの分岐を示す発振誘引器がある。 また、不動点が安定しバーストアトラクタと共存するパラメータ空間内の領域が現れるように、ビスタビリティが発生するような修正版も検討されている。 これら2つのシステムでは、そのダイナミクスを再現できる人工ニューラルネットワークを作成します。 生成されたネットワークはリカレントマップとして動作し、特定の範囲内のランダムパラメータ値でサンプリングされた軌道カットでトレーニングされる。 ネットワークは振動軌道切断のみに基づいて訓練されるが、考慮されたシステムの固定点も発見する。 位置と固有値は初期ODEの固定点と非常によく一致する。 ビスタブルモデルでは、あるソリューションのブランチでのみトレーニングされたネットワークが、トレーニング中にそれを見ることなく別のブランチを回復することを意味する。 これらの結果は、私たちが見ているように、複雑なダイナミクスの再構築と発見に対する新しいアプローチの開発を誘発することができる。 実用的観点からは、ニューラルネットワークによるダイナミクスの再現は、現代の並列ハードおよびソフトウェアでの使用を目的とした数値モデリングの代替手法であると考えることができる。

We consider Hodgkin-Huxley-type model that is a stiff ODE system with two fast and one slow variables. For the parameter ranges under consideration the original version of the model has unstable fixed point and the oscillating attractor that demonstrates bifurcation from bursting to spiking dynamics. Also a modified version is considered where the bistability occurs such that an area in the parameter space appears where the fixed point becomes stable and coexists with the bursting attractor. For these two systems we create artificial neural networks that are able to reproduce their dynamics. The created networks operate as recurrent maps and are trained on trajectory cuts sampled at random parameter values within a certain range. Although the networks are trained only on oscillatory trajectory cuts, it also discover the fixed point of the considered systems. The position and even the eigenvalues coincide very well with the fixed point of the initial ODEs. For the bistable model it means that the network being trained only on one brunch of the solutions recovers another brunch without seeing it during the training. These results, as we see it, are able to trigger the development of new approaches to complex dynamics reconstruction and discovering. From the practical point of view reproducing dynamics with the neural network can be considered as a sort of alternative method of numerical modeling intended for use with contemporary parallel hard- and software.
翻訳日:2022-03-29 17:44:01 公開日:2022-03-26
# マルチエージェント強化学習による協調的インテリジェント反射面ネットワーク

Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2203.14152v1 )

ライセンス: Link先を確認
Jie Zhang, Jun Li, Yijin Zhang, Qingqing Wu, Xiongwei Wu, Feng Shu, Shi Jin, Wen Chen(参考訳) インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く適用される予定である。 本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。 基地局(BS)における送信ビームフォーミングとIRSにおける離散位相シフトビームフォーミングを共同で設計し、送信電力、ユーザデータレート要求、IRSエネルギーバッファサイズに制約を加えることにより、長期平均達成システムレートを最大化する最適化問題を定式化する。 IRSによって得られたエネルギーの時間変化チャネルと確率的到着を考慮し、まずマルコフ決定過程(MDP)として問題を定式化し、最適化パラメータを2層に分離する新しいマルチエージェントQ-mix(MAQ)フレームワークを開発する。 上位層は位相シフト解像度を最適化し、下位層は位相シフトビームフォーミングとパワーアロケーションを行う。 位相シフト最適化は大規模なアクション空間を持つ整数プログラミング問題であるため、Wolpertinger法、すなわちMAQ-WPアルゴリズムを導入して、アクション空間の次元を縮小したサブ最適化を実現することにより、MAQを改善する。 さらに,MAQ-WPは依然として高い複雑性を有するため,離散位相シフト動作を連続空間にマッピングすることで,政策勾配に基づくMAQアルゴリズム,すなわちMAQ-PGを提案する。 シミュレーションの結果,MAQ-WPアルゴリズムとMAQ-PGアルゴリズムはより高速に収束し,従来のマルチエージェントDDPGよりも10.7%,8.8%の速度向上を実現している。

Intelligent reflecting surface (IRS) is envisioned to be widely applied in future wireless networks. In this paper, we investigate a multi-user communication system assisted by cooperative IRS devices with the capability of energy harvesting. Aiming to maximize the long-term average achievable system rate, an optimization problem is formulated by jointly designing the transmit beamforming at the base station (BS) and discrete phase shift beamforming at the IRSs, with the constraints on transmit power, user data rate requirement and IRS energy buffer size. Considering time-varying channels and stochastic arrivals of energy harvested by the IRSs, we first formulate the problem as a Markov decision process (MDP) and then develop a novel multi-agent Q-mix (MAQ) framework with two layers to decouple the optimization parameters. The higher layer is for optimizing phase shift resolutions, and the lower one is for phase shift beamforming and power allocation. Since the phase shift optimization is an integer programming problem with a large-scale action space, we improve MAQ by incorporating the Wolpertinger method, namely, MAQ-WP algorithm to achieve a sub-optimality with reduced dimensions of action space. In addition, as MAQ-WP is still of high complexity to achieve good performance, we propose a policy gradient-based MAQ algorithm, namely, MAQ-PG, by mapping the discrete phase shift actions into a continuous space at the cost of a slight performance loss. Simulation results demonstrate that the proposed MAQ-WP and MAQ-PG algorithms can converge faster and achieve data rate improvements of 10.7% and 8.8% over the conventional multi-agent DDPG, respectively.
翻訳日:2022-03-29 17:29:48 公開日:2022-03-26
# SpeechSplit 2.0: 自動エンコーダをチューニングしない音声変換のための教師なし音声不絡

SpeechSplit 2.0: Unsupervised speech disentanglement for voice conversion Without tuning autoencoder Bottlenecks ( http://arxiv.org/abs/2203.14156v1 )

ライセンス: Link先を確認
Chak Ho Chan, Kaizhi Qian, Yang Zhang, Mark Hasegawa-Johnson(参考訳) SpeechSplitは、教師なしの方法で複数のオートエンコーダを使用して、音声を内容、リズム、ピッチ、音色に切り離してアスペクト固有の音声変換を行う。 しかし、 speechsplit では、時間消費とロバスト性が低下するオートエンコーダボトルネックの注意深いチューニングが必要となる。 本稿では、ボトルネックチューニングではなく効率的な信号処理手法を用いて、音声成分の情報フローをオートエンコーダ入力に絡み合うように制約する speechsplit 2.0 を提案する。 評価結果から,SpeechSplit 2.0は,音声のゆがみやボトルネックサイズの変化に対する強靭性において,SpeechSplitに匹敵する性能を示した。 私たちのコードはhttps://github.com/biggytruck/SpeechSplit2で利用可能です。

SpeechSplit can perform aspect-specific voice conversion by disentangling speech into content, rhythm, pitch, and timbre using multiple autoencoders in an unsupervised manner. However, SpeechSplit requires careful tuning of the autoencoder bottlenecks, which can be time-consuming and less robust. This paper proposes SpeechSplit 2.0, which constrains the information flow of the speech component to be disentangled on the autoencoder input using efficient signal processing methods instead of bottleneck tuning. Evaluation results show that SpeechSplit 2.0 achieves comparable performance to SpeechSplit in speech disentanglement and superior robustness to the bottleneck size variations. Our code is available at https://github.com/biggytruck/SpeechSplit2.
翻訳日:2022-03-29 17:29:18 公開日:2022-03-26
# 最適浮動小数点を用いたマルチエッジサーバ支援動的フェデレーション学習

Multi-Edge Server-Assisted Dynamic Federated Learning with an Optimized Floating Aggregation Point ( http://arxiv.org/abs/2203.13950v1 )

ライセンス: Link先を確認
Bhargav Ganguly, Seyyedali Hosseinalipour, Kwang Taik Kim, Christopher G. Brinton, Vaneet Aggarwal, David J. Love, Mung Chiang(参考訳) 協調型エッジ支援動的連合学習(CE-FL)を提案する。 CE-FLは、エンドデバイスでデータ収集を行う分散機械学習(ML)アーキテクチャを導入し、モデルトレーニングはエンドデバイスとエッジサーバで協調して行われ、エンドデバイスからベースステーションを介してエッジサーバへのデータオフロードが可能である。 ce-flではフローティングアグリゲーションポイントも導入されており、デバイスとサーバで生成されたローカルモデルがエッジサーバに集約される。 CE-FLは通信/計算モデルと近接性の観点からネットワーク要素の不均一性を考える。 さらにCE-FLは、MLモデルのパフォーマンスにドリフトを引き起こすネットワークデバイスにおけるデータのオンライン変動を伴う動的環境を推定する。 我々は,CE-FLの過程をモデル化し,そのMLモデルトレーニングの分析的収束解析を行う。 次に,ネットワーク対応CE-FLを定式化し,学習プロセスへのコントリビューションを調整することで,全てのネットワーク要素を適応的に最適化することを目的とした。 システムの大規模化を動機として,ネットワーク要素間の解の計算を分解する分散最適化解法を提案する。 実世界のテストベッドから収集したデータを用いて,フレームワークの有効性を実証した。

We propose cooperative edge-assisted dynamic federated learning (CE-FL). CE-FL introduces a distributed machine learning (ML) architecture, where data collection is carried out at the end devices, while the model training is conducted cooperatively at the end devices and the edge servers, enabled via data offloading from the end devices to the edge servers through base stations. CE-FL also introduces floating aggregation point, where the local models generated at the devices and the servers are aggregated at an edge server, which varies from one model training round to another to cope with the network evolution in terms of data distribution and users' mobility. CE-FL considers the heterogeneity of network elements in terms of communication/computation models and the proximity to one another. CE-FL further presumes a dynamic environment with online variation of data at the network devices which causes a drift at the ML model performance. We model the processes taken during CE-FL, and conduct analytical convergence analysis of its ML model training. We then formulate network-aware CE-FL which aims to adaptively optimize all the network elements via tuning their contribution to the learning process, which turns out to be a non-convex mixed integer problem. Motivated by the large scale of the system, we propose a distributed optimization solver to break down the computation of the solution across the network elements. We finally demonstrate the effectiveness of our framework with the data collected from a real-world testbed.
翻訳日:2022-03-29 17:25:51 公開日:2022-03-26
# ベイズ最適化を用いた安全制約付き粒子加速器のチューニング

Tuning Particle Accelerators with Safety Constraints using Bayesian Optimization ( http://arxiv.org/abs/2203.13968v1 )

ライセンス: Link先を確認
Johannes Kirschner, Jaime Coello de Portugal, Jochem Snuverink, Nicole Hiller, Mojmir Mutn\'y, Andreas Krause(参考訳) 粒子加速器の機械パラメータのチューニングは反復的かつ時間のかかる作業であり、自動化が難しい。 多くのオフ・ザ・シェルフ最適化アルゴリズムが利用可能であるが、実際には、ほとんどのメソッドは、損失信号やステップサイズ制限を含む各イテレーションに適用される安全クリティカルな制約を考慮しないため、使用が制限されている。 注目すべき例外はsafe bayesian optimizationである。これは、ノイズの多いフィードバックを伴うグローバル最適化のためのデータ駆動チューニングアプローチである。 我々は,paul scherrer institut (psi) の2つの研究領域における安全ベイズ最適化のステップサイズ限定型を提案し,評価する。 a)スイス自由電子レーザー(SwissFEL)及び b)高強度陽子加速器(HIPA) 我々は,200以上の制約を受ける16個のパラメータをチューニングし,両マシンの有望な実験結果について報告する。

Tuning machine parameters of particle accelerators is a repetitive and time-consuming task, that is challenging to automate. While many off-the-shelf optimization algorithms are available, in practice their use is limited because most methods do not account for safety-critical constraints that apply to each iteration, including loss signals or step-size limitations. One notable exception is safe Bayesian optimization, which is a data-driven tuning approach for global optimization with noisy feedback. We propose and evaluate a step size-limited variant of safe Bayesian optimization on two research faculties of the Paul Scherrer Institut (PSI): a) the Swiss Free Electron Laser (SwissFEL) and b) the High-Intensity Proton Accelerator (HIPA). We report promising experimental results on both machines, tuning up to 16 parameters subject to more than 200 constraints.
翻訳日:2022-03-29 17:25:27 公開日:2022-03-26
# 勾配エピソードメモリを用いた量子状態分類の連続学習

Continual learning of quantum state classification with gradient episodic memory ( http://arxiv.org/abs/2203.14032v1 )

ライセンス: Link先を確認
Haozhen Situ, Tianxiang Lu, Minghua Pan, Lvzhou Li(参考訳) 継続的学習は機械学習研究の多くの分野の1つである。 人間のレベルの知性を模倣できる強力な人工知能の目的のために、AIシステムは、これまで獲得した知識を忘れずに、絶えず変化するシナリオに適応し、新しい知識を継続的に学習する能力を持つ。 破滅的忘れという現象は、機械学習モデルが複数のタスクにわたって訓練されたときに発生する。 先行学習タスクにおけるモデルの性能は、新しく見られるタスクの学習プロセス中に劇的に低下する可能性がある。 破滅的な忘れの問題に対処する継続的学習戦略が提案されている。 近年、連続学習は量子機械学習の文脈でも研究されている。 弾性重み強化法を利用することで、単一量子分類器は、それらのタスクを連続的に訓練した後、複数のタスクを実行することができる。 本研究では,変分量子分類器の学習に勾配エピソードメモリ法を取り入れた。 現在のタスクの勾配は最も近い勾配に投影され、前のタスクでの損失の増加を回避するが、減少が可能である。 この手法のベンチマークには6つの量子状態分類タスクを用いる。 数値シミュレーションの結果, 弾性重量凝縮法よりも優れた性能が得られた。 さらに,従来のタスクに対する知識の正の伝達が観察され,新たなタスクを学習しながら,従来のタスクに対する分類器のパフォーマンスが向上する。

Continual learning is one of the many areas of machine learning research. For the goal of strong artificial intelligence that can mimic human-level intelligence, AI systems would have the ability to adapt to ever-changing scenarios and learn new knowledge continuously without forgetting previously acquired knowledge. A phenomenon called catastrophic forgetting emerges when a machine learning model is trained across multiple tasks. The model's performance on previously learned tasks may drop dramatically during the learning process of the newly seen task. Some continual learning strategies have been proposed to address the catastrophic forgetting problem. Recently, continual learning has also been studied in the context of quantum machine learning. By leveraging the elastic weight consolidation method, a single quantum classifier can perform multiple tasks after being trained consecutively on those tasks. In this work, we incorporate the gradient episodic memory method to train a variational quantum classifier. The gradient of the current task is projected to the closest gradient, avoiding the increase of the loss at previous tasks, but allowing the decrease. We use six quantum state classification tasks to benchmark this method. Numerical simulation results show that better performance is obtained compared to the elastic weight consolidation method. Furthermore, positive transfer of knowledge to previous tasks is observed, which means the classifier's performance on previous tasks is enhanced rather than compromised while learning a new task.
翻訳日:2022-03-29 17:23:58 公開日:2022-03-26
# 逐次レコメンデーションシステム改善のためのデータ拡張戦略

Data Augmentation Strategies for Improving Sequential Recommender Systems ( http://arxiv.org/abs/2203.14037v1 )

ライセンス: Link先を確認
Joo-yeong Song, Bongwon Suh(参考訳) 逐次リコメンデータシステムは近年,深層学習(DL)に基づく手法の活用により,大幅な性能向上を実現している。 しかし、様々なDLベースの手法が導入されたが、そのほとんどはネットワーク構造の変化にのみ焦点をあて、データ拡張を含む他の影響要因の重要性を無視している。 明らかにdlベースのモデルは、パラメータをよく推定し、高いパフォーマンスを達成するために、大量のトレーニングデータを必要とするため、コンピュータビジョンと音声ドメインのデータ拡張を通じてトレーニングデータを増やすための初期的取り組みに繋がる。 本稿では,トレーニングデータセットが十分に大きくない場合に,各種データ拡張戦略がシーケンシャルレコメンデータシステムの性能を向上させることを明らかにする。 この目的のために,データ拡張戦略の簡易セットを提案する。これらすべてにおいて,データ拡張がパフォーマンスにどのような影響を与えるかを記述し,直接腐敗の方法で元の項目列を変換する。 最新のDLベースモデルに対する大規模な実験により、データ拡張の適用はモデルの一般化に役立つことが示され、特にトレーニングデータの量が少ない場合には、モデルの性能を高めるのに非常に効果的である。 さらに,提案手法は,先行研究で提案した既存戦略よりも,性能を向上し,競争力も向上できることを示した。

Sequential recommender systems have recently achieved significant performance improvements with the exploitation of deep learning (DL) based methods. However, although various DL-based methods have been introduced, most of them only focus on the transformations of network structure, neglecting the importance of other influential factors including data augmentation. Obviously, DL-based models require a large amount of training data in order to estimate parameters well and achieve high performances, which leads to the early efforts to increase the training data through data augmentation in computer vision and speech domains. In this paper, we seek to figure out that various data augmentation strategies can improve the performance of sequential recommender systems, especially when the training dataset is not large enough. To this end, we propose a simple set of data augmentation strategies, all of which transform original item sequences in the way of direct corruption and describe how data augmentation changes the performance. Extensive experiments on the latest DL-based model show that applying data augmentation can help the model generalize better, and it can be significantly effective to boost model performances especially when the amount of training data is small. Furthermore, it is shown that our proposed strategies can improve performances to a better or competitive level to existing strategies suggested in the prior works.
翻訳日:2022-03-29 17:23:38 公開日:2022-03-26
# ポートフォリオ管理のためのスパイク深層強化学習を実現する新しいニューロモルフィックプロセッサ

A Novel Neuromorphic Processors Realization of Spiking Deep Reinforcement Learning for Portfolio Management ( http://arxiv.org/abs/2203.14159v1 )

ライセンス: Link先を確認
Seyyed Amirhossein Saeidi, Forouzan Fallah, Soroush Barmaki, Hamed Farbeh(参考訳) 投資のリターンの向上とリスクの最小化を目指す金融資産に資金を継続的に再配分するプロセスは、ポートフォリオマネジメントとして知られている。 ポートフォリオ管理の処理速度とエネルギー消費は、実世界のアプリケーションの複雑さがますます高次元の観察と行動空間と環境の不確実性を伴うようになり、その限られたオンボードリソースが相殺できないため、重要になっている。 人間の脳にインスパイアされた新しいニューロモルフィックチップは、処理速度を最大1000倍に増やし、消費電力を数桁削減する。 本稿では,予測不能な環境に基づいて金融市場を予測し,利益率とリスク低減のポートフォリオ管理目標を達成するskeking deep reinforcement learning (sdrl)アルゴリズムを提案する。 このアルゴリズムはintelのloihiニューロモルフィックプロセッサに最適化されており、競合に比べて186倍と516倍のエネルギー消費削減が観測されている。 さらに、ハイエンドプロセッサとGPUでそれぞれ1.3xと2.0xのスピードアップを行う。 評価は2016年から2021年にかけて仮想通貨市場で行われます。

The process of continuously reallocating funds into financial assets, aiming to increase the expected return of investment and minimizing the risk, is known as portfolio management. Processing speed and energy consumption of portfolio management have become crucial as the complexity of their real-world applications increasingly involves high-dimensional observation and action spaces and environment uncertainty, which their limited onboard resources cannot offset. Emerging neuromorphic chips inspired by the human brain increase processing speed by up to 1000 times and reduce power consumption by several orders of magnitude. This paper proposes a spiking deep reinforcement learning (SDRL) algorithm that can predict financial markets based on unpredictable environments and achieve the defined portfolio management goal of profitability and risk reduction. This algorithm is optimized forIntel's Loihi neuromorphic processor and provides 186x and 516x energy consumption reduction is observed compared to the competitors, respectively. In addition, a 1.3x and 2.0x speed-up over the high-end processors and GPUs, respectively. The evaluations are performed on cryptocurrency market between 2016 and 2021 the benchmark.
翻訳日:2022-03-29 17:23:18 公開日:2022-03-26
# 全スライド画像からのrna配列発現予測のための学習と探索・分類への応用

Learning to Predict RNA Sequence Expressions from Whole Slide Images with Applications for Search and Classification ( http://arxiv.org/abs/2203.13997v1 )

ライセンス: Link先を確認
Amir Safarpoor, Jason D. Hipp, H.R. Tizhoosh(参考訳) 深層学習法は、予後や診断などの臨床的課題に対処するために、デジタル病理学に広く応用されている。 最新のアプリケーションの1つとして、深層モデルはスライド画像全体から分子の特徴を抽出するためにも使われている。 分子テストには豊富な情報があるが、しばしば高価で、時間を要するため、サンプルには追加の組織が必要である。 本稿では,注目に基づくトポロジーであるtRNAsfomerを提案する。このトポロジーは,画像からバルクRNA系列を予測し,ガラススライドのスライド画像全体を同時に表現する。 tRNAsfomerは複数のインスタンス学習を使用して弱制御された問題を解決する一方、ピクセルレベルのアノテーションは画像には利用できない。 我々は,いくつかの実験を行い,最先端アルゴリズムと比較し,性能の向上と収束の高速化を実現した。 提案したtRNAsfomerは、組織形態と生検サンプルの分子指紋を組み合わせることにより、新しい検索および分類方法の創出を促進するための計算病理ツールとして役立つ。

Deep learning methods are widely applied in digital pathology to address clinical challenges such as prognosis and diagnosis. As one of the most recent applications, deep models have also been used to extract molecular features from whole slide images. Although molecular tests carry rich information, they are often expensive, time-consuming, and require additional tissue to sample. In this paper, we propose tRNAsfomer, an attention-based topology that can learn both to predict the bulk RNA-seq from an image and represent the whole slide image of a glass slide simultaneously. The tRNAsfomer uses multiple instance learning to solve a weakly supervised problem while the pixel-level annotation is not available for an image. We conducted several experiments and achieved better performance and faster convergence in comparison to the state-of-the-art algorithms. The proposed tRNAsfomer can assist as a computational pathology tool to facilitate a new generation of search and classification methods by combining the tissue morphology and the molecular fingerprint of the biopsy samples.
翻訳日:2022-03-29 16:35:58 公開日:2022-03-26
# BERTと一貫性符号化に基づく自己回帰言語ステレオグラフィ

Autoregressive Linguistic Steganography Based on BERT and Consistency Coding ( http://arxiv.org/abs/2203.13972v1 )

ライセンス: Link先を確認
Xiaoyan Zheng and Hanzhou Wu(参考訳) 言語性ステガノグラフィー(ls)は、秘密情報をテキストに埋め込むことでコミュニケーションの存在を隠蔽する。 機密情報を含む高品質テキストの生成方法が重要な問題である。 自然言語処理におけるディープラーニングの広範な応用により、近年のアルゴリズムは、言語モデル(LM)を使用して、ステガノグラフテキストを生成する。 しかし、セキュリティは引き続き強化される必要がある。 そこで本研究では,組み込みペイロードとシステムセキュリティのトレードオフを改善するために,bertと一貫性符号化に基づく自己回帰型lsアルゴリズムを提案する。 提案手法では,テキストが与えられたとき,マスキングlmの導入に基づき,先行研究で使用されるブロック符号化の欠点を補うために一貫性符号化を用いて任意のサイズの候補トークン集合を符号化し,情報隠蔽のための確率分布の利点を生かす。 埋め込むマスクされた位置は自己回帰的な方法で決定されたトークンで満たされ、コンテキスト間の接続を高め、したがってテキストの品質を維持する。 実験の結果,本研究は関連する作品と比較して,セキュリティを保証しつつステガノグラフィーテキストの流動性を向上し,埋め込みペイロードをある程度増加させることが示されている。

Linguistic steganography (LS) conceals the presence of communication by embedding secret information into a text. How to generate a high-quality text carrying secret information is a key problem. With the widespread application of deep learning in natural language processing, recent algorithms use a language model (LM) to generate the steganographic text, which provides a higher payload compared with many previous arts. However, the security still needs to be enhanced. To tackle with this problem, we propose a novel autoregressive LS algorithm based on BERT and consistency coding, which achieves a better trade-off between embedding payload and system security. In the proposed work, based on the introduction of the masked LM, given a text, we use consistency coding to make up for the shortcomings of block coding used in the previous work so that we can encode arbitrary-size candidate token set and take advantages of the probability distribution for information hiding. The masked positions to be embedded are filled with tokens determined by an autoregressive manner to enhance the connection between contexts and therefore maintain the quality of the text. Experimental results have shown that, compared with related works, the proposed work improves the fluency of the steganographic text while guaranteeing security, and also increases the embedding payload to a certain extent.
翻訳日:2022-03-29 16:08:03 公開日:2022-03-26
# 実演 cat: トランザクショナルデータベースのためのデータアウェアな会話エージェントの合成

Demonstrating CAT: Synthesizing Data-Aware Conversational Agents for Transactional Databases ( http://arxiv.org/abs/2203.14144v1 )

ライセンス: Link先を確認
Marius Gassen, Benjamin H\"attasch, Benjamin Hilprecht, Nadja Geisler, Alexander Fraser, Carsten Binnig(参考訳) OLTP用のデータベースは、しばしばホテルの部屋や映画館のチケット予約アプリケーションのようなアプリケーションのためのバックボーンである。 しかし、自然言語を使ったアプリケーションとの対話を可能にする会話エージェント(チャットボットのようなインタフェース)の開発には、膨大なトレーニングデータとNLPの専門知識が必要である。 これはCATを動機付けており、トランザクションデータベースの会話エージェントを簡単に作成することができる。 主な考え方は、あるOLTPデータベースに対して、CATは弱い監督力を使用して、必要なトレーニングデータを合成し、最先端の会話エージェントをトレーニングし、ユーザがOLTPデータベースと対話できるようにするというものだ。 さらに、CATは結果のエージェントとデータベースとのアウト・オブ・ボックスの統合を提供する。 既存の会話エージェントとの大きな違いとして、CATによって合成されたエージェントはデータ認識である。 これは、エージェントがデータベース内の現在のデータ分布に基づいて、ユーザからどの情報を要求すべきかを決定することを意味する。 CATのコードをオープンソースとして公開しています。

Databases for OLTP are often the backbone for applications such as hotel room or cinema ticket booking applications. However, developing a conversational agent (i.e., a chatbot-like interface) to allow end-users to interact with an application using natural language requires both immense amounts of training data and NLP expertise. This motivates CAT, which can be used to easily create conversational agents for transactional databases. The main idea is that, for a given OLTP database, CAT uses weak supervision to synthesize the required training data to train a state-of-the-art conversational agent, allowing users to interact with the OLTP database. Furthermore, CAT provides an out-of-the-box integration of the resulting agent with the database. As a major difference to existing conversational agents, agents synthesized by CAT are data-aware. This means that the agent decides which information should be requested from the user based on the current data distributions in the database, which typically results in markedly more efficient dialogues compared with non-data-aware agents. We publish the code for CAT as open source.
翻訳日:2022-03-29 16:07:42 公開日:2022-03-26
# 政策探索のための進化と深層強化学習の併用に関する調査

Combining Evolution and Deep Reinforcement Learning for Policy Search: a Survey ( http://arxiv.org/abs/2203.14009v1 )

ライセンス: Link先を確認
Olivier Sigaud(参考訳) 深層神経進化と深層強化学習はここ数年、多くの注目を集めてきた。 それらを比較して、彼らの長所と短所を強調している作品もあるが、新しいトレンドは両世界の長所から恩恵を受けるためにそれらを組み合わせることにある。 本稿では,文献を関連する作業グループに整理し,各グループに既存の組み合わせをすべて汎用的なフレームワークにキャストすることで,この新興傾向を調査する。 実験結果よりも組み合わせ機構に着目し,出版状況によらず,利用可能な論文をすべて体系的に網羅する。 合計で、2017年より最近43のアルゴリズムをカバーしている。 この取り組みが、メソッド間の関係の理解を促進し、より深い分析を優先し、有用な比較の欠如を概説し、新しいメカニズムの組み合わせを提案することで、ドメインの成長を促進することを期待しています。

Deep neuroevolution and deep Reinforcement Learning have received a lot of attention in the last years. Some works have compared them, highlighting theirs pros and cons, but an emerging trend consists in combining them so as to benefit from the best of both worlds. In this paper, we provide a survey of this emerging trend by organizing the literature into related groups of works and casting all the existing combinations in each group into a generic framework. We systematically cover all easily available papers irrespective of their publication status, focusing on the combination mechanisms rather than on the experimental results. In total, we cover 43 algorithms more recent than 2017. We hope this effort will favor the growth of the domain by facilitating the understanding of the relationships between the methods, favoring deeper analyses, outlining missing useful comparisons and suggesting new combinations of mechanisms.
翻訳日:2022-03-29 16:05:07 公開日:2022-03-26
# グラフニューラルネットワークのためのMetropolis-Hastingsデータ拡張

Metropolis-Hastings Data Augmentation for Graph Neural Networks ( http://arxiv.org/abs/2203.14082v1 )

ライセンス: Link先を確認
Hyeonjin Park, Seunghun Lee, Sihyeon Kim, Jinyoung Park, Jisu Jeong, Kyung-Min Kim, Jung-Woo Ha, Hyunwoo J. Kim(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフベースのタスクにおける有望な結果にもかかわらず、少ないラベル付きデータによって、しばしば一般化の弱さに悩まされる。 データ拡張は、多くのドメインにおけるモデルの一般化能力を改善するための一般的な修正である。 しかし、データ空間の非ユークリッド的性質とサンプル間の依存関係のため、グラフ上の効果的な拡張の設計は困難である。 本稿では,半教師付き学習のための明示的な目標分布から拡張グラフを引き出す新しいフレームワークであるMetropolis-Hastings Data Augmentation(MH-Aug)を提案する。 mh-augはターゲット分布から拡張グラフのシーケンスを生成し、拡張の強さと多様性を柔軟に制御できる。 複雑なターゲット分布からの直接サンプリングは困難であるため、我々はMetropolis-Hastingsアルゴリズムを用いて拡張サンプルを得る。 また,MH-Augから生成したサンプルを用いた,シンプルで効果的な半教師付き学習戦略を提案する。 広範な実験により,mh-augはgnnの性能を著しく向上させるために,ターゲット分布に応じて一連のサンプルを生成できることが証明された。

Graph Neural Networks (GNNs) often suffer from weak-generalization due to sparsely labeled data despite their promising results on various graph-based tasks. Data augmentation is a prevalent remedy to improve the generalization ability of models in many domains. However, due to the non-Euclidean nature of data space and the dependencies between samples, designing effective augmentation on graphs is challenging. In this paper, we propose a novel framework Metropolis-Hastings Data Augmentation (MH-Aug) that draws augmented graphs from an explicit target distribution for semi-supervised learning. MH-Aug produces a sequence of augmented graphs from the target distribution enables flexible control of the strength and diversity of augmentation. Since the direct sampling from the complex target distribution is challenging, we adopt the Metropolis-Hastings algorithm to obtain the augmented samples. We also propose a simple and effective semi-supervised learning strategy with generated samples from MH-Aug. Our extensive experiments demonstrate that MH-Aug can generate a sequence of samples according to the target distribution to significantly improve the performance of GNNs.
翻訳日:2022-03-29 16:04:53 公開日:2022-03-26
# autots: 2段階プルーニングに基づく時系列予測モデルの自動設計

AutoTS: Automatic Time Series Forecasting Model Design Based on Two-Stage Pruning ( http://arxiv.org/abs/2203.14169v1 )

ライセンス: Link先を確認
Chunnan Wang, Xingyu Chen, Chengyue Wu, Hongzhi Wang(参考訳) 時系列データシナリオに適した予測モデルを効率的に設計することを目的とした自動時系列予測(TSF)モデル設計は、緊急に解決すべき新しい研究トピックである。 本稿では,既存の設計スキルと設計効率のよい探索手法を活用して,この問題を効果的に解決するAutoTSアルゴリズムを提案する。 AutoTSでは,既存のTSFワークから効果的な設計経験を抽出する。 我々は、様々なTSFモデルを含む効率的な検索空間を作成し、異なるTSFタスクをサポートするために、異なるソースから設計経験を効果的に組み合わせることを可能にした。 検索の難易度を低減し,検索効率を向上させるため,autotsでは2段階のプルーニング戦略を提案する。 さらに,AutoTSでは,モジュール間の関連性を明らかにするための知識グラフを導入する。 これらの関係情報をフル活用して,各モジュールオプションの高レベルな特徴を学習し,検索品質をさらに向上させる。 実験の結果,AutoTSはTSF領域に適していることがわかった。 既存のニューラルアーキテクチャ検索アルゴリズムよりも効率的で、手作業で設計したものよりも迅速に強力なTSFモデルを設計することができる。

Automatic Time Series Forecasting (TSF) model design which aims to help users to efficiently design suitable forecasting model for the given time series data scenarios, is a novel research topic to be urgently solved. In this paper, we propose AutoTS algorithm trying to utilize the existing design skills and design efficient search methods to effectively solve this problem. In AutoTS, we extract effective design experience from the existing TSF works. We allow the effective combination of design experience from different sources, so as to create an effective search space containing a variety of TSF models to support different TSF tasks. Considering the huge search space, in AutoTS, we propose a two-stage pruning strategy to reduce the search difficulty and improve the search efficiency. In addition, in AutoTS, we introduce the knowledge graph to reveal associations between module options. We make full use of these relational information to learn higher-level features of each module option, so as to further improve the search quality. Extensive experimental results show that AutoTS is well-suited for the TSF area. It is more efficient than the existing neural architecture search algorithms, and can quickly design powerful TSF model better than the manually designed ones.
翻訳日:2022-03-29 16:04:34 公開日:2022-03-26
# 地上-衛星画像マッチングによる高精度3DFカメラのジオローカライゼーション

Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image Matching ( http://arxiv.org/abs/2203.14148v1 )

ライセンス: Link先を確認
Yujiao Shi, Xin Yu, Liu Liu, Dylan Campbell, Piotr Koniusz, and Hongdong Li(参考訳) 地上から衛星への画像のジオローカライゼーション、すなわちカメラの緯度、経度、方位(方位角)を地上で捉えた問合せ画像とジオタグ付き衛星画像の大規模データベースとのマッチングにより推定する問題に対処する。 我々の先行技術は、地上レベルのクエリ画像と一致する最も類似した衛星参照画像を選択することによって、上記のタスクを純粋な画像検索として扱う。 しかし、取得した衛星画像のジオタグが画像中心にのみ対応し、地上カメラは画像内の任意の地点に配置できるため、このようなアプローチはしばしば粗い位置推定を生成する。 従来の研究結果をさらに強化するために,新しいジオメトリー対応のジオローカライゼーション手法を提案する。 提案手法は,粗い位置と向きが決定されれば,衛星画像の画素サイズ精度まで,クエリ画像の細粒度位置を実現することができる。 さらに,粗視化精度を向上させるための新しい幾何認識画像検索パイプラインを提案する。 我々の会議における極変換とは別に、この新しいパイプラインは、地形に制約のある射影変換を用いて、地上の地上面に衛星画像の画素をマッピングし、道路構造などの情報領域を強調する。 大規模定量的および定性的実験により,本フレームワークの有効性が示された。 また,位置リコールに関して,最先端技術と比較して粗い局所化結果の性能を著しく向上させる。

We address the problem of ground-to-satellite image geo-localization, that is, estimating the camera latitude, longitude and orientation (azimuth angle) by matching a query image captured at the ground level against a large-scale database with geotagged satellite images. Our prior arts treat the above task as pure image retrieval by selecting the most similar satellite reference image matching the ground-level query image. However, such an approach often produces coarse location estimates because the geotag of the retrieved satellite image only corresponds to the image center while the ground camera can be located at any point within the image. To further consolidate our prior research findings, we present a novel geometry-aware geo-localization method. Our new method is able to achieve the fine-grained location of a query image, up to pixel size precision of the satellite image, once its coarse location and orientation have been determined. Moreover, we propose a new geometry-aware image retrieval pipeline to improve the coarse localization accuracy. Apart from a polar transform in our conference work, this new pipeline also maps satellite image pixels to the ground-level plane in the ground-view via a geometry-constrained projective transform to emphasize informative regions, such as road structures, for cross-view geo-localization. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our newly proposed framework. We also significantly improve the performance of coarse localization results compared to the state-of-the-art in terms of location recalls.
翻訳日:2022-03-29 15:01:37 公開日:2022-03-26
# リンク予測の改善のための知識グラフの拡張

Augmenting Knowledge Graphs for Better Link Prediction ( http://arxiv.org/abs/2203.13965v1 )

ライセンス: Link先を確認
Jiang Wang, Filip Ilievski, Pedro Szekely, Ke-Thia Yao(参考訳) 埋め込み手法は、主にエンティティ関係を符号化することにより、知識グラフにおけるリンク予測のタスクにおいて堅牢な性能を示す。 近年,リテラル認識項による損失関数の強化が提案されている。 本稿では,損失関数を変更することなく,リテラルを埋め込みモデルに組み込む知識グラフ拡張手法KGAを提案する。 kgaは量と年値をビンに分類し、これらのビンを水平にチェーンし、隣接する値をモデル化し、垂直に複数の粒度をモデル化する。 KGAはスケーラブルで、既存の知識グラフ埋め込みモデルの事前処理ステップとして使用できる。 レガシーベンチマークと新しい大規模ベンチマークであるDWDの実験は、KGAがバニラモデルやその他の関連するベースラインを上回っているため、知識グラフを量と年数で拡張することは、エンティティと数値の両方を予測するのに有益であることを示している。 我々のアブレーション研究は、量と年がKGAの性能に寄与し、その性能が離散化とバイナリ設定に依存することを確認した。 再現性と今後の研究を容易にするために、コード、モデル、DWDベンチマークを公開しています。

Embedding methods have demonstrated robust performance on the task of link prediction in knowledge graphs, by mostly encoding entity relationships. Recent methods propose to enhance the loss function with a literal-aware term. In this paper, we propose KGA: a knowledge graph augmentation method that incorporates literals in an embedding model without modifying its loss function. KGA discretizes quantity and year values into bins, and chains these bins both horizontally, modeling neighboring values, and vertically, modeling multiple levels of granularity. KGA is scalable and can be used as a pre-processing step for any existing knowledge graph embedding model. Experiments on legacy benchmarks and a new large benchmark, DWD, show that augmenting the knowledge graph with quantities and years is beneficial for predicting both entities and numbers, as KGA outperforms the vanilla models and other relevant baselines. Our ablation studies confirm that both quantities and years contribute to KGA's performance, and that its performance depends on the discretization and binning settings. We make the code, models, and the DWD benchmark publicly available to facilitate reproducibility and future research.
翻訳日:2022-03-29 14:45:17 公開日:2022-03-26
# ランキング関数と全前順序に対するモデル変換

Model Transformations for Ranking Functions and Total Preorders ( http://arxiv.org/abs/2203.14018v1 )

ライセンス: Link先を確認
Jonas Haldimann, Christoph Beierle(参考訳) 知識表現の分野において、認識論的と見なされる状態は、しばしば命題的解釈に基づいている(世界とも呼ばれる)。 例えば、エージェントのエピステマティック状態は、世界のランキング関数や総序列によってモデル化することができる。 しかし、通常、命題言語で実世界の状況を記述する方法には異なる方法があり、これは同じ状況に対する異なる視点として見ることができる。 本稿では,認識論的状態をある視点から別の視点へ変換するモデル変換の概念を導入し,認識論的状態の等価性という新しい概念を導出する。 本研究は, 認識論的状態の表現や非単調な推論に拡張され, 従来存在しなかった分割を明らかにすることによって, モデル変換による信念修正を活用できることを示すものである。 さらに,信念変化オペレーターがモデル変換と通勤する状況の特徴付けを行う。

In the field of knowledge representation, the considered epistemic states are often based on propositional interpretations, also called worlds. E.g., epistemic states of agents can be modelled by ranking functions or total preorders on worlds. However, there are usually different ways of how to describe a real world situation in a propositional language; this can be seen as different points of view on the same situation. In this paper we introduce the concept of model transformations to convert an epistemic state from one point of view to another point of view, yielding a novel notion of equivalence of epistemic states. We show how the well-known advantages of syntax splitting, originally developed for belief sets and later extended to representation of epistemic states and to nonmonotonic reasoning, can be exploited for belief revision via model transformation by uncovering splittings not being present before. Furthermore, we characterize situations where belief change operators commute with model transformations.
翻訳日:2022-03-29 14:44:58 公開日:2022-03-26
# プロセス発見自動化における一般化: イベントログパターンに基づくフレームワーク

Generalization in Automated Process Discovery: A Framework based on Event Log Patterns ( http://arxiv.org/abs/2203.14079v1 )

ライセンス: Link先を確認
Daniel Rei{\ss}ner, Abel Armas-Cervantes, Marcello La Rosa(参考訳) プロセスマイニングにおける品質対策の重要性が高まっている。 一般化という重要な品質面の1つは、記録された振る舞いは、基盤となるビジネスプロセスの真の振舞いの例であるので、イベントログのようなプロセスモデルの過適合度を測定することである。 既存の一般化措置はいくつかの欠点を示しており、実際の適用を著しく妨げている。 例えば、イベントログが発見されたプロセスモデルに完全に適合していると仮定し、大規模なリアルタイムイベントログや複雑なプロセスモデルを扱うことができない。 さらに、現在の測度は、モデルに特定の構造を必要とする明確なパターンの一般化を無視する。 例えば、イベントログの繰り返しシーケンスは、モデル内のループ構造で一般化されるべきである。 これらの欠点に対処するために、イベントログから検出されたパターンの集合を代表トレースで一般化する尺度の枠組みを提案し、そのトレースアライメントを通じてプロセスモデル内の対応する制御フロー構造をチェックする。 我々は、タンデム反復を用いた一般化尺度を用いてフレームワークをインスタンス化し、ループ構造と比較される反復パターンと、プロセスモデルの並列構造と比較される並行パターンを識別する並行オラクルを識別する。 2つのベースライン一般化対策に対して74対のlog-modelペアを用いた広範囲な質的・定量的評価において,提案手法は,制御フロー構造をそうでないものよりも一般化して観察されたパターンを包含するプロセスモデルを一貫してランク付けし,そのパターンを無視していることを示す。 さらに,本手法は,ベースライン一般化尺度が扱える最大データセットよりも2桁大きいデータセットに対して,効率的に計算可能であることを示す。

The importance of quality measures in process mining has increased. One of the key quality aspects, generalization, is concerned with measuring the degree of overfitting of a process model w.r.t. an event log, since the recorded behavior is just an example of the true behavior of the underlying business process. Existing generalization measures exhibit several shortcomings that severely hinder their applicability in practice. For example, they assume the event log fully fits the discovered process model, and cannot deal with large real-life event logs and complex process models. More significantly, current measures neglect generalizations for clear patterns that demand a certain construct in the model. For example, a repeating sequence in an event log should be generalized with a loop structure in the model. We address these shortcomings by proposing a framework of measures that generalize a set of patterns discovered from an event log with representative traces and check the corresponding control-flow structures in the process model via their trace alignment. We instantiate the framework with a generalization measure that uses tandem repeats to identify repetitive patterns that are compared to the loop structures and a concurrency oracle to identify concurrent patterns that are compared to the parallel structures of the process model. In an extensive qualitative and quantitative evaluation using 74 log-model pairs using against two baseline generalization measures, we show that the proposed generalization measure consistently ranks process models that fulfil the observed patterns with generalizing control-flow structures higher than those which do not, while the baseline measures disregard those patterns. Further, we show that our measure can be efficiently computed for datasets two orders of magnitude larger than the largest dataset the baseline generalization measures can handle.
翻訳日:2022-03-29 14:44:43 公開日:2022-03-26
# FFPEスライドからのDNA収量と腫瘍純度を最適化するための画像解析を用いたAIによる組織学的検討

AI-augmented histopathologic review using image analysis to optimize DNA yield and tumor purity from FFPE slides ( http://arxiv.org/abs/2203.13948v1 )

ライセンス: Link先を確認
Boles{\l}aw L. Osinski, A\"icha BenTaieb, Irvin Ho, Ryan D. Jones, Rohan P. Joshi, Andrew Westley, Michael Carlson, Caleb Willis, Luke Schleicher, Brett M. Mahon, Martin C. Stumpe(参考訳) 次世代シーケンシング(NGS)の最小DNA入力および腫瘍純度要件を達成するために、病理学者は、マクロディビジョンとスライドカウントの決定を視覚的に推定する。 過誤は組織廃棄物を発生させ、検査コストを増大させる。 組織抽出パラメータを決定する定量的指標を病理学者に与えるための,aiによるスマート病理検査システム(smartpath)を開発した。 デジタル化されたH&E-stained FFPEスライドを入力として、SmartPathは腫瘍をセグメント化し、細胞ベースの特徴を抽出し、マクロディビジョン領域を提案する。 スライド当たりのDNA収量を予測するため、抽出された特徴は既知のDNA収量と相関する。 そして、予測されたDNAの収量/すべりによって分割された病理学者が定義した目標収量は、スクラップするスライドの数を与える。 モデル開発の後、テンプス研究所の分子シークエンシングラボで内部検証試験が行われた。 大腸癌501例について検討し,その半数がsmartpath-augmented review,半分が従来の病理組織学的検討を行った。 SmartPathコホートは100-2000ngの範囲で25%以上のDNAの収量を持っていた。 SmartPathシステムでは、大きな組織セクションのスクラップを減らし、これらのケースでは組織を節約することを推奨している。 逆にSmartPathは、スキャンされた組織セクションのサンプルをスクレイプするために、より多くのスライドを推奨している。 結果に対する共変量の影響を測定する統計的分析を行い、SmartPathの今後の応用方法に関する洞察を提供した。 全体として、SmartPathを用いたAIによる組織学的レビューは、DNA収量と腫瘍の純度を最適化することで、組織廃棄物、シークエンシング時間、検査コストを削減できることを示した。

To achieve minimum DNA input and tumor purity requirements for next-generation sequencing (NGS), pathologists visually estimate macrodissection and slide count decisions. Misestimation may cause tissue waste and increased laboratory costs. We developed an AI-augmented smart pathology review system (SmartPath) to empower pathologists with quantitative metrics for determining tissue extraction parameters. Using digitized H&E-stained FFPE slides as inputs, SmartPath segments tumors, extracts cell-based features, and suggests a macrodissection areas. To predict DNA yield per slide, the extracted features are correlated with known DNA yields. Then, a pathologist-defined target yield divided by the predicted DNA yield/slide gives the number of slides to scrape. Following model development, an internal validation trial was conducted within the Tempus Labs molecular sequencing laboratory. We evaluated our system on 501 clinical colorectal cancer slides, where half received SmartPath-augmented review and half traditional pathologist review. The SmartPath cohort had 25% more DNA yields within a desired target range of 100-2000ng. The SmartPath system recommended fewer slides to scrape for large tissue sections, saving tissue in these cases. Conversely, SmartPath recommended more slides to scrape for samples with scant tissue sections, helping prevent costly re-extraction due to insufficient extraction yield. A statistical analysis was performed to measure the impact of covariates on the results, offering insights on how to improve future applications of SmartPath. Overall, the study demonstrated that AI-augmented histopathologic review using SmartPath could decrease tissue waste, sequencing time, and laboratory costs by optimizing DNA yields and tumor purity.
翻訳日:2022-03-29 14:43:25 公開日:2022-03-26
# 一般化AI合成画像検出のためのグローバル・ローカル特徴の融合

Fusing Global and Local Features for Generalized AI-Synthesized Image Detection ( http://arxiv.org/abs/2203.13964v1 )

ライセンス: Link先を確認
Yan Ju, Shan Jia, Lipeng Ke, Hongfei Xue, Koki Nagano, Siwei Lyu(参考訳) GAN(Generative Adversarial Networks)とDeepFakes(DeepFakes)の開発により、AI合成画像は高品質になり、人間が実際の画像と区別することがほとんどなくなった。 メディアの鑑識はそれらを正確に露呈する検出器を開発することが不可欠である。 既存の検出手法は、生成した画像の検出において高い性能を示してきたが、実際のシナリオでは、合成画像は、未知のソースデータを用いて、通常見えないモデルで生成される。 本稿では,ai合成画像検出の一般化能力を向上させる上で,画像全体からの情報と情報パッチを組み合わせることの重要性を強調する。 具体的には,新しいパッチ選択モジュールによって選択された複数のパッチから,画像全体からのグローバル空間情報と局所的な情報特徴を組み合わせた2分岐モデルを設計する。 マルチヘッドアテンション機構は、グローバルな特徴とローカルな特徴を融合するためにさらに活用される。 19のモデルで合成された非常に多様なデータセットを,さまざまなオブジェクトと解像度で収集し,モデルを評価する。 実験の結果, 生成画像の検出において, 高精度かつ良好な一般化が得られた。

With the development of the Generative Adversarial Networks (GANs) and DeepFakes, AI-synthesized images are now of such high quality that humans can hardly distinguish them from real images. It is imperative for media forensics to develop detectors to expose them accurately. Existing detection methods have shown high performance in generated images detection, but they tend to generalize poorly in the real-world scenarios, where the synthetic images are usually generated with unseen models using unknown source data. In this work, we emphasize the importance of combining information from the whole image and informative patches in improving the generalization ability of AI-synthesized image detection. Specifically, we design a two-branch model to combine global spatial information from the whole image and local informative features from multiple patches selected by a novel patch selection module. Multi-head attention mechanism is further utilized to fuse the global and local features. We collect a highly diverse dataset synthesized by 19 models with various objects and resolutions to evaluate our model. Experimental results demonstrate the high accuracy and good generalization ability of our method in detecting generated images.
翻訳日:2022-03-29 14:42:36 公開日:2022-03-26
# 視覚的断面分類のための自己注意の探索

Exploring Self-Attention for Visual Intersection Classification ( http://arxiv.org/abs/2203.13977v1 )

ライセンス: Link先を確認
Haruki Nakata, Kanji Tanaka, and Koji Takeda(参考訳) ロボットビジョンにおいて、非局所的なコンテキストをキャプチャする技術として自己注意が最近登場した。 本研究では,シーンの背後にある非局所的な文脈を捉える手法として,交差点認識システムに自己アテンション機構を導入した。 交差分類システムには2つの異なるモジュールがある。 (a)交差点を通過する際に短い自我中心のビューシーケンスを使用する一対人視覚(FPV)モジュール (b)交差点に入る直前に1つのビューを使用する第三者ビジョン(tpv)モジュール。 自己注意機構は、局所的なパターン(道路の端、建物、空など)の大部分が互いに似ているため、TPVモジュールにおいて有効であり、非局所的なコンテキスト(例えば、交差点周辺の2つの対角角の間の角度)を使用することが効果的である。 この研究には3つの大きな貢献がある。 まず,TPVを用いた交差点分類のための自己注意に基づく手法を提案する。 第2に,自己注意型TPVモジュールをFPVモジュールと組み合わせて全体の認識性能を向上させる実用的なシステムを提案する。 最後に, 公開kittiデータセットを用いた実験により, 局所パターンに基づく従来の認識と畳み込み操作に基づく認識を上回った。

In robot vision, self-attention has recently emerged as a technique for capturing non-local contexts. In this study, we introduced a self-attention mechanism into the intersection recognition system as a method to capture the non-local contexts behind the scenes. An intersection classification system comprises two distinctive modules: (a) a first-person vision (FPV) module, which uses a short egocentric view sequence as the intersection is passed, and (b) a third-person vision (TPV) module, which uses a single view immediately before entering the intersection. The self-attention mechanism is effective in the TPV module because most parts of the local pattern (e.g., road edges, buildings, and sky) are similar to each other, and thus the use of a non-local context (e.g., the angle between two diagonal corners around an intersection) would be effective. This study makes three major contributions. First, we proposed a self-attention-based approach for intersection classification using TPVs. Second, we presented a practical system in which a self-attention-based TPV module is combined with an FPV module to improve the overall recognition performance. Finally, experiments using the public KITTI dataset show that the above self-attention-based system outperforms conventional recognition based on local patterns and recognition based on convolution operations.
翻訳日:2022-03-29 14:42:17 公開日:2022-03-26
# rscfed:ランダムサンプリングコンセンサス連合半教師付き学習

RSCFed: Random Sampling Consensus Federated Semi-supervised Learning ( http://arxiv.org/abs/2203.13993v1 )

ライセンス: Link先を確認
Xiaoxiao Liang, Yiqun Lin, Huazhu Fu, Lei Zhu, Xiaomeng Li(参考訳) fssl(federated semi-supervised learning)は、完全にラベル付きでラベルなしのクライアントをトレーニングしたり、部分的にラベル付けされたクライアントをトレーニングすることで、グローバルモデルを導出することを目的としている。 既存のアプローチは、ローカルクライアントが独立して同じ分散(IID)データを持っているが、より実用的なFSSL設定、すなわち非IID設定に一般化できない場合にうまく機能する。 本稿では,完全ラベルクライアント,完全ラベルクライアント,部分ラベルクライアントからのモデル間の不均一な信頼性を考慮して,ランダムサンプリングコンセンサス連合学習,すなわちrscfedを提案する。 私たちの主な動機は、ラベル付きクライアントまたはラベルなしクライアントから大きな逸脱があるモデルを考えると、クライアント上でランダムなサブサンプリングを行うことでコンセンサスに到達できるということです。 ローカルモデルを直接集約する代わりに、まずクライアント上でランダムなサブサンプリングを行うことでいくつかのサブコンセンサスモデルを蒸留し、次に、サブコンセンサスモデルをグローバルモデルに集約する。 サブコンセンサスモデルのロバスト性を高めるため,新しい距離重み付けモデルアグリゲーション法を開発した。 実験の結果,本手法は,自然画像と医用画像を含む3つのベンチマークデータセットにおいて,最先端の手法よりも優れていた。 コードはhttps://github.com/xmed-lab/rscfedで入手できる。

Federated semi-supervised learning (FSSL) aims to derive a global model by training fully-labeled and fully-unlabeled clients or training partially labeled clients. The existing approaches work well when local clients have independent and identically distributed (IID) data but fail to generalize to a more practical FSSL setting, i.e., Non-IID setting. In this paper, we present a Random Sampling Consensus Federated learning, namely RSCFed, by considering the uneven reliability among models from fully-labeled clients, fully-unlabeled clients or partially labeled clients. Our key motivation is that given models with large deviations from either labeled clients or unlabeled clients, the consensus could be reached by performing random sub-sampling over clients. To achieve it, instead of directly aggregating local models, we first distill several sub-consensus models by random sub-sampling over clients and then aggregating the sub-consensus models to the global model. To enhance the robustness of sub-consensus models, we also develop a novel distance-reweighted model aggregation method. Experimental results show that our method outperforms state-of-the-art methods on three benchmarked datasets, including both natural and medical images. The code is available at https://github.com/XMed-Lab/RSCFed.
翻訳日:2022-03-29 14:41:57 公開日:2022-03-26
# 再利用教師分類器による知識蒸留

Knowledge Distillation with the Reused Teacher Classifier ( http://arxiv.org/abs/2203.14001v1 )

ライセンス: Link先を確認
Defang Chen, Jian-Ping Mei, Hailin Zhang, Can Wang, Yan Feng, Chun Chen(参考訳) 知識蒸留は、強力な教師モデルを、パフォーマンスを犠牲にすることなく、軽量な学生モデルに圧縮することを目的としている。 この目的のために、モデル開発と解釈の難しさを増大させる精巧に設計された知識表現を用いて、近年様々なアプローチが提案されている。 対照的に、簡単な知識蒸留技術は教師と学生のパフォーマンスギャップを大幅に狭めるのに十分であることを示す。 我々は,事前学習した教師モデルから識別的分類器を直接再利用し,学生エンコーダを1ドルの損失で特徴調整することで訓練する。 このようにして、抽出された特徴が完全に整合していることから、生徒モデルは教師モデルと全く同じ性能を達成できる。 このプロジェクタは,生徒エンコーダが教師分類器とマッチするのを助けるために開発され,様々な教師や学生のアーキテクチャに適用できる。 本手法は,プロジェクタの追加による圧縮率の微妙なコストで,最先端の結果が得られることを示す。

Knowledge distillation aims to compress a powerful yet cumbersome teacher model into a lightweight student model without much sacrifice of performance. For this purpose, various approaches have been proposed over the past few years, generally with elaborately designed knowledge representations, which in turn increase the difficulty of model development and interpretation. In contrast, we empirically show that a simple knowledge distillation technique is enough to significantly narrow down the teacher-student performance gap. We directly reuse the discriminative classifier from the pre-trained teacher model for student inference and train a student encoder through feature alignment with a single $\ell_2$ loss. In this way, the student model is able to achieve exactly the same performance as the teacher model provided that their extracted features are perfectly aligned. An additional projector is developed to help the student encoder match with the teacher classifier, which renders our technique applicable to various teacher and student architectures. Extensive experiments demonstrate that our technique achieves state-of-the-art results at the modest cost of compression ratio due to the added projector.
翻訳日:2022-03-29 14:41:31 公開日:2022-03-26
# SGDR : 非教師的横断的医用画像分割のための意味誘導型アンタングル表現

SGDR: Semantic-guided Disentangled Representation for Unsupervised Cross-modality Medical Image Segmentation ( http://arxiv.org/abs/2203.14025v1 )

ライセンス: Link先を確認
Shuai Wang and Li Rui(参考訳) Disentangled representation is a powerful technique to tackle domain shift problem in medical image analysis in unsupervised domain adaptation setting.However, previous methods only focus on exacting domain-invariant feature and ignore whether exacted feature is meaningful for downstream tasks.We propose a novel framework, called semantic-guided disentangled representation (SGDR), an effective method to exact semantically meaningful feature for segmentation task to improve performance of cross modality medical image segmentation in unsupervised domain adaptation setting.To exact the meaningful domain-invariant features of different modality, we introduce a content discriminator to force the content representation to be embedded to the same space and a feature discriminator to exact the meaningful representation.We also use pixel-level annotations to guide the encoder to learn features that are meaningful for segmentation task.We validated our method on two public datasets and experiment results show that our approach outperforms the state of the art methods on two evaluation metrics by a significant margin.

Disentangled representation is a powerful technique to tackle domain shift problem in medical image analysis in unsupervised domain adaptation setting.However, previous methods only focus on exacting domain-invariant feature and ignore whether exacted feature is meaningful for downstream tasks.We propose a novel framework, called semantic-guided disentangled representation (SGDR), an effective method to exact semantically meaningful feature for segmentation task to improve performance of cross modality medical image segmentation in unsupervised domain adaptation setting.To exact the meaningful domain-invariant features of different modality, we introduce a content discriminator to force the content representation to be embedded to the same space and a feature discriminator to exact the meaningful representation.We also use pixel-level annotations to guide the encoder to learn features that are meaningful for segmentation task.We validated our method on two public datasets and experiment results show that our approach outperforms the state of the art methods on two evaluation metrics by a significant margin.
翻訳日:2022-03-29 14:41:15 公開日:2022-03-26
# 視覚的帰納的推論

Visual Abductive Reasoning ( http://arxiv.org/abs/2203.14040v1 )

ライセンス: Link先を確認
Chen Liang, Wenguan Wang, Tianfei Zhou and Yi Yang(参考訳) 帰納的推論は、部分的な観察の可能な限りの説明を求める。 誘拐は人間の日常的推論によく用いられるが、コンピュータビジョンの文献で研究されることは稀である。 本稿では,日常的な視覚環境における機械学習の推論能力を調べるための新しいタスクとデータセットであるvisual abductive reasoning (var)を提案する。 不完全な視覚イベントが与えられた場合、AIシステムは観察されたことを記述するだけでなく、視覚的前提を最もよく説明できる仮説を推論する必要がある。 大規模なVARデータセットに基づいて、強力なベースラインモデルであるReasoner(Causal-and-cascaded reasoning Transformer)を考案しました。 まず、観測の因果構造を捉えるために、エンコーダに文脈化された方向位置埋め込み戦略を採用し、前提と仮説の識別的表現を生成する。 そして、複数のデコーダをカスケードして前提文と仮説文を生成し、段階的に洗練する。 文の予測スコアは、カスケード推論手順におけるクロスセンス情報フローを導くために使用される。 我々のVARベンチマークの結果は、Reasonerが多くの有名なビデオ言語モデルを上回っていることを示している。 この研究は推論・観測パラダイムにおける今後の取り組みを促進することが期待されている。

Abductive reasoning seeks the likeliest possible explanation for partial observations. Although abduction is frequently employed in human daily reasoning, it is rarely explored in computer vision literature. In this paper, we propose a new task and dataset, Visual Abductive Reasoning (VAR), for examining abductive reasoning ability of machine intelligence in everyday visual situations. Given an incomplete set of visual events, AI systems are required to not only describe what is observed, but also infer the hypothesis that can best explain the visual premise. Based on our large-scale VAR dataset, we devise a strong baseline model, Reasoner (causal-and-cascaded reasoning Transformer). First, to capture the causal structure of the observations, a contextualized directional position embedding strategy is adopted in the encoder, that yields discriminative representations for the premise and hypothesis. Then, multiple decoders are cascaded to generate and progressively refine the premise and hypothesis sentences. The prediction scores of the sentences are used to guide cross-sentence information flow in the cascaded reasoning procedure. Our VAR benchmarking results show that Reasoner surpasses many famous video-language models, while still being far behind human performance. This work is expected to foster future efforts in the reasoning-beyond-observation paradigm.
翻訳日:2022-03-29 14:41:00 公開日:2022-03-26
# 早期領域プロキシによるセマンティックセグメンテーション

Semantic Segmentation by Early Region Proxy ( http://arxiv.org/abs/2203.14043v1 )

ライセンス: Link先を確認
Yifan Zhang, Bo Pang, Cewu Lu(参考訳) 典型的な視覚バックボーンは構造化された特徴を操作する。 妥協として、セマンティックセグメンテーションは、密集した正規格子上の点ごとの予測として長い間モデル化されてきた。 本稿では,イメージを学習可能な領域のテッセレーションとして解釈することから始まり,それぞれが柔軟な幾何学的特徴を持ち,均質な意味論を持つ,新しい効率的なモデリングを提案する。 領域毎のコンテキストをモデル化するために、トランスフォーマは、特定の領域のプロキシとして機能する領域埋め込みに多層自己アテンションを適用することにより、シーケンシャル・ツー・シーケンス方式で領域をエンコードする。 現在、デコーダが不要な単一線形分類器を用いて、エンコードされた領域埋め込みの上の領域ごとのセマンティックセグメンテーションが実施されている。 提案するregproxyモデルは,共通デカルト特徴レイアウトを破棄し,純粋に領域レベルで動作させる。 したがって、従来の高密度予測法と比較して、最も競争力のある性能効率トレードオフを示す。 例えばADE20Kでは、小さなRegProxy-S/16が25%のパラメータと4%の計算で最高のCNNモデルより優れており、最大のRegProxy-L/16は52.9mIoUを達成し、より少ないリソースで2.1%向上している。 コードとモデルはhttps://github.com/yif-zhang/regionproxyで入手できる。

Typical vision backbones manipulate structured features. As a compromise, semantic segmentation has long been modeled as per-point prediction on dense regular grids. In this work, we present a novel and efficient modeling that starts from interpreting the image as a tessellation of learnable regions, each of which has flexible geometrics and carries homogeneous semantics. To model region-wise context, we exploit Transformer to encode regions in a sequence-to-sequence manner by applying multi-layer self-attention on the region embeddings, which serve as proxies of specific regions. Semantic segmentation is now carried out as per-region prediction on top of the encoded region embeddings using a single linear classifier, where a decoder is no longer needed. The proposed RegProxy model discards the common Cartesian feature layout and operates purely at region level. Hence, it exhibits the most competitive performance-efficiency trade-off compared with the conventional dense prediction methods. For example, on ADE20K, the small-sized RegProxy-S/16 outperforms the best CNN model using 25% parameters and 4% computation, while the largest RegProxy-L/16 achieves 52.9mIoU which outperforms the state-of-the-art by 2.1% with fewer resources. Codes and models are available at https://github.com/YiF-Zhang/RegionProxy.
翻訳日:2022-03-29 14:40:38 公開日:2022-03-26
# 局所非局所関節ネットワークによる顔面表情領域のアダプティブライニング

Adaptively Lighting up Facial Expression Crucial Regions via Local Non-Local Joint Network ( http://arxiv.org/abs/2203.14045v1 )

ライセンス: Link先を確認
Shasha Mao, Guanghui Shi, Shuiping Gou, Dandan Yan, Licheng Jiao, Lin Xiong(参考訳) 顔表情データにおけるクラス間差が小さいため、顔表情認識(FER)は依然として難しい研究である。 ferの顔面重要領域の重要性の観点から、既存の研究の多くは、ferの性能を改善するためにいくつかの注釈付き重要点からの事前情報を利用する。 しかし、特に広大な野生の表情画像において、顔の重要点を手動でアノテートするのは複雑で時間を要する。 そこで本論文では, FERの特徴学習において, 顔重要領域を適応的に照らすために, 局所非局所関節ネットワークを提案する。 提案手法では,複数の局所ネットワークのアンサンブルを提案し,複数の局所領域に対応する局所特徴を抽出し,非局所注意ネットワークに対処して各局所領域の意義を探索する,顔局所情報と非局所情報に基づいて2つの部分を構築する。 特に、非局所ネットワークによって得られる注意重みを局所部に供給し、顔のグローバル情報と局所情報との対話的なフィードバックを実現する。 興味深いことに、地域に応じた非局所的な重量は徐々に更新され、より重要な領域により高い重量が与えられる。 さらに、u-netを用いて、表情画像の奥行き意味情報と低階層的詳細情報の統合的特徴を抽出する。 最後に,提案手法は,5つのベンチマークデータセットの最先端手法と比較して,より競争力のある性能を実現することを示す。 特筆すべきは, 局所領域に対応する非局所重みの分析により, 顔ランドマーク情報を用いずに, 特徴学習過程において重要な領域を自動拡張できることである。

Facial expression recognition (FER) is still one challenging research due to the small inter-class discrepancy in the facial expression data. In view of the significance of facial crucial regions for FER, many existing researches utilize the prior information from some annotated crucial points to improve the performance of FER. However, it is complicated and time-consuming to manually annotate facial crucial points, especially for vast wild expression images. Based on this, a local non-local joint network is proposed to adaptively light up the facial crucial regions in feature learning of FER in this paper. In the proposed method, two parts are constructed based on facial local and non-local information respectively, where an ensemble of multiple local networks are proposed to extract local features corresponding to multiple facial local regions and a non-local attention network is addressed to explore the significance of each local region. Especially, the attention weights obtained by the non-local network is fed into the local part to achieve the interactive feedback between the facial global and local information. Interestingly, the non-local weights corresponding to local regions are gradually updated and higher weights are given to more crucial regions. Moreover, U-Net is employed to extract the integrated features of deep semantic information and low hierarchical detail information of expression images. Finally, experimental results illustrate that the proposed method achieves more competitive performance compared with several state-of-the art methods on five benchmark datasets. Noticeably, the analyses of the non-local weights corresponding to local regions demonstrate that the proposed method can automatically enhance some crucial regions in the process of feature learning without any facial landmark information.
翻訳日:2022-03-29 14:40:11 公開日:2022-03-26
# 動的コードクラウドを用いた3次元形状の深い暗黙関数の学習

Learning Deep Implicit Functions for 3D Shapes with Dynamic Code Clouds ( http://arxiv.org/abs/2203.14048v1 )

ライセンス: Link先を確認
Tianyang Li, Xin Wen, Yu-Shen Liu, Hua Su, Zhizhong Han(参考訳) Deep Implicit Function (DIF) は効率的な3次元形状表現として人気を集めている。 幾何学の詳細を捉えるために、現在の手法では、通常の3dグリッド(octree)に空間を区別し、ローカルコードをグリッドポイント(octreeノード)に格納するローカル潜在コードを使ってdifを学習する。 クエリポイントが与えられると、ローカル機能は、隣接するローカルコードとその位置を補間することで計算される。 しかし、ローカルコードはグリッドポイントのような離散的かつ規則的な位置で制約されているため、最適化が困難になり、表現能力が制限される。 そこで本研究では,Defを動的コードクラウドで学習するDCC-DIFを提案する。 提案手法は,局所符号と学習可能な位置ベクトルを明示的に関連付け,位置ベクトルは連続であり,動的に最適化され,表現能力が向上する。 さらに,複雑な幾何学的詳細の周囲に分散するように,より局所的なコードをヒューリスティックに誘導する,符号位置を最適化する新しい符号位置損失を提案する。 従来の手法とは対照的に,dcc-difは少ない局所符号で3次元形状をより効率的に表現し,再構成品質を向上させる。 実験により、DCC-DIFは従来の手法よりも優れた性能を発揮することが示された。 コードとデータはhttps://github.com/lity20/dccdifで入手できる。

Deep Implicit Function (DIF) has gained popularity as an efficient 3D shape representation. To capture geometry details, current methods usually learn DIF using local latent codes, which discretize the space into a regular 3D grid (or octree) and store local codes in grid points (or octree nodes). Given a query point, the local feature is computed by interpolating its neighboring local codes with their positions. However, the local codes are constrained at discrete and regular positions like grid points, which makes the code positions difficult to be optimized and limits their representation ability. To solve this problem, we propose to learn DIF with Dynamic Code Cloud, named DCC-DIF. Our method explicitly associates local codes with learnable position vectors, and the position vectors are continuous and can be dynamically optimized, which improves the representation ability. In addition, we propose a novel code position loss to optimize the code positions, which heuristically guides more local codes to be distributed around complex geometric details. In contrast to previous methods, our DCC-DIF represents 3D shapes more efficiently with a small amount of local codes, and improves the reconstruction quality. Experiments demonstrate that DCC-DIF achieves better performance over previous methods. Code and data are available at https://github.com/lity20/DCCDIF.
翻訳日:2022-03-29 14:39:06 公開日:2022-03-26
# FaceVerse: ハイブリッドデータセットからの細粒度で詳細変更可能な3Dニューラルフェイスモデル

FaceVerse: a Fine-grained and Detail-changeable 3D Neural Face Model from a Hybrid Dataset ( http://arxiv.org/abs/2203.14057v1 )

ライセンス: Link先を確認
Lizhen Wang, Zhiyuan Chen, Tao Yu, Chenguang Ma, Liang Li, Yebin Liu(参考訳) 我々は60Kの融合RGB-D画像と2Kの高忠実度3Dヘッドスキャンモデルを含む東アジアのハイブリッド顔データセットから構築した3DニューラルフェイスモデルであるFaceVerseを紹介する。 ハイブリッドデータセットをより有効活用するために,新しい粗粒間構造を提案する。 粗いモジュールでは、大規模なRGB-D画像からベースパラメトリックモデルを生成し、性別や年齢などによって正確な3D顔モデルを予測することができる。 次に、高忠実度スキャンモデルで訓練された条件付きスタイルGANアーキテクチャを導入し、精巧な顔の幾何学的およびテクスチャ的詳細を具体化する。 従来の手法と異なり、ベースモジュールとディテールモジュールはどちらも変更可能であり、基本的な属性と3D顔モデルの顔の詳細の両方を調整する革新的な応用を可能にする。 さらに,微分可能レンダリングに基づく単一画像適合フレームワークを提案する。 実験により,本手法は最先端の手法よりも優れていることが示された。

We present FaceVerse, a fine-grained 3D Neural Face Model, which is built from hybrid East Asian face datasets containing 60K fused RGB-D images and 2K high-fidelity 3D head scan models. A novel coarse-to-fine structure is proposed to take better advantage of our hybrid dataset. In the coarse module, we generate a base parametric model from large-scale RGB-D images, which is able to predict accurate rough 3D face models in different genders, ages, etc. Then in the fine module, a conditional StyleGAN architecture trained with high-fidelity scan models is introduced to enrich elaborate facial geometric and texture details. Note that different from previous methods, our base and detailed modules are both changeable, which enables an innovative application of adjusting both the basic attributes and the facial details of 3D face models. Furthermore, we propose a single-image fitting framework based on differentiable rendering. Rich experiments show that our method outperforms the state-of-the-art methods.
翻訳日:2022-03-29 14:38:42 公開日:2022-03-26
# neural mocon: 物理的に妥当な人間のモーションキャプチャのための神経運動制御

Neural MoCon: Neural Motion Control for Physically Plausible Human Motion Capture ( http://arxiv.org/abs/2203.14065v1 )

ライセンス: Link先を確認
Buzhen Huang, Liang Pan, Yuan Yang, Jingyi Ju, Yangang Wang(参考訳) 視覚的曖昧さのため、単眼の人間のモーションキャプチャーに関する純粋にキネマティックな定式化は、しばしば物理的に不正確で、生体力学的に不可能であり、正確な相互作用を再構築することができない。 本研究では,高精度で微分不可能な物理シミュレータを活用し,動的制約をモーションキャプチャに組み込む。 私たちの鍵となるのは、サンプリングベースのモーションコントロールに先立って、実際の物理的監督を使ってターゲットのポーズ分布を訓練し、物理的に妥当な人間の動きを捉えることです。 まず,SDF(Signed Distance Field)に基づく相互作用制約を導入し,適切な接地接触モデリングを行う。 次に,2分岐デコーダを設計し,擬似接地構造からの確率誤差を回避し,微分不可能な物理シミュレータに先立って分布を訓練する。 最後に、トレーニング済みの事前およびサンプル満足目標ポーズを用いて、物理キャラクタの現在の状態からサンプリング分布を回帰させ、推定基準動作を追跡する。 質的、定量的な結果から、複雑な地形相互作用、人間の形状の変化、多様な行動を伴う物理的に妥当な人間の動きが得られることが示された。 詳細は~\url{https://www.yangwang.com/papers/HBZ-NM-2022-03.html} で確認できる。

Due to the visual ambiguity, purely kinematic formulations on monocular human motion capture are often physically incorrect, biomechanically implausible, and can not reconstruct accurate interactions. In this work, we focus on exploiting the high-precision and non-differentiable physics simulator to incorporate dynamical constraints in motion capture. Our key-idea is to use real physical supervisions to train a target pose distribution prior for sampling-based motion control to capture physically plausible human motion. To obtain accurate reference motion with terrain interactions for the sampling, we first introduce an interaction constraint based on SDF (Signed Distance Field) to enforce appropriate ground contact modeling. We then design a novel two-branch decoder to avoid stochastic error from pseudo ground-truth and train a distribution prior with the non-differentiable physics simulator. Finally, we regress the sampling distribution from the current state of the physical character with the trained prior and sample satisfied target poses to track the estimated reference motion. Qualitative and quantitative results show that we can obtain physically plausible human motion with complex terrain interactions, human shape variations, and diverse behaviors. More information can be found at~\url{https://www.yangangwang.com/papers/HBZ-NM-2022-03.html}
翻訳日:2022-03-29 14:38:27 公開日:2022-03-26
# 動的視聴覚シナリオにおける質問に答える学習

Learning to Answer Questions in Dynamic Audio-Visual Scenarios ( http://arxiv.org/abs/2203.14072v1 )

ライセンス: Link先を確認
Guangyao Li, Yake Wei, Yapeng Tian, Chenliang Xu, Ji-Rong Wen and Di Hu(参考訳) 本稿では,映像中のさまざまな視覚物体,音声,それらの関連に関する質問に答えることを目的として,avqa(audio-visual question answering)タスクに焦点を当てる。 この問題は、音声・視覚シーンに対する総合的なマルチモーダル理解と時空間推論を必要とする。 この課題をベンチマークし、研究を容易にするために、我々は、33種類の異なる質問テンプレートをカバーする45万以上の質問応答ペアを含む大規模なmusic-avqaデータセットを導入する。 AVQA問題に対して,複数のベースラインを開発し,時空間的な音声視覚ネットワークを導入する。 AVQAは多感性知覚の恩恵を受けており,本モデルでは近年のA-, V-, AVQAアプローチよりも優れていた。 我々の構築したデータセットは、音声視覚シーン理解と時空間推論の進歩を評価し、促進するためのテストベッドとして機能する可能性があると信じている。 コードとデータセット:http://gewu-lab.github.io/MUSIC-AVQA/

In this paper, we focus on the Audio-Visual Question Answering (AVQA) task, which aims to answer questions regarding different visual objects, sounds, and their associations in videos. The problem requires comprehensive multimodal understanding and spatio-temporal reasoning over audio-visual scenes. To benchmark this task and facilitate our study, we introduce a large-scale MUSIC-AVQA dataset, which contains more than 45K question-answer pairs covering 33 different question templates spanning over different modalities and question types. We develop several baselines and introduce a spatio-temporal grounded audio-visual network for the AVQA problem. Our results demonstrate that AVQA benefits from multisensory perception and our model outperforms recent A-, V-, and AVQA approaches. We believe that our built dataset has the potential to serve as testbed for evaluating and promoting progress in audio-visual scene understanding and spatio-temporal reasoning. Code and dataset: http://gewu-lab.github.io/MUSIC-AVQA/
翻訳日:2022-03-29 14:38:01 公開日:2022-03-26
# V3GAN:ビデオ生成のための背景・前景・動きの分解

V3GAN: Decomposing Background, Foreground and Motion for Video Generation ( http://arxiv.org/abs/2203.14074v1 )

ライセンス: Link先を確認
Arti Keshari, Sonam Gupta and Sukhendu Das(参考訳) ビデオ生成は、ビデオ内の妥当な空間的および時間的ダイナミクスのモデリングを必要とする困難なタスクである。 本研究では,映像生成の課題をフォアグラウンド,背景,動きの合成に分解する手法を提案する。 前景と背景は共に外観を記述するが、動きは前景が時間とともに動画の中でどのように動くかを特定する。 本稿では,V3GANを提案する。V3GANは2つの枝が前景と背景情報をモデル化し,第3枝は監督なしで時間情報をモデル化する。 前景枝には,前景と背景分離のための正確なマスクの学習を支援する,新しい機能レベルのマスキング層が付加されている。 動きの整合性を促進するため,ビデオ識別器のシャッフル損失についても提案する。 人工的および実世界のベンチマークデータセットに関する大規模な定量的および定性的な分析は、V3GANが最先端の手法を著しく上回っていることを示している。

Video generation is a challenging task that requires modeling plausible spatial and temporal dynamics in a video. Inspired by how humans perceive a video by grouping a scene into moving and stationary components, we propose a method that decomposes the task of video generation into the synthesis of foreground, background and motion. Foreground and background together describe the appearance, whereas motion specifies how the foreground moves in a video over time. We propose V3GAN, a novel three-branch generative adversarial network where two branches model foreground and background information, while the third branch models the temporal information without any supervision. The foreground branch is augmented with our novel feature-level masking layer that aids in learning an accurate mask for foreground and background separation. To encourage motion consistency, we further propose a shuffling loss for the video discriminator. Extensive quantitative and qualitative analysis on synthetic as well as real-world benchmark datasets demonstrates that V3GAN outperforms the state-of-the-art methods by a significant margin.
翻訳日:2022-03-29 14:37:44 公開日:2022-03-26
# Occlusion Auto-Encoderを用いた自己教師付きポイントクラウド表現学習

Self-Supervised Point Cloud Representation Learning with Occlusion Auto-Encoder ( http://arxiv.org/abs/2203.14084v1 )

ライセンス: Link先を確認
Junsheng Zhou, Xin Wen, Yu-Shen Liu, Yi Fang, Zhizhong Han(参考訳) ポイントクラウドの表現を学習することは、3dコンピュータビジョンにおいて、特に手作業による監督なしでは重要なタスクである。 以前の方法は、通常、オートエンコーダの共通の助けを借りて、入力自体を再構築することで自己超越を確立する。 しかし、既存の自己再構成に基づく自動エンコーダは、単にグローバルな形状にのみ焦点を合わせ、局所的およびグローバルなジオメトリ間の階層的文脈を無視する。 この問題を解決するために,3D Occlusion Auto-Encoder(3D-OAE)という,自己教師付きポイントクラウド表現学習フレームワークを提案する。 私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、残りの可視パッチを使用して隠されたパッチを復元することで監督を確立することです。 具体的には、視覚的局所パッチの特徴を学習するためのエンコーダと、これらの特徴を活用して隠蔽パッチを予測するデコーダを設計する。 従来の手法とは対照的に,我々の3D-OAEでは,多数のパッチを除去し,少数の可視パッチでしか予測できないため,トレーニングを著しく加速し,非自明な自己監督性能が得られる。 トレーニングされたエンコーダは、さらに様々な下流タスクに転送できる。 我々は、広く使用されているベンチマークにおいて、異なる判別アプリケーションや生成アプリケーションにおいて最先端のメソッドよりも優れた性能を示す。

Learning representations for point clouds is an important task in 3D computer vision, especially without manually annotated supervision. Previous methods usually take the common aid from auto-encoders to establish the self-supervision by reconstructing the input itself. However, the existing self-reconstruction based auto-encoders merely focus on the global shapes, and ignore the hierarchical context between the local and global geometries, which is a crucial supervision for 3D representation learning. To resolve this issue, we present a novel self-supervised point cloud representation learning framework, named 3D Occlusion Auto-Encoder (3D-OAE). Our key idea is to randomly occlude some local patches of the input point cloud and establish the supervision via recovering the occluded patches using the remaining visible ones. Specifically, we design an encoder for learning the features of visible local patches, and a decoder for leveraging these features to predict the occluded patches. In contrast with previous methods, our 3D-OAE can remove a large proportion of patches and predict them only with a small number of visible patches, which enable us to significantly accelerate training and yield a nontrivial self-supervisory performance. The trained encoder can be further transferred to various downstream tasks. We demonstrate our superior performances over the state-of-the-art methods in different discriminant and generative applications under widely used benchmarks.
翻訳日:2022-03-29 14:37:23 公開日:2022-03-26
# 意味的画像分割のための特徴選択変換器

Feature Selective Transformer for Semantic Image Segmentation ( http://arxiv.org/abs/2203.14124v1 )

ライセンス: Link先を確認
Fangjian Lin, Tianyi Wu, Sitong Wu, Shengwei Tian, Guodong Guo(参考訳) 近年,semantic image segmentationのためのfuse multi-scale機能に注目が集まっている。 プログレッシブ・ローカルやグローバル・フュージョンを採用するために様々な研究が提案されたが、機能融合はマルチスケール・コンテキストの特徴をモデル化するには不十分である。 本研究では,意味的セグメンテーションのためにTransformerベースのバックボーンからマルチスケール機能を融合することに注力し,各クエリ機能のすべてのスケール(あるいはレベル)から機能を集約するFeSeFormer(FeSeFormer)を提案する。 具体的には、まず、スケールレベルの特徴選択(SFS)モジュールを提案し、各スケールのマルチスケールの特徴セット全体から情報的サブセットを選択し、現在のスケール(またはレベル)において重要な特徴を選択し、冗長な特徴を破棄する。 さらに,すべてのスケールの機能をクエリに対して適応的に融合できるフルスケール機能融合モジュールを提案する。 提案したSFSおよびFFFモジュールに基づいてFeSeFormer(FeSeFormer)を開発し,PASCALコンテキスト,ADE20K,COCO-Stuff 10K,Cityscapesの4つの挑戦的セマンティックセマンティックセマンティックセグメンテーションベンチマークを用いてFeSeFormerの評価を行った。

Recently, it has attracted more and more attentions to fuse multi-scale features for semantic image segmentation. Various works were proposed to employ progressive local or global fusion, but the feature fusions are not rich enough for modeling multi-scale context features. In this work, we focus on fusing multi-scale features from Transformer-based backbones for semantic segmentation, and propose a Feature Selective Transformer (FeSeFormer), which aggregates features from all scales (or levels) for each query feature. Specifically, we first propose a Scale-level Feature Selection (SFS) module, which can choose an informative subset from the whole multi-scale feature set for each scale, where those features that are important for the current scale (or level) are selected and the redundant are discarded. Furthermore, we propose a Full-scale Feature Fusion (FFF) module, which can adaptively fuse features of all scales for queries. Based on the proposed SFS and FFF modules, we develop a Feature Selective Transformer (FeSeFormer), and evaluate our FeSeFormer on four challenging semantic segmentation benchmarks, including PASCAL Context, ADE20K, COCO-Stuff 10K, and Cityscapes, outperforming the state-of-the-art.
翻訳日:2022-03-29 14:36:57 公開日:2022-03-26
# RGBDオブジェクト追跡:詳細レビュー

RGBD Object Tracking: An In-depth Review ( http://arxiv.org/abs/2203.14134v1 )

ライセンス: Link先を確認
Jinyu Yang and Zhe Li and Song Yan and Feng Zheng and Ale\v{s} Leonardis and Joni-Kristian K\"am\"ar\"ainen and Ling Shao(参考訳) rgbdオブジェクトトラッキングは、深度センサーの開発により、コンピュータビジョン研究で勢いを増している。 多くのrgbdトラッカーが有望な性能で提案されているが、この領域の包括的理解に関する詳細なレビューは欠落している。 本稿では,まずrgbd融合,奥行き利用,トラッキングフレームワークなど,さまざまな視点からrgbdオブジェクトトラッカをレビューする。 次に,既存のデータセットと評価指標を要約する。 我々はRGBDトラッカーの代表セットをベンチマークし、その性能に基づいて詳細な分析を行う。 特に,rgbd追跡における深度フレンドリなシナリオにおいて,深度品質評価と追跡結果の分析を初めて行った。 ほとんどのrgbd追跡ビデオの長期設定では、追跡者のターゲット消去処理におけるパフォーマンスの分析を行う。 RGBDトラッカーの理解を深めるため,入力摂動に対するロバスト性評価を提案する。 最後に,課題をまとめ,コミュニティに対してオープンな方向性を提供します。 すべてのリソースはhttps://github.com/ memoryunreal/RGBD-tracking-reviewで公開されている。

RGBD object tracking is gaining momentum in computer vision research thanks to the development of depth sensors. Although numerous RGBD trackers have been proposed with promising performance, an in-depth review for comprehensive understanding of this area is lacking. In this paper, we firstly review RGBD object trackers from different perspectives, including RGBD fusion, depth usage, and tracking framework. Then, we summarize the existing datasets and the evaluation metrics. We benchmark a representative set of RGBD trackers, and give detailed analyses based on their performances. Particularly, we are the first to provide depth quality evaluation and analysis of tracking results in depth-friendly scenarios in RGBD tracking. For long-term settings in most RGBD tracking videos, we give an analysis of trackers' performance on handling target disappearance. To enable better understanding of RGBD trackers, we propose robustness evaluation against input perturbations. Finally, we summarize the challenges and provide open directions for this community. All resources are publicly available at https://github.com/memoryunreal/RGBD-tracking-review.
翻訳日:2022-03-29 14:36:31 公開日:2022-03-26
# SolidGen: 直接B-rep合成のための自己回帰モデル

SolidGen: An Autoregressive Model for Direct B-rep Synthesis ( http://arxiv.org/abs/2203.13944v1 )

ライセンス: Link先を確認
Pradeep Kumar Jayaraman, Joseph G. Lambourne, Nishkrit Desai, Karl D.D. Willis, Aditya Sanghi, Nigel J.W. Morris(参考訳) 境界表現(B-rep)フォーマットは、水密な固体オブジェクトをモデル化するためのコンピュータ支援設計(CAD)におけるデファクト形状表現である。 cadモデルを生成する最近のアプローチは、b-repを回収するためにpostprocessのsolid modeling kernelによって実行されるsketch-and-extrudeモデリングシーケンスを学習することに焦点を当てている。 本稿では,CADモデリングシーケンスデータによる監視を必要とせずに,B-repsの学習と合成を可能にする新しいアプローチを提案する。 提案手法であるsolidgenは,トランスフォーマリンとポインターニューラルネットワークを用いて,頂点,エッジ,顔を予測することで,b-repを直接モデル化する自己回帰型ニューラルネットワークである。 これを実現するためのキーは、B-repの頂点、エッジ、面を適切に定義された階層で参照し、機械学習で使用するのに適した幾何学的および位相的関係をキャプチャするインデックス境界表現です。 SolidGenは、B-rep分布の確率的モデリングのおかげで、クラスラベルなどのコンテキストで簡単に条件付けできる。 我々は、SolidGenが高品質でリアルなCADモデルを作成できることを人間の被験者による質的、定量的、そして知覚的評価を通じて示す。

The Boundary representation (B-rep) format is the de-facto shape representation in computer-aided design (CAD) to model watertight solid objects. Recent approaches to generating CAD models have focused on learning sketch-and-extrude modeling sequences that are executed by a solid modeling kernel in postprocess to recover a B-rep. In this paper we present a new approach that enables learning from and synthesizing B-reps without the need for supervision through CAD modeling sequence data. Our method SolidGen, is an autoregressive neural network that models the B-rep directly by predicting the vertices, edges and faces using Transformer-based and pointer neural networks. Key to achieving this is our Indexed Boundary Representation that references B-rep vertices, edges and faces in a well-defined hierarchy to capture the geometric and topological relations suitable for use with machine learning. SolidGen can be easily conditioned on contexts e.g., class labels thanks to its probabilistic modeling of the B-rep distribution. We demonstrate qualitatively, quantitatively and through perceptual evaluation by human subjects that SolidGen can produce high quality, realistic looking CAD models.
翻訳日:2022-03-29 14:16:06 公開日:2022-03-26
# 素晴らしい質問とそれを見つける場所:fairytaleqa - ナラティブ理解のための本物のデータセット

Fantastic Questions and Where to Find Them: FairytaleQA -- An Authentic Dataset for Narrative Comprehension ( http://arxiv.org/abs/2203.13947v1 )

ライセンス: Link先を確認
Ying Xu, Dakuo Wang, Mo Yu, Daniel Ritchie, Bingsheng Yao, Tongshuang Wu, Zheng Zhang, Toby Jia-Jun Li, Nora Bradford, Branda Sun, Tran Bao Hoang, Yisi Sang, Yufang Hou, Xiaojuan Ma, Diyi Yang, Nanyun Peng, Zhou Yu, Mark Warschauer(参考訳) 質問応答 (QA) は, 機械・幼児双方の物語理解スキルの評価と訓練を容易にするための基本的な手段であるが, この目的のために慎重に設計された高品質なQAデータセットは乏しい。 特に、既存のデータセットは、様々な物語要素の理解など、細かな読みのスキルをほとんど区別しない。 そこで,本研究では,幼稚園の物語理解に焦点を当てたデータセットであるfairytaleqaを8年生に紹介する。 証拠に基づく理論的枠組みに基づく教育専門家によって生み出された、フェアリータレカは7種類の物語要素または関係をカバーする278の子供フレンドリーな物語から派生した10,580の明示的および暗黙的な質問からなる。 まず、既存のQAモデルをデータセット上で実行し、このアノテーションがモデルのきめ細かい学習スキルを評価するのに役立つことを確認した。 第二に、データセットは教育領域における質問生成(QG)タスクをサポートする。 QGモデルをベンチマークすることで、FairytaleQAでトレーニングされたQGモデルが高品質で多様な質問をすることができることを示す。

Question answering (QA) is a fundamental means to facilitate assessment and training of narrative comprehension skills for both machines and young children, yet there is scarcity of high-quality QA datasets carefully designed to serve this purpose. In particular, existing datasets rarely distinguish fine-grained reading skills, such as the understanding of varying narrative elements. Drawing on the reading education research, we introduce FairytaleQA, a dataset focusing on narrative comprehension of kindergarten to eighth-grade students. Generated by educational experts based on an evidence-based theoretical framework, FairytaleQA consists of 10,580 explicit and implicit questions derived from 278 children-friendly stories, covering seven types of narrative elements or relations. Our dataset is valuable in two folds: First, we ran existing QA models on our dataset and confirmed that this annotation helps assess models' fine-grained learning skills. Second, the dataset supports question generation (QG) task in the education domain. Through benchmarking with QG models, we show that the QG model trained on FairytaleQA is capable of asking high-quality and more diverse questions.
翻訳日:2022-03-29 14:11:28 公開日:2022-03-26
# 文書レベルの関係抽出のための高結合Criss-Crossアテンションネットワーク

A Densely Connected Criss-Cross Attention Network for Document-level Relation Extraction ( http://arxiv.org/abs/2203.13953v1 )

ライセンス: Link先を確認
Liang Zhang, Yidong Cheng(参考訳) 文書レベル関係抽出(re)は、ある文書内の2つのエンティティ間の関係を識別することを目的としている。 文レベルと比較すると、文書レベルREは複雑な推論を必要とする。 従来の研究では、参照レベルやエンティティレベルの文書グラフの情報伝達を通じて推論を完了したが、エンティティペアレベルでの推論を考えることはまれである。本論文では、エンティティペアレベルで論理推論を完備する文書レベルのreのための、密結合されたcriss-cross attention network(dense-ccnet)と呼ばれる新しいモデルを提案する。 具体的には、dung-ccnetはcriss-cross attention(cca)を通じてエンティティペアレベルの論理推論を行い、エンティティペアマトリックス上の水平方向および垂直方向の文脈情報を収集し、対応するエンティティペア表現を強化する。 さらに,我々はCCAの複数のレイヤを密結合させて,シングルホップとマルチホップ論理推論の特徴を同時に捉え,Dense-CCNetモデルをDocRED,CDR,GDAの3つの公開ドキュメントレベルREデータセット上で評価した。 実験により,これらの3つのデータセットの最先端性能が得られた。

Document-level relation extraction (RE) aims to identify relations between two entities in a given document. Compared with its sentence-level counterpart, document-level RE requires complex reasoning. Previous research normally completed reasoning through information propagation on the mention-level or entity-level document-graph, but rarely considered reasoning at the entity-pair-level.In this paper, we propose a novel model, called Densely Connected Criss-Cross Attention Network (Dense-CCNet), for document-level RE, which can complete logical reasoning at the entity-pair-level. Specifically, the Dense-CCNet performs entity-pair-level logical reasoning through the Criss-Cross Attention (CCA), which can collect contextual information in horizontal and vertical directions on the entity-pair matrix to enhance the corresponding entity-pair representation. In addition, we densely connect multiple layers of the CCA to simultaneously capture the features of single-hop and multi-hop logical reasoning.We evaluate our Dense-CCNet model on three public document-level RE datasets, DocRED, CDR, and GDA. Experimental results demonstrate that our model achieves state-of-the-art performance on these three datasets.
翻訳日:2022-03-29 14:11:05 公開日:2022-03-26
# 事前学習言語モデルにおけるメタファー:データセットと言語間の探索と一般化

Metaphors in Pre-Trained Language Models: Probing and Generalization Across Datasets and Languages ( http://arxiv.org/abs/2203.14139v1 )

ライセンス: Link先を確認
Ehsan Aghazadeh, Mohsen Fayyaz, Yadollah Yaghoobzadeh(参考訳) 人間の言語は比喩的な表現でいっぱいです。 メタファーは、新しい概念とドメインをより親しみやすいものに結びつけることで、世界を理解するのに役立つ。 したがって、PLM (Large Pre-trained Language Model) は、NLPシステムに有用な比喩的知識を符号化する。 本稿では, PLM に対するこの仮説を, 符号化における比喩情報を探索し, 言語間およびデータセット間の一般化を計測することによって検討する。 複数のメタファー検出データセットと4つの言語(英語、スペイン語、ロシア語、Farsi)で研究を行っている。 広範な実験から,plmにおける文脈表現はメタファ的知識をエンコードしており,そのほとんどは中間層であることが示唆された。 知識は言語とデータセット間で転送可能で、特にアノテーションがトレーニングとテストセット間で一貫性がある場合です。 本研究は認知科学者とNLP研究者の両方に有用な知見を与える。

Human languages are full of metaphorical expressions. Metaphors help people understand the world by connecting new concepts and domains to more familiar ones. Large pre-trained language models (PLMs) are therefore assumed to encode metaphorical knowledge useful for NLP systems. In this paper, we investigate this hypothesis for PLMs, by probing metaphoricity information in their encodings, and by measuring the cross-lingual and cross-dataset generalization of this information. We present studies in multiple metaphor detection datasets and in four languages (i.e., English, Spanish, Russian, and Farsi). Our extensive experiments suggest that contextual representations in PLMs do encode metaphorical knowledge, and mostly in their middle layers. The knowledge is transferable between languages and datasets, especially when the annotation is consistent across training and testing sets. Our findings give helpful insights for both cognitive and NLP scientists.
翻訳日:2022-03-29 14:10:42 公開日:2022-03-26
# 対話型言語におけるジェスチャタイピングのための共同変換器/RNNアーキテクチャ

Joint Transformer/RNN Architecture for Gesture Typing in Indic Languages ( http://arxiv.org/abs/2203.14049v1 )

ライセンス: Link先を確認
Emil Biju, Anirudh Sriram, Mitesh M. Khapra, Pratyush Kumar(参考訳) ジェスチャタイピング(英: Gesture typing)とは、タッチベースのキーボード上で、関連するキーを連続的にトレースすることで単語をタイプする方法である。 本研究の目的は,indic 言語でジェスチャ入力をサポートするキーボードの開発である。 まず、Indic言語を扱う際には、2つの異なるユーザセットに注意する必要があることに注意してください。 (i)ネイティブ・インデックス・スクリプト(Devanagari、Bengaliなど)を入力したいユーザ (ii)英語のスクリプトを入力したいが、その出力をネイティブのスクリプトに書き起こしたいユーザ。 どちらの場合でも、トレースを入力として、それを意図した単語にマップするモデルが必要です。 これらのモデルの開発を可能にするために、2つのデータセットを作成し、リリースする。 まず、7つのindic言語から193,658単語のキーボードトレースを含むデータセットを作成する。 第2に,これらの言語間のウィキデータから104,412個の英字訳ペアを収集した。 これらのデータセットを使用して、パス復号、音訳、音訳補正を行うモデルを構築します。 従来の手法とは異なり,提案モデルではデコード時に共文字独立性を仮定しない。 7言語間のモデルの全体的な精度は70~95%である。

Gesture typing is a method of typing words on a touch-based keyboard by creating a continuous trace passing through the relevant keys. This work is aimed at developing a keyboard that supports gesture typing in Indic languages. We begin by noting that when dealing with Indic languages, one needs to cater to two different sets of users: (i) users who prefer to type in the native Indic script (Devanagari, Bengali, etc.) and (ii) users who prefer to type in the English script but want the output transliterated into the native script. In both cases, we need a model that takes a trace as input and maps it to the intended word. To enable the development of these models, we create and release two datasets. First, we create a dataset containing keyboard traces for 193,658 words from 7 Indic languages. Second, we curate 104,412 English-Indic transliteration pairs from Wikidata across these languages. Using these datasets we build a model that performs path decoding, transliteration, and transliteration correction. Unlike prior approaches, our proposed model does not make co-character independence assumptions during decoding. The overall accuracy of our model across the 7 languages varies from 70-95%.
翻訳日:2022-03-29 13:46:42 公開日:2022-03-26
# MQDD -- ソフトウェアエンジニアリング分野におけるマルチモーダル質問重複検出の事前トレーニング

MQDD -- Pre-training of Multimodal Question Duplicity Detection for Software Engineering Domain ( http://arxiv.org/abs/2203.14093v1 )

ライセンス: Link先を確認
Jan Pa\v{s}ek, Jakub Sido, Miloslav Konop\'ik, Ond\v{r}ej Pra\v{z}\'ak(参考訳) 本稿では,stack overflow webサイトで収集したデータを活用して,質問応答webサイトの重複を検索するためのマルチモーダルモデルを事前学習する新たなパイプラインを提案する。 マルチモーダルモデルは、複数のプログラミング言語の質問記述とソースコードに基づいて訓練されています。 重複検出能力を改善するために,新たな学習目標を2つ設計する。 この研究の成果は、成熟した微調整されたマルチモーダル質問ダプライシティ検出(mqdd)モデルであり、スタックオーバーフロー検索システムに統合される準備ができており、すでに回答された質問に対する回答を見つけるのに役立ちます。 MQDDモデルとともに、ソフトウェアエンジニアリングドメインに関連する2つのデータセットをリリースします。 最初のstack overflowデータセット(sod)は、ペアの質問と回答の巨大なコーパスを表している。 第2のStack Overflow Duplicity Dataset(SODD)には、重複検出モデルをトレーニングするためのデータが含まれている。

This work proposes a new pipeline for leveraging data collected on the Stack Overflow website for pre-training a multimodal model for searching duplicates on question answering websites. Our multimodal model is trained on question descriptions and source codes in multiple programming languages. We design two new learning objectives to improve duplicate detection capabilities. The result of this work is a mature, fine-tuned Multimodal Question Duplicity Detection (MQDD) model, ready to be integrated into a Stack Overflow search system, where it can help users find answers for already answered questions. Alongside the MQDD model, we release two datasets related to the software engineering domain. The first Stack Overflow Dataset (SOD) represents a massive corpus of paired questions and answers. The second Stack Overflow Duplicity Dataset (SODD) contains data for training duplicate detection models.
翻訳日:2022-03-29 13:46:23 公開日:2022-03-26
# 偽ニュース検出におけるグラフニューラルネットワークと一般的な機械学習アルゴリズムの比較分析

A comparative analysis of Graph Neural Networks and commonly used machine learning algorithms on fake news detection ( http://arxiv.org/abs/2203.14132v1 )

ライセンス: Link先を確認
Fahim Belal Mahmud, Mahi Md. Sadek Rayhan, Mahdi Hasan Shuvo, Islam Sadia, Md.Kishor Morol(参考訳) ソーシャルメディア上での偽ニュースは、ますます問題視されている。 低コスト、ソーシャルプラットフォーム経由のシンプルなアクセシビリティ、そして多くの低予算オンラインニュースソースは、偽ニュースの普及に寄与する要因の1つだ。 既存のフェイクニュース検出アルゴリズムのほとんどは、ニュースコンテンツのみに焦点を絞っているが、事前投稿やソーシャルアクティビティは、ニュースに対する見解に関する豊富な情報を提供し、フェイクニュース識別を改善する重要な能力を持っている。 グラフニューラルネットワークは、グラフ記述データで予測を行うディープラーニングアプローチの一形態である。 ソーシャルメディアプラットフォームはグラフ構造に従って表現され、グラフニューラルネットワークはグラフに適用可能な特殊なタイプのニューラルネットワークであり、エッジ、ノード、グラフレベルの予測の実行がずっと容易になる。 そこで本稿では,ソーシャルメディアプラットフォーム上での偽ニュースの拡散を検出するために,一般的な機械学習アルゴリズムとグラフニューラルネットワークの比較分析を行った。 本研究では,UPFDデータセットを用いてテキストデータのみに既存の機械学習アルゴリズムを実装した。 さらに、GNNモデルのノード機能として、グラフ構造化ニュース伝搬データとテキストデータを融合するための異なるGNN層を作成する。 GNNは、我々の研究で偽ニュースを識別するジレンマに対する最良の解決策を提供する。

Fake news on social media is increasingly regarded as one of the most concerning issues. Low cost, simple accessibility via social platforms, and a plethora of low-budget online news sources are some of the factors that contribute to the spread of false news. Most of the existing fake news detection algorithms are solely focused on the news content only but engaged users prior posts or social activities provide a wealth of information about their views on news and have significant ability to improve fake news identification. Graph Neural Networks are a form of deep learning approach that conducts prediction on graph-described data. Social media platforms are followed graph structure in their representation, Graph Neural Network are special types of neural networks that could be usually applied to graphs, making it much easier to execute edge, node, and graph-level prediction. Therefore, in this paper, we present a comparative analysis among some commonly used machine learning algorithms and Graph Neural Networks for detecting the spread of false news on social media platforms. In this study, we take the UPFD dataset and implement several existing machine learning algorithms on text data only. Besides this, we create different GNN layers for fusing graph-structured news propagation data and the text data as the node feature in our GNN models. GNNs provide the best solutions to the dilemma of identifying false news in our research.
翻訳日:2022-03-29 13:46:10 公開日:2022-03-26
# SlimFL: ニューラルネットワーク上の重ね合わせ符号化によるフェデレーション学習

SlimFL: Federated Learning with Superposition Coding over Slimmable Neural Networks ( http://arxiv.org/abs/2203.14094v1 )

ライセンス: Link先を確認
Won Joon Yun, Yunseok Kwak, Hankyul Baek, Soyi Jung, Mingyue Ji, Mehdi Bennis, Jihong Park, and Joongheon Kim(参考訳) フェデレートラーニング(FL)は、デバイスの分散コンピューティング機能を活用した効率的なコミュニケーションとコンピューティングのための重要な実現手段である。 しかし、実際にはflの適用は、ローカルデバイスの異種エネルギー、無線チャネル条件、非独立かつ同一に分散した(非iid)データ分布のため困難である。 本稿では,これらの問題に対処するために,FLと幅調整可能なスリムブルニューラルネットワーク(SNN)を統合した新しい学習フレームワークを提案する。 fl と snn の統合は、時間変数のチャネル条件とデータ分布のため、困難である。 さらに、既存のマルチ幅SNNトレーニングアルゴリズムはデバイス間のデータ分散に敏感であるため、FLには適さない。 そこで我々は,グローバルモデルアグリゲーションと重ね合わせトレーニング(ST)に重ね合わせ符号化(SC)を併用して局所モデルの更新を行う通信・エネルギー効率の高いSNNベースFL(SlimFL)を提案する。 SCを適用することで、SlimFLは、与えられた通信スループットに対して可能な限り複数の幅構成の重ね合わせを交換する。 stを活用することで、slimflは、バックプロパゲーション中の幅間干渉を避けながら、異なる幅構成の前方伝播を調整できる。 我々はSlimFLの収束を正式に証明する。 その結果,SlimFLは通信効率だけでなく,非IIDデータ分布や通信路条件も扱うことが明らかとなった。

Federated learning (FL) is a key enabler for efficient communication and computing leveraging devices' distributed computing capabilities. However, applying FL in practice is challenging due to the local devices' heterogeneous energy, wireless channel conditions, and non-independently and identically distributed (non-IID) data distributions. To cope with these issues, this paper proposes a novel learning framework by integrating FL and width-adjustable slimmable neural networks (SNN). Integrating FL with SNNs is challenging due to time-varing channel conditions and data distributions. In addition, existing multi-width SNN training algorithms are sensitive to the data distributions across devices, which makes SNN ill-suited for FL. Motivated by this, we propose a communication and energy-efficient SNN-based FL (named SlimFL) that jointly utilizes superposition coding (SC) for global model aggregation and superposition training (ST) for updating local models. By applying SC, SlimFL exchanges the superposition of multiple width configurations decoded as many times as possible for a given communication throughput. Leveraging ST, SlimFL aligns the forward propagation of different width configurations while avoiding inter-width interference during backpropagation. We formally prove the convergence of SlimFL. The result reveals that SlimFL is not only communication-efficient but also deals with the non-IID data distributions and poor channel conditions, which is also corroborated by data-intensive simulations.
翻訳日:2022-03-29 13:45:51 公開日:2022-03-26
# どうやって失敗する? 自動運転車におけるストレステスト知覚

How Do We Fail? Stress Testing Perception in Autonomous Vehicles ( http://arxiv.org/abs/2203.14155v1 )

ライセンス: Link先を確認
Harrison Delecki, Masha Itkina, Bernard Lange, Ransalu Senanayake, Mykel J. Kochenderfer(参考訳) 自律走行車(AV)は環境認識と行動予測に頼り、周囲のエージェントについて推論する。 これらの知覚システムは、雨、霧、雪などの悪天候に対して頑健でなければならない。 しかし,これらのシステムの妥当性の検証は,その複雑さと観察履歴への依存から困難である。 本稿では,悪天候下でのAVに対するLiDARに基づく認識システムの故障を特徴付ける手法を提案する。 強化学習に基づく手法を開発し,外乱のシーケンスによる対象追跡や軌道予測の失敗の可能性を見出す。 悪天候下でのLiDAR点雲をシミュレーションするための物理データ拡張手法を用いて外乱を適用した。 実世界の運転データセットから幅広い運転シナリオにおいて実験を行った結果,提案手法は,計算的に抽出可能でありながら,ベースラインに比べて入力障害が小さく,高い確率で故障することがわかった。 特定された障害はavsのためのロバストな知覚システムの将来の開発に役立ちます。

Autonomous vehicles (AVs) rely on environment perception and behavior prediction to reason about agents in their surroundings. These perception systems must be robust to adverse weather such as rain, fog, and snow. However, validation of these systems is challenging due to their complexity and dependence on observation histories. This paper presents a method for characterizing failures of LiDAR-based perception systems for AVs in adverse weather conditions. We develop a methodology based in reinforcement learning to find likely failures in object tracking and trajectory prediction due to sequences of disturbances. We apply disturbances using a physics-based data augmentation technique for simulating LiDAR point clouds in adverse weather conditions. Experiments performed across a wide range of driving scenarios from a real-world driving dataset show that our proposed approach finds high likelihood failures with smaller input disturbances compared to baselines while remaining computationally tractable. Identified failures can inform future development of robust perception systems for AVs.
翻訳日:2022-03-29 13:45:24 公開日:2022-03-26
# パターン認識におけるロバスト反転訓練に関する調査--基礎,理論,方法論

A Survey of Robust Adversarial Training in Pattern Recognition: Fundamental, Theory, and Methodologies ( http://arxiv.org/abs/2203.14046v1 )

ライセンス: Link先を確認
Zhuang Qian, Kaizhu Huang, Qiu-Feng Wang, Xu-Yao Zhang(参考訳) 過去数十年間、ディープニューラルネットワークは機械学習、コンピュータビジョン、パターン認識において顕著な成功を収めてきた。 しかし、最近の研究では、ニューラルネットワーク(浅層と深層の両方)は、逆の例と呼ばれる非知覚的な入力サンプルによって容易に騙される可能性があることが示されている。 このようなセキュリティ上の脆弱性は、ニューラルネットワークの膨大な応用によって現実世界の脅威がもたらされる可能性があるため、近年では大きな研究結果となっている。 特にパターン認識における強靭性問題に対処するため,頑健な対人訓練が主流となっている。 様々なアイデア、手法、応用がこの分野で盛り上がっている。 しかし、異なるモデル間の特性、解釈、理論、接続を含む敵対的訓練の深い理解はいまだに解明されていない。 本稿では,パターン認識におけるロバストな敵対的トレーニングに関する体系的かつ構造化された調査を行う。 まずは、定義、記法、逆例の性質などの基本から始める。 次に,敵のサンプルから防御するための統一的な理論的枠組み,すなわち,敵のトレーニングがモデルロバスト性をもたらす理由に関する可視化と解釈を紹介する。 敵の訓練と他の伝統的な学習理論とのつながりも確立する。 その後、敵攻撃や防衛訓練アルゴリズムによる様々な手法を構造化された方法でまとめ、検討し、議論する。 最後に, 対向訓練の分析, 展望, および注意点について述べる。

In the last a few decades, deep neural networks have achieved remarkable success in machine learning, computer vision, and pattern recognition. Recent studies however show that neural networks (both shallow and deep) may be easily fooled by certain imperceptibly perturbed input samples called adversarial examples. Such security vulnerability has resulted in a large body of research in recent years because real-world threats could be introduced due to vast applications of neural networks. To address the robustness issue to adversarial examples particularly in pattern recognition, robust adversarial training has become one mainstream. Various ideas, methods, and applications have boomed in the field. Yet, a deep understanding of adversarial training including characteristics, interpretations, theories, and connections among different models has still remained elusive. In this paper, we present a comprehensive survey trying to offer a systematic and structured investigation on robust adversarial training in pattern recognition. We start with fundamentals including definition, notations, and properties of adversarial examples. We then introduce a unified theoretical framework for defending against adversarial samples - robust adversarial training with visualizations and interpretations on why adversarial training can lead to model robustness. Connections will be also established between adversarial training and other traditional learning theories. After that, we summarize, review, and discuss various methodologies with adversarial attack and defense/training algorithms in a structured way. Finally, we present analysis, outlook, and remarks of adversarial training.
翻訳日:2022-03-29 13:37:20 公開日:2022-03-26
# GEN-VLKT:HOI検出のための結合とエンハンス相互作用理解の簡易化

GEN-VLKT: Simplify Association and Enhance Interaction Understanding for HOI Detection ( http://arxiv.org/abs/2203.13954v1 )

ライセンス: Link先を確認
Yue Liao, Aixi Zhang, Miao Lu, Yongliang Wang, Xiaobo Li, Si Liu(参考訳) 人-物間相互作用(HOI)検出の課題は、人間-物間相互作用と相互作用理解という2つの中核的な問題に分けられる。 本稿では,従来のクエリ駆動型HOI検出器の欠点を2つの側面から明らかにし,対処する。 この関係では、従来の2分岐法は複雑でコストのかかる後マッチングに苦しむが、単一分岐法は異なるタスクで特徴の区別を無視する。 本稿では,2分岐パイプラインをポストマッチングなしで実現するためのガイド埋め込みネットワーク~(GEN)を提案する。 GENでは、2つの独立したクエリセットを持つ人間とオブジェクトを検出するインスタンスデコーダと、人間とオブジェクトをペアと同じ位置にマークするためのガイド付き埋め込み(p-GE)を設計する。 さらに、インタラクションクエリは、各インスタンスデコーダ層の出力から生成されたインスタンス誘導埋め込み(i-ge)で構成されている、インタラクションを分類するためにインタラクションデコーダを設計する。 相互作用理解のために、従来の手法は長い尾の分布とゼロショット発見に悩まされていた。 本稿では,視覚言語事前学習モデルCLIPから知識を伝達することで,対話理解を高めるための視覚言語的知識伝達(VLKT)トレーニング戦略を提案する。 具体的には、CLIPで全てのラベルのテキスト埋め込みを抽出し、分類器を初期化し、擬似損失を採用し、GENとCLIPの視覚的特徴距離を最小化する。 その結果、GEN-VLKTはHICO-Det上の+5.05 mAPのような複数のデータセットで大きなマージンで芸術の状態を上回ります。 ソースコードはhttps://github.com/yueliao/gen-vlktで入手できる。

The task of Human-Object Interaction~(HOI) detection could be divided into two core problems, i.e., human-object association and interaction understanding. In this paper, we reveal and address the disadvantages of the conventional query-driven HOI detectors from the two aspects. For the association, previous two-branch methods suffer from complex and costly post-matching, while single-branch methods ignore the features distinction in different tasks. We propose Guided-Embedding Network~(GEN) to attain a two-branch pipeline without post-matching. In GEN, we design an instance decoder to detect humans and objects with two independent query sets and a position Guided Embedding~(p-GE) to mark the human and object in the same position as a pair. Besides, we design an interaction decoder to classify interactions, where the interaction queries are made of instance Guided Embeddings (i-GE) generated from the outputs of each instance decoder layer. For the interaction understanding, previous methods suffer from long-tailed distribution and zero-shot discovery. This paper proposes a Visual-Linguistic Knowledge Transfer (VLKT) training strategy to enhance interaction understanding by transferring knowledge from a visual-linguistic pre-trained model CLIP. In specific, we extract text embeddings for all labels with CLIP to initialize the classifier and adopt a mimic loss to minimize the visual feature distance between GEN and CLIP. As a result, GEN-VLKT outperforms the state of the art by large margins on multiple datasets, e.g., +5.05 mAP on HICO-Det. The source codes are available at https://github.com/YueLiao/gen-vlkt.
翻訳日:2022-03-29 13:10:01 公開日:2022-03-26
# 単眼深度推定への適応を学ぶ

Learn to Adapt for Monocular Depth Estimation ( http://arxiv.org/abs/2203.14005v1 )

ライセンス: Link先を確認
Qiyu Sun, Gary G. Yen, Yang Tang, Chaoqiang Zhao(参考訳) 単眼深度推定は環境認識における基本的な課題の1つであり、深層学習によって著しく進歩した。 しかしながら、トレーニングされたモデルのパフォーマンスは、異なるデータセット間のギャップのため、他の新しいデータセットで使用される場合、劣化するか劣化する傾向がある。 ドメイン適応技術を用いて、異なるドメインを共同で訓練し、それらのギャップを狭める方法もあるが、トレーニングに関わらない新しいドメインに一般化することはできない。 深度推定モデルの伝達可能性を高めるために,逆深度推定タスクを提案し,メタラーニングのパイプラインでモデルを訓練する。 提案課題は,ドメイン不変表現の抽出を目的とし,ネットワークを逆向きに訓練するため,メタオーバーフィッティングの問題を緩和するものである。 さらに,異なる敵タスクにおける深さ推定を同一にすることを強制するために,クロスタスクの深さ一貫性を課す制約を提案し,提案手法の性能を向上し,トレーニングプロセスを円滑化する。 実験により,本手法は試験手順中の数ステップの後に新しいデータセットに順応することを示した。

Monocular depth estimation is one of the fundamental tasks in environmental perception and has achieved tremendous progress in virtue of deep learning. However, the performance of trained models tends to degrade or deteriorate when employed on other new datasets due to the gap between different datasets. Though some methods utilize domain adaptation technologies to jointly train different domains and narrow the gap between them, the trained models cannot generalize to new domains that are not involved in training. To boost the transferability of depth estimation models, we propose an adversarial depth estimation task and train the model in the pipeline of meta-learning. Our proposed adversarial task mitigates the issue of meta-overfitting, since the network is trained in an adversarial manner and aims to extract domain invariant representations. In addition, we propose a constraint to impose upon cross-task depth consistency to compel the depth estimation to be identical in different adversarial tasks, which improves the performance of our method and smoothens the training process. Experiments demonstrate that our method adapts well to new datasets after few training steps during the test procedure.
翻訳日:2022-03-29 13:09:34 公開日:2022-03-26
# 視覚的アフォーアンス学習に向けて--アフォーアンスセグメンテーションと認識のためのベンチマーク

Towards Visual Affordance Learning: A Benchmark for Affordance Segmentation and Recognition ( http://arxiv.org/abs/2203.14092v1 )

ライセンス: Link先を確認
Zeyad Osama Khalifa, Syed Afaq Ali Shah(参考訳) 物体の物理的およびテクスチュラルな属性は、コンピュータビジョンにおける認識、検出、セグメンテーションタスクのために広く研究されている。 大規模イメージネットなどのデータセットは、飢えたディープニューラルネットワークを用いた特徴学習や、手作りの特徴抽出のために提案されている。 オブジェクトとインテリジェントに対話するには、ロボットやインテリジェントマシンは、従来の物理的/テクスチャ的属性を超えて推測し、視覚的手当と呼ばれる視覚的な手掛かりを理解して学習し、手頃な認識、検出、セグメンテーションを行う能力が必要です。 現在、視覚的余裕の理解と学習のための大規模なデータセットは公開されていない。 本稿では,大規模多視点RGBDビジュアルアプライアンス学習データセット,37のオブジェクトカテゴリから47210のRGBD画像のベンチマーク,15のビジュアルアプライアンスカテゴリと35の散在/複合シーンのアノテートについて紹介する。 私たちの知る限りでは、これは初めての、そして最大のマルチビューのrgbdビジュアルアプライアンス学習データセットです。 提案するデータセットを,アフォーマンス認識とセグメンテーションのためにベンチマークする。 そこで我々は,arnetを用いたアプライアンス認識ネットワークを提案する。 さらに,4つの最先端ディープラーニングネットワークを,アベイランスセグメンテーションタスクとして評価する。 実験結果は,データセットの難解な性質を示し,新しいロバストでロバストな学習アルゴリズムの可能性を示す。 データセットは以下の通りである。

The physical and textural attributes of objects have been widely studied for recognition, detection and segmentation tasks in computer vision. A number of datasets, such as large scale ImageNet, have been proposed for feature learning using data hungry deep neural networks and for hand-crafted feature extraction. To intelligently interact with objects, robots and intelligent machines need the ability to infer beyond the traditional physical/textural attributes, and understand/learn visual cues, called visual affordances, for affordance recognition, detection and segmentation. To date there is no publicly available large dataset for visual affordance understanding and learning. In this paper, we introduce a large scale multi-view RGBD visual affordance learning dataset, a benchmark of 47210 RGBD images from 37 object categories, annotated with 15 visual affordance categories and 35 cluttered/complex scenes with different objects and multiple affordances. To the best of our knowledge, this is the first ever and the largest multi-view RGBD visual affordance learning dataset. We benchmark the proposed dataset for affordance recognition and segmentation. To achieve this we propose an Affordance Recognition Network a.k.a ARNet. In addition, four state-of-the-art deep learning networks are evaluated for affordance segmentation task. Our experimental results showcase the challenging nature of the dataset and present definite prospects for new and robust affordance learning algorithms. The dataset is available at: https://sites.google.com/view/afaqshah/dataset.
翻訳日:2022-03-29 13:09:16 公開日:2022-03-26
# EYNet:リモートセンシング画像における空港検出用拡張YOLO

EYNet: Extended YOLO for Airport Detection in Remote Sensing Images ( http://arxiv.org/abs/2203.14007v1 )

ライセンス: Link先を確認
Hengameh Mirhajianmoghadam, Behrouz Bolourian Haghighi(参考訳) 今日では、民間・軍事分野での戦略的役割から、リモートセンシング画像における空港検出が注目されている。 特に、無人航空機は緊急時に着陸する安全な場所を直ちに検出しなければならない。 以前の計画では、空港の複雑な背景、スケール、形状など様々な側面に苦しめられた。 一方,本手法の迅速な動作と精度は重大な懸念に直面している。 そこで本研究では, YOLOV3 と ShearLet 変換を拡張した有効スキームを提案する。 このようにして、mobilenetとresnet18は、同じデータセット上で再トレーニングされたレイヤとパラメータが少なく、ベースネットワークとして並列にトレーニングされる。 空港の幾何学的特性により、resnet18の第1畳み込み層において、異なるスケールと方向のせん断フィルタが視覚的注意機構として考慮される。 さらに、YOLOV3のメジャー拡張は、オブジェクト表現能力とトレーニング効率を高める新しい構造を持つサブネットワークの検出に関するものだ。 さらに, 局部化フェーズの性能を著しく向上させるため, 新規な増設と負の鉱業戦略を示す。 DIORデータセットを用いた実験結果から, 従来のYOLOV3や最先端のスキームと比較して, 様々なエリアの空港の種類を確実に検出し, 複雑な場面で堅牢な結果が得られることがわかった。

Nowadays, airport detection in remote sensing images has attracted considerable attention due to its strategic role in civilian and military scopes. In particular, uncrewed and operated aerial vehicles must immediately detect safe areas to land in emergencies. The previous schemes suffered from various aspects, including complicated backgrounds, scales, and shapes of the airport. Meanwhile, the rapid action and accuracy of the method are confronted with significant concerns. Hence, this study proposes an effective scheme by extending YOLOV3 and ShearLet transform. In this way, MobileNet and ResNet18, with fewer layers and parameters retrained on a similar dataset, are parallelly trained as base networks. According to airport geometrical characteristics, the ShearLet filters with different scales and directions are considered in the first convolution layers of ResNet18 as a visual attention mechanism. Besides, the major extended in YOLOV3 concerns the detection Sub-Networks with novel structures which boost object expression ability and training efficiency. In addition, novel augmentation and negative mining strategies are presented to significantly increase the localization phase's performance. The experimental results on the DIOR dataset reveal that the framework reliably detects different types of airports in a varied area and acquires robust results in complex scenes compared to traditional YOLOV3 and state-of-the-art schemes.
翻訳日:2022-03-29 12:44:26 公開日:2022-03-26
# bridge-prompt: 授業ビデオにおける順序的行動理解に向けて

Bridge-Prompt: Towards Ordinal Action Understanding in Instructional Videos ( http://arxiv.org/abs/2203.14104v1 )

ライセンス: Link先を確認
Muheng Li, Lei Chen, Yueqi Duan, Zhilan Hu, Jianjiang Feng, Jie Zhou, Jiwen Lu(参考訳) アクション認識モデルは、人間のアクションを短いビデオクリップで分類する有望な能力を示している。 現実のシナリオでは、複数の相関した人間の行動は、通常、特定の順序で起こり、意味的に有意義な人間の活動を形成する。 従来の行動認識アプローチは単一行動の分析に焦点をあてる。 しかし、隣接するアクション間の文脈的関係について完全には説明できず、長いビデオを理解するための潜在的な時間論理を提供する。 本稿では,隣接するアクション間の意味をモデル化するプロンプトベースのフレームワークである bridge-prompt (br-prompt) を提案する。 より具体的には、個別のアクションラベルを、個別のアクションセマンティクス間のギャップを埋める監視のための統合テキストプロンプトとして再構成する。 生成されたテキストプロンプトは対応するビデオクリップとペアリングされ、コントラスト的アプローチによりテキストエンコーダとビデオエンコーダを共訓練する。 学習されたビジョンエンコーダは、アクションセグメンテーションやヒューマンアクティビティ認識など、順序動作に関連した下流タスクに対して強力な能力を持つ。 我々は、ジョージア技術中心活動(GTEA)、50Salads、Breakfastデータセットなど、いくつかのビデオデータセットに対するアプローチのパフォーマンスを評価した。 Br-Promptは複数のベンチマークで最先端を達成する。 コードはhttps://github.com/ttlmh/Bridge-Promptで入手できる。

Action recognition models have shown a promising capability to classify human actions in short video clips. In a real scenario, multiple correlated human actions commonly occur in particular orders, forming semantically meaningful human activities. Conventional action recognition approaches focus on analyzing single actions. However, they fail to fully reason about the contextual relations between adjacent actions, which provide potential temporal logic for understanding long videos. In this paper, we propose a prompt-based framework, Bridge-Prompt (Br-Prompt), to model the semantics across adjacent actions, so that it simultaneously exploits both out-of-context and contextual information from a series of ordinal actions in instructional videos. More specifically, we reformulate the individual action labels as integrated text prompts for supervision, which bridge the gap between individual action semantics. The generated text prompts are paired with corresponding video clips, and together co-train the text encoder and the video encoder via a contrastive approach. The learned vision encoder has a stronger capability for ordinal-action-related downstream tasks, e.g. action segmentation and human activity recognition. We evaluate the performances of our approach on several video datasets: Georgia Tech Egocentric Activities (GTEA), 50Salads, and the Breakfast dataset. Br-Prompt achieves state-of-the-art on multiple benchmarks. Code is available at https://github.com/ttlmh/Bridge-Prompt
翻訳日:2022-03-29 12:44:08 公開日:2022-03-26
# 機械学習を用いたcovid-19自動温熱スクリーニング

Automated Thermal Screening for COVID-19 using Machine Learning ( http://arxiv.org/abs/2203.14128v1 )

ライセンス: Link先を確認
Pratik Katte, Siva Teja Kakileti, Himanshu J. Madhu, and Geetha Manjunath(参考訳) 過去2年間で、新型コロナウイルスにより数百万人の命が失われた。 1年間のワクチン接種にもかかわらず、新型ウイルスによる入院率と死亡率は依然として高い。 厳格なガイドラインや、すべての公共の場所での温度チェックやマスクチェックなどの新型コロナウイルスのスクリーニング措置は、新型コロナウイルスの感染拡大を減らすのに役立っている。 これらのスクリーニング対策を確実にするための視覚検査は、課税と誤認である。 自動検査は効果的で正確なスクリーニングを保証する。 従来のアプローチでは、視覚カメラ画像から顔やマスクを識別し、熱画像カメラから温度値を抽出する。 主モダリティとしての視覚画像の利用は、良い照明条件に限られる。 これらのスクリーニングのための熱画像のみの使用は、システムは照明に不変である。 しかし、そのようなシステムを開発する上では、オープンソースデータセットの欠如が問題となる。 本稿では、顔やマスクの検出やその後の温度スクリーニングに熱ビデオストリームを用いた機械学習を応用し、公共の場で効果的なcovid-19スクリーニング手法を実現するための、パッシブな非侵襲的な方法を提案する。 NTICデータセットをオープンソースにして、モデルをトレーニングし、8つの異なる場所で収集しました。 以上の結果から,高照明下では,熱画像の利用が視覚画像と同じくらい有効であることが示された。 この性能は低照度条件下でも熱画像では変わらないが、視覚訓練された分類器の性能は50%以上劣化している。

In the last two years, millions of lives have been lost due to COVID-19. Despite the vaccination programmes for a year, hospitalization rates and deaths are still high due to the new variants of COVID-19. Stringent guidelines and COVID-19 screening measures such as temperature check and mask check at all public places are helping reduce the spread of COVID-19. Visual inspections to ensure these screening measures can be taxing and erroneous. Automated inspection ensures an effective and accurate screening. Traditional approaches involve identification of faces and masks from visual camera images followed by extraction of temperature values from thermal imaging cameras. Use of visual imaging as a primary modality limits these applications only for good-lighting conditions. The use of thermal imaging alone for these screening measures makes the system invariant to illumination. However, lack of open source datasets is an issue to develop such systems. In this paper, we discuss our work on using machine learning over thermal video streams for face and mask detection and subsequent temperature screening in a passive non-invasive way that enables an effective automated COVID-19 screening method in public places. We open source our NTIC dataset that was used for training our models and was collected at 8 different locations. Our results show that the use of thermal imaging is as effective as visual imaging in the presence of high illumination. This performance stays the same for thermal images even under low-lighting conditions, whereas the performance with visual trained classifiers show more than 50% degradation.
翻訳日:2022-03-29 12:43:43 公開日:2022-03-26
# Adaptive Thresholdに基づくラベルノイズデータセットのロバスト最適化法:Adaptive-k

A Robust Optimization Method for Label Noisy Datasets Based on Adaptive Threshold: Adaptive-k ( http://arxiv.org/abs/2203.14165v1 )

ライセンス: Link先を確認
Enes Dedeoglu, Himmet Toprak Kesgin, Mehmet Fatih Amasyali(参考訳) SGDはラベルノイズのあるデータセットに対してロバストな結果を出さない。 ノイズサンプルの損失に応じて計算された勾配は、最適化プロセスが間違った方向に進む原因となる。 本稿では,SGDの代替として,ミニバッチのすべてのサンプルを使用する代わりに,最適化プロセス中に決定される閾値未満の損失を持つサンプルを使用することを推奨する。 提案手法であるAdaptive-kは,ラベルノイズサンプルを最適化プロセスから排除し,その処理を堅牢化することを目的としている。 ノイズの多いデータセットでは、Adaptive-kのようなしきい値に基づくアプローチを用いることで、ミニバッチ内のすべてのサンプルや固定数の低損失サンプルよりも優れた結果が得られることがわかった。 理論的解析と実験結果から,Adaptive-k法はオラクルの性能に最も近づき,ノイズのあるサンプルがデータセットから完全に取り除かれることを示した。 Adaptive-kは単純だが効果的な方法である。 データセットのノイズ比の事前知識は必要とせず、追加のモデルトレーニングも必要とせず、トレーニング時間が大幅に増加することはない。 Adaptive-kのコードはhttps://github.com/enesdedeoglu-TR/Adaptive-kで入手できる。

SGD does not produce robust results on datasets with label noise. Because the gradients calculated according to the losses of the noisy samples cause the optimization process to go in the wrong direction. In this paper, as an alternative to SGD, we recommend using samples with loss less than a threshold value determined during the optimization process, instead of using all samples in the mini-batch. Our proposed method, Adaptive-k, aims to exclude label noise samples from the optimization process and make the process robust. On noisy datasets, we found that using a threshold-based approach, such as Adaptive-k, produces better results than using all samples or a fixed number of low-loss samples in the mini-batch. Based on our theoretical analysis and experimental results, we show that the Adaptive-k method is closest to the performance of the oracle, in which noisy samples are entirely removed from the dataset. Adaptive-k is a simple but effective method. It does not require prior knowledge of the noise ratio of the dataset, does not require additional model training, and does not increase training time significantly. The code for Adaptive-k is available at https://github.com/enesdedeoglu-TR/Adaptive-k
翻訳日:2022-03-29 12:43:24 公開日:2022-03-26
# 識別読解のためのlite統一モデル

Lite Unified Modeling for Discriminative Reading Comprehension ( http://arxiv.org/abs/2203.14103v1 )

ライセンス: Link先を確認
Yilin Zhao and Hai Zhao and Libin Shen and Yinggong Zhao(参考訳) 機械読解(MRC)の広範かつ主要なカテゴリとして、識別的MRCの目標は、与えられた材料からの回答予測である。 しかし、様々な差別的 MRC タスクの焦点は多種多様であり、マルチチョイス MRC は世界中の潜在的な重要な証拠をハイライトし統合するモデルを必要とする。 以前の作品では、全体的な判別mrcタスクに関係のある統一設計が欠けている。 上記のギャップを埋めるために,多種多様な識別的MRCタスクを同期的に処理するために,PPOS強化反復協調ネットワーク(POI-Net)を提案する。 より多くのパラメータを導入することなく、私たちの合体した設計はエンコーダとデコーダの両方でモデルに大きな改善をもたらします。 4つの差別的MCCベンチマークによる評価結果は,我々のモデルの有効性と適用性を一貫して示しており,コードはhttps://github.com/Yilin1111/poi-net.comで公開されている。

As a broad and major category in machine reading comprehension (MRC), the generalized goal of discriminative MRC is answer prediction from the given materials. However, the focuses of various discriminative MRC tasks may be diverse enough: multi-choice MRC requires model to highlight and integrate all potential critical evidence globally; while extractive MRC focuses on higher local boundary preciseness for answer extraction. Among previous works, there lacks a unified design with pertinence for the overall discriminative MRC tasks. To fill in above gap, we propose a lightweight POS-Enhanced Iterative Co-Attention Network (POI-Net) as the first attempt of unified modeling with pertinence, to handle diverse discriminative MRC tasks synchronously. Nearly without introducing more parameters, our lite unified design brings model significant improvement with both encoder and decoder components. The evaluation results on four discriminative MRC benchmarks consistently indicate the general effectiveness and applicability of our model, and the code is available at https://github.com/Yilin1111/poi-net.
翻訳日:2022-03-29 12:39:28 公開日:2022-03-26
# 大規模モデルのロードマップ

A Roadmap for Big Model ( http://arxiv.org/abs/2203.14101v1 )

ライセンス: Link先を確認
Sha Yuan, Hanyu Zhao, Shuai Zhao, Jiahong Leng, Yangxiao Liang, Xiaozhi Wang, Jifan Yu, Xin Lv, Zhou Shao, Jiaao He, Yankai Lin, Xu Han, Zhenghao Liu, Ning Ding, Yongming Rao, Yizhao Gao, Liang Zhang, Ming Ding, Cong Fang, Yisen Wang, Mingsheng Long, Jing Zhang, Yinpeng Dong, Tianyu Pang, Peng Cui, Lingxiao Huang, Zheng Liang, Huawei Shen, Hui Zhang, Quanshi Zhang, Qingxiu Dong, Zhixing Tan, Mingxuan Wang, Shuo Wang, Long Zhou, Haoran Li, Junwei Bao, Yingwei Pan, Weinan Zhang, Zhou Yu, Rui Yan, Chence Shi, Minghao Xu, Zuobai Zhang, Guoqiang Wang, Xiang Pan, Mengjie Li, Xiaoyu Chu, Zijun Yao, Fangwei Zhu, Shulin Cao, Weicheng Xue, Zixuan Ma, Zhengyan Zhang, Shengding Hu, Yujia Qin, Chaojun Xiao, Zheni Zeng, Ganqu Cui, Weize Chen, Weilin Zhao, Yuan Yao, Peng Li, Wenzhao Zheng, Wenliang Zhao, Ziyi Wang, Borui Zhang, Nanyi Fei, Anwen Hu, Zenan Ling, Haoyang Li, Boxi Cao, Xianpei Han, Weidong Zhan, Baobao Chang, Hao Sun, Jiawen Deng, Juanzi Li, Lei Hou, Xigang Cao, Jidong Zhai, Zhiyuan Liu, Maosong Sun, Jiwen Lu, Zhiwu Lu, Qin Jin, Ruihua Song, Ji-Rong Wen, Zhouchen Lin, Liwei Wang, Hang Su, Jun Zhu, Zhifang Sui, Jiajun Zhang, Yang Liu, Xiaodong He, Minlie Huang, Jian Tang and Jie Tang(参考訳) ディープラーニングの急速な発展により、複数のダウンストリームタスクに対する大規模モデル(bms)のトレーニングがポピュラーなパラダイムになりつつある。 研究者は、多くの分野でBMとBMアプリケーションの構築において様々な成果を上げてきた。 現在、bmsの全体的な進歩を整理し、後続の研究を導く研究作業が不足している。 本稿では,bm技術自体だけでなく,bmによるbmトレーニングやアプリケーションに必要な前提条件についても取り上げ,bmレビューをリソース,モデル,キー技術,アプリケーションという4つの部分に分割する。 データ,知識,コンピュータシステム,並列学習システム,言語モデル,ビジョンモデル,マルチモーダルモデル,理論と解釈可能性,常識推論,信頼性とセキュリティ,ガバナンス,評価,機械翻訳,テキスト生成,対話,タンパク質研究の4分野に16のBM関連トピックを紹介する。 それぞれのトピックにおいて、現在の研究を明確に要約し、今後の研究方向性を提案する。 本稿の最後には,BMのさらなる開発について,より一般的な視点でまとめる。

With the rapid development of deep learning, training Big Models (BMs) for multiple downstream tasks becomes a popular paradigm. Researchers have achieved various outcomes in the construction of BMs and the BM application in many fields. At present, there is a lack of research work that sorts out the overall progress of BMs and guides the follow-up research. In this paper, we cover not only the BM technologies themselves but also the prerequisites for BM training and applications with BMs, dividing the BM review into four parts: Resource, Models, Key Technologies and Application. We introduce 16 specific BM-related topics in those four parts, they are Data, Knowledge, Computing System, Parallel Training System, Language Model, Vision Model, Multi-modal Model, Theory&Interpretability, Commonsense Reasoning, Reliability&Security, Governance, Evaluation, Machine Translation, Text Generation, Dialogue and Protein Research. In each topic, we summarize clearly the current studies and propose some future research directions. At the end of this paper, we conclude the further development of BMs in a more general view.
翻訳日:2022-03-29 12:18:22 公開日:2022-03-26
# NPC:ディープニューラルネットワークの決定論理を特徴付ける神経経路被覆

NPC: Neuron Path Coverage via Characterizing Decision Logic of Deep Neural Networks ( http://arxiv.org/abs/2203.12915v2 )

ライセンス: Link先を確認
Xiaofei Xie, Tianlin Li, Jian Wang, Lei Ma, Qing Guo, Felix Juefei-Xu, Yang Liu(参考訳) ディープラーニングは最近、画像分類や音声認識など、さまざまなドメインのさまざまなアプリケーションに広く適用されている。 しかし、ディープニューラルネットワーク(dnn)の品質は、特に安全クリティカルなシナリオにおいて体系的なテストを必要とする実用的な運用環境において依然として懸念を生じさせている。 ソフトウェアテストにインスパイアされたいくつかの構造的カバレッジ基準が設計され、DNNのテスト精度を測定するために提案されている。 しかし、DNNのブラックボックスの性質から、既存の構造的カバレッジ基準を解釈することは困難であり、これらの基準の根底にある原則を理解することは困難である。 DNNの構造的カバレッジと決定論理との関係は不明である。 さらに、最近の研究では、構造カバレッジとDNN欠陥検出の相関が存在しないことが明らかにされており、適切なDNNテスト基準が何かという懸念がさらに浮かび上がっている。 本稿では,DNNの決定構造を構築することにより,解釈可能なカバレッジ基準を提案する。 従来のプログラムの制御フローグラフを反映して、まずその解釈に基づいてDNNから決定グラフを抽出し、決定グラフの経路がDNNの決定ロジックを表す。 決定グラフの制御フローとデータフローに基づいて、決定論理を遂行するテストケースの妥当性を測定するための経路カバレッジの2つの変種を提案する。 パスカバレッジが高くなればなるほど、DNNはより多様な決定ロジックを探求することが期待される。 大規模評価の結果, 決定グラフの経路はdnnの決定を特徴付けるのに効果的であり, 提案するカバレッジ基準は, 自然エラーや逆例などの誤りにも敏感であり, 出力の不偏性に強く関連していることがわかった。

Deep learning has recently been widely applied to many applications across different domains, e.g., image classification and audio recognition. However, the quality of Deep Neural Networks (DNNs) still raises concerns in the practical operational environment, which calls for systematic testing, especially in safety-critical scenarios. Inspired by software testing, a number of structural coverage criteria are designed and proposed to measure the test adequacy of DNNs. However, due to the blackbox nature of DNN, the existing structural coverage criteria are difficult to interpret, making it hard to understand the underlying principles of these criteria. The relationship between the structural coverage and the decision logic of DNNs is unknown. Moreover, recent studies have further revealed the non-existence of correlation between the structural coverage and DNN defect detection, which further posts concerns on what a suitable DNN testing criterion should be. In this paper, we propose the interpretable coverage criteria through constructing the decision structure of a DNN. Mirroring the control flow graph of the traditional program, we first extract a decision graph from a DNN based on its interpretation, where a path of the decision graph represents a decision logic of the DNN. Based on the control flow and data flow of the decision graph, we propose two variants of path coverage to measure the adequacy of the test cases in exercising the decision logic. The higher the path coverage, the more diverse decision logic the DNN is expected to be explored. Our large-scale evaluation results demonstrate that: the path in the decision graph is effective in characterizing the decision of the DNN, and the proposed coverage criteria are also sensitive with errors including natural errors and adversarial examples, and strongly correlated with the output impartiality.
翻訳日:2022-03-29 10:28:21 公開日:2022-03-26