このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220330)

# ベイズ深層学習と一般化の確率論的展望

Bayesian Deep Learning and a Probabilistic Perspective of Generalization ( http://arxiv.org/abs/2002.08791v4 )

ライセンス: Link先を確認
Andrew Gordon Wilson, Pavel Izmailov(参考訳) ベイズアプローチの重要な特徴は、単一の重みの集合を使うのではなく、限界化である。 ベイズ辺縁化は、データによって一般に過小評価される現代のディープニューラルネットワークの精度とキャリブレーションを特に改善し、多くの説得力のあるが異なる解を表現できる。 その結果,深層アンサンブルはベイズ辺縁化を近似する効果的なメカニズムを提供し,アトラクション盆地内の辺縁化による予測分布を,大きなオーバーヘッドを伴わずにさらに改善する手法を提案する。 また,ニューラルネットワーク重みに対するあいまいな分布が示唆する先行関数についても検討し,確率論的観点からモデルの一般化性を説明する。 この観点から、画像にランダムなラベルを付ける能力など、ニューラルネットワークの一般化に神秘的かつ異なるものとして提示された結果を説明し、これらの結果がガウス過程で再現可能であることを示す。 また,平均的なベイズモデルが二重降下を緩和し,柔軟性を増すことによって単調性能が向上することを示した。 最後に,予測分布のキャリブレーションに関するベイズ的視点を提供する。

The key distinguishing property of a Bayesian approach is marginalization, rather than using a single setting of weights. Bayesian marginalization can particularly improve the accuracy and calibration of modern deep neural networks, which are typically underspecified by the data, and can represent many compelling but different solutions. We show that deep ensembles provide an effective mechanism for approximate Bayesian marginalization, and propose a related approach that further improves the predictive distribution by marginalizing within basins of attraction, without significant overhead. We also investigate the prior over functions implied by a vague distribution over neural network weights, explaining the generalization properties of such models from a probabilistic perspective. From this perspective, we explain results that have been presented as mysterious and distinct to neural network generalization, such as the ability to fit images with random labels, and show that these results can be reproduced with Gaussian processes. We also show that Bayesian model averaging alleviates double descent, resulting in monotonic performance improvements with increased flexibility. Finally, we provide a Bayesian perspective on tempering for calibrating predictive distributions.
翻訳日:2022-12-30 06:49:13 公開日:2022-03-30
# 分散確率近似によるスパース回復

Sparse recovery by reduced variance stochastic approximation ( http://arxiv.org/abs/2006.06365v3 )

ライセンス: Link先を確認
Anatoli Juditsky and Andrei Kulunchakov and Hlib Tsyntseus(参考訳) 本稿では,反復的確率的最適化ルーチンの雑音観測からのスパース信号回復問題への適用について述べる。 確率鏡のDescentアルゴリズムをビルディングブロックとして用い,確率最適化問題に対するスパース解の滑らかさと2次的マイナレーションを仮定した多段階的手法を開発した。 提案アルゴリズムの興味深い特徴は、最適解の悪い初期近似による勾配観測における確率誤差の成分が、「最適解」の観測ノイズによる「理想的」漸近誤差成分よりも大きいとき、ルーチンの予備相における近似解の線形収束である。 また,Median-of-Meansのような手法を用いて,対応するソリューションの信頼性を向上する方法を示す。 一般化線形回帰フレームワークにおけるスパース信号と低階信号の回復に関する古典的問題に適用可能なアルゴリズムの性能について述べる。 我々は,レグレッサと雑音分布に対するかなり弱い仮定の下で,問題次元や信頼度レベルにおいて対数的となる要因まで)パラメータ推定が,我々の精度限界に最もよく従うパラメータ推定にどのようにつながるかを示す。

In this paper, we discuss application of iterative Stochastic Optimization routines to the problem of sparse signal recovery from noisy observation. Using Stochastic Mirror Descent algorithm as a building block, we develop a multistage procedure for recovery of sparse solutions to Stochastic Optimization problem under assumption of smoothness and quadratic minoration on the expected objective. An interesting feature of the proposed algorithm is linear convergence of the approximate solution during the preliminary phase of the routine when the component of stochastic error in the gradient observation which is due to bad initial approximation of the optimal solution is larger than the "ideal" asymptotic error component owing to observation noise "at the optimal solution." We also show how one can straightforwardly enhance reliability of the corresponding solution by using Median-of-Means like techniques. We illustrate the performance of the proposed algorithms in application to classical problems of recovery of sparse and low rank signals in generalized linear regression framework. We show, under rather weak assumption on the regressor and noise distributions, how they lead to parameter estimates which obey (up to factors which are logarithmic in problem dimension and confidence level) the best known to us accuracy bounds.
翻訳日:2022-11-22 10:03:40 公開日:2022-03-30
# LogiKEyにおける価値指向法則推論のモデル化

Modelling Value-oriented Legal Reasoning in LogiKEy ( http://arxiv.org/abs/2006.12789v5 )

ライセンス: Link先を確認
Christoph Benzm\"uller and David Fuenmayor and Bertram Lomfeld(参考訳) 論理多元主義的ロジキー知識工学の方法論と枠組みは、法的知識(事例と法則)を文脈に依存した値選好を用いて符号化する法的バランス理論のモデリングに適用される。 得られた理論は、イザベル証明アシスタントシステム内での実証的財産法ケース(野生動物の服用を含む)の形式化、自動評価、再構築に用いられ、LogiKEyが対話的かつ自動化された定理証明技術を活用して、法的ドメイン固有言語や理論の開発と形式的検証のためのテストベッドを提供する方法について説明されている。 その枠組みで価値指向の法的推論をモデル化し、知識表現における最新の研究と非古典論理学における推論、自動定理証明、および法的推論における応用の橋渡しを確立する。

The logico-pluralist LogiKEy knowledge engineering methodology and framework is applied to the modelling of a theory of legal balancing in which legal knowledge (cases and laws) is encoded by utilising context-dependent value preferences. The theory obtained is then used to formalise, automatically evaluate, and reconstruct illustrative property law cases (involving appropriation of wild animals) within the Isabelle proof assistant system, illustrating how LogiKEy can harness interactive and automated theorem proving technology to provide a testbed for the development and formal verification of legal domain-specific languages and theories. Modelling value-oriented legal reasoning in that framework, we establish novel bridges between latest research in knowledge representation and reasoning in non-classical logics, automated theorem proving, and applications in legal reasoning.
翻訳日:2022-11-17 23:26:47 公開日:2022-03-30
# 期待課題の再考:コンテキスト認識支援のためのスパース手術器具の確実性認識予測

Rethinking Anticipation Tasks: Uncertainty-aware Anticipation of Sparse Surgical Instrument Usage for Context-aware Assistance ( http://arxiv.org/abs/2007.00548v4 )

ライセンス: Link先を確認
Dominik Rivoir and Sebastian Bodenstedt and Isabel Funke and Felix von Bechtolsheim and Marius Distler and J\"urgen Weitz and Stefanie Speidel(参考訳) 術中機器使用予測は、手術における文脈認識支援、例えば、ロボット作業の機器準備や半自動などに必要な要素である。 しかし、長いビデオにおける楽器の出現の空間性は困難を呈する。 現在のアプローチは、将来の行動のタイミングに関する知識を仮定したり、トレーニングや推論に密接な時間分割を必要とするため、制限されている。 これらの限界を克服した腹腔鏡下ビデオにおける楽器使用の予測のための新しい学習課題を提案する。 トレーニング中は、スパースインスツルメンテーションのみが必要であり、推論は画像データのみに基づいて行われる。 我々は、将来の出来事に関連する不確実性に対処するために確率モデルを訓練する。 このアプローチはいくつかのベースラインを上回り、よりリッチなアノテーションを使った変種と競合する。 タスク関連不確実性を定量化するモデルの能力を示す。 本研究は,外科手術における機器の予測手法を初めて提案するものである。

Intra-operative anticipation of instrument usage is a necessary component for context-aware assistance in surgery, e.g. for instrument preparation or semi-automation of robotic tasks. However, the sparsity of instrument occurrences in long videos poses a challenge. Current approaches are limited as they assume knowledge on the timing of future actions or require dense temporal segmentations during training and inference. We propose a novel learning task for anticipation of instrument usage in laparoscopic videos that overcomes these limitations. During training, only sparse instrument annotations are required and inference is done solely on image data. We train a probabilistic model to address the uncertainty associated with future events. Our approach outperforms several baselines and is competitive to a variant using richer annotations. We demonstrate the model's ability to quantify task-relevant uncertainties. To the best of our knowledge, we are the first to propose a method for anticipating instruments in surgery.
翻訳日:2022-11-14 23:21:07 公開日:2022-03-30
# 最小限の画像操作による霊長類脳の摂食

Fooling the primate brain with minimal, targeted image manipulation ( http://arxiv.org/abs/2011.05623v3 )

ライセンス: Link先を確認
Li Yuan, Will Xiao, Giorgia Dellaferrera, Gabriel Kreiman, Francis E.H. Tay, Jiashi Feng, Margaret S. Livingstone(参考訳) 人工ニューラルネットワーク(ANN)は、現在の生物視覚の最良のモデルと考えられている。 ANNは腹水流における神経活動の最良の予測因子であり、近年の研究は、神経活動に適合したANNモデルが、小さな神経細胞集団で事前に特定された応答パターンを駆動する画像の合成を導くことを実証している。 射撃活動の予測と操舵の成功にもかかわらず、これらの結果は知覚的・行動的変化とは関係がない。 本稿では,行動に反映されたニューロン活動と知覚の両方の変化をもたらす最小の標的画像摂動生成法を提案する。 ヒトの顔、サルの顔、ノイズパターンの「知覚イメージ」を生成し、それぞれを別々に特定された対象カテゴリーとして認識し、サルの神経反応と人間の行動の両方を測定した。 対象外雑音に比べて画像変化の少ない霊長類視覚分類を効果的に変更する方法がいくつか見出された。 我々の研究は、敵対的攻撃、すなわち最小限のターゲットノイズによる画像の操作で同じ目標を共有し、ANNモデルに画像の誤分類を誘導する。 本研究は,生体と人工視覚の摂動堅牢性の違いを定量化し,特徴付けるための貴重なステップである。

Artificial neural networks (ANNs) are considered the current best models of biological vision. ANNs are the best predictors of neural activity in the ventral stream; moreover, recent work has demonstrated that ANN models fitted to neuronal activity can guide the synthesis of images that drive pre-specified response patterns in small neuronal populations. Despite the success in predicting and steering firing activity, these results have not been connected with perceptual or behavioral changes. Here we propose an array of methods for creating minimal, targeted image perturbations that lead to changes in both neuronal activity and perception as reflected in behavior. We generated 'deceptive images' of human faces, monkey faces, and noise patterns so that they are perceived as a different, pre-specified target category, and measured both monkey neuronal responses and human behavior to these images. We found several effective methods for changing primate visual categorization that required much smaller image change compared to untargeted noise. Our work shares the same goal with adversarial attack, namely the manipulation of images with minimal, targeted noise that leads ANN models to misclassify the images. Our results represent a valuable step in quantifying and characterizing the differences in perturbation robustness of biological and artificial vision.
翻訳日:2022-09-26 22:55:37 公開日:2022-03-30
# タンパク質3d構造に基づくニューラルネットワークによる複合タンパク質結合親和性予測の精度向上

Protein 3D structure-based neural networks highly improve the accuracy in compound-protein binding affinity prediction ( http://arxiv.org/abs/2204.12586v1 )

ライセンス: Link先を確認
Binjie Guo, Hanyu Zheng, Huan Huang, Haohan Jiang, Xiaodan Li, Naiyu Guan, Yanming Zuo, Yicheng Zhang, Hengfu Yang, Xuhua Wang(参考訳) 理論的には、複合タンパク質結合親和性(CPA)を予測する際の計算モデルの精度は、タンパク質3D構造情報の導入によって改善できる。 しかし、これらのモデルのほとんどは、有益なタンパク質の特徴をエンコードする効率的なアプローチが欠如しているため、それでも低い精度に苦しんでいる。 主な課題は、タンパク質の残基配列、残基原子座標、ねじれ角などの多モード情報をどのように組み合わせるかである。 この問題に対処するため,我々は,タンパク質3D構造情報によるCPAの予測を容易にするために,高速進化的注意と粗いグラフニューラルネットワーク(FeatNN)を開発した。 具体的には, torsion matrix, discrete distance matrix, and sequence information of protein と extract compound features with deep graph convolution layers を共同で組み込む新しいエンドツーエンドアーキテクチャを確立した。 また,タンパク質と化合物間の相互作用情報を包括的に学習するために,新しいペアワイズマッピングアテンション機構が導入された。 FeatNNはCPA予測において様々な最先端のベースラインをかなり上回り、ピアソン値は約35.7%上昇した。 したがって、FeatNNは高精度なCPA予測のための優れた方法を提供し、薬物候補の高スループット仮想スクリーニングを容易にする。

Theoretically, the accuracy of computational models in predicting compound-protein binding affinities (CPAs) could be improved by the introduction of protein 3D structure information. However, most of these models still suffer from a low accuracy due to the lack of an efficient approach to encode informative protein features. The major challenge is how to combine the multi-modal information such as the residue sequence of the protein, residue atom coordinates and the torsion angles. To tackle this problem, we develop Fast Evolutional Attention and Thoroughgoing-graph Neural Networks (FeatNN) to facilitate the application of protein 3D structure information for predicting CPAs. Specifically, we established a novel end-to-end architecture to jointly embed torsion matrix, discrete distance matrix, and sequence information of protein and extract compound features with deep graph convolution layers. In addition, a new pairwise mapping attention mechanism is introduced to comprehensively learn potential interaction information between proteins and compounds. FeatNN considerably outperforms various state-of-the-art baselines in CPA prediction with the Pearson value elevated by about 35.7%. Thus, FeatNN provides an outstanding method for highly accurate CPA prediction and facilitates high-throughput virtual screening of drug candidates.
翻訳日:2022-05-01 09:24:52 公開日:2022-03-30
# 微分射影ダイナミクスとニューラルネットワーク力学モデルを用いた高速水没最適化

Fast Aquatic Swimmer Optimization with Differentiable Projective Dynamics and Neural Network Hydrodynamic Models ( http://arxiv.org/abs/2204.12584v1 )

ライセンス: Link先を確認
Elvis Nava, John Zhang, Mike Yan Michelis, Tao Du, Pingchuan Ma, Benjamin Grewe, Wojciech Matusik, Robert Katzschmann(参考訳) 水面移動(Aquatic locomotion)は、生物学者や技術者が関心を持つ古典的な流体構造相互作用(FSI)問題である。 非圧縮性ナビエストークと有限弾性に対する完全結合 fsi 方程式の解法は計算量的に高価である。 このようなシステム内でのロボットスイマー設計の最適化には一般的に、既にコストのかかるシミュレーションに加えて、面倒で勾配のない手順が伴う。 この課題に対処するために,2次元直接数値シミュレーションによるスイマーの変形可能な固体構造と,流体の流体力学的効果を捉えるための物理制約付きニューラルネットワークを組み合わせた,fsiへの新しい完全微分可能なハイブリッドアプローチを提案する。 スイマーの身体の変形可能なシミュレーションには、コンピュータグラフィックスの分野から最先端技術を用いて有限要素法(FEM)を高速化する。 流体シミュレーションでは,物理に基づく損失関数を用いて訓練されたU-Netアーキテクチャを用いて,各ステップにおける流れ場を予測する。 ニューラルネットワークから出力される圧力と速度場を、没入境界法(ibm)を用いてスイマーの境界付近でサンプリングし、そのスイミング動作を正確かつ効率的に計算する。 2次元キャランジフォームスイマー上でのハイブリッドシミュレータの計算効率と可微分性を示す。 固体シミュレータと流体力学モデルの両方が自動的に微分可能であるため、抵抗の最小化、速度の最大化、直接勾配に基づく最適化による効率の最大化など、流体に浸漬した剛体および軟体に対する幾何学と制御の計算共設計に使用できる完全微分可能なfsiシミュレータを得る。

Aquatic locomotion is a classic fluid-structure interaction (FSI) problem of interest to biologists and engineers. Solving the fully coupled FSI equations for incompressible Navier-Stokes and finite elasticity is computationally expensive. Optimizing robotic swimmer design within such a system generally involves cumbersome, gradient-free procedures on top of the already costly simulation. To address this challenge we present a novel, fully differentiable hybrid approach to FSI that combines a 2D direct numerical simulation for the deformable solid structure of the swimmer and a physics-constrained neural network surrogate to capture hydrodynamic effects of the fluid. For the deformable simulation of the swimmer's body, we use state-of-the-art techniques from the field of computer graphics to speed up the finite-element method (FEM). For the fluid simulation, we use a U-Net architecture trained with a physics-based loss function to predict the flow field at each time step. The pressure and velocity field outputs from the neural network are sampled around the boundary of our swimmer using an immersed boundary method (IBM) to compute its swimming motion accurately and efficiently. We demonstrate the computational efficiency and differentiability of our hybrid simulator on a 2D carangiform swimmer. Since both the solid simulator and the hydrodynamics model are automatically differentiable, we obtain a fully differentiable FSI simulator that can be used for computational co-design of geometry and controls for rigid and soft bodies immersed in fluids, such as minimizing drag, maximizing speed, or maximizing efficiency via direct gradient-based optimization.
翻訳日:2022-05-01 09:24:32 公開日:2022-03-30
# INSPIRE:Dense WLANにおけるSPatIalリユースの改善のための分散ベイズ最適化

INSPIRE: Distributed Bayesian Optimization for ImproviNg SPatIal REuse in Dense WLANs ( http://arxiv.org/abs/2204.10184v1 )

ライセンス: Link先を確認
Anthony Bardou, Thomas Begin(参考訳) 有線ネットワークを抜いてデバイスをインターネットに接続する主要な手段となったWLANは、無線帯域の空間不足により性能上の問題が発生する傾向にある。 応答として、IEEE 802.11axとその後の修正は、送信電力(TX_POWER)と感度閾値(OBSS_PD)の2つのキーパラメータの動的更新を可能にすることで、無線チャネルの空間的再利用を高めることを目的としている。 本稿では,WLANにおける空間再利用を改善するために,ガウス過程に基づく局所ベイズ最適化を行う分散ソリューションINSPIREを提案する。 INSPIREは、WLANのトポロジについて明確な仮定をせず、アクセスポイントの利他的振る舞いを好んでおり、それによって、WLANの"より優れた"ために、TX_POWERとOBSS_PDパラメータの適切な構成を見つけることができる。 我々は,ns-3シミュレータを用いた他の最先端戦略よりもINSPIREの方が優れていることを示す。 この結果から,INSPIREは,その公平性とスループットを向上することにより,運用用WLANのサービス品質を大幅に向上させることができることがわかった。

WLANs, which have overtaken wired networks to become the primary means of connecting devices to the Internet, are prone to performance issues due to the scarcity of space in the radio spectrum. As a response, IEEE 802.11ax and subsequent amendments aim at increasing the spatial reuse of a radio channel by allowing the dynamic update of two key parameters in wireless transmission: the transmission power (TX_POWER) and the sensitivity threshold (OBSS_PD). In this paper, we present INSPIRE, a distributed solution performing local Bayesian optimizations based on Gaussian processes to improve the spatial reuse in WLANs. INSPIRE makes no explicit assumptions about the topology of WLANs and favors altruistic behaviors of the access points, leading them to find adequate configurations of their TX_POWER and OBSS_PD parameters for the "greater good" of the WLANs. We demonstrate the superiority of INSPIRE over other state-of-the-art strategies using the ns-3 simulator and two examples inspired by real-life deployments of dense WLANs. Our results show that, in only a few seconds, INSPIRE is able to drastically increase the quality of service of operational WLANs by improving their fairness and throughput.
翻訳日:2022-04-24 16:43:34 公開日:2022-03-30
# (参考訳) 文書画像における少数ショットエンティティ認識に向けて:ラベル対応シーケンス・ツー・シーケンス・フレームワーク

Towards Few-shot Entity Recognition in Document Images: A Label-aware Sequence-to-Sequence Framework ( http://arxiv.org/abs/2204.05819v1 )

ライセンス: CC BY 4.0
Zilong Wang, Jingbo Shang(参考訳) エンティティ認識は、文書イメージを理解するための基本的なタスクである。 従来のシーケンスラベリングフレームワークは、エンティティタイプをクラスIDとして扱い、一般的に高価であるセマンティクスを学ぶために、広範囲のデータと高品質なアノテーションに依存している。 本稿では,アノテートされた文書画像のわずかなショットだけを必要とするエンティティ認識モデルを構築することを目的とする。 データ制限を克服するため,対象のエンティティタイプセマンティクスのモデルにラベル名を活用するとともに,ラベルを空間埋め込み空間に埋め込んで,領域とラベル間の空間的対応を捉えることを提案する。 具体的には、シーケンスラベリングを超えて、新しいラベル認識のseq2seqフレームワークであるlaserを開発します。 提案モデルは、エンティティ生成後に明示的に単語単位のラベル表名を生成する新しいラベリングスキームに従う。 学習中、LASERはラベル表面の名前表現を更新することでラベルの意味を洗練し、ラベル領域の相関も強化する。 このように、レーザーは文書画像からのエンティティを意味的およびレイアウト的対応の両方を通して認識する。 2つのベンチマークデータセットに対する大規模な実験は、数ショット設定下でのLASERの優位性を示している。

Entity recognition is a fundamental task in understanding document images. Traditional sequence labeling frameworks treat the entity types as class IDs and rely on extensive data and high-quality annotations to learn semantics which are typically expensive in practice. In this paper, we aim to build an entity recognition model requiring only a few shots of annotated document images. To overcome the data limitation, we propose to leverage the label surface names to better inform the model of the target entity type semantics and also embed the labels into the spatial embedding space to capture the spatial correspondence between regions and labels. Specifically, we go beyond sequence labeling and develop a novel label-aware seq2seq framework, LASER. The proposed model follows a new labeling scheme that generates the label surface names word-by-word explicitly after generating the entities. During training, LASER refines the label semantics by updating the label surface name representations and also strengthens the label-region correlation. In this way, LASER recognizes the entities from document images through both semantic and layout correspondence. Extensive experiments on two benchmark datasets demonstrate the superiority of LASER under the few-shot setting.
翻訳日:2022-04-17 08:55:26 公開日:2022-03-30
# 線形推定におけるサブセット選択のための改良されたグレディアルゴリズム

An Improved Greedy Algorithm for Subset Selection in Linear Estimation ( http://arxiv.org/abs/2203.16070v1 )

ライセンス: Link先を確認
Shamak Dutta, Nils Wilde, Stephen L. Smith(参考訳) 本稿では, 有限個の予測位置において, 観測値の最適な推定値を与えるk個の位置の集合を求める空間場における部分選択問題について考察する。 測定は連続体内の任意の位置で行うことができ、異なる点における場の値間の共分散は広く用いられる2乗指数共分散関数によって与えられる。 観測選択の1つのアプローチは、空間の格子離散化を行い、グリードアルゴリズムを用いて近似解を得ることである。 解のクオリティは、より細かいグリッド解像度で向上するが、計算量を増やすコストがかかる。 本研究では,予測位置と予測位置によって形成されたクランクのセンタロイドのみからなる探索空間を考えることにより,計算複雑性を低減し,逆に解質を向上させる手法を提案する。 シミュレーションにおける提案手法の有効性を,ソリューションの品質と実行性の両方の観点から示す。

In this paper, we consider a subset selection problem in a spatial field where we seek to find a set of k locations whose observations provide the best estimate of the field value at a finite set of prediction locations. The measurements can be taken at any location in the continuous field, and the covariance between the field values at different points is given by the widely used squared exponential covariance function. One approach for observation selection is to perform a grid discretization of the space and obtain an approximate solution using the greedy algorithm. The solution quality improves with a finer grid resolution but at the cost of increased computation. We propose a method to reduce the computational complexity, or conversely to increase solution quality, of the greedy algorithm by considering a search space consisting only of prediction locations and centroids of cliques formed by the prediction locations. We demonstrate the effectiveness of our proposed approach in simulation, both in terms of solution quality and runtime.
翻訳日:2022-04-17 07:06:14 公開日:2022-03-30
# 次世代POI勧告のための分散協調学習フレームワーク

Decentralized Collaborative Learning Framework for Next POI Recommendation ( http://arxiv.org/abs/2204.06516v1 )

ライセンス: Link先を確認
Jing Long, Tong Chen, Nguyen Quoc Viet Hung, Hongzhi Yin(参考訳) 次のPOI(Point-of-Interest)レコメンデーションは、次のPOIの訪問を決めるのに有効であることから、ロケーションベースのソーシャルネットワーク(LBSN)において欠かせない機能となっている。 しかし正確な推奨には大量の履歴チェックインデータが必要であるため、ロケーションに敏感なデータはクラウドサーバによって処理される必要があるため、ユーザのプライバシを脅かすことになる。 プライバシを保存するPOIレコメンデーションのためのオンデバイスフレームワークはいくつかあるが、ストレージや計算に関してはまだリソース集約的であり、ユーザとPOIのインタラクションのばらつきに限界がある。 そこで本研究では,POIレコメンデーション(DCLR)のための分散協調学習フレームワークを提案する。 dclrは、トレーニングのためのクラウドへのローカルモデルの依存を大幅に削減し、任意の集中型レコメンデーションモデルを拡張できる。 ローカルモデルを学習する際のデバイス上のユーザデータの空間性に対処するため,サーバ上のPOI表現を地理的および分類的相関で事前学習するための2つの自己超越信号の設計を行う。 協調学習を容易にするために,地理的・意味的に類似したユーザからの知識を各局所モデルに組み込むことを革新的に提案する。 コラボレーティブな学習プロセスは、ユーザグループを特定するために中央サーバからの小さな関与のみを必要としながら、デバイス間のコミュニケーションを利用し、差分プライバシーのような一般的なプライバシー保護メカニズムと互換性がある。

Next Point-of-Interest (POI) recommendation has become an indispensable functionality in Location-based Social Networks (LBSNs) due to its effectiveness in helping people decide the next POI to visit. However, accurate recommendation requires a vast amount of historical check-in data, thus threatening user privacy as the location-sensitive data needs to be handled by cloud servers. Although there have been several on-device frameworks for privacy-preserving POI recommendations, they are still resource-intensive when it comes to storage and computation, and show limited robustness to the high sparsity of user-POI interactions. On this basis, we propose a novel decentralized collaborative learning framework for POI recommendation (DCLR), which allows users to train their personalized models locally in a collaborative manner. DCLR significantly reduces the local models' dependence on the cloud for training, and can be used to expand arbitrary centralized recommendation models. To counteract the sparsity of on-device user data when learning each local model, we design two self-supervision signals to pretrain the POI representations on the server with geographical and categorical correlations of POIs. To facilitate collaborative learning, we innovatively propose to incorporate knowledge from either geographically or semantically similar users into each local model with attentive aggregation and mutual information maximization. The collaborative learning process makes use of communications between devices while requiring only minor engagement from the central server for identifying user groups, and is compatible with common privacy preservation mechanisms like differential privacy.
翻訳日:2022-04-17 07:05:59 公開日:2022-03-30
# 連続時間空間における自己変調注意の学習と逐次勧告への応用

Learning Self-Modulating Attention in Continuous Time Space with Applications to Sequential Recommendation ( http://arxiv.org/abs/2204.06517v1 )

ライセンス: Link先を確認
Chao Chen, Haoyu Geng, Nianzu Yang, Junchi Yan, Daiyue Xue, Jianping Yu and Xiaokang Yang(参考訳) ユーザの興味は通常、現実世界で動的であり、リッチな行動データから正確な好みを学ぶための理論的および実践的な課題となる。 既存のユーザ行動モデリングソリューションの中で、アテンションネットワークはその有効性と相対的単純性のために広く採用されている。 広く研究されているにもかかわらず、既存の注意は以下の2つの制限に悩まされている。 一 従来の注意は、連続した時間空間における行動間の距離にかかわらず、利用者行動間の空間的相関を考慮している。 ii) これらの注意は、主に過去の行動全体にわたって密集し、かつ、断続的に分布し、それらを出力された潜在表現に注意深くエンコードする。 しかし、これは、ユーザーの将来のアクションが彼女の過去の行動のごく一部に関係している実際のシナリオには適していない。 本稿では,複雑かつ非線形に進化する動的ユーザの嗜好をモデル化した,自己変調型注意ネットワークを提案する。 提案手法をトップn逐次レコメンデーションタスクで有効性を示すとともに,3つの大規模実世界データセットの結果から,本モデルが最先端の性能を達成できることを実証した。

User interests are usually dynamic in the real world, which poses both theoretical and practical challenges for learning accurate preferences from rich behavior data. Among existing user behavior modeling solutions, attention networks are widely adopted for its effectiveness and relative simplicity. Despite being extensively studied, existing attentions still suffer from two limitations: i) conventional attentions mainly take into account the spatial correlation between user behaviors, regardless the distance between those behaviors in the continuous time space; and ii) these attentions mostly provide a dense and undistinguished distribution over all past behaviors then attentively encode them into the output latent representations. This is however not suitable in practical scenarios where a user's future actions are relevant to a small subset of her/his historical behaviors. In this paper, we propose a novel attention network, named self-modulating attention, that models the complex and non-linearly evolving dynamic user preferences. We empirically demonstrate the effectiveness of our method on top-N sequential recommendation tasks, and the results on three large-scale real-world datasets show that our model can achieve state-of-the-art performance.
翻訳日:2022-04-17 07:05:32 公開日:2022-03-30
# ヘルスアウトカム生成のための位置ベースプロンプト

Position-based Prompting for Health Outcome Generation ( http://arxiv.org/abs/2204.03489v1 )

ライセンス: Link先を確認
M. Abaho, D. Bollegala, P. Williamson, S. Dodd(参考訳) プロンプトを用いた事前学習言語モデル(PLM)の提案は、言語モデル(LM)を知識ベースとして扱うことを間接的に示唆している。 この目的のために、これらのLMが特定のドメインのデータだけでなく、プロンプト自体のスタイルや言語パターンにも微調整されている場合、この現象は特に効果的である。 我々は,特定の言語パターンをプロンプトで満足させることは,プロンプトタスクを不要に延長する持続不可能な制約であり,特に手作業で設計されることが多く,プロンプトテンプレートパターンの範囲は,プロンプトの目的やドメインによって異なる可能性があることから観察する。 そこで,本稿では,各単語の位置情報をマスクに対するプロンプトでキャプチャする位置アテンション機構を用いることにより,プロンプトが言語パターンが変化する場合に,プロンプトを再構築する必要がなくなることを検討した。 そこで本研究では,提案手法を用いて,プロンプトの開始時と複数のランダムな箇所において情報が欠落しているポストフィックスや混合パターンなど,稀なプロンプトテンプレート(健康成果生成に関するケーススタディ)に対して回答を導出する能力を示す。 さらに, 各種バイオメディカルPLMを用いて, デフォルトのマスク言語モデル(MLM)表現がマスクトークンの予測に使用されるベースラインを一貫して上回っている。

Probing Pre-trained Language Models (PLMs) using prompts has indirectly implied that language models (LMs) can be treated as knowledge bases. To this end, this phenomena has been effective especially when these LMs are fine-tuned towards not just data of a specific domain, but also to the style or linguistic pattern of the prompts themselves. We observe that, satisfying a particular linguistic pattern in prompts is an unsustainable constraint that unnecessarily lengthens the probing task, especially because, they are often manually designed and the range of possible prompt template patterns can vary depending on the prompting objective and domain. We therefore explore an idea of using a position-attention mechanism to capture positional information of each word in a prompt relative to the mask to be filled, hence avoiding the need to re-construct prompts when the prompts linguistic pattern changes. Using our approach, we demonstrate the ability of eliciting answers to rare prompt templates (in a case study on health outcome generation) such as Postfix and Mixed patterns whose missing information is respectively at the start and in multiple random places of the prompt. More so, using various biomedical PLMs, our approach consistently outperforms a baseline in which the default mask language model (MLM) representation is used to predict masked tokens.
翻訳日:2022-04-10 10:36:36 公開日:2022-03-30
# 風力タービンの運転・保守のための人工知能のサイエントメトリー : 過去・現在・未来

Scientometric Review of Artificial Intelligence for Operations & Maintenance of Wind Turbines: The Past, Present and Future ( http://arxiv.org/abs/2204.02360v1 )

ライセンス: Link先を確認
Joyjit Chatterjee, Nina Dethlefs(参考訳) 近年、風力エネルギーは再生可能エネルギーの非常に有望な源となっている。 しかし、風力タービンは定期的に運用上の不整合に苦しめられ、運用と保守(o&m)の大幅なコストと課題が生じた。 コンディションベースのモニタリング(CBM)とタービンの性能評価・分析は、効率的なO&M計画とコスト最小化の確保に不可欠である。 データ駆動による意思決定技術は、2010年初頭の信号処理手法から人工知能(AI)技術、特に2020年のディープラーニングまで、過去10年間、風力産業におけるこのようなO&Mタスクの急速な進化を目撃してきた。 本稿では, 風力エネルギー分野におけるAIの概念的, テーマ的進化に関するサイエントメトリックな考察を行うために, 統計計算を活用し, 風力産業におけるデータ駆動意思決定の強みと限界に関するエビデンスに基づく洞察を提供する。 我々は、データ可用性と品質における現在の主要な課題、ブラックボックスで成熟したaiモデルの透明性の欠如、リアルタイム意思決定サポートのためのモデルのデプロイに関する問題、およびこれらの問題を解決するための可能な戦略について、将来と現在の展望を提供する。 我々は、CBMの過去、現在、未来を体系的に分析し、より多くの組織がO&Mでデータ駆動意思決定技術を採用し、風力エネルギーの信頼性を高め、気候変動に対処するグローバルな取り組みに寄与することを願っている。

Wind energy has emerged as a highly promising source of renewable energy in recent times. However, wind turbines regularly suffer from operational inconsistencies, leading to significant costs and challenges in operations and maintenance (O&M). Condition-based monitoring (CBM) and performance assessment/analysis of turbines are vital aspects for ensuring efficient O&M planning and cost minimisation. Data-driven decision making techniques have witnessed rapid evolution in the wind industry for such O&M tasks during the last decade, from applying signal processing methods in early 2010 to artificial intelligence (AI) techniques, especially deep learning in 2020. In this article, we utilise statistical computing to present a scientometric review of the conceptual and thematic evolution of AI in the wind energy sector, providing evidence-based insights into present strengths and limitations of data-driven decision making in the wind industry. We provide a perspective into the future and on current key challenges in data availability and quality, lack of transparency in black box-natured AI models, and prevailing issues in deploying models for real-time decision support, along with possible strategies to overcome these problems. We hope that a systematic analysis of the past, present and future of CBM and performance assessment can encourage more organisations to adopt data-driven decision making techniques in O&M towards making wind energy sources more reliable, contributing to the global efforts of tackling climate change.
翻訳日:2022-04-10 10:36:08 公開日:2022-03-30
# 人工知能: 産業セクター導入の過去、現在、そして将来の応用と影響力の引き金となる枠組み

Artificial Intelligence: Framework of driving triggers to past, present and future applications and influencers of industry sector adoption ( http://arxiv.org/abs/2204.01518v1 )

ライセンス: Link先を確認
Richard Fulton, Diane Fulton and Susan Kaplan(参考訳) 人工知能(AI)の発展の感覚を得るため、この研究は過去10年間、現在、そして今後数十年にわたって予測されていることを分析した。 論文では、AIの最大の変化を強調し、採用速度に影響を与えるインフルエンサーとともに、これらのテクノロジがいくつかの主要産業に適用されている例を示す。 最後に、研究はコスト、スピード、正確性、多様性/包摂性、そしてAIを不可欠な変革技術へと推進する学際的な研究/コラボレーションといった、駆動的トリガーを調べます。

To gain a sense of the development of Artificial Intelligence (AI), this research analyzes what has been done in the past, presently in the last decade and what is predicted for the next several decades. The paper will highlight the biggest changes in AI and give examples of how these technologies are applied in several key industry sectors along with influencers that can affect adoption speed. Lastly, the research examines the driving triggers such as cost, speed, accuracy, diversity/inclusion and interdisciplinary research/collaboration that propel AI into an essential transformative technology.
翻訳日:2022-04-10 10:35:15 公開日:2022-03-30
# Exosoul:デジタル世界での倫理的プロファイリング

Exosoul: ethical profiling in the digital world ( http://arxiv.org/abs/2204.01588v1 )

ライセンス: Link先を確認
Costanza Alfieri, Paola Inverardi, Patrizio Migliarini and Massimiliano Palmiero(参考訳) 社会における自律的デジタル技術の発展と普及は、データ保護やプライバシー侵害を超えて、新たな倫理的課題をもたらす。 ユーザはデジタル技術とのインタラクションにおいて無防備であり、同時に自律システムは、人間に先立つ意思決定の空間を自由に占有できる。 この文脈では、多分野のプロジェクトexosoulは、ユーザーの倫理的好みに応じてデジタル世界での行動を仲介するパーソナライズされたソフトウェアexoskeletonの開発を目指している。 エクソスケルトンは、文学で提案されたプライバシープロファイリングと同様に、ユーザーの倫理的プロファイリングに依存するが、一般的な道徳的嗜好を反映し予測することを目的としている。 我々のアプローチはハイブリッドであり、まずトップダウン方式でプロファイルを識別し、次にパーソナライズされたデータ駆動方式でプロファイルを洗練する。 本稿では,トップダウンプロファイルの構築に関する最初の実験を報告する。 倫理的立場(イデオロギーと相対主義)の人格特性(正直/ヒュームネス、良心、マキアベリア主義、ナルシシズム)と世界観(ノルマティビズム)の相関を考察し、プライバシー侵害、コピーライト侵害、注意と保護に関するユーザのデジタル行動を予測する倫理的プロファイルを作成するためにクラスタリングアプローチを用いる。 317名の若年者を対象にアンケート調査を行った。 本稿では,デジタル行動の妥当性と予測力の観点から,データ駆動型とモデル駆動型の2つのクラスタリングソリューションについて論じる。

The development and the spread of increasingly autonomous digital technologies in our society pose new ethical challenges beyond data protection and privacy violation. Users are unprotected in their interactions with digital technologies and at the same time autonomous systems are free to occupy the space of decisions that is prerogative of each human being. In this context the multidisciplinary project Exosoul aims at developing a personalized software exoskeleton which mediates actions in the digital world according to the moral preferences of the user. The exoskeleton relies on the ethical profiling of a user, similar in purpose to the privacy profiling proposed in the literature, but aiming at reflecting and predicting general moral preferences. Our approach is hybrid, first based on the identification of profiles in a top-down manner, and then on the refinement of profiles by a personalized data-driven approach. In this work we report our initial experiment on building such top-down profiles. We consider the correlations between ethics positions (idealism and relativism) personality traits (honesty/humility, conscientiousness, Machiavellianism and narcissism) and worldview (normativism), and then we use a clustering approach to create ethical profiles predictive of user's digital behaviors concerning privacy violation, copy-right infringements, caution and protection. Data were collected by administering a questionnaire to 317 young individuals. In the paper we discuss two clustering solutions, one data-driven and one model-driven, in terms of validity and predictive power of digital behavior.
翻訳日:2022-04-10 10:35:02 公開日:2022-03-30
# 進化的プログラム:進化的アルゴリズムに基づく経路計画プログラムを自律的に作成する

Evolutionary Programmer: Autonomously Creating Path Planning Programs based on Evolutionary Algorithms ( http://arxiv.org/abs/2204.02970v1 )

ライセンス: Link先を確認
Jiabin Lou and Rong Ding and Wenjun Wu(参考訳) 進化的アルゴリズムは、その柔軟性と有効性のために無人航空機の経路計画に広く利用されている。 それでも、環境の変化に敏感で、すべてのシナリオに適応できないのです。 この欠点により、以前成功したプランナーは、しばしば新しいシーンで失敗する。 本稿では,この問題を解決するために,進化型プログラマという機械学習手法を提案する。 具体的には、最もよく使われる進化的アルゴリズムは一連の演算子に分解され、システムの演算子ライブラリを構成する。 新たな方法は,統合プランナーにオペレータを再構成するので,変化する状況に適応するために最適なオペレータを選択することができる。 通常のマシンプログラマとは異なり、この方法は高レベルの統合命令を持つ特定のタスクに焦点を当て、命令の簡潔さに起因する巨大な検索空間の問題を軽減する。 このベースで64ビットシーケンスはパスプランナーを表現するために提示され、修正された遺伝的アルゴリズムで進化する。 最後に、前回のプランナー及び各種ランダム生成されたプランナーの情報を利用して、最も適したプランナーを作成する。

Evolutionary algorithms are wildly used in unmanned aerial vehicle path planning for their flexibility and effectiveness. Nevertheless, they are so sensitive to the change of environment that can't adapt to all scenarios. Due to this drawback, the previously successful planner frequently fail in a new scene. In this paper, a first-of-its-kind machine learning method named Evolutionary Programmer is proposed to solve this problem. Concretely, the most commonly used Evolutionary Algorithms are decomposed into a series of operators, which constitute the operator library of the system. The new method recompose the operators to a integrated planner, thus, the most suitable operators can be selected for adapting to the changing circumstances. Different from normal machine programmers, this method focuses on a specific task with high-level integrated instructions and thus alleviate the problem of huge search space caused by the briefness of instructions. On this basis, a 64-bit sequence is presented to represent path planner and then evolved with the modified Genetic Algorithm. Finally, the most suitable planner is created by utilizing the information of the previous planner and various randomly generated ones.
翻訳日:2022-04-10 10:34:33 公開日:2022-03-30
# (参考訳) 故障シナリオ生成のための隠れマルコフモデルに基づく量子学習手法

A quantum learning approach based on Hidden Markov Models for failure scenarios generation ( http://arxiv.org/abs/2204.00087v1 )

ライセンス: CC BY 4.0
Ahmed Zaiou, Youn\`es Bennani, Basarab Matei and Mohamed Hibti(参考訳) システムの障害シナリオを見つけることは、PSA(Probabilistic Safety Assessment)の分野において非常に複雑な問題である。 この問題を解決するために、Hidden Quantum Markov Models (HQMMs)を使用して生成モデルを作成する。 そこで本稿では,PSAの分野における実小システムから生成された実データセットに対してHQMMと古典的隠れマルコフモデルHMMの結果について検討し,比較する。 品質指標として、説明精度DAを使用し、量子アプローチが古典的アプローチよりも優れた結果をもたらすことを示すとともに、システムの確率的かつ予測不可能な障害シナリオを特定するための戦略を示す。

Finding the failure scenarios of a system is a very complex problem in the field of Probabilistic Safety Assessment (PSA). In order to solve this problem we will use the Hidden Quantum Markov Models (HQMMs) to create a generative model. Therefore, in this paper, we will study and compare the results of HQMMs and classical Hidden Markov Models HMM on a real datasets generated from real small systems in the field of PSA. As a quality metric we will use Description accuracy DA and we will show that the quantum approach gives better results compared with the classical approach, and we will give a strategy to identify the probable and no-probable failure scenarios of a system.
翻訳日:2022-04-05 04:03:02 公開日:2022-03-30
# (参考訳) 抑うつのレンズとしての音声とn-Backタスク 両者を組み合わせることで、うつ病のコア症状を分離できるかもしれない

Speech and the n-Back task as a lens into depression. How combining both may allow us to isolate different core symptoms of depression ( http://arxiv.org/abs/2204.00088v1 )

ライセンス: CC BY 4.0
Salvatore Fara, Stefano Goria, Emilia Molimpakis, Nicholas Cummins(参考訳) あらゆる音声信号に埋め込まれることは、認知、神経筋、生理的情報の豊富な組み合わせである。 この豊かさは、主要なうつ病(MDD)を含む様々な健康状態に関連して、音声を強力な信号にする。 抑うつ研究における重要な問題の一つは、抑うつ的重大性が支配的な測定可能な効果であるという仮定である。 しかし、MDDの不均一な臨床像を考えると、言語変化はキーうつ症状のサブセットと強く関連していると考えられる。 本稿では,この議論を支持する強い証拠を示す。 まず,胸腺で収集した大規模横断型マルチモーダルデータセットを提案する。 次に,n-Back作業メモリ評価の特徴と音声の組み合わせが,一般的な8項目の患者健康アンケートうつ病尺度(PHQ-8)を予測する際に,分類器の性能を向上させることを示す機械学習実験を行った。 最後に、PHQ-8項目レベルで異なる音声とn-Backマーカーの関係を明らかにする実験のセットを示す。 特に,身体症状と精神運動症状はn-Backのパフォーマンススコアと強く関連しているのに対し,他の項目はアンヘドニア,抑うつ気分,食欲の変化,無価値感,難易度感は言語変化と強く関連している。

Embedded in any speech signal is a rich combination of cognitive, neuromuscular and physiological information. This richness makes speech a powerful signal in relation to a range of different health conditions, including major depressive disorders (MDD). One pivotal issue in speech-depression research is the assumption that depressive severity is the dominant measurable effect. However, given the heterogeneous clinical profile of MDD, it may actually be the case that speech alterations are more strongly associated with subsets of key depression symptoms. This paper presents strong evidence in support of this argument. First, we present a novel large, cross-sectional, multi-modal dataset collected at Thymia. We then present a set of machine learning experiments that demonstrate that combining speech with features from an n-Back working memory assessment improves classifier performance when predicting the popular eight-item Patient Health Questionnaire depression scale (PHQ-8). Finally, we present a set of experiments that highlight the association between different speech and n-Back markers at the PHQ-8 item level. Specifically, we observe that somatic and psychomotor symptoms are more strongly associated with n-Back performance scores, whilst the other items: anhedonia, depressed mood, change in appetite, feelings of worthlessness and trouble concentrating are more strongly associated with speech changes.
翻訳日:2022-04-05 03:53:52 公開日:2022-03-30
# (参考訳) ホワイトボックスとトランスファー可能なブラックボックス攻撃を調査

Investigating Top-$k$ White-Box and Transferable Black-box Attack ( http://arxiv.org/abs/2204.00089v1 )

ライセンス: CC BY 4.0
Chaoning Zhang, Philipp Benz, Adil Karjauv, Jae Won Cho, Kang Zhang, In So Kweon(参考訳) 既存の研究では、攻撃強度を評価する指標として1ドル超の攻撃成功率(ASR)の限界が特定されているが、ホワイトボックス設定では排他的に検討されている。 強いI-FGSMは単純なFGSMよりも悪いことが広く報告されており、転送性はホワイトボックス攻撃強度に反するという考えが一般的である。 我々の研究は、強い攻撃が攻撃後の利子階級階級(ICR)によって示される一般のトップ$k$ASRに対して実際によりよい転送を行うという経験的発見によってこの信念に挑戦する。 攻撃強度を高めるために,幾何的な観点からロジット勾配を直感的に解釈することで,一般的に使用される損失の弱点はネットワークの強度を最大化するのではなく,ネットワークを騙す速度を優先することにあることが分かる。 そこで本研究では,接地クラスからのランク距離を暗黙的に最大化する方向で更新されるロジットを誘導する新しい正規化ce損失を提案する。 さまざまな環境での広範な結果から,提案する新たな損失が,最大$k$攻撃に有効であることを確認した。 コードは: \url{https://bit.ly/3uCiomP}で利用可能である。

Existing works have identified the limitation of top-$1$ attack success rate (ASR) as a metric to evaluate the attack strength but exclusively investigated it in the white-box setting, while our work extends it to a more practical black-box setting: transferable attack. It is widely reported that stronger I-FGSM transfers worse than simple FGSM, leading to a popular belief that transferability is at odds with the white-box attack strength. Our work challenges this belief with empirical finding that stronger attack actually transfers better for the general top-$k$ ASR indicated by the interest class rank (ICR) after attack. For increasing the attack strength, with an intuitive interpretation of the logit gradient from the geometric perspective, we identify that the weakness of the commonly used losses lie in prioritizing the speed to fool the network instead of maximizing its strength. To this end, we propose a new normalized CE loss that guides the logit to be updated in the direction of implicitly maximizing its rank distance from the ground-truth class. Extensive results in various settings have verified that our proposed new loss is simple yet effective for top-$k$ attack. Code is available at: \url{https://bit.ly/3uCiomP}
翻訳日:2022-04-05 03:41:31 公開日:2022-03-30
# (参考訳) BERTによる評価指標の再現性問題

Reproducibility Issues for BERT-based Evaluation Metrics ( http://arxiv.org/abs/2204.00004v1 )

ライセンス: CC BY 4.0
Yanran Chen and Jonas Belouadi and Steffen Eger(参考訳) 再現性は、機械学習と自然言語処理(NLP)において最も懸念されている。 自然言語生成(特に機械翻訳)の分野では、ポスト (2018) のセミナル論文では、出版当時、支配的な計量であるBLEUの再現性の問題が指摘されている。 現在、BERTベースの評価指標はBLEUよりもかなり優れています。 本稿では,最近のBERTベースのメトリクス4つの結果とクレームを再現できるかどうかを問う。 クレームと結果の再現は、しばしば失敗する。 (i)メトリクスにかかわる重い未文書前処理 (ii)欠落コード、及び (iii)基準メトリクスのより弱い結果を報告すること。 (4)ある場合において、問題は人間のスコアではなく、csvファイル内の間違ったカラムに関連し、スコアを5ポイント膨らませることに起因している。 次に、前処理の影響に動機づけられ、その効果をより詳細に検討する(メトリクスのひとつについて)第2の研究を行います。 プリプロセッシングは特に高い屈折率を持つ言語に対して大きな効果がある。 この場合、前処理の効果はアグリゲーション機構の効果よりも大きいかもしれない(例:greedy alignment vs. Word Mover Distance)。

Reproducibility is of utmost concern in machine learning and natural language processing (NLP). In the field of natural language generation (especially machine translation), the seminal paper of Post (2018) has pointed out problems of reproducibility of the dominant metric, BLEU, at the time of publication. Nowadays, BERT-based evaluation metrics considerably outperform BLEU. In this paper, we ask whether results and claims from four recent BERT-based metrics can be reproduced. We find that reproduction of claims and results often fails because of (i) heavy undocumented preprocessing involved in the metrics, (ii) missing code and (iii) reporting weaker results for the baseline metrics. (iv) In one case, the problem stems from correlating not to human scores but to a wrong column in the csv file, inflating scores by 5 points. Motivated by the impact of preprocessing, we then conduct a second study where we examine its effects more closely (for one of the metrics). We find that preprocessing can have large effects, especially for highly inflectional languages. In this case, the effect of preprocessing may be larger than the effect of the aggregation mechanism (e.g., greedy alignment vs. Word Mover Distance).
翻訳日:2022-04-05 03:21:08 公開日:2022-03-30
# 単一校正画像からのボール3次元位置決め

Ball 3D localization from a single calibrated image ( http://arxiv.org/abs/2204.00003v1 )

ライセンス: Link先を確認
Gabriel Van Zandycke and Christophe De Vleeshouwer(参考訳) チームスポーツにおけるボール3dローカライズには、サッカーにおける自動オフサイド検出、バスケットボールにおけるショットリリースローカライズなど様々な応用がある。 今日では、このタスクは高価なマルチビューの設定を使用することで解決するか、あるいは弾道軌道に分析を制限することによって解決される。 本研究では,画素の球径を推定し,実球径の知識をメートルで用いることで,校正単眼カメラからの単一画像の課題に対処することを提案する。 このアプローチは、ボールが(一部でも)見えるあらゆるゲーム状況に適している。 これを実現するために、従来のボール検出器が生成する候補の周囲に画像パッチをトレーニングした小さなニューラルネットワークを使用する。 我々のネットワークは,ボール径の予測に加えて,画像パッチにボールを持つ自信を出力する。 3つのバスケットボールデータセットの検証により,球の3次元位置推定に顕著な予測が得られた。 また,このモデルでは,検出者が生成する候補をフィルタリングすることで,検出率を向上させる。 この作品の貢献は (i) 1枚の画像上で3Dボールのローカライゼーションに対処する最初のモデル。 (ii)単一キャリブレーション画像からのボール3dアノテーションの効果的な方法 (3)単一視点からアノテートした高品質な3Dボール評価データセット。 さらに、この研究を再現するコードはhttps://github.com/gabriel-vanzandycke/deepsportで無償公開されている。

Ball 3D localization in team sports has various applications including automatic offside detection in soccer, or shot release localization in basketball. Today, this task is either resolved by using expensive multi-views setups, or by restricting the analysis to ballistic trajectories. In this work, we propose to address the task on a single image from a calibrated monocular camera by estimating ball diameter in pixels and use the knowledge of real ball diameter in meters. This approach is suitable for any game situation where the ball is (even partly) visible. To achieve this, we use a small neural network trained on image patches around candidates generated by a conventional ball detector. Besides predicting ball diameter, our network outputs the confidence of having a ball in the image patch. Validations on 3 basketball datasets reveals that our model gives remarkable predictions on ball 3D localization. In addition, through its confidence output, our model improves the detection rate by filtering the candidates produced by the detector. The contributions of this work are (i) the first model to address 3D ball localization on a single image, (ii) an effective method for ball 3D annotation from single calibrated images, (iii) a high quality 3D ball evaluation dataset annotated from a single viewpoint. In addition, the code to reproduce this research is be made freely available at https://github.com/gabriel-vanzandycke/deepsport.
翻訳日:2022-04-04 15:25:25 公開日:2022-03-30
# (参考訳) ディープニューラルネットワークによる画像圧縮と動作可能なインテリジェンス

Image Compression and Actionable Intelligence With Deep Neural Networks ( http://arxiv.org/abs/2203.13686v2 )

ライセンス: CC BY 4.0
Matthew Ciolino(参考訳) 外部要因により、ユニットがソースからインテリジェンスを受けられない場合、不利なユーザと見なす。 我々はこれを、エッジ上の低接続デバイスに取り組んでいる占有済みのユニットとして分類する。 このケースでは、通常よりも別のアプローチでインテリジェンス、特に衛星画像情報を提供する必要があります。 そこで本研究では,衛星画像からの情報をより小さなパッケージで配信する情報低減技術に関する調査を行う。 本研究では,従来の画像圧縮,ニューラルネットワーク画像圧縮,物体検出画像切り出し,キャプションへの画像切り出しの4つの手法について検討した。 これらのメカニズムはそれぞれ、不利なユーザのために考慮された場合のメリットとトレードオフを持っています。

If a unit cannot receive intelligence from a source due to external factors, we consider them disadvantaged users. We categorize this as a preoccupied unit working on a low connectivity device on the edge. This case requires that we use a different approach to deliver intelligence, particularly satellite imagery information, than normally employed. To address this, we propose a survey of information reduction techniques to deliver the information from a satellite image in a smaller package. We investigate four techniques to aid in the reduction of delivered information: traditional image compression, neural network image compression, object detection image cutout, and image to caption. Each of these mechanisms have their benefits and tradeoffs when considered for a disadvantaged user.
翻訳日:2022-04-03 19:15:18 公開日:2022-03-30
# (参考訳) VL-InterpreT:視覚言語変換器の対話型可視化ツール

VL-InterpreT: An Interactive Visualization Tool for Interpreting Vision-Language Transformers ( http://arxiv.org/abs/2203.17247v1 )

ライセンス: CC BY 4.0
Estelle Aflalo, Meng Du, Shao-Yen Tseng, Yongfei Liu, Chenfei Wu, Nan Duan, Vasudev Lal(参考訳) トランスモデルにおけるブレークスルーは、NLPフィールドだけでなく、ビジョンやマルチモーダルシステムにも革命をもたらした。 しかしながら、NLPモデルでは可視化と解釈可能性ツールが利用可能になっているが、視覚とマルチモーダルトランスフォーマーの内部メカニズムはほとんど不透明である。 これらのトランスフォーマーの成功により、ブラックボックスを解き放つことでより有能で信頼できるモデルが生まれるため、内部の動作を理解することがますます重要になる。 この探索に寄与するために,マルチモーダルトランスフォーマーにおける注目や隠された表現を解釈するためのインタラクティブな可視化を提供するVL-InterpreTを提案する。 VL-InterpreTはタスクに依存しない統合されたツールであり、(1)視覚と言語コンポーネントの両方の全てのレイヤにおける注意の様々な統計をトラックし、(2)読みやすいヒートマップを通してモダクタルとモダクタルの注意を可視化し、(3)トランスフォーマー層を通過するときに視覚と言語トークンの隠れた表現をプロットする。 本稿では,視覚言語多モードトランスフォーマーモデルkd-vlpの分析を通して,視覚コモンセンス推論 (vcr) と webqa の2つの視覚的質問応答ベンチマークを用いて,vl 解釈の機能を実証する。 さらに,本ツールで得られたマルチモーダルトランスフォーマーの挙動について,いくつかの興味深い知見を示す。

Breakthroughs in transformer-based models have revolutionized not only the NLP field, but also vision and multimodal systems. However, although visualization and interpretability tools have become available for NLP models, internal mechanisms of vision and multimodal transformers remain largely opaque. With the success of these transformers, it is increasingly critical to understand their inner workings, as unraveling these black-boxes will lead to more capable and trustworthy models. To contribute to this quest, we propose VL-InterpreT, which provides novel interactive visualizations for interpreting the attentions and hidden representations in multimodal transformers. VL-InterpreT is a task agnostic and integrated tool that (1) tracks a variety of statistics in attention heads throughout all layers for both vision and language components, (2) visualizes cross-modal and intra-modal attentions through easily readable heatmaps, and (3) plots the hidden representations of vision and language tokens as they pass through the transformer layers. In this paper, we demonstrate the functionalities of VL-InterpreT through the analysis of KD-VLP, an end-to-end pretraining vision-language multimodal transformer-based model, in the tasks of Visual Commonsense Reasoning (VCR) and WebQA, two visual question answering benchmarks. Furthermore, we also present a few interesting findings about multimodal transformer behaviors that were learned through our tool.
翻訳日:2022-04-02 14:22:02 公開日:2022-03-30
# (参考訳) LEAD1.0:商業ビルにおけるエネルギー異常検出のための大規模アノテートデータセット

LEAD1.0: A Large-scale Annotated Dataset for Energy Anomaly Detection in Commercial Buildings ( http://arxiv.org/abs/2203.17256v1 )

ライセンス: CC BY 4.0
Manoj Gulati and Pandarasamy Arjunan(参考訳) 現代の建物にはスマートエネルギーメーターが密に備わっており、定期的に大量の時系列データを生成し、毎日数百万のデータポイントを出力している。 これらのデータは、基礎となる負荷の発見、エネルギー消費パターンの推測、環境要因の相互依存、および建物の運用特性の解明に利用することができる。 さらに、省エネと世界的な持続可能性を達成するための大きなステップである、電力消費プロファイルに存在する異常を同時に識別することができる。 しかし、現在までに、大規模なアノテートエネルギー消費データセットの欠如は、異常検出の継続的な研究を妨げる。 我々は,1年以上にわたる1,413個のスマート電気メーター時系列を含むASHRAE Great Energy Predictor IIIデータセットの注釈付きバージョンをリリースすることによって,この取り組みに貢献する。 さらに,8種類の最先端異常検出手法の性能評価を行い,その性能比較を行った。

Modern buildings are densely equipped with smart energy meters, which periodically generate a massive amount of time-series data yielding few million data points every day. This data can be leveraged to discover the underlying loads, infer their energy consumption patterns, inter-dependencies on environmental factors, and the building's operational properties. Furthermore, it allows us to simultaneously identify anomalies present in the electricity consumption profiles, which is a big step towards saving energy and achieving global sustainability. However, to date, the lack of large-scale annotated energy consumption datasets hinders the ongoing research in anomaly detection. We contribute to this effort by releasing a well-annotated version of a publicly available ASHRAE Great Energy Predictor III data set containing 1,413 smart electricity meter time series spanning over one year. In addition, we benchmark the performance of eight state-of-the-art anomaly detection methods on our dataset and compare their performance.
翻訳日:2022-04-02 14:08:56 公開日:2022-03-30
# (参考訳) 負のサンプルを多く含まないコントラスト学習を支援するデュアル温度: MoCoの理解と簡易化を目指して

Dual Temperature Helps Contrastive Learning Without Many Negative Samples: Towards Understanding and Simplifying MoCo ( http://arxiv.org/abs/2203.17248v1 )

ライセンス: CC BY 4.0
Chaoning Zhang, Kang Zhang, Trung X. Pham, Axi Niu, Zhinan Qiao, Chang D. Yoo, In So Kweon(参考訳) 対照的学習(CL)は多くの負のサンプルを必要とすることが広く知られており、例えばMoCoの65536では、負のサンプルサイズ(NSS)がそのミニバッチサイズ(MBS)によって制限されるため、辞書のないフレームワークの性能は劣ることが多い。 nssをmbsから切り離すため、動的辞書は多数のclフレームワークに採用されており、その中で最も人気のあるのがmocoファミリーである。 本質的には、モーメントベースのキュー辞書を採用し、そのサイズと一貫性を詳細に分析する。 我々は, MoCo におけるInfoNCE の損失が, ペナルティの強さの異なる正のサンプルに対して暗黙的にアンカーを惹きつけることを指摘し, 大規模辞書の必要性の大きな理由として, アンカー間の硬さ認識特性を同定した。 我々の発見は、モコv2の辞書の削除とモメンタムを簡素化する動機となった。 提案された2つの温度を持つInfoNCEに基づいて、単純化されたフレームワークであるSimMoCoとSimCoは、MoCo v2を目に見えるマージンで上回っている。 さらに、私たちの作業はCLと非CLフレームワークのギャップを埋め、SSLにおけるこれらの2つの主流フレームワークのより統一された理解に寄与します。 コードはhttps://bit.ly/3lkqbat.com/。

Contrastive learning (CL) is widely known to require many negative samples, 65536 in MoCo for instance, for which the performance of a dictionary-free framework is often inferior because the negative sample size (NSS) is limited by its mini-batch size (MBS). To decouple the NSS from the MBS, a dynamic dictionary has been adopted in a large volume of CL frameworks, among which arguably the most popular one is MoCo family. In essence, MoCo adopts a momentum-based queue dictionary, for which we perform a fine-grained analysis of its size and consistency. We point out that InfoNCE loss used in MoCo implicitly attract anchors to their corresponding positive sample with various strength of penalties and identify such inter-anchor hardness-awareness property as a major reason for the necessity of a large dictionary. Our findings motivate us to simplify MoCo v2 via the removal of its dictionary as well as momentum. Based on an InfoNCE with the proposed dual temperature, our simplified frameworks, SimMoCo and SimCo, outperform MoCo v2 by a visible margin. Moreover, our work bridges the gap between CL and non-CL frameworks, contributing to a more unified understanding of these two mainstream frameworks in SSL. Code is available at: https://bit.ly/3LkQbaT.
翻訳日:2022-04-02 14:02:37 公開日:2022-03-30
# (参考訳) アプライアンス電気利用に基づく非侵入型住宅不在検出のための機械学習手法

Machine Learning Approaches for Non-Intrusive Home Absence Detection Based on Appliance Electrical Use ( http://arxiv.org/abs/2203.16538v1 )

ライセンス: CC BY 4.0
Athanasios Lentzas and Dimitris Vrakas(参考訳) 家庭不在検出は、スマートホームインスタレーションにおける新たな分野である。 住宅の住人がいるかどうかを特定することは、多くのシナリオにおいて重要である。 一人暮らしの高齢者、認知症に苦しむ人々、家庭検疫などだ。 論文の大半は、アウトアウトイベントを検出するために、圧力/ドアセンサーまたはカメラに焦点を当てている。 上記のアプローチは堅固な結果をもたらすが、侵入性があり、センサー配置の修正が必要である。 本研究は, 住民の有無を検知する手段として, 家電機器の利用について検討した。 エネルギー利用は、非侵入的/非侵入的な検知方法であるパワー・デアグリゲーションの結果である。 エネルギーデータと家庭不在のための地上の真実を提供するデータセットは利用できないため、非侵入負荷モニタリング(NILM)のためのよく知られたデータセットであるUK-DALEデータセットに人工的な外出イベントが導入された。 複数の機械学習アルゴリズムが生成されたデータセットを用いて評価された。 評価の結果,家電電力消費による住宅不在検出は可能であった。

Home absence detection is an emerging field on smart home installations. Identifying whether or not the residents of the house are present, is important in numerous scenarios. Possible scenarios include but are not limited to: elderly people living alone, people suffering from dementia, home quarantine. The majority of published papers focus on either pressure / door sensors or cameras in order to detect outing events. Although the aforementioned approaches provide solid results, they are intrusive and require modifications for sensor placement. In our work, appliance electrical use is investigated as a means for detecting the presence or absence of residents. The energy use is the result of power disaggregation, a non intrusive / non invasive sensing method. Since a dataset providing energy data and ground truth for home absence is not available, artificial outing events were introduced on the UK-DALE dataset, a well known dataset for Non Intrusive Load Monitoring (NILM). Several machine learning algorithms were evaluated using the generated dataset. Benchmark results have shown that home absence detection using appliance power consumption is feasible.
翻訳日:2022-04-02 13:44:38 公開日:2022-03-30
# (参考訳) 深層学習による異なる伝播距離における回折渦ビームの同定

Identification of diffracted vortex beams at different propagation distances using deep learning ( http://arxiv.org/abs/2203.16539v1 )

ライセンス: CC BY 4.0
Heng Lv, Yan Guo, Zi-Xiang Yang, Chunling Ding, Wu-Hao Cai, Chenglong You, Rui-Bo Jin(参考訳) 光の軌道角運動量は量子技術、特に量子通信や量子センシングや範囲において貴重な資源と考えられている。 しかし、光のOAM状態は、伝播距離や位相歪みなどの望ましくない実験条件に影響を受け、関連する技術の現実的な実装の可能性を妨げている。 本稿では,強化されたディープラーニングニューラルネットワークを用いて,位相歪みを伴う複数の伝播距離における異なるoamモードの光を同定する。 特に,訓練されたディープラーニングニューラルネットワークは,渦ビームの位相電荷と伝播距離を97%の精度で効率的に識別することができる。 本手法はoamベースの通信およびセンシングプロトコルに重要な意味を持つ。

Orbital angular momentum of light is regarded as a valuable resource in quantum technology, especially in quantum communication and quantum sensing and ranging. However, the OAM state of light is susceptible to undesirable experimental conditions such as propagation distance and phase distortions, which hinders the potential for the realistic implementation of relevant technologies. In this article, we exploit an enhanced deep learning neural network to identify different OAM modes of light at multiple propagation distances with phase distortions. Specifically, our trained deep learning neural network can efficiently identify the vortex beam's topological charge and propagation distance with 97% accuracy. Our technique has important implications for OAM based communication and sensing protocols.
翻訳日:2022-04-02 13:36:35 公開日:2022-03-30
# (参考訳) 5分間音声サンプルからの表情の自動検出:課題と機会

Automatic Detection of Expressed Emotion from Five-Minute Speech Samples: Challenges and Opportunities ( http://arxiv.org/abs/2203.17242v1 )

ライセンス: CC BY 4.0
Bahman Mirheidari, Andr\'e Bittar, Nicholas Cummins, Johnny Downs, Helen L. Fisher, Heidi Christensen(参考訳) 本研究では,親戚や家族について自由に話す介護者を対象とした家族環境概念である表現的感情(EE)の自動認識の実現可能性について述べる。 録音された37のインタビューのサンプルから得られた音響的特徴とテキスト的特徴から、eeのキーコンポーネントである \textit{degree of warmth} を決定するための自動化アプローチについて述べる。 20年以上前に収集されたこの録音は、英国で2,232人の双子の子供からなる全国的に代表される出生コホートから生まれたものだ。 音響特性とテキスト特性の異なる4つの機械学習手法の有効性を評価するため,高可変音質の録音から使用可能な情報を抽出するコアステップを概説した。 このレガシーデータを扱うことの難しさにもかかわらず、f_{1}$-score of \textbf{61.5\%} で暖かさの程度を予測できることを実証した。 本稿では,学習を要約し,実世界の音声サンプルを用いて今後の研究を推奨する。

We present a novel feasibility study on the automatic recognition of Expressed Emotion (EE), a family environment concept based on caregivers speaking freely about their relative/family member. We describe an automated approach for determining the \textit{degree of warmth}, a key component of EE, from acoustic and text features acquired from a sample of 37 recorded interviews. These recordings, collected over 20 years ago, are derived from a nationally representative birth cohort of 2,232 British twin children and were manually coded for EE. We outline the core steps of extracting usable information from recordings with highly variable audio quality and assess the efficacy of four machine learning approaches trained with different combinations of acoustic and text features. Despite the challenges of working with this legacy data, we demonstrated that the degree of warmth can be predicted with an $F_{1}$-score of \textbf{61.5\%}. In this paper, we summarise our learning and provide recommendations for future work using real-world speech samples.
翻訳日:2022-04-02 13:18:55 公開日:2022-03-30
# (参考訳) 光場からのマルチモーダル深度推定に向けて

Towards Multimodal Depth Estimation from Light Fields ( http://arxiv.org/abs/2203.16542v1 )

ライセンス: CC BY 4.0
Titus Leistner, Radek Mackowiak, Lynton Ardizzone, Ullrich K\"othe, Carsten Rother(参考訳) 近年,光場応用,特に光場レンダリングと深度推定が急速に進展している。 最先端の光フィールドレンダリングは半透過的および反射的オブジェクトをうまく処理するが、深さ推定法はこれらのケースを完全に無視するか、弱いパフォーマンスしか提供しない。 これは、異なる深度の複数の物体が1つのピクセルの色に寄与した場合でも、単一の「真の」深さのみを考慮に入れる現在の方法であると主張する。 1つの推定値ではなく、後深度分布を出力するという単純なアイデアに基づいて、この問題に対するいくつかの異なるディープラーニングベースのアプローチを開発し、検討する。 さらに、画素の色に寄与する全ての物体の深さを含む最初の「マルチモーダル光場深度データセット」をコントリビュートする。 これにより、マルチモーダル深度予測を監督し、予測後部のKL分散を測定することにより、すべての手法を検証することができる。 徹底的な分析と新しいデータセットによって、この分野の長年の制限を克服する新たな深さ推定研究を始めることを目標としています。

Light field applications, especially light field rendering and depth estimation, developed rapidly in recent years. While state-of-the-art light field rendering methods handle semi-transparent and reflective objects well, depth estimation methods either ignore these cases altogether or only deliver a weak performance. We argue that this is due current methods only considering a single "true" depth, even when multiple objects at different depths contributed to the color of a single pixel. Based on the simple idea of outputting a posterior depth distribution instead of only a single estimate, we develop and explore several different deep-learning-based approaches to the problem. Additionally, we contribute the first "multimodal light field depth dataset" that contains the depths of all objects which contribute to the color of a pixel. This allows us to supervise the multimodal depth prediction and also validate all methods by measuring the KL divergence of the predicted posteriors. With our thorough analysis and novel dataset, we aim to start a new line of depth estimation research that overcomes some of the long-standing limitations of this field.
翻訳日:2022-04-02 13:06:41 公開日:2022-03-30
# (参考訳) コアレゾリューションのためのグラフリファインメント

Graph Refinement for Coreference Resolution ( http://arxiv.org/abs/2203.16574v1 )

ライセンス: CC BY-SA 4.0
Lesly Miculicich and James Henderson(参考訳) コア参照解決のための最先端モデルは、独立したペアワイズ決定に基づいている。 文書レベルでコア推論を学習し,グローバルな意思決定を行うモデリング手法を提案する。 この目的のために,テキスト中のノードがトークンであり,エッジがそれらの関係を表すグラフ構造におけるコア参照リンクをモデル化する。 我々のモデルは非自己回帰的にグラフを予測し、それ以前の予測に基づいて反復的に洗練し、決定間のグローバルな依存関係を可能にする。 実験結果から,文書レベルの情報により会議の解像度が向上するという仮説を補強し,様々なベースラインを改良した。

The state-of-the-art models for coreference resolution are based on independent mention pair-wise decisions. We propose a modelling approach that learns coreference at the document-level and takes global decisions. For this purpose, we model coreference links in a graph structure where the nodes are tokens in the text, and the edges represent the relationship between them. Our model predicts the graph in a non-autoregressive manner, then iteratively refines it based on previous predictions, allowing global dependencies between decisions. The experimental results show improvements over various baselines, reinforcing the hypothesis that document-level information improves conference resolution.
翻訳日:2022-04-02 13:05:30 公開日:2022-03-30
# (参考訳) 物理情報ニューラルネットワークによる全フィールドデータによる構成モデルの校正

Calibrating constitutive models with full-field data via physics informed neural networks ( http://arxiv.org/abs/2203.16577v1 )

ライセンス: CC BY 4.0
Craig M. Hamel and Kevin N. Long and Sharlotte L.B. Kramer(参考訳) 固体構成モデルのフルフィールド実験データによるキャリブレーションは、特に大きな変形を受ける材料において長年の課題である。 本論文では,全フィールド変位データと大域的力変位データから構成的モデルパラメータ化を求める物理インフォームド深層学習フレームワークを提案する。 この分野の最近の文献の多くとは対照的に、我々はニューラルネットワークの予測に物理的な制約を課す強い形式ではなく、支配方程式の弱い形式を扱う。 提案手法は計算効率が高く,不規則な幾何学的領域に適しており,計算格子への補間を必要とせずに容易に変位データを取り込みやすい。 汎用超弾性挙動, ロックアップによるポリマー挙動, 圧縮性発泡挙動などとして, ネオホオケアン, ジェント, ブラッツコ構成モデルなど, 異なる材料クラスに適した標準超弾性材料モデルの選択を検討した。 我々は、物理情報機械学習が実現可能な技術であり、有限変形下で構成モデルの校正にフルフィールド実験データをどのように利用するかというパラダイムをシフトできることを示した。

The calibration of solid constitutive models with full-field experimental data is a long-standing challenge, especially in materials which undergo large deformation. In this paper, we propose a physics-informed deep-learning framework for the discovery of constitutive model parameterizations given full-field displacement data and global force-displacement data. Contrary to the majority of recent literature in this field, we work with the weak form of the governing equations rather than the strong form to impose physical constraints upon the neural network predictions. The approach presented in this paper is computationally efficient, suitable for irregular geometric domains, and readily ingests displacement data without the need for interpolation onto a computational grid. A selection of canonical hyperelastic materials models suitable for different material classes is considered including the Neo-Hookean, Gent, and Blatz-Ko constitutive models as exemplars for general hyperelastic behavior, polymer behavior with lock-up, and compressible foam behavior respectively. We demonstrate that physics informed machine learning is an enabling technology and may shift the paradigm of how full-field experimental data is utilized to calibrate constitutive models under finite deformations.
翻訳日:2022-04-02 12:52:12 公開日:2022-03-30
# (参考訳) インデックス言語におけるコード切替とコード混合音声認識

Code Switched and Code Mixed Speech Recognition for Indic languages ( http://arxiv.org/abs/2203.16578v1 )

ライセンス: CC BY 4.0
Harveen Singh Chadha, Priyanshi Shah, Ankur Dhuriya, Neeraj Chhimwal, Anirudh Gupta, Vivek Raghavan(参考訳) 音響情報や語彙情報は通常言語固有であるため、多言語自動音声認識(asr)システムの訓練は困難である。 Indic言語のための多言語システムのトレーニングは、オープンソースデータセットの欠如と異なるアプローチによる結果のために、さらに難しい。 言語識別 (LID) に基づく単言語モデルの性能と比較し, エンドツーエンドの多言語音声認識システムの性能を比較した。 多言語モデルからの復号情報は言語識別に使用され、言語間で50%の改善を得るために単言語モデルと組み合わせられる。 また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。 本稿では,多言語asrの開発においてトランスフォーマティブベースのasr,特にwav2vec 2.0をどのように適用できるかについて述べる。

Training multilingual automatic speech recognition (ASR) systems is challenging because acoustic and lexical information is typically language specific. Training multilingual system for Indic languages is even more tougher due to lack of open source datasets and results on different approaches. We compare the performance of end to end multilingual speech recognition system to the performance of monolingual models conditioned on language identification (LID). The decoding information from a multilingual model is used for language identification and then combined with monolingual models to get an improvement of 50% WER across languages. We also propose a similar technique to solve the Code Switched problem and achieve a WER of 21.77 and 28.27 over Hindi-English and Bengali-English respectively. Our work talks on how transformer based ASR especially wav2vec 2.0 can be applied in developing multilingual ASR and code switched ASR for Indic languages.
翻訳日:2022-04-02 12:26:57 公開日:2022-03-30
# (参考訳) 空間適応型正規関数のオンライン予測

Spatially Adaptive Online Prediction of Piecewise Regular Functions ( http://arxiv.org/abs/2203.16587v1 )

ライセンス: CC BY 4.0
Sabyasachi Chatterjee and Subhajit Goswami(参考訳) 我々は,オンライン環境での正規関数を区分的に推定する問題,すなわち,過去の予測から得られるデータを用いて,次の明細点における真の関数の値を予測することを課題とする。 本稿では,最近開発したオンライン学習アルゴリズムsleep experts aggregation algorithmの修正版を提案する。 この推定値は,ドメインのすべてのローカルリージョンに対して,oracleのリスクバウンダリを同時に満たしていることを示します。 本稿では,エキスパート集約アルゴリズムの具体的インスタンス化として,オンライン平均集約とオンライン線形回帰集約アルゴリズムについて検討する。 得られたアルゴリズムはサンプルサイズでほぼ線形時間計算可能である。 特に,固定設計設定における分割多項式と有界変分関数クラスを推定する文脈において,オンラインアルゴリズムの性能に注目する。 このコンテキストでこれらの推定子に対して当社が取得したoracleのリスクバウンダリは、バッチ設定においても新たに(ある面で)向上した保証を提供し、art batch learning estimatorsの状況では利用できません。

We consider the problem of estimating piecewise regular functions in an online setting, i.e., the data arrive sequentially and at any round our task is to predict the value of the true function at the next revealed point using the available data from past predictions. We propose a suitably modified version of a recently developed online learning algorithm called the sleeping experts aggregation algorithm. We show that this estimator satisfies oracle risk bounds simultaneously for all local regions of the domain. As concrete instantiations of the expert aggregation algorithm proposed here, we study an online mean aggregation and an online linear regression aggregation algorithm where experts correspond to the set of dyadic subrectangles of the domain. The resulting algorithms are near linear time computable in the sample size. We specifically focus on the performance of these online algorithms in the context of estimating piecewise polynomial and bounded variation function classes in the fixed design setup. The simultaneous oracle risk bounds we obtain for these estimators in this context provide new and improved (in certain aspects) guarantees even in the batch setting and are not available for the state of the art batch learning estimators.
翻訳日:2022-04-02 12:19:06 公開日:2022-03-30
# (参考訳) 制約付きクラスインクリメンタルラーニング

Constrained Few-shot Class-incremental Learning ( http://arxiv.org/abs/2203.16588v1 )

ライセンス: CC BY 4.0
Michael Hersche, Geethan Karunaratne, Giovanni Cherubini, Luca Benini, Abu Sebastian, Abbas Rahimi(参考訳) 古いクラスの知識を忘れずに新しいデータから新しいクラスを継続的に学習することは、非常に難しい研究課題である。 さらに、そのような学習は特定の記憶と計算上の制約を尊重しなければならない。 (i)トレーニングサンプルはクラスごとに数個に制限されている。 (ii)新しいクラスを学習する計算コストは一定であり、 (iii)モデルのメモリフットプリントは、観察されるクラス数とともに最も線形に増加する。 以上の制約を満たすため,C-FSCILを提案する。C-FSCILは,凍結したメタ学習型特徴抽出器,トレーニング可能な固定サイズ完全連結層,および,遭遇するクラス数と同じくらい多くのベクトルを格納する動的に増大するメモリである。 c-fscilは3つの更新モードを提供し、新しいクラスを学習する精度と計算メモリコストのトレードオフを提供する。 C-FSCILは超次元埋め込みを利用して、最小の干渉でベクトル空間の固定次元よりも多くのクラスを連続的に表現することができる。 クラスベクトル表現の品質は、新しい損失関数を用いて準直交的に互いに整列することでさらに向上する。 CIFAR100、miniImageNet、Omniglotデータセットの実験では、C-FSCILは驚くほど精度と圧縮でベースラインを上回っている。 また、1200のベースクラス上の423の新規クラスを1.6%未満の精度で学習することで、この数ショット環境で試みられた最大の問題サイズまでスケールアップする。 私たちのコードはhttps://github.com/IBM/constrained-FSCILで利用可能です。

Continually learning new classes from fresh data without forgetting previous knowledge of old classes is a very challenging research problem. Moreover, it is imperative that such learning must respect certain memory and computational constraints such as (i) training samples are limited to only a few per class, (ii) the computational cost of learning a novel class remains constant, and (iii) the memory footprint of the model grows at most linearly with the number of classes observed. To meet the above constraints, we propose C-FSCIL, which is architecturally composed of a frozen meta-learned feature extractor, a trainable fixed-size fully connected layer, and a rewritable dynamically growing memory that stores as many vectors as the number of encountered classes. C-FSCIL provides three update modes that offer a trade-off between accuracy and compute-memory cost of learning novel classes. C-FSCIL exploits hyperdimensional embedding that allows to continually express many more classes than the fixed dimensions in the vector space, with minimal interference. The quality of class vector representations is further improved by aligning them quasi-orthogonally to each other by means of novel loss functions. Experiments on the CIFAR100, miniImageNet, and Omniglot datasets show that C-FSCIL outperforms the baselines with remarkable accuracy and compression. It also scales up to the largest problem size ever tried in this few-shot setting by learning 423 novel classes on top of 1200 base classes with less than 1.6% accuracy drop. Our code is available at https://github.com/IBM/constrained-FSCIL.
翻訳日:2022-04-02 12:15:21 公開日:2022-03-30
# (参考訳) 言語モデルを用いたindic言語の音声認識の改善

Improving Speech Recognition for Indic Languages using Language Model ( http://arxiv.org/abs/2203.16595v1 )

ライセンス: CC BY 4.0
Ankur Dhuriya, Harveen Singh Chadha, Anirudh Gupta, Priyanshi Shah, Neeraj Chhimwal, Rishabh Gaur, Vivek Raghavan(参考訳) 本研究は,言語モデル(lm)が言語用自動音声認識(asr)システムの出力に与える影響について検討する。 We fine-tune wav2vec $2.0$ models for 18$ Indic languages and adjust the formula with language model training on text from various sources。 その結果、平均文字誤り率(cer)は28$0%以上減少し、平均単語誤り率(wer)はlmによる復号後に約36$0%減少することが判明した。 大規模なLMでは,多種多様なLMに比べ,大幅な改善が得られないことが示される。 また、ASRモデルを再トレーニングすることなく、ドメイン固有データ上で高品質な転写が得られ、バイオメディカルドメインで結果が示されることを示した。

We study the effect of applying a language model (LM) on the output of Automatic Speech Recognition (ASR) systems for Indic languages. We fine-tune wav2vec $2.0$ models for $18$ Indic languages and adjust the results with language models trained on text derived from a variety of sources. Our findings demonstrate that the average Character Error Rate (CER) decreases by over $28$ \% and the average Word Error Rate (WER) decreases by about $36$ \% after decoding with LM. We show that a large LM may not provide a substantial improvement as compared to a diverse one. We also demonstrate that high quality transcriptions can be obtained on domain-specific data without retraining the ASR model and show results on biomedical domain.
翻訳日:2022-04-02 12:14:15 公開日:2022-03-30
# (参考訳) 単語誤り率(word error rate)は、indic言語における音声認識の優れた評価指標か?

Is Word Error Rate a good evaluation metric for Speech Recognition in Indic Languages? ( http://arxiv.org/abs/2203.16601v1 )

ライセンス: CC BY 4.0
Priyanshi Shah, Harveen Singh Chadha, Anirudh Gupta, Ankur Dhuriya, Neeraj Chhimwal, Rishabh Gaur, Vivek Raghavan(参考訳) 本稿では,自動音声認識(ASR)における誤り率の計算法を提案する。 この新しいメートル法は、半分の文字を持ち、同じ文字を異なる形式で書くことができる言語のためのものである。 私たちはindic contextの主要な言語の一つであるヒンズー語で方法論を実装しており、このアプローチは大きな文字集合を含む他の類似言語にスケーラブルであると考えています。 私たちはメトリクスを代替語誤り率(awer)と代替文字エラー率(acer)と呼んでいます。 我々は、Indic言語に対してwav2vec 2.0\cite{baevski 2020wav2vec}を使ってASRモデルを訓練する。 さらに、言語モデルを使用してモデルパフォーマンスを改善します。 その結果,単語・文字レベルでの誤り率の解析が大幅に向上し,asrシステムの解釈性がawerでは3ドル~3ドル,hindiでは7ドルに向上した。 本研究は, 発音が複雑な言語では, 意味を変えずに単語を書ける方法が複数存在することを示唆する。 そのような場合、AWERとACERはメトリクスとしてWERとCERよりも役に立つでしょう。 さらに、Hindiの新しいメトリックスクリプトで21時間のベンチマークデータセットをオープンソース化しました。

We propose a new method for the calculation of error rates in Automatic Speech Recognition (ASR). This new metric is for languages that contain half characters and where the same character can be written in different forms. We implement our methodology in Hindi which is one of the main languages from Indic context and we think this approach is scalable to other similar languages containing a large character set. We call our metrics Alternate Word Error Rate (AWER) and Alternate Character Error Rate (ACER). We train our ASR models using wav2vec 2.0\cite{baevski2020wav2vec} for Indic languages. Additionally we use language models to improve our model performance. Our results show a significant improvement in analyzing the error rates at word and character level and the interpretability of the ASR system is improved upto $3$\% in AWER and $7$\% in ACER for Hindi. Our experiments suggest that in languages which have complex pronunciation, there are multiple ways of writing words without changing their meaning. In such cases AWER and ACER will be more useful rather than WER and CER as metrics. Furthermore, we open source a new benchmarking dataset of 21 hours for Hindi with the new metric scripts.
翻訳日:2022-04-02 12:07:21 公開日:2022-03-30
# (参考訳) 時系列深層学習を用いたスクリーン検出肺結節の診断精度の向上

Enhancing Cancer Prediction in Challenging Screen-Detected Incident Lung Nodules Using Time-Series Deep Learning ( http://arxiv.org/abs/2203.16606v1 )

ライセンス: CC BY 4.0
Shahab Aslani, Pavan Alluri, Eyjolfur Gudmundsson, Edward Chandy, John McCabe, Anand Devaraj, Carolyn Horst, Sam M Janes, Rahul Chakkara, Arjun Nair, Daniel C Alexander, SUMMIT consortium, and Joseph Jacob(参考訳) 肺がんは世界中でがん関連死亡の原因となっている。 低用量CTによる肺がん検診(LCS)は,早期に癌性肺結節を検出することにより,肺がんの死亡率を著しく低下させることが証明された。 肺結節の悪性度リスクの階層化を改善するには, マシン/ディープ学習アルゴリズムを用いる。 しかし既存のアルゴリズムの多くは a) 主に単点CTデータのみを評価した結果、縦断的画像データセットに含まれる固有の利点を活用できない。 b) リスク予測を示唆する臨床データをコンピュータモデルに統合していないこと。 c) 放射線科医が解釈し、分析ツールからの援助が最も有益であるノジュールのスペクトルにおけるアルゴリズムのパフォーマンスを評価していないこと。 本稿では3つの縦断的データ領域(結節特異的、肺特異的、臨床統計データ)にまたがる多モデル情報を統合する時系列深層学習モデル(DeepCAD-NLM-L)の性能について述べる。 私たちは時系列ディープラーニングモデルと比べました。 a) 診断に最も困難な結節を多く含む国立肺検診所のCTの放射線技師のパフォーマンス b) 北ロンドンlcs研究(summit)による結節管理アルゴリズム。 本モデルでは, 難治性肺結節の解釈において, 放射線科医に比較し, 相補的な性能を示し, 単一時間点データのみを用いたモデルに対する性能改善(auc=88\%)を示した。 その結果,LCSにおける悪性度リスクの解釈における時系列・マルチモーダル分析の重要性を強調した。

Lung cancer is the leading cause of cancer-related mortality worldwide. Lung cancer screening (LCS) using annual low-dose computed tomography (CT) scanning has been proven to significantly reduce lung cancer mortality by detecting cancerous lung nodules at an earlier stage. Improving risk stratification of malignancy risk in lung nodules can be enhanced using machine/deep learning algorithms. However most existing algorithms: a) have primarily assessed single time-point CT data alone thereby failing to utilize the inherent advantages contained within longitudinal imaging datasets; b) have not integrated into computer models pertinent clinical data that might inform risk prediction; c) have not assessed algorithm performance on the spectrum of nodules that are most challenging for radiologists to interpret and where assistance from analytic tools would be most beneficial. Here we show the performance of our time-series deep learning model (DeepCAD-NLM-L) which integrates multi-model information across three longitudinal data domains: nodule-specific, lung-specific, and clinical demographic data. We compared our time-series deep learning model to a) radiologist performance on CTs from the National Lung Screening Trial enriched with the most challenging nodules for diagnosis; b) a nodule management algorithm from a North London LCS study (SUMMIT). Our model demonstrated comparable and complementary performance to radiologists when interpreting challenging lung nodules and showed improved performance (AUC=88\%) against models utilizing single time-point data only. The results emphasise the importance of time-series, multi-modal analysis when interpreting malignancy risk in LCS.
翻訳日:2022-04-02 11:59:55 公開日:2022-03-30
# (参考訳) 自律システムにおける機械認識改善のための知識に基づくエンティティ予測

Knowledge-based Entity Prediction for Improved Machine Perception in Autonomous Systems ( http://arxiv.org/abs/2203.16616v1 )

ライセンス: CC BY-SA 4.0
Ruwan Wickramarachchi, Cory Henson, Amit Sheth(参考訳) 知識に基づくエンティティ予測(KEP)は、自律システムにおける機械認識を改善することを目的とした新しいタスクである。 KEPは、不均一な情報源からのリレーショナル知識を利用して、潜在的に認識されていないエンティティを予測する。 本稿では,知識完了タスクとしてKEPを形式的に定義する。 次に、いくつかの機械学習とデータマイニング技術を使用する3つの潜在的なソリューションが導入される。 最後に、KEPの適用性は、異なるドメインの2つの自律システム、すなわち自律運転とスマート製造で実証される。 複雑な現実のシステムでは、kepの使用は機械の認識を大幅に改善し、現在の技術は完全な自律性の実現に一歩近づいた。

Knowledge-based entity prediction (KEP) is a novel task that aims to improve machine perception in autonomous systems. KEP leverages relational knowledge from heterogeneous sources in predicting potentially unrecognized entities. In this paper, we provide a formal definition of KEP as a knowledge completion task. Three potential solutions are then introduced, which employ several machine learning and data mining techniques. Finally, the applicability of KEP is demonstrated on two autonomous systems from different domains; namely, autonomous driving and smart manufacturing. We argue that in complex real-world systems, the use of KEP would significantly improve machine perception while pushing the current technology one step closer to achieving the full autonomy.
翻訳日:2022-04-02 11:49:21 公開日:2022-03-30
# (参考訳) 腫瘍浸潤リンパ球分類のための連合学習

Federated Learning for the Classification of Tumor Infiltrating Lymphocytes ( http://arxiv.org/abs/2203.16622v1 )

ライセンス: CC BY 4.0
Ujjwal Baid, Sarthak Pati, Tahsin M. Kurc, Rajarsi Gupta, Erich Bremer, Shahira Abousamra, Siddhesh P. Thakur, Joel H. Saltz, Spyridon Bakas(参考訳) デジタル化組織断面解析のための深層学習モデルの開発において,フェデレートラーニング(FL)の性能を評価する。 また,全スライド画像(WSI)中の腫瘍浸潤リンパ球の分布を定量化するための分類法を例に検討した。 深層学習分類モデルをWSIから抽出した50*50平方ミクロンパッチを用いて訓練した。 The Cancer Genome Atlasレポジトリで利用可能な多数の解剖学的部位から,WSIから生成されたデータセットを8つのノードに分割したFL環境をシミュレーションした。 本研究の結果から,フェデレートトレーニングアプローチでトレーニングしたモデルは,集中的な場所で学習したトレーニングデータすべてを用いてトレーニングしたモデルと,定量的かつ定性的に類似した性能が得られることがわかった。 病理組織学画像解析のためのより堅牢で正確なモデルの開発を可能にする上で,flは大きなトレーニングデータを単一の場所で収集する必要なく,大きな可能性を秘めている。

We evaluate the performance of federated learning (FL) in developing deep learning models for analysis of digitized tissue sections. A classification application was considered as the example use case, on quantifiying the distribution of tumor infiltrating lymphocytes within whole slide images (WSIs). A deep learning classification model was trained using 50*50 square micron patches extracted from the WSIs. We simulated a FL environment in which a dataset, generated from WSIs of cancer from numerous anatomical sites available by The Cancer Genome Atlas repository, is partitioned in 8 different nodes. Our results show that the model trained with the federated training approach achieves similar performance, both quantitatively and qualitatively, to that of a model trained with all the training data pooled at a centralized location. Our study shows that FL has tremendous potential for enabling development of more robust and accurate models for histopathology image analysis without having to collect large and diverse training data at a single location.
翻訳日:2022-04-02 11:38:33 公開日:2022-03-30
# (参考訳) メッシュを用いた部分微分方程式の物理制約付き教師なし学習

Physics-constrained Unsupervised Learning of Partial Differential Equations using Meshes ( http://arxiv.org/abs/2203.16628v1 )

ライセンス: CC BY 4.0
Mike Y. Michelis and Robert K. Katzschmann(参考訳) 物理方程式の知識によるニューラルネットワークの強化は、流体の流れから電磁界まで、様々な物理問題を解く効率的な方法となっている。 グラフニューラルネットワークは、不規則にメッシュされたオブジェクトを正確に表現し、それらのダイナミクスを学ぶことを約束する。 本研究では、メッシュをグラフとして自然に表現し、グラフネットワークを用いて処理し、物理に基づく損失を定式化し、偏微分方程式(PDE)の教師なし学習フレームワークを提供する。 この結果と古典的数値PDE解法を定量的に比較し, 実時間で境界条件を調整し, ベースライン解に十分近い計算効率のよいPDE解法を, 対話型PDE解法として利用できることを示す。 我々の本質的に微分可能なフレームワークは、ソフトボディ変形のモデルベース制御や、完全に微分可能なパイプラインを必要とする勾配ベースの最適化など、インタラクティブな設定でPDEソルバを適用できるようにする。

Enhancing neural networks with knowledge of physical equations has become an efficient way of solving various physics problems, from fluid flow to electromagnetism. Graph neural networks show promise in accurately representing irregularly meshed objects and learning their dynamics, but have so far required supervision through large datasets. In this work, we represent meshes naturally as graphs, process these using Graph Networks, and formulate our physics-based loss to provide an unsupervised learning framework for partial differential equations (PDE). We quantitatively compare our results to a classical numerical PDE solver, and show that our computationally efficient approach can be used as an interactive PDE solver that is adjusting boundary conditions in real-time and remains sufficiently close to the baseline solution. Our inherently differentiable framework will enable the application of PDE solvers in interactive settings, such as model-based control of soft-body deformations, or in gradient-based optimization methods that require a fully differentiable pipeline.
翻訳日:2022-04-02 11:22:36 公開日:2022-03-30
# (参考訳) 不均質な訓練バッチアセンブリを用いた話者表現の生成

Generation of Speaker Representations Using Heterogeneous Training Batch Assembly ( http://arxiv.org/abs/2203.16646v1 )

ライセンス: CC BY 4.0
Yu-Huai Peng, Hung-Shin Lee, Pin-Tuan Huang, Hsin-Min Wang(参考訳) 従来の話者ダイアリゼーションシステムにおいて、十分に訓練された話者モデルは、長い音声セッションにおいて連続的および部分的に重なるセグメントから表現を抽出するキーコンポーネントである。 バックエンドセグメンテーションとクラスタリングをより一貫性のあるものにするため、各トレーニングセグメントとバッチにおける話者の多様性を考慮した新しいcnnベースの話者モデリング手法を提案する。 我々は、トレーニングデータをランダムに合成して、複数の話者といくつかの重複部分を含む一連のセグメントに拡張する。 話者占有率に基づいて各セグメントにソフトラベルを課し、モデルトレーニングにおいて標準クロスエントロピー損失を実施する。 このように、話者モデルは、各マルチスピーカーセグメントに対して幾何学的に意味のある埋め込みを生成する能力を持つべきである。 実験の結果,2つの話者ダイアリゼーションタスクにおいて,xベクトルを用いたベースラインシステムよりも優れていることがわかった。 NIST SRE と Switchboard のデータセットに基づいて訓練された CALLHOME タスクにおいて,本システムは DER の相対減少率 12.93% を達成する。 CHiME-6のトラック2では, DER, JER, WERの相対減少率は13.24%, 12.60%, 5.65%であった。

In traditional speaker diarization systems, a well-trained speaker model is a key component to extract representations from consecutive and partially overlapping segments in a long speech session. To be more consistent with the back-end segmentation and clustering, we propose a new CNN-based speaker modeling scheme, which takes into account the heterogeneity of the speakers in each training segment and batch. We randomly and synthetically augment the training data into a set of segments, each of which contains more than one speaker and some overlapping parts. A soft label is imposed on each segment based on its speaker occupation ratio, and the standard cross entropy loss is implemented in model training. In this way, the speaker model should have the ability to generate a geometrically meaningful embedding for each multi-speaker segment. Experimental results show that our system is superior to the baseline system using x-vectors in two speaker diarization tasks. In the CALLHOME task trained on the NIST SRE and Switchboard datasets, our system achieves a relative reduction of 12.93% in DER. In Track 2 of CHiME-6, our system provides 13.24%, 12.60%, and 5.65% relative reductions in DER, JER, and WER, respectively.
翻訳日:2022-04-02 11:05:49 公開日:2022-03-30
# (参考訳) 機械学習アルゴリズムを使ったリアリティーtv出会い番組「$\textit{the bachelor}$」の勝者予測

Predicting Winners of the Reality TV Dating Show $\textit{The Bachelor}$ Using Machine Learning Algorithms ( http://arxiv.org/abs/2203.16648v1 )

ライセンス: CC BY 4.0
Abigail J. Lee, Grace E. Chesmore, Kyle A. Rocha, Amanda Farah, Maryum Sayeed, Justin Myles(参考訳) $\textit{The Bachelor}$は8週間の撮影期間に約30人の女性コンテスト参加者のプールから1人の独身が妻を選ぶリアリティ番組である(American Broadcasting Company 2002)。 11~25シーズンに出場した422名(年齢、出身地、キャリア、レース、ウィーク)について、最初の1対1のデート、最初の印象が上昇したかどうか、そして最終的に得られる「場所」について、以下のデータを集めました。 次に、3つの機械学習モデルをトレーニングし、$\textit{The Bachelor}$で、成功した競合者の理想的な特性を予測する。 私たちがテストした3つのアルゴリズムは、ランダムフォレスト分類、ニューラルネットワーク、線形回帰です。 3つのモデルで一貫性を見出したが、ニューラルネットワークは全体として最高に機能した。 われわれのモデルでは、女性が$\textit{The Bachelor}$で最も進歩する確率が最も高いのは、北西から26歳、白人がダンサーとして働き、週6で1オン1を受け取り、第一印象のバラを受け取らなかったことである。 我々の手法は、すべてのロマンチックなリアリティーテレビに広く適用されており、われわれの結果は将来の$\textit{The Bachelor}$生産と競争戦略を知らせる。 我々のモデルは比較的成功したが、それでも高い誤分類率に遭遇した。 1) トレーニングデータセットが400点未満であったり,(2) シーズンを通じて複雑なロマンチックなつながりをパラメータ化するには,モデルがあまりにも単純であったりする。

$\textit{The Bachelor}$ is a reality TV dating show in which a single bachelor selects his wife from a pool of approximately 30 female contestants over eight weeks of filming (American Broadcasting Company 2002). We collected the following data on all 422 contestants that participated in seasons 11 through 25: their Age, Hometown, Career, Race, Week they got their first 1-on-1 date, whether they got the first impression rose, and what "place" they ended up getting. We then trained three machine learning models to predict the ideal characteristics of a successful contestant on $\textit{The Bachelor}$. The three algorithms that we tested were: random forest classification, neural networks, and linear regression. We found consistency across all three models, although the neural network performed the best overall. Our models found that a woman has the highest probability of progressing far on $\textit{The Bachelor}$ if she is: 26 years old, white, from the Northwest, works as an dancer, received a 1-on-1 in week 6, and did not receive the First Impression Rose. Our methodology is broadly applicable to all romantic reality television, and our results will inform future $\textit{The Bachelor}$ production and contestant strategies. While our models were relatively successful, we still encountered high misclassification rates. This may be because: (1) Our training dataset had fewer than 400 points or (2) Our models were too simple to parameterize the complex romantic connections contestants forge over the course of a season.
翻訳日:2022-04-02 10:53:32 公開日:2022-03-30
# (参考訳) 数ショットデータ拡張におけるGAN活用の課題

Challenges in leveraging GANs for few-shot data augmentation ( http://arxiv.org/abs/2203.16662v1 )

ライセンス: CC BY 4.0
Christopher Beckham, Issam Laradji, Pau Rodriguez, David Vazquez, Derek Nowrouzezahrai, Christopher Pal(参考訳) 本稿では,ganを用いた少数ショットデータ拡張を,少数ショットの分類性能を向上させる手法として利用することを検討する。 このようなタスクに対するganの微調整(その1つがクラスインクリメンタルな方法である)や、これらのモデルがいかにうまく機能し、少数ショットの分類を改善するかに関する厳密な実証調査を実施します。 我々は,このような生成モデルを純粋に監督された体制下で訓練することの難しさに関する問題や,既存の作品の評価プロトコルに関する問題を明らかにする。 また、この方式では、分類精度はデータセットのクラスをランダムに分割する方法に非常に敏感である。 そこで本研究では,より実用的な手法として,半教師付き微調整手法を提案する。

In this paper, we explore the use of GAN-based few-shot data augmentation as a method to improve few-shot classification performance. We perform an exploration into how a GAN can be fine-tuned for such a task (one of which is in a class-incremental manner), as well as a rigorous empirical investigation into how well these models can perform to improve few-shot classification. We identify issues related to the difficulty of training such generative models under a purely supervised regime with very few examples, as well as issues regarding the evaluation protocols of existing works. We also find that in this regime, classification accuracy is highly sensitive to how the classes of the dataset are randomly split. Therefore, we propose a semi-supervised fine-tuning approach as a more pragmatic way forward to address these problems.
翻訳日:2022-04-02 10:45:51 公開日:2022-03-30
# (参考訳) Oracleの不均一処理によるフレキシブルで効率的なコンテキスト帯域

Flexible and Efficient Contextual Bandits with Heterogeneous Treatment Effect Oracle ( http://arxiv.org/abs/2203.16668v1 )

ライセンス: CC BY 4.0
Aldo Gael Carranza, Sanath Kumar Krishnamurthy, Susan Athey(参考訳) 多くの一般的なコンテキストバンディットアルゴリズムは、意思決定に報奨モデルを見積もる。 しかし、真の報酬は、意思決定に関係のない行動非依存の冗長性を含み、正確な推定の統計的複雑さを増大させるだけである。 アクション間の報酬差を説明する最も単純な関数、すなわち不均質な処理効果を推定するのは、報奨よりも構造化され、よりシンプルであると一般的に理解されている。 この観察により、近年のオラクルベースのアルゴリズムの研究に基づいて、異種処理効果推定オラクルを用いた統計的に最適で計算効率の高いアルゴリズムを設計した。 以上の結果から, 汎用的異種処理効果推定法にコンテクストバンディットを初めて普遍的に還元した。 提案手法は,二乗誤差回帰オラクルに基づく報酬推定手法よりも誤特定のモデル化に頑健であることを示す。 実験では,報奨評価よりもコンテキストバンディットにおける不均質な処理効果推定の利点を示す。

Many popular contextual bandit algorithms estimate reward models to inform decision making. However, true rewards can contain action-independent redundancies that are not relevant for decision making and only increase the statistical complexity of accurate estimation. It is sufficient and more data-efficient to estimate the simplest function that explains the reward differences between actions, that is, the heterogeneous treatment effect, commonly understood to be more structured and simpler than the reward. Motivated by this observation, building on recent work on oracle-based algorithms, we design a statistically optimal and computationally efficient algorithm using heterogeneous treatment effect estimation oracles. Our results provide the first universal reduction of contextual bandits to a general-purpose heterogeneous treatment effect estimation method. We show that our approach is more robust to model misspecification than reward estimation methods based on squared error regression oracles. Experimentally, we show the benefits of heterogeneous treatment effect estimation in contextual bandits over reward estimation.
翻訳日:2022-04-02 10:26:08 公開日:2022-03-30
# (参考訳) 核規範正規化によるシステム同定

System Identification via Nuclear Norm Regularization ( http://arxiv.org/abs/2203.16673v1 )

ライセンス: CC BY 4.0
Yue Sun and Samet Oymak and Maryam Fazel(参考訳) 本稿では,ハンケル核ノルム正規化による低次線形系同定の問題について述べる。 ハンケル正則化はハンケル行列の低ランク性を促進し、システムの低次性にマップする。 この正規化のための新しい統計解析を行い、非正規化常用最小二乗推定器と慎重に対比する。 本解析は,インパルス応答とハンケル行列を線形系に関連付けて推定する新たな限界をもたらす。 まず,入力励振の設計を行い,ハンケル正則化により,真の系順に最適観測数を用いてシステムを復元し,強い統計的推定率が得られることを示す。 驚いたことに、我々は入力設計が本当に重要であることを証明し、すなわちガウス入力のような直感的な選択が証明可能な準最適サンプル複雑性をもたらすことを示した。 正規化の利点をよりよく理解するために、OLS推定器を再検討する。 1) 遅いインパルス応答減衰を持つ低次系では, OLS法はサンプルの複雑さの観点からは不十分であり, (2) 正規化によって得られたハンケル行列は, システム順序の同定が容易な特異値ギャップを有し, (3) ハンケル正則化はハイパーパラメータ選択に敏感ではない。 最後に,準最適推定のための正規化パラメータを調整した共同列車検証手法によりモデル選択保証を確立する。

This paper studies the problem of identifying low-order linear systems via Hankel nuclear norm regularization. Hankel regularization encourages the low-rankness of the Hankel matrix, which maps to the low-orderness of the system. We provide novel statistical analysis for this regularization and carefully contrast it with the unregularized ordinary least-squares (OLS) estimator. Our analysis leads to new bounds on estimating the impulse response and the Hankel matrix associated with the linear system. We first design an input excitation and show that Hankel regularization enables one to recover the system using optimal number of observations in the true system order and achieve strong statistical estimation rates. Surprisingly, we demonstrate that the input design indeed matters, by showing that intuitive choices such as i.i.d. Gaussian input leads to provably sub-optimal sample complexity. To better understand the benefits of regularization, we also revisit the OLS estimator. Besides refining existing bounds, we experimentally identify when regularized approach improves over OLS: (1) For low-order systems with slow impulse-response decay, OLS method performs poorly in terms of sample complexity, (2) Hankel matrix returned by regularization has a more clear singular value gap that ease identification of the system order, (3) Hankel regularization is less sensitive to hyperparameter choice. Finally, we establish model selection guarantees through a joint train-validation procedure where we tune the regularization parameter for near-optimal estimation.
翻訳日:2022-04-02 09:57:52 公開日:2022-03-30
# (参考訳) knowledge-spreader: 非常に限られたラベルで顔のアクションユニットのダイナミクスを学ぶ

Knowledge-Spreader: Learning Facial Action Unit Dynamics with Extremely Limited Labels ( http://arxiv.org/abs/2203.16678v1 )

ライセンス: CC BY 4.0
Xiaotian Li, Xiang Zhang, Taoyue Wang, Lijun Yin(参考訳) 顔行動自動検出装置(au)の最近の研究は大規模アノテーションに広く依存している。 しかし、手動のAUラベリングは難しく、時間がかかり、コストもかかる。 既存の半教師付き作品の多くは、時間領域からの情報的手がかりを無視し、高度に注釈付けされたビデオに依存するため、学習プロセスの効率が低下する。 そこで本研究では,従来の手法と異なる,深い半教師付きフレームワークであるknowledge-spreader (ks) を提案する。 まず、人間の知識を制約としてエンコードする代わりに、ksは分布の一般化能力を強化するために空間-時間相関の知識を学習する。 第2に,複数の学生ネットワークにおける一貫性正規化と擬似ラベルを交互に動的に適用することにより,ksにアプローチする。 ラベル付きフレームからラベル付きデータに空間知識を広め、部分的にラベル付きビデオクリップの時間情報を完成させる。 これにより、KSは1つのラベルしか割り当てられていないビデオクリップからAUのダイナミックスを学ぶことができ、アノテーションの使用要件を大幅に削減できる。 BP4Dでは2%,disFAでは5%のラベルしか使用していない状況下では,提案したKSは,芸術の状況と比較して競争性能が向上することを示した。 さらに,本研究は,人間の感情コンピューティングにおけるアノテーションやアイデンティティの不足を解消するために,高度に同期されたセンサモードのかなりのサンプルを含む大規模総合感情データベース上でテストする。 新しいデータベースは研究コミュニティに公開される予定だ。

Recent studies on the automatic detection of facial action unit (AU) have extensively relied on large-sized annotations. However, manually AU labeling is difficult, time-consuming, and costly. Most existing semi-supervised works ignore the informative cues from the temporal domain, and are highly dependent on densely annotated videos, making the learning process less efficient. To alleviate these problems, we propose a deep semi-supervised framework Knowledge-Spreader (KS), which differs from conventional methods in two aspects. First, rather than only encoding human knowledge as constraints, KS also learns the Spatial-Temporal AU correlation knowledge in order to strengthen its out-of-distribution generalization ability. Second, we approach KS by applying consistency regularization and pseudo-labeling in multiple student networks alternately and dynamically. It spreads the spatial knowledge from labeled frames to unlabeled data, and completes the temporal information of partially labeled video clips. Thus, the design allows KS to learn AU dynamics from video clips with only one label allocated, which significantly reduce the requirements of using annotations. Extensive experiments demonstrate that the proposed KS achieves competitive performance as compared to the state of the arts under the circumstances of using only 2% labels on BP4D and 5% labels on DISFA. In addition, we test it on our newly developed large-scale comprehensive emotion database, which contains considerable samples across well-synchronized and aligned sensor modalities for easing the scarcity issue of annotations and identities in human affective computing. The new database will be released to the research community.
翻訳日:2022-04-02 09:05:07 公開日:2022-03-30
# (参考訳) Waldoを見つけるにはコンテキストクイズが必要:Waldoを嫌う人

To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo ( http://arxiv.org/abs/2203.16682v1 )

ライセンス: CC BY 4.0
Yiran Luo, Pratyay Banerjee, Tejas Gokhale, Yezhou Yang, Chitta Baral(参考訳) 我々は、whoのwaldoデータセットにおいて、cui et al. (2021) によって最初に提案されたパーソン・セントリック・ビジュアル・グラウンド(pcvg)タスクのためのデバイアス・データセットを提案する。 画像とキャプションが与えられた場合、PCVGはキャプションに記載されている人物の名前と、画像内の人物を指し示す境界ボックスをペアリングする必要がある。 このタスクのためにコンパイルされたwhoのwaldoデータセットには、ヒューリスティックな方法で簡単に解くことができる多数の偏りのあるサンプルが含まれていることがわかりました。 当然、これらのバイアスデータに基づいてトレーニングされたモデルは、ベンチマークのパフォーマンスを過大評価する。 正しい理由によりモデルが正しいことを強制するために、字幕に動詞がない、あるいは結合した名前の長い連鎖があるなど、不十分なコンテキストの例をすべて除外することで、元のデータセットをフィルタリングし、デバイアスする自動化ツールを設計します。 実験の結果,新しいサブサンプルデータセットではヒューリスティックな性能が大幅に低下し,ヒューリスティックな手法と教師あり手法のギャップが拡大した。 また、debiasedトレーニングセットでトレーニングされたベンチマークモデルが、debiasedテストセットでトレーニングされた元のバイアス(およびより大きな)トレーニングセットよりも優れていることも示しています。 偏りのあるデータセットは、PCVGタスクに信頼性の高いベンチマークと今後の改善のためのより実用的なベースラインを提供します。

We present a debiased dataset for the Person-centric Visual Grounding (PCVG) task first proposed by Cui et al. (2021) in the Who's Waldo dataset. Given an image and a caption, PCVG requires pairing up a person's name mentioned in a caption with a bounding box that points to the person in the image. We find that the original Who's Waldo dataset compiled for this task contains a large number of biased samples that are solvable simply by heuristic methods; for instance, in many cases the first name in the sentence corresponds to the largest bounding box, or the sequence of names in the sentence corresponds to an exact left-to-right order in the image. Naturally, models trained on these biased data lead to over-estimation of performance on the benchmark. To enforce models being correct for the correct reasons, we design automated tools to filter and debias the original dataset by ruling out all examples of insufficient context, such as those with no verb or with a long chain of conjunct names in their captions. Our experiments show that our new sub-sampled dataset contains less bias with much lowered heuristic performances and widened gaps between heuristic and supervised methods. We also demonstrate the same benchmark model trained on our debiased training set outperforms that trained on the original biased (and larger) training set on our debiased test set. We argue our debiased dataset offers the PCVG task a more practical baseline for reliable benchmarking and future improvements.
翻訳日:2022-04-02 09:03:59 公開日:2022-03-30
# (参考訳) 学習と一般化の尺度としての準直交性と内在次元

Quasi-orthogonality and intrinsic dimensions as measures of learning and generalisation ( http://arxiv.org/abs/2203.16687v1 )

ライセンス: CC BY 4.0
Qinghua Zhou, Alexander N. Gorban, Evgeny M. Mirkes, Jonathan Bac, Andrei Zinovyev, Ivan Y. Tyukin(参考訳) 深層ニューラルネットワークのような学習機械の最良のアーキテクチャを見つけることは、技術的、理論的によく知られた課題である。 Mellor et al (2021) による最近の研究は、訓練されたネットワークの精度とランダムに初期化されたネットワーク上で定義されたいくつかの計算可能な測定値の間に相関関係があることを示し、トレーニングなしで何万ものニューラルネットワークを探索できる可能性がある。 Mellorらは全てのReLUニューロンで評価されたハミング距離をそのような尺度として用いた。 これらの知見に触発されて、我々の研究で、与えられた神経アーキテクチャの成功の決定要因として使用できる他の、おそらくはより原理化された尺度の存在について疑問を呈する。 特に,ニューラルネットワークの特徴空間の次元性と準直交性が,トレーニング後のネットワークの性能と相関するかどうかを検討した。 我々は,Mellorなどの設定を用いて,次元性や準直交性がネットワークの性能差別要因として機能することを示した。 ニューラルアーキテクチャ探索を加速する新たな機会を提供するとともに、ネットワークの最終性能とランダムに初期化された特徴空間(データ次元と準直交性)の特性との間に重要な関係があることを示唆する。

Finding best architectures of learning machines, such as deep neural networks, is a well-known technical and theoretical challenge. Recent work by Mellor et al (2021) showed that there may exist correlations between the accuracies of trained networks and the values of some easily computable measures defined on randomly initialised networks which may enable to search tens of thousands of neural architectures without training. Mellor et al used the Hamming distance evaluated over all ReLU neurons as such a measure. Motivated by these findings, in our work, we ask the question of the existence of other and perhaps more principled measures which could be used as determinants of success of a given neural architecture. In particular, we examine, if the dimensionality and quasi-orthogonality of neural networks' feature space could be correlated with the network's performance after training. We showed, using the setup as in Mellor et al, that dimensionality and quasi-orthogonality may jointly serve as network's performance discriminants. In addition to offering new opportunities to accelerate neural architecture search, our findings suggest important relationships between the networks' final performance and properties of their randomly initialised feature spaces: data dimension and quasi-orthogonality.
翻訳日:2022-04-02 08:53:36 公開日:2022-03-30
# (参考訳) mae-ast: マスク付き自動エンコーディングオーディオスペクトログラムトランスフォーマ

MAE-AST: Masked Autoencoding Audio Spectrogram Transformer ( http://arxiv.org/abs/2203.16691v1 )

ライセンス: CC BY 4.0
Alan Baade, Puyuan Peng, David Harwath(参考訳) 本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対して,簡易かつ強力な改良を提案する。 具体的には、ssastが事前トレーニング中に非常に高いマスク比(75%)を使用しているという洞察を利用する。 マスク付きオートエンコーダからのエンコーダ-デコーダアーキテクチャはスケーラブルなビジョン学習者(mae)をssastに統合し,深いエンコーダが未入力入力でのみ動作し,浅いデコーダがエンコーダ出力とマスクトークンを操作する。 maeライクなプリトレーニングは,通常のモデルと入力サイズによる現在のオーディオプリトレーニング戦略を用いて,バニラssastの3倍のスピードアップと2倍のメモリ使用率削減を実現することができる。 エンコーダのみを使用するダウンストリームタスクの微調整を行う場合,このアプローチは,ダウンストリームタスクのssastよりも優れています。 さらに,視覚領域と音声領域のMAEスタイルの事前学習の違いを探索し,事前学習の異なる戦略を総合的に評価する。

In this paper, we propose a simple yet powerful improvement over the recent Self-Supervised Audio Spectrogram Transformer (SSAST) model for speech and audio classification. Specifically, we leverage the insight that the SSAST uses a very high masking ratio (75%) during pretraining, meaning that the vast majority of self-attention compute is performed on mask tokens. We address this by integrating the encoder-decoder architecture from Masked Autoencoders are Scalable Vision Learners (MAE) into the SSAST, where a deep encoder operates on only unmasked input, and a shallow decoder operates on encoder outputs and mask tokens. We find that MAE-like pretraining can provide a 3x speedup and 2x memory usage reduction over the vanilla SSAST using current audio pretraining strategies with ordinary model and input sizes. When fine-tuning on downstream tasks, which only uses the encoder, we find that our approach outperforms the SSAST on a variety of downstream tasks. We further conduct comprehensive evaluations into different strategies of pretraining and explore differences in MAE-style pretraining between the visual and audio domains.
翻訳日:2022-04-02 08:44:47 公開日:2022-03-30
# (参考訳) ゼロショット音声変換のためのロバスト距離変分音声表現学習

Robust Disentangled Variational Speech Representation Learning for Zero-shot Voice Conversion ( http://arxiv.org/abs/2203.16705v1 )

ライセンス: CC BY 4.0
Jiachen Lian and Chunlei Zhang and Dong Yu(参考訳) 従来の音声変換(VC)の研究は、並列訓練データと既知の話者で進展している。 より良いアライメントモジュールや表現的マッピング関数を探索することで、優れた音声変換品質が得られる。 本研究では,ゼロショットVCを,自己教師付き無拘束音声表現学習の新たな視点から検討する。 具体的には、逐次変分オートエンコーダ(VAE)において、グローバル話者表現と時変コンテンツ表現との間の情報フローのバランスをとることで、この絡み合いを実現する。 VAEデコーダに任意の話者埋め込みとコンテンツ埋め込みを供給してゼロショット音声変換を行う。 さらに、学習した表現ノイズを不変にするために、オンザフライデータ拡張トレーニング戦略を適用する。 TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性と類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。

Traditional studies on voice conversion (VC) have made progress with parallel training data and known speakers. Good voice conversion quality is obtained by exploring better alignment modules or expressive mapping functions. In this study, we investigate zero-shot VC from a novel perspective of self-supervised disentangled speech representation learning. Specifically, we achieve the disentanglement by balancing the information flow between global speaker representation and time-varying content representation in a sequential variational autoencoder (VAE). A zero-shot voice conversion is performed by feeding an arbitrary speaker embedding and content embeddings to the VAE decoder. Besides that, an on-the-fly data augmentation training strategy is applied to make the learned representation noise invariant. On TIMIT and VCTK datasets, we achieve state-of-the-art performance on both objective evaluation, i.e., speaker verification (SV) on speaker embedding and content embedding, and subjective evaluation, i.e., voice naturalness and similarity, and remains to be robust even with noisy source/target utterances.
翻訳日:2022-04-02 08:32:29 公開日:2022-03-30
# (参考訳) モンテカルロ木探索に基づく変分量子回路のハイブリッド最適化

Monte Carlo Tree Search based Hybrid Optimization of Variational Quantum Circuits ( http://arxiv.org/abs/2203.16707v1 )

ライセンス: CC BY 4.0
Jiahao Yao, Haoya Li, Marin Bukov, Lin Lin, Lexing Ying(参考訳) 変分量子アルゴリズムは、近未来のフォールトトレラント量子デバイスに関するシミュレーションの最前線にある。 ほとんどの変分量子アルゴリズムは連続最適化変数のみを含むが、変分アンサッツの表現力は、一般化量子近似最適化アルゴリズム(qaoa)によって例示されるように、ある離散最適化変数を追加することで著しく向上することがある。 しかし、一般化されたQAOAにおけるハイブリッド離散連続最適化問題は、最適化に挑戦する。 本稿では,モンテカルロ木探索法と改良された自然方針勾配解法を組み合わせたMCTS-QAOAという新しいアルゴリズムを提案し,量子回路の離散変数と連続変数をそれぞれ最適化する。 MCTS-QAOAは耐雑音性に優れ、一般化QAOAの挑戦事例において先行アルゴリズムよりも優れていた。

Variational quantum algorithms stand at the forefront of simulations on near-term and future fault-tolerant quantum devices. While most variational quantum algorithms involve only continuous optimization variables, the representational power of the variational ansatz can sometimes be significantly enhanced by adding certain discrete optimization variables, as is exemplified by the generalized quantum approximate optimization algorithm (QAOA). However, the hybrid discrete-continuous optimization problem in the generalized QAOA poses a challenge to the optimization. We propose a new algorithm called MCTS-QAOA, which combines a Monte Carlo tree search method with an improved natural policy gradient solver to optimize the discrete and continuous variables in the quantum circuit, respectively. We find that MCTS-QAOA has excellent noise-resilience properties and outperforms prior algorithms in challenging instances of the generalized QAOA.
翻訳日:2022-04-02 08:19:44 公開日:2022-03-30
# (参考訳) マルチタスク学習のためのタスク適応パラメータ共有

Task Adaptive Parameter Sharing for Multi-Task Learning ( http://arxiv.org/abs/2203.16708v1 )

ライセンス: CC BY 4.0
Matthew Wallingford, Hao Li, Alessandro Achille, Avinash Ravichandran, Charless Fowlkes, Rahul Bhotika, Stefano Soatto(参考訳) 幅広い能力で事前訓練されたモデルに適応することは、幅広い下流タスクを学ぶための標準的なプラクティスとなっている。 各タスクで異なるモデルを微調整する典型的なアプローチはパフォーマンスだが、かなりのメモリコストがかかる。 複数のダウンストリームタスクを効率的に学習するために、より小さなタスク固有のレイヤのサブセットを適応的に修正することにより、新しいタスクにベースモデルをチューニングする一般的な方法であるtask adaptive parameter sharing (taps)を導入する。 これにより、使用するリソースとタスク間の競合を最小限に抑えながら、マルチタスク学習が可能になる。 TAPSは、どの層をベースモデルと共有すべきか、タスク固有の重みの値を決定する共同最適化問題を解く。 さらに、アクティブ層数に対する空間的ペナルティは、ベースモデルとの重み共有を促進する。 他の方法と比較して、tapsは下流タスクの精度を保ちつつ、タスク固有のパラメータも少ない。 さらに、TAPSはモデルアーキテクチャに非依存であり、トレーニングスキームに小さな変更しか必要としない。 我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。

Adapting pre-trained models with broad capabilities has become standard practice for learning a wide range of downstream tasks. The typical approach of fine-tuning different models for each task is performant, but incurs a substantial memory cost. To efficiently learn multiple downstream tasks we introduce Task Adaptive Parameter Sharing (TAPS), a general method for tuning a base model to a new task by adaptively modifying a small, task-specific subset of layers. This enables multi-task learning while minimizing resources used and competition between tasks. TAPS solves a joint optimization problem which determines which layers to share with the base model and the value of the task-specific weights. Further, a sparsity penalty on the number of active layers encourages weight sharing with the base model. Compared to other methods, TAPS retains high accuracy on downstream tasks while introducing few task-specific parameters. Moreover, TAPS is agnostic to the model architecture and requires only minor changes to the training scheme. We evaluate our method on a suite of fine-tuning tasks and architectures (ResNet, DenseNet, ViT) and show that it achieves state-of-the-art performance while being simple to implement.
翻訳日:2022-04-02 08:18:44 公開日:2022-03-30
# Token-Level Speaker Embeddingsを用いたストリーミング話者分散ASR

Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings ( http://arxiv.org/abs/2203.16685v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng, Xiaofei Wang, Yashesh Gaur, Zhuo Chen, Jinyu Li, Takuya Yoshioka(参考訳) 本稿では,複数の話者が同時に話している場合でも,低レイテンシで"誰が何を話したか"を認識できる,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。 本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。 話者のアイデンティティをさらに認識するために,非重複音声だけでなく重複音声からも認識されるトークンごとの話者表現を推定できるエンコーダデコーダに基づく話者埋め込み抽出器を提案する。 提案した話者埋め込みはt-vectorと呼ばれ、t-SOT ASRモデルと同期して抽出され、低レイテンシで話者識別(SID)と話者ダイアリゼーション(SD)を同時実行することができる。 LibriSpeechMix と LibriCSS コーパスを用いて, ASR と SID/SD の共同作業のためのモデルの評価を行った。 提案モデルは,先行するストリーミングモデルよりも大幅に精度が向上し,最先端のオフラインsa-asrモデルに匹敵する,あるいは時には優れた結果が得られる。

This paper presents a streaming speaker-attributed automatic speech recognition (SA-ASR) model that can recognize "who spoke what" with low latency even when multiple people are speaking simultaneously. Our model is based on token-level serialized output training (t-SOT) which was recently proposed to transcribe multi-talker speech in a streaming fashion. To further recognize speaker identities, we propose an encoder-decoder based speaker embedding extractor that can estimate a speaker representation for each recognized token not only from non-overlapping speech but also from overlapping speech. The proposed speaker embedding, named t-vector, is extracted synchronously with the t-SOT ASR model, enabling joint execution of speaker identification (SID) or speaker diarization (SD) with the multi-talker transcription with low latency. We evaluate the proposed model for a joint task of ASR and SID/SD by using LibriSpeechMix and LibriCSS corpora. The proposed model achieves substantially better accuracy than a prior streaming model and shows comparable or sometimes even superior results to the state-of-the-art offline SA-ASR model.
翻訳日:2022-04-01 16:18:28 公開日:2022-03-30
# COSMOS:ターゲット認識ドメイン翻訳と反復自己評価に基づく3次元医用画像分割のためのクロスモーダル非教師付きドメイン適応

COSMOS: Cross-Modality Unsupervised Domain Adaptation for 3D Medical Image Segmentation based on Target-aware Domain Translation and Iterative Self-Training ( http://arxiv.org/abs/2203.16557v1 )

ライセンス: Link先を確認
Hyungseob Shin, Hyeongyu Kim, Sewon Kim, Yohan Jun, Taejoon Eo and Dosik Hwang(参考訳) 深層学習に基づく医用画像分割研究の最近の進歩は、完全に監視された状態においてほぼ人間レベルの性能を達成する。 しかし, 医用画像の分野では, ピクセルレベルの専門家アノテーションの取得は非常に高価であり, 手間がかかる。 教師なしのドメイン適応はこの問題を緩和し、1つの画像モダリティで注釈付きデータを使用して、ラベルなしでターゲット画像モダリティのセグメンテーションを成功させるネットワークを訓練することができる。 本研究では,COSMOSと命名された3次元医用画像セグメンテーションのための自己学習に基づく教師なし領域適応フレームワークを提案し,高分解能T2磁気共鳴画像(MRI)を用いた前庭神経腫瘍(VS)とコクランの自動セグメンテーションによる評価を行った。 提案ネットワークは,T1 MRI に付加したソース領域を擬似的 T2 MRI に変換して,対象領域におけるセグメンテーショントレーニングを実現するとともに,変換画像に対する重要な解剖学的特徴を保存する。 反復的な自己学習に続いて、ラベルのないデータをトレーニングに取り入れ、擬似ラベルの品質を段階的に改善することで、セグメンテーションのパフォーマンスが向上する。 COSMOSは、第24回医用画像コンピューティングおよびコンピュータ支援介入会議(MICCAI 2021)と共同で開催されたクロスモダリティドメイン適応(cross-Modality Domain Adaptation,crossMoDA)チャレンジで1\textsuperscript{st}の座を獲得した。 平均サイススコアと平均対称表面距離は、vsでは 0.871(0.063) と 0.437(0.270)、cochleaでは 0.842(0.020) と 0.152(0.030) である。

Recent advances in deep learning-based medical image segmentation studies achieve nearly human-level performance when in fully supervised condition. However, acquiring pixel-level expert annotations is extremely expensive and laborious in medical imaging fields. Unsupervised domain adaptation can alleviate this problem, which makes it possible to use annotated data in one imaging modality to train a network that can successfully perform segmentation on target imaging modality with no labels. In this work, we propose a self-training based unsupervised domain adaptation framework for 3D medical image segmentation named COSMOS and validate it with automatic segmentation of Vestibular Schwannoma (VS) and cochlea on high-resolution T2 Magnetic Resonance Images (MRI). Our target-aware contrast conversion network translates source domain annotated T1 MRI to pseudo T2 MRI to enable segmentation training on target domain, while preserving important anatomical features of interest in the converted images. Iterative self-training is followed to incorporate unlabeled data to training and incrementally improve the quality of pseudo-labels, thereby leading to improved performance of segmentation. COSMOS won the 1\textsuperscript{st} place in the Cross-Modality Domain Adaptation (crossMoDA) challenge held in conjunction with the 24th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2021). It achieves mean Dice score and Average Symmetric Surface Distance of 0.871(0.063) and 0.437(0.270) for VS, and 0.842(0.020) and 0.152(0.030) for cochlea.
翻訳日:2022-04-01 16:14:57 公開日:2022-03-30
# DDNeRF:深さ分布ニューラルラジアンス場

DDNeRF: Depth Distribution Neural Radiance Fields ( http://arxiv.org/abs/2203.16626v1 )

ライセンス: Link先を確認
David Dadon, Ohad Fried, Yacov Hel-Or(参考訳) 近年では、暗黙的な神経表現の分野が著しく進歩している。 比較的小さなニューラルネットワークを使用するneural radiance fields(nerf)のようなモデルは、高品質なシーンを表現でき、新しいビュー合成のために最先端の結果を得ることができる。 しかし、これらのタイプのネットワークのトレーニングはまだ計算コストが非常に高い。 本研究は, トレーニング中の放射線のサンプリング効率を大幅に向上させるとともに, 所定のサンプリング予算に対して優れた結果を得る新しい手法であるDDNeRFを提案する。 DDNeRFは、光線に沿った密度分布をより正確に表現することでこれを達成している。 より具体的には、体積の総密度に加えて入力体積の透明度の内部分布を予測するために粗いモデルを訓練する。 このより詳細な分布は、ファインモデルのサンプリング手順を導く。 この方法では,計算資源を減らしながら,トレーニング中に少ないサンプルを使用できる。

In recent years, the field of implicit neural representation has progressed significantly. Models such as neural radiance fields (NeRF), which uses relatively small neural networks, can represent high-quality scenes and achieve state-of-the-art results for novel view synthesis. Training these types of networks, however, is still computationally very expensive. We present depth distribution neural radiance field (DDNeRF), a new method that significantly increases sampling efficiency along rays during training while achieving superior results for a given sampling budget. DDNeRF achieves this by learning a more accurate representation of the density distribution along rays. More specifically, we train a coarse model to predict the internal distribution of the transparency of an input volume in addition to the volume's total density. This finer distribution then guides the sampling procedure of the fine model. This method allows us to use fewer samples during training while reducing computational resources.
翻訳日:2022-04-01 16:14:26 公開日:2022-03-30
# 正則化非凸および非滑らか二値最適化のための高速収束近位アルゴリズム

A Fast and Convergent Proximal Algorithm for Regularized Nonconvex and Nonsmooth Bi-level Optimization ( http://arxiv.org/abs/2203.16615v1 )

ライセンス: Link先を確認
Ziyi Chen, Bhavya Kailkhura, Yi Zhou(参考訳) 多くの重要な機械学習アプリケーションは、正規化された非凸二レベル最適化を伴う。 しかし、既存の勾配に基づく二レベル最適化アルゴリズムは非凸あるいは非滑らかな正規化器を扱えないため、非凸二レベル最適化において高い計算複雑性に悩まされる。 本研究では,非凸および非滑らかな正規化器を用いた非凸二レベル最適化に対して,近似的暗黙差分法(AID)方式を用いた近似勾配型アルゴリズムを提案する。 特に、アルゴリズムはネステロフの運動量を適用し、AIDに関連する暗黙の勾配の計算を高速化する。 本稿では,本アルゴリズムの内在ポテンシャル関数を同定し,大域収束特性の包括的解析を行う。 特に, 2段階問題の臨界点へのモデルパラメータの収束を正式に確立し, 改良された計算複雑性 $\mathcal{O}(\kappa^{3.5}\epsilon^{-2})$ を得る。 さらに,このアルゴリズムの漸近収束率を,ojasiewicz型勾配不等式を特徴とする局所非凸幾何学のクラスで解析した。 ハイパーパラメータ最適化実験は,アルゴリズムの有効性を実証する。

Many important machine learning applications involve regularized nonconvex bi-level optimization. However, the existing gradient-based bi-level optimization algorithms cannot handle nonconvex or nonsmooth regularizers, and they suffer from a high computation complexity in nonconvex bi-level optimization. In this work, we study a proximal gradient-type algorithm that adopts the approximate implicit differentiation (AID) scheme for nonconvex bi-level optimization with possibly nonconvex and nonsmooth regularizers. In particular, the algorithm applies the Nesterov's momentum to accelerate the computation of the implicit gradient involved in AID. We provide a comprehensive analysis of the global convergence properties of this algorithm through identifying its intrinsic potential function. In particular, we formally establish the convergence of the model parameters to a critical point of the bi-level problem, and obtain an improved computation complexity $\mathcal{O}(\kappa^{3.5}\epsilon^{-2})$ over the state-of-the-art result. Moreover, we analyze the asymptotic convergence rates of this algorithm under a class of local nonconvex geometries characterized by a {\L}ojasiewicz-type gradient inequality. Experiment on hyper-parameter optimization demonstrates the effectiveness of our algorithm.
翻訳日:2022-04-01 16:11:51 公開日:2022-03-30
# ロバスト最適化のための関連シナリオのデータ駆動予測

Data-driven Prediction of Relevant Scenarios for Robust Optimization ( http://arxiv.org/abs/2203.16642v1 )

ライセンス: Link先を確認
Marc Goerigk and Jannis Kurtz(参考訳) 本研究は,決定論的問題が容易であっても解くのが難しい離散不確実性集合を持つ一段階と二段階の頑健な問題について検討する。 一般的なソリューションメソッドは、シナリオ制約や第2ステージ変数を反復的に生成します。 このように、より小さな問題の列を解くことで、全てのシナリオを同時に考慮する複雑さを避けることができる。 反復的なメソッドのパフォーマンスの重要な要素は、スタートシナリオの優れた選択である。 本稿では,データ駆動型ヒューリスティックによる反復解法を,プロセスの早い段階で強い下界を与える一連の開始シナリオでシードし,その結果,他のベンチマーク手法と比較して解時間を大幅に短縮する手法を提案する。 我々のヒューリスティックは、堅牢な問題インスタンスと単一シナリオの類似度の組み合わせに基づいて、トレーニングデータから情報を抽出することで、シナリオの関連性を学ぶ。 実験の結果,本手法により少数の優れた開始シナリオを予測しても,反復手法の計算時間を著しく短縮できることがわかった。

In this work we study robust one- and two-stage problems with discrete uncertainty sets which are known to be hard to solve even if the underlying deterministic problem is easy. Popular solution methods iteratively generate scenario constraints and possibly second-stage variables. This way, by solving a sequence of smaller problems, it is often possible to avoid the complexity of considering all scenarios simultaneously. A key ingredient for the performance of the iterative methods is a good selection of start scenarios. In this paper we propose a data-driven heuristic to seed the iterative solution method with a set of starting scenarios that provide a strong lower bound early in the process, and result in considerably smaller overall solution times compared to other benchmark methods. Our heuristic learns the relevance of a scenario by extracting information from training data based on a combined similarity measure between robust problem instances and single scenarios. Our experiments show that predicting even a small number of good start scenarios by our method can considerably reduce the computation time of the iterative methods.
翻訳日:2022-04-01 16:11:31 公開日:2022-03-30
# 二元進化シミュレーションの計算効率分布のためのアクティブラーニング

Active Learning for Computationally Efficient Distribution of Binary Evolution Simulations ( http://arxiv.org/abs/2203.16683v1 )

ライセンス: Link先を確認
Kyle Akira Rocha, Jeff J. Andrews, Christopher P. L. Berry, Zoheyr Doctor, Pablo Marchant, Vicky Kalogera, Scott Coughlin, Simone S. Bavera, Aaron Dotter, Tassos Fragos, Konstantinos Kovlakas, Devina Misra, Zepei Xing, Emmanouil Zapartas(参考訳) 連星は様々な相互作用と進化段階を経て、観測された性質の予測と説明に欠かせない。 完全な恒星構造と進化シミュレーションによる二進数合成は、大量の質量移動配列を必要とする計算コストが高い。 最近開発された二進数合成符号POSYDONは、MESA二進数星シミュレーションの格子を組み込んで、巨大な二進数の大規模集団をモデル化する。 従来の高密度の直線格子の計算法は、高次元の格子ではスケーラブルではなく、金属度、回転、偏心度の範囲を考慮に入れている。 我々は,データ収集プロセスにおける機械学習を用いて,対象とするシミュレーションを適応的かつ反復的に選択する,新しい能動的学習アルゴリズムであるpsy-crisを提案する。 おもちゃの問題に対してpsy-crisを試験し、結果として得られたトレーニングセットは正規またはランダムにサンプリングされたグリッドよりも正確な分類と回帰のシミュレーションを少なくする。 我々はさらに,MESAシミュレーションの動的グリッド構築の目的問題に対してpsy-crisを適用し,微調整がなくても,リチリニアグリッドのサイズが$\sim 1/4$のシミュレーションセットで同じ分類精度を実現することができることを示した。 対象のアプリケーションにアルゴリズムパラメータを最適化した場合,さらなる利益が期待できる。 分類の最適化は、回帰においてパフォーマンスの損失をもたらすだけであり、その逆である。 グリッドの計算コストを下げることで、ポシドンの将来のバージョンは補間精度を維持しつつより多くの入力パラメータをカバーすることができる。

Binary stars undergo a variety of interactions and evolutionary phases, critical for predicting and explaining observed properties. Binary population synthesis with full stellar-structure and evolution simulations are computationally expensive requiring a large number of mass-transfer sequences. The recently developed binary population synthesis code POSYDON incorporates grids of MESA binary star simulations which are then interpolated to model large-scale populations of massive binaries. The traditional method of computing a high-density rectilinear grid of simulations is not scalable for higher-dimension grids, accounting for a range of metallicities, rotation, and eccentricity. We present a new active learning algorithm, psy-cris, which uses machine learning in the data-gathering process to adaptively and iteratively select targeted simulations to run, resulting in a custom, high-performance training set. We test psy-cris on a toy problem and find the resulting training sets require fewer simulations for accurate classification and regression than either regular or randomly sampled grids. We further apply psy-cris to the target problem of building a dynamic grid of MESA simulations, and we demonstrate that, even without fine tuning, a simulation set of only $\sim 1/4$ the size of a rectilinear grid is sufficient to achieve the same classification accuracy. We anticipate further gains when algorithmic parameters are optimized for the targeted application. We find that optimizing for classification only may lead to performance losses in regression, and vice versa. Lowering the computational cost of producing grids will enable future versions of POSYDON to cover more input parameters while preserving interpolation accuracies.
翻訳日:2022-04-01 16:11:14 公開日:2022-03-30
# 機械学習による科学記事の生成

Generating Scientific Articles with Machine Learning ( http://arxiv.org/abs/2203.16569v1 )

ライセンス: Link先を確認
Eliot H. Ayache and Conor M.B. Omand(参考訳) 近年、機械学習の分野は急速に成長し、画像認識、自然言語処理、予測モデリングなど様々な分野で応用されている。 本稿では,機械学習の科学論文生成への応用について検討する。 本稿では,機械学習を用いて科学論文のデータセットに基づいて科学論文を生成する手法を提案する。 この方法は、機械学習アルゴリズムを使用して、科学論文の構造と科学論文からなる訓練データの集合を学習する。 機械学習アルゴリズムは、科学論文のデータセットに基づいて科学論文を生成するために使用される。 生成した記事と手書き記事の集合を比較することで,提案手法の性能を評価する。 その結果,機械が生成した記事は手書きの記事と同等の品質であることがわかった。

In recent years, the field of machine learning has seen rapid growth, with applications in a variety of domains, including image recognition, natural language processing, and predictive modeling. In this paper, we explore the application of machine learning to the generation of scientific articles. We present a method for using machine learning to generate scientific articles based on a data set of scientific papers. The method uses a machine-learning algorithm to learn the structure of a scientific article and a set of training data consisting of scientific papers. The machine-learning algorithm is used to generate a scientific article based on the data set of scientific papers. We evaluate the performance of the method by comparing the generated article to a set of manually written articles. The results show that the machine-generated article is of similar quality to the manually written articles.
翻訳日:2022-04-01 15:40:41 公開日:2022-03-30
# 差分関係プライバシと質問応答への応用に向けて

Towards Differential Relational Privacy and its use in Question Answering ( http://arxiv.org/abs/2203.16701v1 )

ライセンス: Link先を確認
Simone Bombari, Alessandro Achille, Zijian Wang, Yu-Xiang Wang, Yusheng Xie, Kunwar Yashraj Singh, Srikar Appalaraju, Vijay Mahadevan, Stefano Soatto(参考訳) データセット内のエンティティ間の関係を記憶することは、質問応答にトレーニングされたモデルを使用する場合、プライバシの問題を引き起こす可能性がある。 我々は、この現象を理解し、定量化し、制御するために関係記憶(RM)を導入する。 有界一般記憶は訓練されたモデルの性能に有害な影響を与えるが、有界RMは効果的な学習を妨げない。 一般的な記憶の妨げは効果的な学習を妨げるが、リレーショナル記憶の妨げは依然として基礎となる概念の一般的な特性の学習を可能にする。 我々はリレーショナルプライバシ(RP)の概念を定式化し、ディファレンシャルプライバシ(DP)にインスパイアされたディファレンシャルリレーショナルプライバシ(DrP)の定義を提供する。 これらの概念は、トレーニングされたモデルにおけるrmの量の境界を記述し計算するのに使うことができる。 質問応答のための大規模モデルを用いた実験において、関係プライバシーの概念を解説する。

Memorization of the relation between entities in a dataset can lead to privacy issues when using a trained model for question answering. We introduce Relational Memorization (RM) to understand, quantify and control this phenomenon. While bounding general memorization can have detrimental effects on the performance of a trained model, bounding RM does not prevent effective learning. The difference is most pronounced when the data distribution is long-tailed, with many queries having only few training examples: Impeding general memorization prevents effective learning, while impeding only relational memorization still allows learning general properties of the underlying concepts. We formalize the notion of Relational Privacy (RP) and, inspired by Differential Privacy (DP), we provide a possible definition of Differential Relational Privacy (DrP). These notions can be used to describe and compute bounds on the amount of RM in a trained model. We illustrate Relational Privacy concepts in experiments with large-scale models for Question Answering.
翻訳日:2022-04-01 15:18:40 公開日:2022-03-30
# HyperMorph を用いた登録ハイパーパラメータの効果の学習

Learning the Effect of Registration Hyperparameters with HyperMorph ( http://arxiv.org/abs/2203.16680v1 )

ライセンス: Link先を確認
Andrew Hoopes, Malte Hoffmann, Douglas N. Greve, Bruce Fischl, John Guttag, Adrian V. Dalca(参考訳) 我々は,学習に基づく変形可能な画像登録において,効率的なハイパーパラメータチューニングを容易にするHyperMorphを紹介する。 古典的登録アルゴリズムは、2つの画像を整列する変形場を計算するために反復的なペアワイズ最適化を行う。 最近の学習ベースのアプローチでは、大きな画像データセットを利用して、与えられた画像対の変形を迅速に推定する関数を学ぶ。 どちらの戦略においても、結果の空間対応の精度は特定のハイパーパラメータ値の選択によって強く影響される。 しかし、効果的なハイパーパラメータ探索は、しばしば異なる固定されたハイパーパラメータ値に対する複数のモデルのトレーニングを伴うため、かなりの時間と人的労力を消費する。 本研究では,超パラメータが変形場に与える影響を学習することにより,この負担を軽減するための非推奨ハイパーパラメータ学習戦略を提案する。 我々は,入力ハイパーパラメータに対する登録ネットワークのパラメータを予測するメタネットワーク(ハイパーネットワーク)を設計し,与えられたハイパーパラメータ値に対応する最適変形場を生成する単一モデルを構成する。 この戦略は、テスト時に高速で高解像度なハイパーパラメータ検索を可能にし、柔軟性を高めながら従来のアプローチの非効率性を低減する。 また,モデル初期化に対する堅牢性の向上や,データセット固有の最適なハイパーパラメータ値を迅速に識別する機能,イメージコントラスト,タスク,さらには解剖学的領域など,ハイパーモルフィックのメリットも示しています。 私たちはコードをhttp://hypermorph.voxelmorph.netで公開しています。

We introduce HyperMorph, a framework that facilitates efficient hyperparameter tuning in learning-based deformable image registration. Classical registration algorithms perform an iterative pair-wise optimization to compute a deformation field that aligns two images. Recent learning-based approaches leverage large image datasets to learn a function that rapidly estimates a deformation for a given image pair. In both strategies, the accuracy of the resulting spatial correspondences is strongly influenced by the choice of certain hyperparameter values. However, an effective hyperparameter search consumes substantial time and human effort as it often involves training multiple models for different fixed hyperparameter values and may lead to suboptimal registration. We propose an amortized hyperparameter learning strategy to alleviate this burden by learning the impact of hyperparameters on deformation fields. We design a meta network, or hypernetwork, that predicts the parameters of a registration network for input hyperparameters, thereby comprising a single model that generates the optimal deformation field corresponding to given hyperparameter values. This strategy enables fast, high-resolution hyperparameter search at test-time, reducing the inefficiency of traditional approaches while increasing flexibility. We also demonstrate additional benefits of HyperMorph, including enhanced robustness to model initialization and the ability to rapidly identify optimal hyperparameter values specific to a dataset, image contrast, task, or even anatomical region, all without the need to retrain models. We make our code publicly available at http://hypermorph.voxelmorph.net.
翻訳日:2022-04-01 15:17:52 公開日:2022-03-30
# Retrieval-Augmented Generationによるエンドツーエンド質問応答

End-to-End Table Question Answering via Retrieval-Augmented Generation ( http://arxiv.org/abs/2203.16714v1 )

ライセンス: Link先を確認
Feifei Pan, Mustafa Canim, Michael Glass, Alfio Gliozzo, James Hendler(参考訳) 既存のエンドツーエンドのテーブル質問回答(Table QA)モデルは、コーパスから関連するテーブル候補を選択するための2段階のフレームワークと、テーブル候補から正しい回答を見つけるためのリーダで構成される。 最近のtransformerベースのアプローチにより、読者モデルの精度は大幅に改善されているが、従来の情報検索手法をレトリバーとして使用する場合、全体的なパフォーマンスが低くなる。 この問題を緩和するために、T-RAG(T-to-end Table QAモデル)を導入し、非パラメトリック密度ベクトルインデックスをパラメトリックシーケンス・ツー・シーケンスモデルであるBARTと共に微調整し、応答トークンを生成する。 自然言語の問題があれば、T-RAGは統合パイプラインを使用してテーブルコーパスを自動で検索し、テーブルセルから直接正しい回答を見つける。 我々は、最近のオープンドメインテーブルQAベンチマークにT-RAGを適用し、細調整されたT-RAGモデルが、エンドツーエンドテーブルQAとテーブル検索タスクの両方で最先端のパフォーマンスを達成できることを実証する。

Most existing end-to-end Table Question Answering (Table QA) models consist of a two-stage framework with a retriever to select relevant table candidates from a corpus and a reader to locate the correct answers from table candidates. Even though the accuracy of the reader models is significantly improved with the recent transformer-based approaches, the overall performance of such frameworks still suffers from the poor accuracy of using traditional information retrieval techniques as retrievers. To alleviate this problem, we introduce T-RAG, an end-to-end Table QA model, where a non-parametric dense vector index is fine-tuned jointly with BART, a parametric sequence-to-sequence model to generate answer tokens. Given any natural language question, T-RAG utilizes a unified pipeline to automatically search through a table corpus to directly locate the correct answer from the table cells. We apply T-RAG to recent open-domain Table QA benchmarks and demonstrate that the fine-tuned T-RAG model is able to achieve state-of-the-art performance in both the end-to-end Table QA and the table retrieval tasks.
翻訳日:2022-04-01 15:14:15 公開日:2022-03-30
# 視覚言語ナビゲーションにおける命令追従と生成のための対実的サイクル一貫性学習

Counterfactual Cycle-Consistent Learning for Instruction Following and Generation in Vision-Language Navigation ( http://arxiv.org/abs/2203.16586v1 )

ライセンス: Link先を確認
Hanqing Wang, Wei Liang, Jianbing Shen, Luc Van Gool, Wenguan Wang(参考訳) 視覚言語ナビゲーション(vln: vision-language navigation)の台頭以来、次の命令で大きな進歩を遂げてきた。 指示の指導の下で環境をナビゲートするためのフォロワを構築する。しかし、逆タスクにはそれほど注意が払われていない: 命令生成 -- 話者を学習する -- ナビゲーションルートの接地記述を生成する。 既存のvlnメソッドは、話者を独立に訓練し、リッチなクロスタスク関係を無視しながら、従者を強化するためのデータ拡張ツールとして扱うことが多い。 本稿では,2つのタスクを同時に学習し,その内在的な相関を利用して各タスクの学習を促進させる手法について述べる。 このようなサイクル一貫性のある学習スキームは、ラベル付きデータで定義されたタスク固有のトレーニングターゲットを補完するものであり、ラベル付きパス(ペアの命令なしでサンプリングされる)にも適用できる。 creatorと呼ばれる別のエージェントは、反ファクト環境を生成するために追加される。 現在のシーンは大きく変わるが、オリジナルの命令を実行するのに欠かせない新しい項目は残っていない。 このように、より情報的な訓練シーンが合成され、3つのエージェントが強力なVLN学習システムを構成する。 標準ベンチマークにおける広範囲な実験により,提案手法が様々な従者モデルの性能を改善し,正確なナビゲーション命令を生成することを示した。

Since the rise of vision-language navigation (VLN), great progress has been made in instruction following -- building a follower to navigate environments under the guidance of instructions. However, far less attention has been paid to the inverse task: instruction generation -- learning a speaker~to generate grounded descriptions for navigation routes. Existing VLN methods train a speaker independently and often treat it as a data augmentation tool to strengthen the follower while ignoring rich cross-task relations. Here we describe an approach that learns the two tasks simultaneously and exploits their intrinsic correlations to boost the training of each: the follower judges whether the speaker-created instruction explains the original navigation route correctly, and vice versa. Without the need of aligned instruction-path pairs, such cycle-consistent learning scheme is complementary to task-specific training targets defined on labeled data, and can also be applied over unlabeled paths (sampled without paired instructions). Another agent, called~creator is added to generate counterfactual environments. It greatly changes current scenes yet leaves novel items -- which are vital for the execution of original instructions -- unchanged. Thus more informative training scenes are synthesized and the three agents compose a powerful VLN learning system. Extensive experiments on a standard benchmark show that our approach improves the performance of various follower models and produces accurate navigation instructions.
翻訳日:2022-04-01 15:08:22 公開日:2022-03-30
# Dessurtによるエンドツーエンド文書認識と理解

End-to-end Document Recognition and Understanding with Dessurt ( http://arxiv.org/abs/2203.16618v1 )

ライセンス: Link先を確認
Brian Davis, Bryan Morse, Bryan Price, Chris Tensmeyer, Curtis Wigington, and Vlad Morariu(参考訳) Dessurtは,従来の手法よりも多種多様な文書タスクを微調整できる,比較的単純な文書理解変換器である。 文書画像とタスク文字列を入力として受信し、任意のテキストを自動的に出力として生成する。 Dessurtは文書理解に加えてテキスト認識を行うエンドツーエンドアーキテクチャであるため、従来の方法のように外部認識モデルを必要としないため、新しいビジュアルドメインへの微調整が容易である。 このモデルが9つの異なるデータセットとタスクの組み合わせで有効であることを示す。

We introduce Dessurt, a relatively simple document understanding transformer capable of being fine-tuned on a greater variety of document tasks than prior methods. It receives a document image and task string as input and generates arbitrary text autoregressively as output. Because Dessurt is an end-to-end architecture that performs text recognition in addition to the document understanding, it does not require an external recognition model as prior methods do, making it easier to fine-tune to new visual domains. We show that this model is effective at 9 different dataset-task combinations.
翻訳日:2022-04-01 15:07:57 公開日:2022-03-30
# TR-MOT:参照による多対象追跡

TR-MOT: Multi-Object Tracking by Reference ( http://arxiv.org/abs/2203.16621v1 )

ライセンス: Link先を確認
Mingfei Chen, Yue Liao, Si Liu, Fei Wang, Jenq-Neng Hwang(参考訳) マルチオブジェクト追跡(MOT)は一般的に2つのサブタスク、すなわち検出と関連付けに分けられる。 従来の多くの手法は、まず各フレームで検出を取得し、次に隣接するフレーム間で関連付ける、検出パラダイムによる追跡に従う。 強力な検出器を利用することで印象的な性能を発揮するが、時間的情報を使用しなければ、多くの閉塞や大きな動きを伴うシーンで検出と関連づける効果は低下する。 本稿では,変形可能なトランスフォーマー構造に基づいて,フレーム間の各オブジェクトの特徴アライメントを学ぶのが自然な,より信頼性の高い関連を提供するための,新しい参照探索(rs)モジュールを提案する。 rsは、検出された結果を参照として、隣接するフレームの複合特徴から対応する特徴を集約し、各参照に対する1対1のトラック状態予測を並列に行う。 これにより、検出器からの分離による強力な検出性能を維持しつつ、視覚的な時間的特徴を活用し、予期せぬ動きに対処する信頼性の高い関連を実現することができる。 私たちのRSモジュールは、検出フレームワークによる他のトラッキング構造とも互換性があります。 さらに,オンラインMOTフレームワークとRSモジュールとの協調学習戦略と効果的なマッチングパイプラインを提案する。 提案手法は,MOT17およびMOT20データセット上での競合結果を実現する。

Multi-object Tracking (MOT) generally can be split into two sub-tasks, i.e., detection and association. Many previous methods follow the tracking by detection paradigm, which first obtain detections at each frame and then associate them between adjacent frames. Though with an impressive performance by utilizing a strong detector, it will degrade their detection and association performance under scenes with many occlusions and large motion if not using temporal information. In this paper, we propose a novel Reference Search (RS) module to provide a more reliable association based on the deformable transformer structure, which is natural to learn the feature alignment for each object among frames. RS takes previous detected results as references to aggregate the corresponding features from the combined features of the adjacent frames and makes a one-to-one track state prediction for each reference in parallel. Therefore, RS can attain a reliable association coping with unexpected motions by leveraging visual temporal features while maintaining the strong detection performance by decoupling from the detector. Our RS module can also be compatible with the structure of the other tracking by detection frameworks. Furthermore, we propose a joint training strategy and an effective matching pipeline for our online MOT framework with the RS module. Our method achieves competitive results on MOT17 and MOT20 datasets.
翻訳日:2022-04-01 15:07:48 公開日:2022-03-30
# 映像表現学習のための制御可能な拡張

Controllable Augmentations for Video Representation Learning ( http://arxiv.org/abs/2203.16632v1 )

ライセンス: Link先を確認
Rui Qian, Weiyao Lin, John See, Dian Li(参考訳) 本稿では,自己教師型ビデオ表現学習に焦点を当てた。 既存のアプローチのほとんどは、異なるクリップをサンプリングすることでポジティブなペアとネガティブなペアを構築するためのコントラスト学習パイプラインに従っている。 しかし、この定式化は静的背景に偏りがあり、グローバルな時間構造を確立するのが困難である。 主な理由は、正のペア、すなわち同じビデオからサンプリングされた異なるクリップは、時間的受容野が限られており、通常同様の背景を共有するが、動きが異なるためである。 そこで本研究では,局所クリップとグローバル動画を共同で活用し,地域レベルの詳細な対応や長期的関係から学ぶための枠組みを提案する。 制御可能な拡張のセットに基づいて,ソフト時空間コントラストによる正確な外観と動きパターンのアライメントを実現する。 提案方式は,相互情報最小化によって低レベルの冗長性近道を避け,一般化を改善できる。 また,ロバストな時間モデリングのためのクリップレベル表現とビデオレベルの表現のギャップを埋めるために,局所的グローバル時間次依存性を導入する。 広範な実験により,我々は,行動認識と映像検索における3つのビデオベンチマークにおいて,より正確な時間的ダイナミクスを捉えたフレームワークが優れていることを実証した。

This paper focuses on self-supervised video representation learning. Most existing approaches follow the contrastive learning pipeline to construct positive and negative pairs by sampling different clips. However, this formulation tends to bias to static background and have difficulty establishing global temporal structures. The major reason is that the positive pairs, i.e., different clips sampled from the same video, have limited temporal receptive field, and usually share similar background but differ in motions. To address these problems, we propose a framework to jointly utilize local clips and global videos to learn from detailed region-level correspondence as well as general long-term temporal relations. Based on a set of controllable augmentations, we achieve accurate appearance and motion pattern alignment through soft spatio-temporal region contrast. Our formulation is able to avoid the low-level redundancy shortcut by mutual information minimization to improve the generalization. We also introduce local-global temporal order dependency to further bridge the gap between clip-level and video-level representations for robust temporal modeling. Extensive experiments demonstrate that our framework is superior on three video benchmarks in action recognition and video retrieval, capturing more accurate temporal dynamics.
翻訳日:2022-04-01 15:07:31 公開日:2022-03-30
# 高分解能不均一顔幻覚のためのデータ共有化

Escaping Data Scarcity for High-Resolution Heterogeneous Face Hallucination ( http://arxiv.org/abs/2203.16669v1 )

ライセンス: Link先を確認
Yiqun Mei, Pengfei Guo, Vishal M. Patel(参考訳) Heterogeneous Face Recognition (HFR) では、視覚や熱といった2つの異なる領域にまたがる顔のマッチングが目的である。 大きなドメインの不一致はhfrを難しい問題にする。 合成によるギャップを埋めようとする最近の手法は有望な結果を得たが、ペアトレーニングデータの不足によって性能は依然として制限されている。 実際には、大規模な異種顔データは、高コストの取得およびアノテーションプロセスとプライバシー規制のためにアクセスできないことが多い。 本稿では,データ効率の良い合成を可能にするだけでなく,プライバシポリシを破ることなくモデルトレーニングをスケールアップできるhfrの新しい顔幻覚パラダイムを提案する。 顔合成を完全にスクラッチから学ぶ既存の手法とは異なり、我々のアプローチは、より忠実な幻覚のために、可視領域からリッチで多様な顔前処理を利用するように特別に設計されている。 一方, 大規模学習は, 明示的なデータ共有を回避しつつ, 機関的な連携を可能にする新しい連携学習方式を導入することで実現されている。 大規模な実験は、現在のデータ制限の下でHFRに取り組む際の我々のアプローチの利点を実証する。 統合されたフレームワークでは,複数のHFRデータセットに対する最先端の幻覚結果が得られる。

In Heterogeneous Face Recognition (HFR), the objective is to match faces across two different domains such as visible and thermal. Large domain discrepancy makes HFR a difficult problem. Recent methods attempting to fill the gap via synthesis have achieved promising results, but their performance is still limited by the scarcity of paired training data. In practice, large-scale heterogeneous face data are often inaccessible due to the high cost of acquisition and annotation process as well as privacy regulations. In this paper, we propose a new face hallucination paradigm for HFR, which not only enables data-efficient synthesis but also allows to scale up model training without breaking any privacy policy. Unlike existing methods that learn face synthesis entirely from scratch, our approach is particularly designed to take advantage of rich and diverse facial priors from visible domain for more faithful hallucination. On the other hand, large-scale training is enabled by introducing a new federated learning scheme to allow institution-wise collaborations while avoiding explicit data sharing. Extensive experiments demonstrate the advantages of our approach in tackling HFR under current data limitations. In a unified framework, our method yields the state-of-the-art hallucination results on multiple HFR datasets.
翻訳日:2022-04-01 15:07:12 公開日:2022-03-30
# PIE-Net:固有画像分解のための測光不変エッジガイドネットワーク

PIE-Net: Photometric Invariant Edge Guided Network for Intrinsic Image Decomposition ( http://arxiv.org/abs/2203.16670v1 )

ライセンス: Link先を確認
Partha Das, Sezer Karaoglu, Theo Gevers(参考訳) 内在的な画像分解は、画像から画像形成成分(反射と陰影)を回収する過程である。 従来の手法では、問題を制限するために明示的な前置法か、その損失(ディープラーニング)によって定式化される暗黙の制約を用いる。 これらの方法は、シェーディング反射漏れを引き起こす強い照明条件の影響を受けやすい。 そこで本研究では,固有画像分解のためのエッジ駆動ハイブリッドCNN手法を提案する。 エッジは照明不変勾配に対応する。 強い負の照明遷移を扱うために、グローバルおよび局所的な精錬層を含む階層的なアプローチを採る。 我々は注意層を利用して学習プロセスをさらに強化する。 エッジ駆動ハイブリッドiidネットワークが照明インバリアントディスクリプタを利用するのは,広範なアブレーション研究と大規模実験を行い,大域的および局所的な手がかりの分離がネットワークの性能向上に寄与することを示した。 最後に,提案手法は技術性能の状態を把握し,実世界の画像によく応用できることを示す。 事前訓練されたモデル、微調整されたモデル、ネットワークコードを備えたプロジェクトページはhttps://ivi.fnwi.uva.nl/cv/pienet/にある。

Intrinsic image decomposition is the process of recovering the image formation components (reflectance and shading) from an image. Previous methods employ either explicit priors to constrain the problem or implicit constraints as formulated by their losses (deep learning). These methods can be negatively influenced by strong illumination conditions causing shading-reflectance leakages. Therefore, in this paper, an end-to-end edge-driven hybrid CNN approach is proposed for intrinsic image decomposition. Edges correspond to illumination invariant gradients. To handle hard negative illumination transitions, a hierarchical approach is taken including global and local refinement layers. We make use of attention layers to further strengthen the learning process. An extensive ablation study and large scale experiments are conducted showing that it is beneficial for edge-driven hybrid IID networks to make use of illumination invariant descriptors and that separating global and local cues helps in improving the performance of the network. Finally, it is shown that the proposed method obtains state of the art performance and is able to generalise well to real world images. The project page with pretrained models, finetuned models and network code can be found at https://ivi.fnwi.uva.nl/cv/pienet/.
翻訳日:2022-04-01 15:06:52 公開日:2022-03-30
# 幾何学的に一貫した影による顔の照明

Face Relighting with Geometrically Consistent Shadows ( http://arxiv.org/abs/2203.16681v1 )

ライセンス: Link先を確認
Andrew Hou, Michel Sarkis, Ning Bi, Yiying Tong, Xiaoming Liu(参考訳) ほとんどのフェイスライトは拡散した影を扱うことができるが、鼻で投げられた影のような硬い影を扱うのに苦労している。 ハードシャドウを扱う手法を提案する手法は、それらの合成中に推定された顔形状を直接利用しないため、幾何的に一貫したシャドウを生成しないことが多い。 本稿では,光線トレーシングに基づく影の合成のための新しい微分可能アルゴリズムを提案する。 提案アルゴリズムは、推定顔形状を直接利用して、幾何的に一貫した硬い影を合成する。 我々は,Multi-PIEとFFHQの定量的および定性的な実験を通して,従来よりも幾何的に一貫した影を生成するとともに,方向性照明下での最先端の顔照明性能を実現することを実証した。 さらに,我々の微分可能なハードシャドーモデリングにより,拡散陰影モデルよりも推定顔形状の品質が向上することを示す。

Most face relighting methods are able to handle diffuse shadows, but struggle to handle hard shadows, such as those cast by the nose. Methods that propose techniques for handling hard shadows often do not produce geometrically consistent shadows since they do not directly leverage the estimated face geometry while synthesizing them. We propose a novel differentiable algorithm for synthesizing hard shadows based on ray tracing, which we incorporate into training our face relighting model. Our proposed algorithm directly utilizes the estimated face geometry to synthesize geometrically consistent hard shadows. We demonstrate through quantitative and qualitative experiments on Multi-PIE and FFHQ that our method produces more geometrically consistent shadows than previous face relighting methods while also achieving state-of-the-art face relighting performance under directional lighting. In addition, we demonstrate that our differentiable hard shadow modeling improves the quality of the estimated face geometry over diffuse shading models.
翻訳日:2022-04-01 15:06:32 公開日:2022-03-30
# ギャップの心:心の理論への深層学習アプローチの挑戦

Mind the gap: Challenges of deep learning approaches to Theory of Mind ( http://arxiv.org/abs/2203.16540v1 )

ライセンス: Link先を確認
Jaan Aru, Aqeel Labash, Oriol Corcoll, Raul Vicente(参考訳) 心の理論は、人間が他人の精神状態を推測する重要な能力である。 本稿では,心の理論への深層学習アプローチの可能性,現状,課題を整理した。 現状の多くの発見はショートカットで説明できる。 これらのショートカットは、深層学習システムにおける心の理論を研究するために使われるタスクが狭すぎるために生じる。 そこで我々は,複雑なオープンエンド環境での心の理論を研究することを奨励する。 さらに、将来の深層学習システムに刺激を与えるため、人間による以前の作業の簡潔な概要を提供する。 さらに、深層学習で心の理論を研究する場合、研究の主な焦点と貢献はネットワークの表現を開放することであるべきだと論じている。 研究者は、AIの解釈可能性の分野からのツールを使用して、異なるネットワークコンポーネントと心の理論の側面の関係を研究することを推奨する。

Theory of Mind is an essential ability of humans to infer the mental states of others. Here we provide a coherent summary of the potential, current progress, and problems of deep learning approaches to Theory of Mind. We highlight that many current findings can be explained through shortcuts. These shortcuts arise because the tasks used to investigate Theory of Mind in deep learning systems have been too narrow. Thus, we encourage researchers to investigate Theory of Mind in complex open-ended environments. Furthermore, to inspire future deep learning systems we provide a concise overview of prior work done in humans. We further argue that when studying Theory of Mind with deep learning, the research's main focus and contribution ought to be opening up the network's representations. We recommend researchers use tools from the field of interpretability of AI to study the relationship between different network components and aspects of Theory of Mind.
翻訳日:2022-04-01 14:10:37 公開日:2022-03-30
# 認知的・身体的負荷下における音声分析のためのハイブリットハンドクラフトと学習可能な音声表現

Hybrid Handcrafted and Learnable Audio Representation for Analysis of Speech Under Cognitive and Physical Load ( http://arxiv.org/abs/2203.16637v1 )

ライセンス: Link先を確認
Gasser Elbanna, Alice Biryukov, Neil Scheidwasser-Clow, Lara Orlandic, Pablo Mainar, Mikolaj Kegler, Pierre Beckmann, Milos Cernak(参考訳) 脅威や副作用に対する神経生理学的反応として、ストレスは認知、感情、行動に影響を与え、健康に悪影響を及ぼす可能性がある。 音声の感情内容は、個人の身体的および精神的な状態によって本質的に調節されるため、ストレス誘発タスク負荷のパラ言語的相関の研究にかなりの研究機関が費やされている。 これまで,従来のデジタル信号処理 (DSP) 技術を用いて音声ストレス解析 (VSA) が実施されてきた。 ディープ・ニューラル・ネットワーク(DNN)に基づく現代的な手法の開発にもかかわらず、様々なストレス要因と個人的ストレス知覚のかなりの変動により、音声中のストレスを正確に検出することは困難である。 そこで本研究では,音声におけるタスク負荷検出のための5つのデータセットを提案する。 音声記録は、ボランティアのコホートにおいて認知的ストレスまたは身体的ストレスが誘発され、100人以上の話者が累計で記録された。 このデータセットを用いて、手作り特徴(DSP)の有効性とデータ駆動型DNN表現の複雑さを活用した、新しい自己教師型音声表現の設計と評価を行った。 特に,提案手法は,広範囲な手作り特徴セットと,新しいDNNベースの音声表現学習手法よりも優れていた。

As a neurophysiological response to threat or adverse conditions, stress can affect cognition, emotion and behaviour with potentially detrimental effects on health in the case of sustained exposure. Since the affective content of speech is inherently modulated by an individual's physical and mental state, a substantial body of research has been devoted to the study of paralinguistic correlates of stress-inducing task load. Historically, voice stress analysis (VSA) has been conducted using conventional digital signal processing (DSP) techniques. Despite the development of modern methods based on deep neural networks (DNNs), accurately detecting stress in speech remains difficult due to the wide variety of stressors and considerable variability in the individual stress perception. To that end, we introduce a set of five datasets for task load detection in speech. The voice recordings were collected as either cognitive or physical stress was induced in the cohort of volunteers, with a cumulative number of more than a hundred speakers. We used the datasets to design and evaluate a novel self-supervised audio representation that leverages the effectiveness of handcrafted features (DSP-based) and the complexity of data-driven DNN representations. Notably, the proposed approach outperformed both extensive handcrafted feature sets and novel DNN-based audio representation learning approaches.
翻訳日:2022-04-01 14:10:22 公開日:2022-03-30
# 非定常強化学習のための因子適応

Factored Adaptation for Non-Stationary Reinforcement Learning ( http://arxiv.org/abs/2203.16582v1 )

ライセンス: Link先を確認
Fan Feng, Biwei Huang, Kun Zhang, Sara Magliacane(参考訳) 環境における非定常性(すなわち遷移力学)と目的(すなわち報酬関数)に対処することは、強化学習(RL)の現実的な応用において重要な課題である。 既存のアプローチのほとんどは、静止的なMDPのファミリーのみに焦点を当てており、非定常性はエピソジック、すなわち、この変化はエピソード間でのみ可能である。 特定の境界のない非定常性を考える数少ない作品、すなわちエピソード内での変更を可能にし、単一の共有埋め込みベクトルでモノリシックに変化をモデル化する。 本稿では,遷移ダイナミクスと報酬関数に影響を与える個々の潜在変化因子を明示的に学習する因子適応アプローチである非定常rl(fans-rl)に対する因子適応を提案する。 FANS-RLは、非定常変分オートエンコーダを介して、時間変化因子の構造と時間変化因子の因子表現と、それらが影響する特定の状態成分を共同で学習する。 この一般的なフレームワークを通じて、異なる関数タイプと周波数変化を持つ一般的な非定常シナリオを考えることができる。 実験結果から,fans-rlは非定常性の異なる程度に対して,既往の報酬,潜在状態表現のコンパクト性,頑健性を上回っていることがわかった。

Dealing with non-stationarity in environments (i.e., transition dynamics) and objectives (i.e., reward functions) is a challenging problem that is crucial in real-world applications of reinforcement learning (RL). Most existing approaches only focus on families of stationary MDPs, in which the non-stationarity is episodic, i.e., the change is only possible across episodes. The few works that do consider non-stationarity without a specific boundary, i.e., also allow for changes within an episode, model the changes monolithically in a single shared embedding vector. In this paper, we propose Factored Adaptation for Non-Stationary RL (FANS-RL), a factored adaption approach that explicitly learns the individual latent change factors affecting the transition dynamics and reward functions. FANS-RL learns jointly the structure of a factored MDP and a factored representation of the time-varying change factors, as well as the specific state components that they affect, via a factored non-stationary variational autoencoder. Through this general framework, we can consider general non-stationary scenarios with different changing function types and changing frequency. Experimental results demonstrate that FANS-RL outperforms existing approaches in terms of rewards, compactness of the latent state representation and robustness to varying degrees of non-stationarity.
翻訳日:2022-04-01 13:53:07 公開日:2022-03-30
# コプラを用いた合成データセットの生成とシミュレーション

Generation and Simulation of Synthetic Datasets with Copulas ( http://arxiv.org/abs/2203.17250v1 )

ライセンス: Link先を確認
Regis Houssou, Mihai-Cezar Augustin, Efstratios Rappos, Vivien Bonvin and Stephan Robert-Nicoud(参考訳) 本稿では,copulaモデルに基づく合成データセットを生成する新しい手法を提案する。 我々のゴールは、限界分布と結合分布の点で実際のデータに似た代理データを作ることである。 数値変数またはカテゴリ変数からなる合成データセットを生成するための完全かつ信頼性の高いアルゴリズムを提案する。 我々の方法論を2つのデータセットに適用すると、SMOTEやオートエンコーダといった他の手法よりも優れたパフォーマンスが得られる。

This paper proposes a new method to generate synthetic data sets based on copula models. Our goal is to produce surrogate data resembling real data in terms of marginal and joint distributions. We present a complete and reliable algorithm for generating a synthetic data set comprising numeric or categorical variables. Applying our methodology to two datasets shows better performance compared to other methods such as SMOTE and autoencoders.
翻訳日:2022-04-01 13:51:42 公開日:2022-03-30
# falcon: 画像, 言語記述, 概念関係の統合による高速な視覚概念学習

FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic descriptions, and Conceptual Relations ( http://arxiv.org/abs/2203.16639v1 )

ライセンス: Link先を確認
Lingjie Mei, Jiayuan Mao, Ziqi Wang, Chuang Gan, Joshua B. Tenenbaum(参考訳) 画像の同時閲覧、シーン内の対象を記述した文章の読解、新しい概念と他の概念を関連付けた補足文の解釈など、複数の自然発生データストリームによって導かれる1つか数つの例から、新しい視覚概念を素早く学習するためのメタ学習フレームワークを提案する。 学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。 我々のモデル、すなわちFALCONは、高次元空間(ボックス埋め込み空間)における軸整列ボックスとして色や形状などの個々の視覚概念を表す。 入力画像とその対文が与えられた場合,本モデルはまず文の参照表現を解消し,新たな概念をシーン内の特定の対象と関連付ける。 次に,本モデルは,「X has property Y」や「X is a kind of Y」など,新しい概念と他の既知の概念を関連づけるために補足文を解釈する。 最後に、共同で新しい概念のための最適なボックス埋め込みを推測します。 1)画像中の観測されたインスタンスの可能性を最大化し、 2)新しい概念と既知の概念との関係を満足する。 本モデルの有効性を合成データと実世界データの両方で実証する。

We present a meta-learning framework for learning new visual concepts quickly, from just one or a few examples, guided by multiple naturally occurring data streams: simultaneously looking at images, reading sentences that describe the objects in the scene, and interpreting supplemental sentences that relate the novel concept with other concepts. The learned concepts support downstream applications, such as answering questions by reasoning about unseen images. Our model, namely FALCON, represents individual visual concepts, such as colors and shapes, as axis-aligned boxes in a high-dimensional space (the "box embedding space"). Given an input image and its paired sentence, our model first resolves the referential expression in the sentence and associates the novel concept with particular objects in the scene. Next, our model interprets supplemental sentences to relate the novel concept with other known concepts, such as "X has property Y" or "X is a kind of Y". Finally, it infers an optimal box embedding for the novel concept that jointly 1) maximizes the likelihood of the observed instances in the image, and 2) satisfies the relationships between the novel concepts and the known ones. We demonstrate the effectiveness of our model on both synthetic and real-world datasets.
翻訳日:2022-04-01 13:25:08 公開日:2022-03-30
# 位置エンコーディングのないトランスフォーマー言語モデルはまだ位置情報を学習する

Transformer Language Models without Positional Encodings Still Learn Positional Information ( http://arxiv.org/abs/2203.16634v1 )

ライセンス: Link先を確認
Adi Haviv, Ori Ram, Ofir Press, Peter Izsak and Omer Levy(参考訳) トランスフォーマーは通常、自然言語のシーケンスを処理するために、位置埋め込みのようなある種の位置符号化を必要とする。 驚くべきことに、明示的な位置符号化のないトランスフォーマー言語モデルはまだ標準モデルと競合しており、この現象はさまざまなデータセット、モデルサイズ、シーケンス長にわたって堅牢である。 探索実験により、これらのモデルがネットワーク全体の絶対位置の暗黙的な概念を取得し、欠落した情報を効果的に補うことが明らかになった。 因果的注意により、各トークンが出席できる前任者の数を推測し、絶対的な位置を近似することができると推測する。

Transformers typically require some form of positional encoding, such as positional embeddings, to process natural language sequences. Surprisingly, we find that transformer language models without any explicit positional encoding are still competitive with standard models, and that this phenomenon is robust across different datasets, model sizes, and sequence lengths. Probing experiments reveal that such models acquire an implicit notion of absolute positions throughout the network, effectively compensating for the missing information. We conjecture that causal attention enables the model to infer the number of predecessors that each token can attend to, thereby approximating its absolute position.
翻訳日:2022-04-01 13:24:49 公開日:2022-03-30
# 広帯域量子ニューラルネットワークのダイナミクスに関する解析理論

An analytic theory for the dynamics of wide quantum neural networks ( http://arxiv.org/abs/2203.16711v1 )

ライセンス: Link先を確認
Junyu Liu, Khadijeh Najafi, Kunal Sharma, Francesco Tacchino, Liang Jiang, Antonio Mezzacapo(参考訳) パラメータ化された量子回路は、量子ニューラルネットワークとして使用することができ、学習問題を解決するために訓練されたとき、古典的回路よりも優れる可能性がある。 これまでのところ、実践的な問題におけるパフォーマンスに関する結果は、本質的にヒューリスティックである。 特に、量子ニューラルネットワークのトレーニングの収束率は、完全には理解されていない。 本稿では,変分量子機械学習モデルの訓練誤差に対する勾配降下のダイナミクスを解析する。 広い量子ニューラルネットワークを、多数の量子ビットと変動パラメータの極限におけるパラメータ化量子回路として定義する。 次に、損失関数の平均的な挙動を捉える単純な解析式を見つけ、その結果について考察する。 例えば、ランダムな量子回路では、残差トレーニング誤差の指数的減衰をシステムのパラメータの関数として予測し、特徴付ける。 解析結果を数値実験により検証した。

Parametrized quantum circuits can be used as quantum neural networks and have the potential to outperform their classical counterparts when trained for addressing learning problems. To date, much of the results on their performance on practical problems are heuristic in nature. In particular, the convergence rate for the training of quantum neural networks is not fully understood. Here, we analyze the dynamics of gradient descent for the training error of a class of variational quantum machine learning models. We define wide quantum neural networks as parameterized quantum circuits in the limit of a large number of qubits and variational parameters. We then find a simple analytic formula that captures the average behavior of their loss function and discuss the consequences of our findings. For example, for random quantum circuits, we predict and characterize an exponential decay of the residual training error as a function of the parameters of the system. We finally validate our analytic results with numerical experiments.
翻訳日:2022-04-01 13:24:19 公開日:2022-03-30
# Point Cloud Completionのためのローカル変位の学習

Learning Local Displacements for Point Cloud Completion ( http://arxiv.org/abs/2203.16600v1 )

ライセンス: Link先を確認
Yida Wang, David Joseph Tan, Nassir Navab, Federico Tombari(参考訳) 本稿では,3Dポイントクラウドとして表現された部分スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。 アーキテクチャは,エンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存し,そのタスクのために特別に開発された。 第1の方法は、事前訓練されたローカルディスクリプタのセットにポイント特徴をマッチングして特徴抽出を行う。 次に,max-poolingなどの標準動作の一部として個々のディスクリプタを失うのを避けるために,最もアクティベーションの高い特徴ベクトルを採用することに依存する別の隣接プール操作を提案する。 最後に、デコーダのアップサンプリングは、出力寸法を増やすために特徴抽出を修飾します。 このモデルはすでに最先端技術で競争力のある結果を得ることができるが、我々はさらに、プロセスポイントクラウドに対するアプローチの汎用性を高める方法を提案している。 この目的のために,トランスアーキテクチャ内にレイヤを組み立てる第2のモデルを導入する。 オブジェクトと屋内シーンのコンプリートタスクの両方のアーキテクチャを評価し,最先端のパフォーマンスを実現する。

We propose a novel approach aimed at object and semantic scene completion from a partial scan represented as a 3D point cloud. Our architecture relies on three novel layers that are used successively within an encoder-decoder structure and specifically developed for the task at hand. The first one carries out feature extraction by matching the point features to a set of pre-trained local descriptors. Then, to avoid losing individual descriptors as part of standard operations such as max-pooling, we propose an alternative neighbor-pooling operation that relies on adopting the feature vectors with the highest activations. Finally, up-sampling in the decoder modifies our feature extraction in order to increase the output dimension. While this model is already able to achieve competitive results with the state of the art, we further propose a way to increase the versatility of our approach to process point clouds. To this aim, we introduce a second model that assembles our layers within a transformer architecture. We evaluate both architectures on object and indoor scene completion tasks, achieving state-of-the-art performance.
翻訳日:2022-04-01 13:20:28 公開日:2022-03-30
# barc: 品種情報を活用した画像から3d犬の形状を復元する学習

BARC: Learning to Regress 3D Dog Shape from Images by Exploiting Breed Information ( http://arxiv.org/abs/2203.15536v2 )

ライセンス: Link先を確認
Nadine Rueegg, Silvia Zuffi, Konrad Schindler and Michael J. Black(参考訳) 私たちのゴールは、1枚の画像から犬の3D形状とポーズを復元することです。 犬には様々な形や外観があり、高い調音性があるため、これは難しい課題である。 近年の研究では、画像から手足のスケールパラメータを追加してSMAL動物モデルを直接回帰する研究が提案されている。 我々の手法はBARC(Breed-Augmented Regression using Classification)と呼ばれ、いくつかの重要な方法で先行作業を越えています。 まず,犬形を表すのに適したSMAL形状空間を修正した。 しかし、より優れた形状モデルであっても、画像から犬の形を後退させる問題は、私たちが3dの地中真実とペア画像が欠如しているため、依然として困難である。 ペアデータの欠如を補うために,犬種に関する情報を利用する新たな損失を定式化する。 特に、同じ品種の犬が同じ体型をしているという事実を利用する。 1つの用語は、同じ品種の犬の形が、異なる品種の犬とよりよく似ていることを奨励する。 2つ目は品種分類の損失であり、識別可能な種特異的な形状を作るのに役立つ。 アブレーション研究により、我々の品種の損失は、ベースラインの形状精度を大幅に向上させることがわかった。 また、BARCをWLDOと比較し、我々のアプローチがより現実的な犬を生み出すことを発見した。 この研究は、遺伝子類似性に関するアプリオリ情報が、3Dトレーニングデータの欠如を補うのに役立つことを示している。 この概念は、他の動物種や種群にも適用できる。 私たちのコードは https://barc.is.tue.mpg.de/ で公開されています。

Our goal is to recover the 3D shape and pose of dogs from a single image. This is a challenging task because dogs exhibit a wide range of shapes and appearances, and are highly articulated. Recent work has proposed to directly regress the SMAL animal model, with additional limb scale parameters, from images. Our method, called BARC (Breed-Augmented Regression using Classification), goes beyond prior work in several important ways. First, we modify the SMAL shape space to be more appropriate for representing dog shape. But, even with a better shape model, the problem of regressing dog shape from an image is still challenging because we lack paired images with 3D ground truth. To compensate for the lack of paired data, we formulate novel losses that exploit information about dog breeds. In particular, we exploit the fact that dogs of the same breed have similar body shapes. We formulate a novel breed similarity loss consisting of two parts: One term encourages the shape of dogs from the same breed to be more similar than dogs of different breeds. The second one, a breed classification loss, helps to produce recognizable breed-specific shapes. Through ablation studies, we find that our breed losses significantly improve shape accuracy over a baseline without them. We also compare BARC qualitatively to WLDO with a perceptual study and find that our approach produces dogs that are significantly more realistic. This work shows that a-priori information about genetic similarity can help to compensate for the lack of 3D training data. This concept may be applicable to other animal species or groups of species. Our code is publicly available for research purposes at https://barc.is.tue.mpg.de/.
翻訳日:2022-04-01 11:30:50 公開日:2022-03-30
# (参考訳) 強化学習におけるニューラルネットワーク表現の性質の検討

Investigating the Properties of Neural Network Representations in Reinforcement Learning ( http://arxiv.org/abs/2203.15955v1 )

ライセンス: CC BY 4.0
Han Wang, Erfan Miahi, Martha White, Marlos C. Machado, Zaheer Abbas, Raksha Kumaraswamy, Vincent Liu, Adam White(参考訳) 本稿では,深層強化学習システムで学習した表現の特性について検討する。 強化学習のための表現学習における初期の研究の多くは、直交性やスパーシティといった望ましい性質を達成するために固定ベースアーキテクチャを設計することに焦点を当てていた。 対照的に、深層強化学習手法の背後にある考え方は、エージェントデザイナーは表現特性をエンコードすべきではなく、データストリームが表現の性質を決定するべきであるということである。 本稿では,これら2つの視点を組み合わせることで,強化学習における表現の性質を実証的に検討する。 この分析により、非線形強化学習手法のエンドツーエンドトレーニングにおける補助的タスクの影響に関する新しい仮説を提供することができる。 25万以上のエージェントタスク設定に対して,6つの表現特性を導入し,測定する。 画素ベースのナビゲーション環境における畳み込みネットワークを持つDQNエージェントについて検討する。 我々は,タスクの類似性を変化させる体系的アプローチと,表現特性の測定と伝達性能との関連付けを通じて,いくつかの表現が転送にうまく働くことをよりよく理解する手法を開発した。

In this paper we investigate the properties of representations learned by deep reinforcement learning systems. Much of the earlier work in representation learning for reinforcement learning focused on designing fixed-basis architectures to achieve properties thought to be desirable, such as orthogonality and sparsity. In contrast, the idea behind deep reinforcement learning methods is that the agent designer should not encode representational properties, but rather that the data stream should determine the properties of the representation -- good representations emerge under appropriate training schemes. In this paper we bring these two perspectives together, empirically investigating the properties of representations that support transfer in reinforcement learning. This analysis allows us to provide novel hypotheses regarding impact of auxiliary tasks in end-to-end training of non-linear reinforcement learning methods. We introduce and measure six representational properties over more than 25 thousand agent-task settings. We consider DQN agents with convolutional networks in a pixel-based navigation environment. We develop a method to better understand \emph{why} some representations work better for transfer, through a systematic approach varying task similarity and measuring and correlating representation properties with transfer performance.
翻訳日:2022-04-01 04:06:08 公開日:2022-03-30
# (参考訳) 能動型話者顔を用いたテレビ番組のダイアリゼーション

Using Active Speaker Faces for Diarization in TV shows ( http://arxiv.org/abs/2203.15961v1 )

ライセンス: CC BY 4.0
Rahul Sharma and Shrikanth Narayanan(参考訳) 話者ダイアリゼーションは、物語の描写とメディアコンテンツ理解のキャラクタレベル分析を可能にするため、計算メディアインテリジェンスの重要な構成要素の1つである。 エンターテイメントメディアの自動音声ベースの話者ダイアリゼーションは、背景音楽、重複する話者、音響効果など、メディアコンテンツに存在する様々な音響条件が問題となる。 同時に、視覚的モダリティにおける発話顔は相補的な情報を提供し、オーディオ的モダリティに見られる誤りを生じさせない。 本稿では,アクティブな話者顔を用いたテレビ番組における話者ダイアリゼーションの問題に対処する。 アクティブな話者面に顔クラスタリングを行い、最先端の音声ベースダイアリゼーション法と比較して優れた話者ダイアリゼーション性能を示す。 また,アクティブな話者顔検出品質がダイアリゼーション性能に与える影響を体系的に分析した。 また、適度に高性能なアクティブな話者システムは、オーディオベースのダイアリゼーションシステムよりも優れています。

Speaker diarization is one of the critical components of computational media intelligence as it enables a character-level analysis of story portrayals and media content understanding. Automated audio-based speaker diarization of entertainment media poses challenges due to the diverse acoustic conditions present in media content, be it background music, overlapping speakers, or sound effects. At the same time, speaking faces in the visual modality provide complementary information and not prone to the errors seen in the audio modality. In this paper, we address the problem of speaker diarization in TV shows using the active speaker faces. We perform face clustering on the active speaker faces and show superior speaker diarization performance compared to the state-of-the-art audio-based diarization methods. We additionally report a systematic analysis of the impact of active speaker face detection quality on the diarization performance. We also observe that a moderately well-performing active speaker system could outperform the audio-based diarization systems.
翻訳日:2022-04-01 03:25:24 公開日:2022-03-30
# (参考訳) 完全自己スーパービジョンによるASRのフェデレーションドメイン適応

Federated Domain Adaptation for ASR with Full Self-Supervision ( http://arxiv.org/abs/2203.15966v1 )

ライセンス: CC BY 4.0
Junteng Jia, Jay Mahadeokar, Weiyi Zheng, Yuan Shangguan, Ozlem Kalinli, Frank Seide(参考訳) デバイス間フェデレーション学習(FL)は、ユーザデバイス上でモデルを協調的にトレーニングすることによって、ユーザのプライバシを保護する。 これまでは、自動音声認識(ASR)のためのデバイス間FLが検討されてきたが、未解決の課題がいくつかある。 これには、ASRの基幹転写の欠如、エッジデバイス上での計算リソースとネットワーク帯域の不足などが含まれる。 本稿では,この2つの課題に対処する。 まず,自己ラベルとデータ拡張とフィルタリングを併用した,デバイス上でのasr適応を支援するフェデレーション学習システムを提案する。 提案システムは,ドメイン外データに基づいて事前訓練された強力なEmformer-TransducerベースのASRモデルを改善することができる。 第2に,自己超越からのビタビ強制アライメントを用いたアライメント制約付きRNN-Tの新たな変種である自己制限型RNNトランスデューサ(SR-RNN-T)の損失を提案する。 計算コストとネットワークコストをさらに削減するため,エンフォーマトランスデューサ内の重みのサブセットのみを体系的に検討する。 我々の最高のトレーニングレシピは、強いドメイン外ベースラインに対する12.9%の相対的なWER削減を実現し、完全な人的監督と集中的なトレーニングで達成可能な削減の70%に匹敵する。

Cross-device federated learning (FL) protects user privacy by collaboratively training a model on user devices, therefore eliminating the need for collecting, storing, and manually labeling user data. Previous works have considered cross-device FL for automatic speech recognition (ASR), however, there are a few important challenges that have not been fully addressed. These include the lack of ground-truth ASR transcriptions, and the scarcity of compute resource and network bandwidth on edge devices. In this paper, we address these two challenges. First, we propose a federated learning system to support on-device ASR adaptation with full self-supervision, which uses self-labeling together with data augmentation and filtering techniques. The proposed system can improve a strong Emformer-Transducer based ASR model pretrained on out-of-domain data, using in-domain audios without any ground-truth transcriptions. Second, to reduce the training cost, we propose a self-restricted RNN Transducer (SR-RNN-T) loss, a new variant of alignment-restricted RNN-T that uses Viterbi forced-alignment from self-supervision. To further reduce the compute and network cost, we systematically explore adapting only a subset of weights in the Emformer-Transducer. Our best training recipe achieves a 12.9% relative WER reduction over the strong out-of-domain baseline, which equals 70% of the reduction achievable with full human supervision and centralized training.
翻訳日:2022-04-01 03:13:33 公開日:2022-03-30
# (参考訳) 動的重み付けによるマルチスケール話者ダイアリゼーション

Multi-scale Speaker Diarization with Dynamic Scale Weighting ( http://arxiv.org/abs/2203.15974v1 )

ライセンス: CC BY 4.0
Tae Jin Park, Nithin Rao Koluguri, Jagadeesh Balam and Boris Ginsburg(参考訳) 話者ダイアリゼーションシステムは、時間分解能と話者表現の忠実度とのトレードオフによって挑戦される。 高い時間分解能を精度良く得ることで、マルチスケールアプローチはそのようなトレードオフに対処する方法である。 本稿では,マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。 本研究にはダイアリゼーション性能を著しく向上させる2つの主な貢献がある。 まず,マルチスケールクラスタリングを初期化として,話者数を推定し,各話者と各尺度の平均話者表現ベクトルを求める。 次に,各時間ステップにおける各スケールの重要性を動的に決定する1次元畳み込みニューラルネットワークの利用を提案する。 可変話者数と重複音声を処理するために,提案方式では既存の話者数を推定できる。 提案システムは,callhomeおよびami mixheadsetデータセットにおいて,それぞれ3.92%と1.05%のダイアリゼーション誤差率で最先端の性能を実現する。

Speaker diarization systems are challenged by a trade-off between the temporal resolution and the fidelity of the speaker representation. By obtaining a superior temporal resolution with an enhanced accuracy, a multi-scale approach is a way to cope with such a trade-off. In this paper, we propose a more advanced multi-scale diarization system based on a multi-scale diarization decoder. There are two main contributions in this study that significantly improve the diarization performance. First, we use multi-scale clustering as an initialization to estimate the number of speakers and obtain the average speaker representation vector for each speaker and each scale. Next, we propose the use of 1-D convolutional neural networks that dynamically determine the importance of each scale at each time step. To handle a variable number of speakers and overlapping speech, the proposed system can estimate the number of existing speakers. Our proposed system achieves a state-of-art performance on the CALLHOME and AMI MixHeadset datasets, with 3.92% and 1.05% diarization error rates, respectively.
翻訳日:2022-04-01 02:58:48 公開日:2022-03-30
# (参考訳) VI-IKD:学習したビジュアル慣性逆動力学を用いた高速オフロードナビゲーション

VI-IKD: High-Speed Accurate Off-Road Navigation using Learned Visual-Inertial Inverse Kinodynamics ( http://arxiv.org/abs/2203.15983v1 )

ライセンス: CC BY 4.0
Haresh Karnan, Kavan Singh Sikand, Pranav Atreya, Sadegh Rabiee, Xuesu Xiao, Garrett Warnell, Peter Stone, Joydeep Biswas(参考訳) 地上車両の高速オフロードナビゲーションにおける重要な課題の1つは、車両の地形相互作用のキノダイナミクスが地形によって劇的に異なることである。 この課題に対処する以前のアプローチでは、車両の慣性情報に基づいてキノダイナミックな相互作用を感知する逆キノダイナミックス(ikd)モデルを学ぶことを検討した。 本稿では,学習したIKDモデルを用いた高速オフロードナビゲーションを実現するためには,過去の慣性情報に加えて,将来の地形と車両のキノダイナミックな相互作用も予測する必要がある,という仮説を立てる。 この目的のために,視覚-慣性逆動力学(VI-IKD)を導入した。これは新しい学習ベースのIKDモデルであり,過去の慣性情報に加えて,ロボットの前方の地形パッチからの視覚情報に基づいて,将来キノダイナミックな相互作用を予測できる。 室内および屋外両環境における1/5 UT-AlphaTruckオフロード自動運転車の精度の高いオフロードナビゲーションにおけるVI-IKDの有効性を検証するとともに、他の最先端のアプローチと比較して、最大3.5m/sの速度で様々な地形においてより正確で堅牢なオフロードナビゲーションを可能にすることを示す。

One of the key challenges in high speed off road navigation on ground vehicles is that the kinodynamics of the vehicle terrain interaction can differ dramatically depending on the terrain. Previous approaches to addressing this challenge have considered learning an inverse kinodynamics (IKD) model, conditioned on inertial information of the vehicle to sense the kinodynamic interactions. In this paper, we hypothesize that to enable accurate high-speed off-road navigation using a learned IKD model, in addition to inertial information from the past, one must also anticipate the kinodynamic interactions of the vehicle with the terrain in the future. To this end, we introduce Visual-Inertial Inverse Kinodynamics (VI-IKD), a novel learning based IKD model that is conditioned on visual information from a terrain patch ahead of the robot in addition to past inertial information, enabling it to anticipate kinodynamic interactions in the future. We validate the effectiveness of VI-IKD in accurate high-speed off-road navigation experimentally on a scale 1/5 UT-AlphaTruck off-road autonomous vehicle in both indoor and outdoor environments and show that compared to other state-of-the-art approaches, VI-IKD enables more accurate and robust off-road navigation on a variety of different terrains at speeds of up to 3.5 m/s.
翻訳日:2022-04-01 02:47:42 公開日:2022-03-30
# (参考訳) ソフトウェアパフォーマンスの学習において構成は重要か? 符号化方式に関する実証的研究

Does Configuration Encoding Matter in Learning Software Performance? An Empirical Study on Encoding Schemes ( http://arxiv.org/abs/2203.15988v1 )

ライセンス: CC BY 4.0
Jingzhi Gong, Tao Chen(参考訳) 構成可能なソフトウェアシステムのパフォーマンスを学習し、予測することは、よりよい品質保証を提供するのに役立つ。 そこで重要なエンジニアリング上の決定は、構成をモデルにエンコードする方法である。 異なる符号化スキームが存在するにもかかわらず、コミュニティはしばしば、その決定をアドホックな方法で知らせる一般的な信念に依存しているため、どちらが良いか、どのような状況下にあるかについての理解はほとんどない。 このギャップを埋めるため,本稿では,ソフトウェアのパフォーマンス学習に広く用いられている符号化方式であるラベル,スケールドラベル,ワンホットエンコーディングを比較した。 この研究は、5つのシステム、7つのモデル、3つの符号化スキームをカバーし、105件の調査に繋がった。 Our key findings reveal that: (1) conducting trial-and-error to find the best encoding scheme in a case by case manner can be rather expensive, requiring up to 400+ hours on some models and systems; (2) the one-hot encoding often leads to the most accurate results while the scaled label encoding is generally weak on accuracy over different models; (3) conversely, the scaled label encoding tends to result in the fastest training time across the models/systems while the one-hot encoding is the slowest; (4) for all models studied, label and scaled label encoding often lead to relatively less biased outcomes between accuracy and training time, but the paired model varies according to the system. 我々は,この話題をコミュニティにもっと理解してもらうために,我々の発見から導かれる実行可能な提案について議論する。 オープンサイエンスを促進するために、この作業のデータとコードはhttps://github.com/ideas-labo/MSR2022-encoding-studyで公開することができる。

Learning and predicting the performance of a configurable software system helps to provide better quality assurance. One important engineering decision therein is how to encode the configuration into the model built. Despite the presence of different encoding schemes, there is still little understanding of which is better and under what circumstances, as the community often relies on some general beliefs that inform the decision in an ad-hoc manner. To bridge this gap, in this paper, we empirically compared the widely used encoding schemes for software performance learning, namely label, scaled label, and one-hot encoding. The study covers five systems, seven models, and three encoding schemes, leading to 105 cases of investigation. Our key findings reveal that: (1) conducting trial-and-error to find the best encoding scheme in a case by case manner can be rather expensive, requiring up to 400+ hours on some models and systems; (2) the one-hot encoding often leads to the most accurate results while the scaled label encoding is generally weak on accuracy over different models; (3) conversely, the scaled label encoding tends to result in the fastest training time across the models/systems while the one-hot encoding is the slowest; (4) for all models studied, label and scaled label encoding often lead to relatively less biased outcomes between accuracy and training time, but the paired model varies according to the system. We discuss the actionable suggestions derived from our findings, hoping to provide a better understanding of this topic for the community. To promote open science, the data and code of this work can be publicly accessed at https://github.com/ideas-labo/MSR2022-encoding-study.
翻訳日:2022-04-01 02:32:49 公開日:2022-03-30
# (参考訳) 境界箱の音

The Sound of Bounding-Boxes ( http://arxiv.org/abs/2203.15991v1 )

ライセンス: CC BY 4.0
Takashi Oya, Shohei Iwase, Shigeo Morishima(参考訳) 音源分離に視覚情報を活用する音声視覚音源分離作業において,画像中の物体の識別は音源分離に先立って重要なステップである。 しかし、検出された境界箱に音を割り当てる既存の方法は、そのアプローチが事前訓練された物体検出器に大きく依存する問題に悩まされている。 具体的には、これらの既存手法を使用する場合、音を発生させる可能性のあるオブジェクトのすべてのカテゴリを事前に決定し、これらすべてのカテゴリに適用可能なオブジェクト検出器を使用する必要がある。 そこで本研究では,画像内の物体と音源の分離を同時に検出する完全教師なし手法を提案する。 本手法は事前学習された検出器に依存しないため,追加のアノテーションを伴わずに任意のカテゴリに適用できる。 さらに, 完全に教師なしでありながら, 分離精度が両立することを確認した。

In the task of audio-visual sound source separation, which leverages visual information for sound source separation, identifying objects in an image is a crucial step prior to separating the sound source. However, existing methods that assign sound on detected bounding boxes suffer from a problem that their approach heavily relies on pre-trained object detectors. Specifically, when using these existing methods, it is required to predetermine all the possible categories of objects that can produce sound and use an object detector applicable to all such categories. To tackle this problem, we propose a fully unsupervised method that learns to detect objects in an image and separate sound source simultaneously. As our method does not rely on any pre-trained detector, our method is applicable to arbitrary categories without any additional annotation. Furthermore, although being fully unsupervised, we found that our method performs comparably in separation accuracy.
翻訳日:2022-04-01 02:07:22 公開日:2022-03-30
# (参考訳) 最適学習

Optimal Learning ( http://arxiv.org/abs/2203.15994v1 )

ライセンス: CC BY 4.0
Peter Binev, Andrea Bonito, Ronald DeVore, and Guergana Petrova(参考訳) 本稿では、与えられたデータから未知の関数を$f$で学習する問題を考察する。 学習問題は、データから$f$の値を予測する$\hat f$から$f$の近似を与えることである。 この学習問題には、多くの設定がある。 (i)$f$に関する追加情報(モデルクラスの仮定として知られる) (ii)$\hat f$が$f$をいかに正確に予測するかを測定する方法 (iii)データ及びデータサイトについて知られているもの (iv)データ観測がノイズによって汚染されるかどうか。 最適性能の数学的記述(回復の最小限の誤差)はモデルクラス仮定の存在下で知られている。 標準モデルクラス仮定の下では、ペナルティ項によってある離散的超パラメータ最適化問題を解いて、ほぼ最適の$\hat f$を求めることができる。 ここで、最適に近いことは、誤差が最適誤差の一定倍の定数で区切られることを意味する。 これは、現代の機械学習で一般的に使用される過剰パラメータ化の利点を説明する。 本論文の主な結果は、適切な損失関数を持つ過小パラメータ学習が、データ収集を行う関数 $f$ のほぼ最適近似 $\hat f$ を与えることを示している。 量的境界は、オーバーパラメータ化がどの程度必要か、ペナリゼーションがいかにスケールされ、ほぼ最適の回復値が$f$であるかを保証するために与えられる。 これらの結果を、加法的決定論的ノイズによってデータが汚染される場合にも拡張する。

This paper studies the problem of learning an unknown function $f$ from given data about $f$. The learning problem is to give an approximation $\hat f$ to $f$ that predicts the values of $f$ away from the data. There are numerous settings for this learning problem depending on (i) what additional information we have about $f$ (known as a model class assumption), (ii) how we measure the accuracy of how well $\hat f$ predicts $f$, (iii) what is known about the data and data sites, (iv) whether the data observations are polluted by noise. A mathematical description of the optimal performance possible (the smallest possible error of recovery) is known in the presence of a model class assumption. Under standard model class assumptions, it is shown in this paper that a near optimal $\hat f$ can be found by solving a certain discrete over-parameterized optimization problem with a penalty term. Here, near optimal means that the error is bounded by a fixed constant times the optimal error. This explains the advantage of over-parameterization which is commonly used in modern machine learning. The main results of this paper prove that over-parameterized learning with an appropriate loss function gives a near optimal approximation $\hat f$ of the function $f$ from which the data is collected. Quantitative bounds are given for how much over-parameterization needs to be employed and how the penalization needs to be scaled in order to guarantee a near optimal recovery of $f$. An extension of these results to the case where the data is polluted by additive deterministic noise is also given.
翻訳日:2022-04-01 01:58:40 公開日:2022-03-30
# (参考訳) 検閲を伴う縦公平性

Longitudinal Fairness with Censorship ( http://arxiv.org/abs/2203.16024v1 )

ライセンス: CC0 1.0
Wenbin Zhang and Jeremy C. Weiss(参考訳) 人工知能の公正性に関する最近の研究は、公平性統計のパリティを達成する制約付き最適化プログラムを提案し、差別を緩和しようとする試みである。 ほとんどがクラスラベルの可用性を仮定しており、精密医学、時間的分析、再帰的予測など、多くの実世界のアプリケーションでは実用的でない。 ここでは, 連続的右検閲環境において, 事象の時期が不明な場合, クラスラベルの検閲と既存フェアネス研究の不適用性について考察する。 我々は、適用可能な公正度対策を考案し、デバイアスアルゴリズムを提案し、これらの重要かつ社会的に敏感なタスクに対して検閲なしで公正度を橋渡しするために必要な理論的構成を提供する。 4つの検閲データセットに関する実験で,提案手法の有用性を確認した。

Recent works in artificial intelligence fairness attempt to mitigate discrimination by proposing constrained optimization programs that achieve parity for some fairness statistic. Most assume availability of the class label, which is impractical in many real-world applications such as precision medicine, actuarial analysis and recidivism prediction. Here we consider fairness in longitudinal right-censored environments, where the time to event might be unknown, resulting in censorship of the class label and inapplicability of existing fairness studies. We devise applicable fairness measures, propose a debiasing algorithm, and provide necessary theoretical constructs to bridge fairness with and without censorship for these important and socially-sensitive tasks. Our experiments on four censored datasets confirm the utility of our approach.
翻訳日:2022-04-01 01:30:10 公開日:2022-03-30
# (参考訳) Clozer: Clozeスタイルの読み込み理解のための適応可能なデータ拡張

Clozer: Adaptable Data Augmentation for Cloze-style Reading Comprehension ( http://arxiv.org/abs/2203.16027v1 )

ライセンス: CC BY 4.0
Holy Lovenia, Bryan Wilie, Willy Chung, Min Zeng, Samuel Cahyawijaya, Su Dan, Pascale Fung(参考訳) task-adaptive pre-training (tapt) はラベル付きデータの欠如を軽減し、ラベルなしデータをダウンストリームタスクに適応することでパフォーマンス向上を実現する。 残念ながら、既存の適応は主によく一般化できない決定論的規則を含む。 本稿では, TAPT で使用されるシーケンスタグに基づくクローゼ応答抽出手法である Clozer を提案し, ダウンストリームタスクに対して, 任意のクローゼスタイルの機械読解(MRC) に適応できるように拡張する。 我々は,マルチチョースクローズ型のmrcタスクを実験し,モデル性能向上のタペット効果をエスカレートするために,oracleや最先端の技術と比較して,clozerが極めて優れた性能を示すとともに,どのヒューリスティックスとも独立してゴールド回答を認識可能であることを証明した。

Task-adaptive pre-training (TAPT) alleviates the lack of labelled data and provides performance lift by adapting unlabelled data to downstream task. Unfortunately, existing adaptations mainly involve deterministic rules that cannot generalize well. Here, we propose Clozer, a sequence-tagging based cloze answer extraction method used in TAPT that is extendable for adaptation on any cloze-style machine reading comprehension (MRC) downstream tasks. We experiment on multiple-choice cloze-style MRC tasks, and show that Clozer performs significantly better compared to the oracle and state-of-the-art in escalating TAPT effectiveness in lifting model performance, and prove that Clozer is able to recognize the gold answers independently of any heuristics.
翻訳日:2022-04-01 01:15:40 公開日:2022-03-30
# (参考訳) 擬似ラベルを用いた意味対応の半教師付き学習

Semi-Supervised Learning of Semantic Correspondence with Pseudo-Labels ( http://arxiv.org/abs/2203.16038v1 )

ライセンス: CC BY 4.0
Jiwon Kim, Kwangrok Ryoo, Junyoung Seo, Gyuseong Lee, Daehwan Kim, Hansang Cho, Seungryong Kim(参考訳) 意味的に類似した画像間の密接な対応を確立することは、クラス内の大きなバリエーションと背景のごちゃごちゃのために難しい課題である。 従来は教師あり学習がモデルのトレーニングに用いられ、手作業で膨大なデータをラベル付けする必要があったが、一部の手法ではラベル付きデータへの依存を軽減するために自己教師ありまたは弱い教師あり学習を提案したが、性能は限られていた。 本稿では,SemiMatch と呼ばれる疑似ラベルとして大量の信頼度対応を活用することによって,ネットワークを半教師付きで学習する,単純な,効果的なセマンティック対応ソリューションを提案する。 特に,このフレームワークは,ソースと弱いターゲットとの間のモデルの予測自身を用いて疑似ラベルを生成し,疑似ラベルを用いてソースと強い指示対象の間のモデルを再び学習し,モデルのロバスト性を向上させる。 また,意味対応に適した擬似ラベルとデータ拡張のための新しい信頼度尺度を提案する。 実験では、semimatchは様々なベンチマーク、特にpf-willowにおいて最先端のパフォーマンスを達成している。

Establishing dense correspondences across semantically similar images remains a challenging task due to the significant intra-class variations and background clutters. Traditionally, a supervised learning was used for training the models, which required tremendous manually-labeled data, while some methods suggested a self-supervised or weakly-supervised learning to mitigate the reliance on the labeled data, but with limited performance. In this paper, we present a simple, but effective solution for semantic correspondence that learns the networks in a semi-supervised manner by supplementing few ground-truth correspondences via utilization of a large amount of confident correspondences as pseudo-labels, called SemiMatch. Specifically, our framework generates the pseudo-labels using the model's prediction itself between source and weakly-augmented target, and uses pseudo-labels to learn the model again between source and strongly-augmented target, which improves the robustness of the model. We also present a novel confidence measure for pseudo-labels and data augmentation tailored for semantic correspondence. In experiments, SemiMatch achieves state-of-the-art performance on various benchmarks, especially on PF-Willow by a large margin.
翻訳日:2022-04-01 01:07:02 公開日:2022-03-30
# (参考訳) 音声分離ネットワークにおける言語とチャンネルの可変性の影響について

Disentangling the Impacts of Language and Channel Variability on Speech Separation Networks ( http://arxiv.org/abs/2203.16040v1 )

ライセンス: CC BY 4.0
Fan-Lin Wang, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang(参考訳) 音声分離性能は2つの話者が完全に重なり合う音声に優れており、より現実的なシナリオを扱うことに研究の注目が移っている。 しかしながら、話者、コンテンツ、チャネル、環境などの要因による訓練/テスト状況間のドメインミスマッチは、音声分離において深刻な問題となっている。 既存の文献では話者と環境のミスマッチが研究されている。 それにもかかわらず、音声コンテンツとチャンネルミスマッチに関する研究はほとんどない。 さらに、これらの研究における言語とチャネルの影響は、主に絡み合っている。 本研究では,様々な実験のためのデータセットを複数作成する。 その結果、異なる言語の影響は、異なるチャンネルの影響と比較して無視できるほど小さいことがわかった。 実験では,Android端末が記録したデータに対するトレーニングは,最高の一般化可能性をもたらす。 さらに,提案手法では,チャネル類似度を計測し,新たなトレーニングデータを効果的に選択し,ウィジェット内テストデータの性能を向上させるため,チャネルミスマッチの新たなソリューションを提供する。

Because the performance of speech separation is excellent for speech in which two speakers completely overlap, research attention has been shifted to dealing with more realistic scenarios. However, domain mismatch between training/test situations due to factors, such as speaker, content, channel, and environment, remains a severe problem for speech separation. Speaker and environment mismatches have been studied in the existing literature. Nevertheless, there are few studies on speech content and channel mismatches. Moreover, the impacts of language and channel in these studies are mostly tangled. In this study, we create several datasets for various experiments. The results show that the impacts of different languages are small enough to be ignored compared to the impacts of different channels. In our experiments, training on data recorded by Android phones leads to the best generalizability. Moreover, we provide a new solution for channel mismatch by evaluating projection, where the channel similarity can be measured and used to effectively select additional training data to improve the performance of in-the-wild test data.
翻訳日:2022-04-01 00:46:18 公開日:2022-03-30
# (参考訳) テキスト分類のためのグラフ畳み込みネットワークの理解

Understanding Graph Convolutional Networks for Text Classification ( http://arxiv.org/abs/2203.16060v1 )

ライセンス: CC BY 4.0
Soyeon Caren Han, Zihan Yuan, Kunze Wang, Siqu Long, Josiah Poon(参考訳) グラフ畳み込みネットワーク(gcn)は、リッチなリレーショナル構造を持ち、グラフ埋め込みでデータセットのグローバル構造情報を保存できるタスクにおいて有効である。 近年、多くの研究者が、GCNが異なる自然言語処理タスク、特にテキスト分類を処理できるかどうかを検討することに重点を置いている。 テキスト分類にGCNを適用することはよく研究されているが、ノード/エッジの選択や特徴表現などのグラフ構築技術や、テキスト分類における最適なGCN学習機構は無視されている。 本稿では,グラフにおけるノードとエッジの埋め込みの役割と,テキスト分類におけるGCN学習手法を包括的に分析する。 この分析は,GCNのトレーニング/テストにおける各グラフノード/エッジ構築機構の重要性と,その半教師付き環境下での検証に有用である。

Graph Convolutional Networks (GCN) have been effective at tasks that have rich relational structure and can preserve global structure information of a dataset in graph embeddings. Recently, many researchers focused on examining whether GCNs could handle different Natural Language Processing tasks, especially text classification. While applying GCNs to text classification is well-studied, its graph construction techniques, such as node/edge selection and their feature representation, and the optimal GCN learning mechanism in text classification is rather neglected. In this paper, we conduct a comprehensive analysis of the role of node and edge embeddings in a graph and its GCN learning techniques in text classification. Our analysis is the first of its kind and provides useful insights into the importance of each graph node/edge construction mechanism when applied at the GCN training/testing in different text classification benchmarks, as well as under its semi-supervised environment.
翻訳日:2022-04-01 00:33:22 公開日:2022-03-30
# (参考訳) 予測最適化問題の学習(局所)代理損失関数

Learning (Local) Surrogate Loss Functions for Predict-Then-Optimize Problems ( http://arxiv.org/abs/2203.16067v1 )

ライセンス: CC BY 4.0
Sanket Shah, Bryan Wilder, Andrew Perrault, Milind Tambe(参考訳) 意思決定中心学習(decision-focus learning, dfl)は、予測モデルを下流の最適化タスクに合わせるためのパラダイムであり、その予測を利用して、特定のタスクでよりうまく機能するようにします。 DFLに関連する主な技術的課題は、$argmin$操作を通じて動作を区別できることである。 しかし、これらの$argmin$の最適化は、しばしば区分的に定数であり、その結果、それらの中をナイーブに微分することで、非形式的勾配をもたらす。 過去の研究は、タスク固有のサロゲートを元の最適化問題に手作りすることでこの問題を回避することに重点を置いてきた。 しかし、これらの代理ゲートを見つけることは困難であり、新しいタスクごとに代理ゲートを手作りする必要があるため、dflの使用性は制限される。 また, これらの緩和手法を適用したとしても, 結果として生じるサロゲートが凸性であることは保証されておらず, 結果として, 予測モデルをトレーニングすることで, そのモデルが局所的なミニマムに定着する可能性がある。 本稿では,忠実なタスク特化サロゲートを学ぶためのアプローチを提案する。 (a)最適化問題を解決できるブラックボックスのオラクルへのアクセスのみが必要で、それが一般化され、 (b)構成により凸化することができ、最適化が容易である。 私たちの知る限りでは、DFLの優れたサロゲートを見つけるために学習を使う最初の試みです。 文献から予算配分問題に対する我々のアプローチを評価し,本手法が原論文で提案した手作り(非凸)サロゲート損失よりも優れていることを見出した。 一歩後退して、私たちのアプローチの汎用性とシンプルさが、実際にDFLベースのソリューションを実装する際の障壁を低くすることを期待しています。 そのために、私たちは現在、実験をより多くのドメインに拡張に取り組んでいます。

Decision-Focused Learning (DFL) is a paradigm for tailoring a predictive model to a downstream optimisation task that uses its predictions, so that it can perform better on that specific task. The main technical challenge associated with DFL is that it requires being able to differentiate through $argmin$ operations to work. However, these $argmin$ optimisations are often piecewise constant and, as a result, naively differentiating through them would provide uninformative gradients. Past work has largely focused on getting around this issue by handcrafting task-specific surrogates to the original optimisation problem that provide informative gradients when differentiated through. However, finding these surrogates can be challenging and the need to handcraft surrogates for each new task limits the usability of DFL. In addition, even after applying these relaxation techniques, there are no guarantees that the resulting surrogates are convex and, as a result, training a predictive model on them may lead to said model getting stuck in local minimas. In this paper, we provide an approach to learn faithful task-specific surrogates which (a) only requires access to a black-box oracle that can solve the optimisation problem and is thus generalizable, and (b) can be convex by construction and so can be easily optimized over. To the best of our knowledge, this is the first work on using learning to find good surrogates for DFL. We evaluate our approach on a budget allocation problem from the literature and find that our approach outperforms even the hand-crafted (non-convex) surrogate loss proposed by the original paper. Taking a step back, we hope that the generality and simplicity of our approach will help lower the barrier associated with implementing DFL-based solutions in practice. To that end, we are currently working on extending our experiments to more domains.
翻訳日:2022-04-01 00:23:20 公開日:2022-03-30
# (参考訳) プロセスマイニングにおける説明可能な人工知能--結果指向予測プロセスモニタリングにおける説明可能性・パフォーマンストレードオフの評価

Explainable Artificial Intelligence in Process Mining: Assessing the Explainability-Performance Trade-Off in Outcome-Oriented Predictive Process Monitoring ( http://arxiv.org/abs/2203.16073v1 )

ライセンス: CC BY 4.0
Alexander Stevens, Johannes De Smedt(参考訳) 近年、結果指向予測プロセス監視(ooppm)の分野では、説明可能な人工知能パラダイムからモデルを使用するようにシフトされているが、その評価は主に、説明の意味や動作可能性の欠如を考慮せず、パフォーマンスベースのメトリクスによって行われる。 本稿では,説明可能性の解釈可能性(広く用いられているXAI特性のパロジニーと機能的複雑性)と説明可能性モデルの忠実性(単調性と相反のレベル)について述べる。 導入された特性は、プロセスベースの分析で典型的なイベント、ケース、制御フローの観点から分析されます。 これにより、本質的に生成された説明(例えばロジスティック回帰係数)とポストホックな説明(例えばシェープリー値)を定量的に比較することができる。 さらに, OOPPMで典型的な事前処理, モデル複雑性, ポストホックな説明可能性技術がモデルの説明可能性にどのように影響するかを考察することにより, イベントログ仕様と課題に基づいて適切なモデルを選択するためのガイドラインを実践者に提示する。 この目的のために、13のリアルタイムイベントログに7つの分類器をベンチマークする。

Recently, a shift has been made in the field of Outcome-Oriented Predictive Process Monitoring (OOPPM) to use models from the eXplainable Artificial Intelligence paradigm, however the evaluation still occurs mainly through performance-based metrics not accounting for the implications and lack of actionability of the explanations. In this paper, we define explainability by the interpretability of the explanations (through the widely-used XAI properties parsimony and functional complexity) and the faithfulness of the explainability model (through monotonicity and level of disagreement). The introduced properties are analysed along the event, case, and control flow perspective that are typical of a process-based analysis. This allows to quantitatively compare, inter alia, inherently created explanations (e.g., logistic regression coefficients) with post-hoc explanations (e.g., Shapley values). Moreover, this paper contributes a guideline named X-MOP to practitioners to select the appropriate model based on the event log specifications and the task at hand, by providing insight into how the varying preprocessing, model complexity and post-hoc explainability techniques typical in OOPPM influence the explainability of the model. To this end, we benchmark seven classifiers on thirteen real-life events logs.
翻訳日:2022-04-01 00:11:24 公開日:2022-03-30
# (参考訳) STRPM:高分解能映像予測のための時空間残留予測モデル

STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution Video Prediction ( http://arxiv.org/abs/2203.16084v1 )

ライセンス: CC BY 4.0
Zheng Chang, Xinfeng Zhang, Shanshe Wang, Siwei Ma, and Wen Gao(参考訳) 多くのビデオ予測手法は低解像度 (64$\sim$128) ビデオで優れた性能を得たが、高解像度 (512$\sim$4K) ビデオの予測モデルは、まだ十分に検討されていない。 低解像度ビデオと比較すると、高解像度ビデオはよりリッチな外観(空間)情報とより複雑な動き(時間)情報を含んでいる。 本稿では,高解像度映像予測のための時空間残留予測モデル(STRPM)を提案する。 本研究では,高分解能映像の時空間情報を保存する時空間符号化復号方式を提案する。 このように、各フレームの外観詳細を大いに保存することができる。 一方、フレーム全体ではなく、前と将来のフレーム間の時空間残差特徴(STRF)をモデル化することに焦点を当てたResidual Predictive Memory (RPM) を設計し、高解像度ビデオにおける複雑な動き情報の収集に大きく貢献する。 さらに,提案したRPMは,空間領域と時間領域の異なる特徴を抽出するために,空間エンコーダと時間エンコーダを監督することができる。 さらに,学習した知覚損失 (lp-loss) を持つ生成的敵ネットワーク (gans) を用いて,予測の知覚的品質を改善するための学習モデルを提案する。 実験の結果, STRPMは既存手法と比較して良好な結果が得られた。

Although many video prediction methods have obtained good performance in low-resolution (64$\sim$128) videos, predictive models for high-resolution (512$\sim$4K) videos have not been fully explored yet, which are more meaningful due to the increasing demand for high-quality videos. Compared with low-resolution videos, high-resolution videos contain richer appearance (spatial) information and more complex motion (temporal) information. In this paper, we propose a Spatiotemporal Residual Predictive Model (STRPM) for high-resolution video prediction. On the one hand, we propose a Spatiotemporal Encoding-Decoding Scheme to preserve more spatiotemporal information for high-resolution videos. In this way, the appearance details for each frame can be greatly preserved. On the other hand, we design a Residual Predictive Memory (RPM) which focuses on modeling the spatiotemporal residual features (STRF) between previous and future frames instead of the whole frame, which can greatly help capture the complex motion information in high-resolution videos. In addition, the proposed RPM can supervise the spatial encoder and temporal encoder to extract different features in the spatial domain and the temporal domain, respectively. Moreover, the proposed model is trained using generative adversarial networks (GANs) with a learned perceptual loss (LP-loss) to improve the perceptual quality of the predictions. Experimental results show that STRPM can generate more satisfactory results compared with various existing methods.
翻訳日:2022-04-01 00:09:38 公開日:2022-03-30
# (参考訳) 軌道角運動量モードの分類・生成・多重化・非多重化のための偏極深部微分ニューラルネットワーク

Polarized deep diffractive neural network for classification, generation, multiplexing and de-multiplexing of orbital angular momentum modes ( http://arxiv.org/abs/2203.16087v1 )

ライセンス: CC BY 4.0
Jiaqi Zhang, Zhiyuan Ye, Jianhua Yin, Liying Lang, Shuming Jiao(参考訳) 軌道角運動量(oam)ビームの多重化と多重化は光通信における重要な問題である。 光回折ニューラルネットワークは、OAMビームの分類、生成、多重化、非多重化を行うために導入された。 しかし、従来の回折ニューラルネットワークでは、偏光方向の空間分布が異なるoamモードは扱えない。 本稿では,矩形構造メタマテリアルの概念に基づく偏光型深層拡散型ニューラルネットワークを提案する。 提案する偏光回折型ニューラルネットワークは, 多重偏光oamビームの分類, 生成, 多重化, および非多重化を訓練し, シミュレーションにより14種類の直交偏光渦ビームを分離し, ハイブリッドoamビームを2, 3, 4つの空間位置でガウスビームにデ多重化できることを示した。 また,全強度同一の偏光oamビームと位相電荷の異なる8本のシリンダベクトルビームを効果的に分類した。 さらに, ネットワークは高品質なハイブリッドoamビームを生成でき, 2本の偏光線ビームを8種類のシリンダベクトルビームに多重化できることを示した。

The multiplexing and de-multiplexing of orbital angular momentum (OAM) beams are critical issues in optical communication. Optical diffractive neural networks have been introduced to perform classification, generation, multiplexing and de-multiplexing of OAM beams. However, conventional diffractive neural networks cannot handle OAM modes with a varying spatial distribution of polarization directions. Herein, we propose a polarized optical deep diffractive neural network that is designed based on the concept of rectangular micro-structure meta-material. Our proposed polarized optical diffractive neural network is trained to classify, generate, multiplex and de-multiplex polarized OAM beams.The simulation results show that our network framework can successfully classify 14 kinds of orthogonally polarized vortex beams and de-multiplex the hybrid OAM beams into Gauss beams at two, three and four spatial positions respectively. 6 polarized OAM beams with identical total intensity and 8 cylinder vector beams with different topology charges also have been classified effectively. Additionally, results reveal that the network can generate hybrid OAM beams with high quality and multiplex two polarized linear beams into 8 kinds of cylinder vector beams.
翻訳日:2022-04-01 00:08:30 公開日:2022-03-30
# (参考訳) 連続正規化: オンライン連続学習のためのバッチ正規化再考

Continual Normalization: Rethinking Batch Normalization for Online Continual Learning ( http://arxiv.org/abs/2203.16102v1 )

ライセンス: CC BY 4.0
Quang Pham, Chenghao Liu, Steven Hoi(参考訳) 既存の連続学習手法では、バッチ正規化(BN)を使用して、タスク間のトレーニングと一般化を改善する。 しかし、継続学習データの非非非定常的性質、特にオンライン環境では、BNにおけるトレーニングとテストの相違を増幅し、古いタスクのパフォーマンスを阻害する。 本研究では、bnが現在のタスクに偏りのあるモーメントを用いてテストデータを正規化するオンライン連続学習におけるbnのクロスタスク正規化効果について検討し、その結果、破滅的な忘れることを引き起こす。 この制限は、BNに類似したトレーニングを容易にするために、CN(Continuous Normalization)と呼ばれる単純で効果的な方法を提案する動機となっている。 異なる連続学習アルゴリズムとオンラインシナリオに関する大規模な実験は、CNがBNの直接置換であり、大幅な性能改善をもたらすことを示している。 我々の実装は \url{https://github.com/phquang/Continual-Normalization} で利用可能です。

Existing continual learning methods use Batch Normalization (BN) to facilitate training and improve generalization across tasks. However, the non-i.i.d and non-stationary nature of continual learning data, especially in the online setting, amplify the discrepancy between training and testing in BN and hinder the performance of older tasks. In this work, we study the cross-task normalization effect of BN in online continual learning where BN normalizes the testing data using moments biased towards the current task, resulting in higher catastrophic forgetting. This limitation motivates us to propose a simple yet effective method that we call Continual Normalization (CN) to facilitate training similar to BN while mitigating its negative effect. Extensive experiments on different continual learning algorithms and online scenarios show that CN is a direct replacement for BN and can provide substantial performance improvements. Our implementation is available at \url{https://github.com/phquang/Continual-Normalization}.
翻訳日:2022-03-31 23:57:23 公開日:2022-03-30
# (参考訳) スタイルを前提としたコンパチブル衣装の推薦

Recommendation of Compatible Outfits Conditioned on Style ( http://arxiv.org/abs/2203.16161v1 )

ライセンス: CC BY 4.0
Debopriyo Banerjee, Lucky Dhakad, Harsh Maheshwari, Muthusamy Chelliah, Niloy Ganguly, Arnab Bhattacharya(参考訳) ファッション分野でのレコメンデーションは、店の見物、コンテクストアウェアの服の創造、衣料品のパーソナライズなど、さまざまな分野の研究で最近急増している。 ファッションレコメンデーション分野における芸術的アプローチの大半は、高品質な衣装を製造するために、アイテム間の互換性を改善することを目指している。 近年の研究では、スタイルがファッションの重要な要素であることに気付き、互換性学習や衣装生成に取り入れられている。 これらの方法は、細粒度製品カテゴリの可用性や、リッチアイテム属性(ロングスカート、ミニスカートなど)の存在に依存することが多い。 本研究は,野外,フォーマル,イメージなどのオンラインポータルの分類によって,各項目がハイレベルなカテゴリーにマッピングされるという現実的な仮定の下で,実生活で身につけるようなスタイルやテーマを条件とした衣装を作成することを目的とする。 我々は、スムーズな潜在空間で衣装スタイルをレンダリングする新しいスタイルエンコーダネットワークを使用している。 本稿では,本手法の異なる側面を広範囲に分析し,厳密な実験により既存の技術ベースラインよりも優れていることを示す。

Recommendation in the fashion domain has seen a recent surge in research in various areas, for example, shop-the-look, context-aware outfit creation, personalizing outfit creation, etc. The majority of state of the art approaches in the domain of outfit recommendation pursue to improve compatibility among items so as to produce high quality outfits. Some recent works have realized that style is an important factor in fashion and have incorporated it in compatibility learning and outfit generation. These methods often depend on the availability of fine-grained product categories or the presence of rich item attributes (e.g., long-skirt, mini-skirt, etc.). In this work, we aim to generate outfits conditional on styles or themes as one would dress in real life, operating under the practical assumption that each item is mapped to a high level category as driven by the taxonomy of an online portal, like outdoor, formal etc and an image. We use a novel style encoder network that renders outfit styles in a smooth latent space. We present an extensive analysis of different aspects of our method and demonstrate its superiority over existing state of the art baselines through rigorous experiments.
翻訳日:2022-03-31 23:35:48 公開日:2022-03-30
# (参考訳) Rabbit, toad, and the Moon: マシンはそれらをひとつのクラスに分類できますか?

Rabbit, toad, and the Moon: Can machine categorize them into one class? ( http://arxiv.org/abs/2203.16163v1 )

ライセンス: CC BY 4.0
Daigo Shoji(参考訳) 最近のニューラルネットワークのような機械学習アルゴリズムは、高い精度でビデオフレーム内のオブジェクトやアクションを分類することができる。 ここでは, ウサギ, ヒツジ, ムーンの相互関係を基準とした基礎的動的パターンに基づく物体の分類について論じ, いくつかの文化で見られる。 1つのクラスに分類するためには、基本的な行動パターン(周期的な出現と消失)が特徴点として機能する。 この分類には、行動の形状や時間スケールのような静的な文字は必須ではない。 認知意味論では、イベントの基底パターンを記述するために画像スキーマが導入される。 これらの画像スキーマを学習できれば、マシンは同じクラスとしてウサギ、トカゲ、月を分類することができる。 学習には境界ボックスやセグメンテーションを示すビデオフレームが有用かもしれない。 この議論は予備的であり、多くの課題が未解決のままであるが、基礎的行動に基づく分類は認知過程やコンピュータ科学にとって重要なトピックである。

Recent machine learning algorithms such as neural networks can classify objects and actions in video frames with high accuracy. Here, I discuss a classification of objects based on basal dynamic patterns referencing one tradition, the link between rabbit, toad, and the Moon, which can be seen in several cultures. In order for them to be classified into one class, a basic pattern of behavior (cyclic appearance and disappearance) works as a feature point. A static character such as the shape and time scale of the behavior are not essential for this classification. In cognitive semantics, image schemas are introduced to describe basal patterns of events. If learning of these image schemas is attained, a machine may be able to categorize rabbit, toad, and the Moon as the same class. For learning, video frames that show boundary boxes or segmentation may be helpful. Although this discussion is preliminary and many tasks remain to be solved, the classification based on basal behaviors can be an important topic for cognitive processes and computer science.
翻訳日:2022-03-31 23:21:55 公開日:2022-03-30
# (参考訳) float: 改良されたマルチオブジェクトマルチパートシーン解析のためのオブジェクト属性の因子化学習

FLOAT: Factorized Learning of Object Attributes for Improved Multi-object Multi-part Scene Parsing ( http://arxiv.org/abs/2203.16168v1 )

ライセンス: CC BY 4.0
Rishubh Singh, Pranav Gupta, Pradeep Shenoy and Ravikiran Sarvadevabhatla(参考訳) マルチオブジェクト マルチパーツ シーン解析は、シーン内の複数のオブジェクトクラスを検出し、各オブジェクト内のセマンティック部分をセグメント化する必要がある難しいタスクである。 本稿では,スケーラブルな多目的多部分解析のための因子付きラベル空間フレームワークであるFLOATを提案する。 本フレームワークは,モノリシックなラベル空間に比べて拡張性を高め,タスクの複雑さを低減させる,オブジェクトカテゴリと部分属性を独立に予測する。 さらに,特に小型オブジェクトや部品のセグメンテーション品質を著しく向上させる推論時間「ゾム」改良手法を提案する。 最先端技術と比較すると、FLOATはPascal-Part-58データセット上で平均IOU(mIOU)が2.0%、セグメンテーション品質IOU(sqIOU)が4.8%絶対改善されている。 大規模なPascal-Part-108データセットでは、mIOUが2.1%、sqIOUが3.9%改善されている。 以前除外された部分属性やその他のPascal-Partデータセットの小さな部分を組み込んで、Pascal-Part-201をダブした最も包括的で困難なバージョンを作成しました。 FLOATは、新しいデータセットでmIOUが8.6%、sqIOUが7.5%改善され、オブジェクトや部品の難易度で解析の有効性が示された。 コードとデータセットはfloatseg.github.ioで入手できる。

Multi-object multi-part scene parsing is a challenging task which requires detecting multiple object classes in a scene and segmenting the semantic parts within each object. In this paper, we propose FLOAT, a factorized label space framework for scalable multi-object multi-part parsing. Our framework involves independent dense prediction of object category and part attributes which increases scalability and reduces task complexity compared to the monolithic label space counterpart. In addition, we propose an inference-time 'zoom' refinement technique which significantly improves segmentation quality, especially for smaller objects/parts. Compared to state of the art, FLOAT obtains an absolute improvement of 2.0% for mean IOU (mIOU) and 4.8% for segmentation quality IOU (sqIOU) on the Pascal-Part-58 dataset. For the larger Pascal-Part-108 dataset, the improvements are 2.1% for mIOU and 3.9% for sqIOU. We incorporate previously excluded part attributes and other minor parts of the Pascal-Part dataset to create the most comprehensive and challenging version which we dub Pascal-Part-201. FLOAT obtains improvements of 8.6% for mIOU and 7.5% for sqIOU on the new dataset, demonstrating its parsing effectiveness across a challenging diversity of objects and parts. The code and datasets are available at floatseg.github.io.
翻訳日:2022-03-31 23:15:19 公開日:2022-03-30
# (参考訳) 連続正則化のための最後のミニバッチからの自己蒸留

Self-Distillation from the Last Mini-Batch for Consistency Regularization ( http://arxiv.org/abs/2203.16172v1 )

ライセンス: CC BY 4.0
Yiqing Shen, Liwu Xu, Yuzhe Yang, Yaqian Li, Yandong Guo(参考訳) 知識蒸留(kd)は、学習されたサンプルレベルのソフトターゲットを活用して一般化能力を高める強力な正規化戦略として明るい期待を示している。 しかし、既存のKDでは、複雑な事前訓練された教師ネットワークやピアのアンサンブルを利用することは、時間と計算に費用がかかる。 蒸留効率を高めるために様々な自己kd法が提案されている。 しかし、それらは追加のネットワークアーキテクチャの変更を必要とするか、あるいは並列化が難しい。 これらの課題に対処するために,Last Mini-Batch (DLB) による自己蒸留という,効率的かつ信頼性の高い自己蒸留フレームワークを提案する。 具体的には、各ミニバッチの半分を前回の繰り返しと一致させることで、シーケンシャルサンプリングを再構成する。 一方、残りの半分は次のイテレーションと一致します。 その後、以前のハーフミニバッチは、前回のイテレーションで生成されたオンザフライソフトターゲットを蒸留する。 提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。 さらに,本手法は,余分な実行時のメモリやモデル構造の変更を伴わずに実装が容易である。 3つの分類ベンチマークの実験結果から,本手法は異なるネットワークアーキテクチャを用いて,最先端の自己蒸留アプローチを一貫して上回ることができることが示された。 さらに,提案手法は性能向上により強化戦略との強い互換性を示す。 コードはhttps://github.com/Meta-knowledge-Lab/DLBで公開されている。

Knowledge distillation (KD) shows a bright promise as a powerful regularization strategy to boost generalization ability by leveraging learned sample-level soft targets. Yet, employing a complex pre-trained teacher network or an ensemble of peer students in existing KD is both time-consuming and computationally costly. Various self KD methods have been proposed to achieve higher distillation efficiency. However, they either require extra network architecture modification or are difficult to parallelize. To cope with these challenges, we propose an efficient and reliable self-distillation framework, named Self-Distillation from Last Mini-Batch (DLB). Specifically, we rearrange the sequential sampling by constraining half of each mini-batch coinciding with the previous iteration. Meanwhile, the rest half will coincide with the upcoming iteration. Afterwards, the former half mini-batch distills on-the-fly soft targets generated in the previous iteration. Our proposed mechanism guides the training stability and consistency, resulting in robustness to label noise. Moreover, our method is easy to implement, without taking up extra run-time memory or requiring model structure modification. Experimental results on three classification benchmarks illustrate that our approach can consistently outperform state-of-the-art self-distillation approaches with different network architectures. Additionally, our method shows strong compatibility with augmentation strategies by gaining additional performance improvement. The code is available at https://github.com/Meta-knowledge-Lab/DLB.
翻訳日:2022-03-31 22:55:04 公開日:2022-03-30
# (参考訳) FlowFormer: 光フローのためのトランスフォーマーアーキテクチャ

FlowFormer: A Transformer Architecture for Optical Flow ( http://arxiv.org/abs/2203.16194v1 )

ライセンス: CC BY 4.0
Zhaoyang Huang, Xiaoyu Shi, Chao Zhang, Qiang Wang, Ka Chun Cheung, Hongwei Qin, Jifeng Dai, and Hongsheng Li(参考訳) 本稿では,光フロー学習のためのトランスフォーマーベースのニューラルネットワークアーキテクチャであるoptical flow transformer (flowformer)を提案する。 flowformerはイメージペアから構築された4dコストボリュームをトークン化し、コストトークンを新しい潜在空間にオルタナティブグループトランスフォーマー(agt)層を持つコストメモリにエンコードし、動的な位置的コストクエリを持つリカレントトランスフォーマデコーダを介してコストメモリをデコードする。 sintelベンチマークのクリーンパスでは、flowformerは1.178平均エンドポニットエラー(1.388)を達成した。 さらにflowformerは、強力な一般化性能を実現している。 Sintelでトレーニングを受けることなく、FlowFormerはSintelトレーニングセットのクリーンパスで1.00 AEPEを達成し、最高の結果(1.29)を22.4%上回った。

We introduce Optical Flow TransFormer (FlowFormer), a transformer-based neural network architecture for learning optical flow. FlowFormer tokenizes the 4D cost volume built from an image pair, encodes the cost tokens into a cost memory with alternate-group transformer (AGT) layers in a novel latent space, and decodes the cost memory via a recurrent transformer decoder with dynamic positional cost queries. On the Sintel benchmark clean pass, FlowFormer achieves 1.178 average end-ponit-error (AEPE), a 15.1% error reduction from the best published result (1.388). Besides, FlowFormer also achieves strong generalization performance. Without being trained on Sintel, FlowFormer achieves 1.00 AEPE on the Sintel training set clean pass, outperforming the best published result (1.29) by 22.4%.
翻訳日:2022-03-31 22:54:06 公開日:2022-03-30
# (参考訳) アームハンド動的推定のための時空間並列変換器

Spatial-Temporal Parallel Transformer for Arm-Hand Dynamic Estimation ( http://arxiv.org/abs/2203.16202v1 )

ライセンス: CC BY 4.0
Shuying Liu, Wenbin Wu, Jiaxian Wu, Yue Lin(参考訳) 腕と手の関係を利用して,単眼映像から腕と手の動きを推定する手法を提案する。 モノラルなフルヒューマンモーションキャプチャ技術は近年大きな進歩を遂げていますが、正確な腕のねじれや手の動きの復元はいまだに課題です。 この問題を解決するために, 腕のポーズや手のジェスチャーがほとんどの実環境において高い相関関係にあるという事実に基づいて, 解決法を提案する。 アームハンド相関とフレーム間情報を完全に活用するために,空間-時間並列アームハンドモーショントランスフォーマ(pahmt)を慎重に設計し,アームとハンドダイナミクスを同時に予測する。 また、見積もりを円滑かつ正確にするための新たな損失も導入します。 さらに,200Kフレームのハンドジェスチャーを含むモーションキャプチャーデータセットを収集し,このデータを用いてモデルをトレーニングする。 2次元手ポーズ推定モデルと3次元人ポーズ推定モデルを統合することにより、単眼ビデオから可塑性アームと手動ダイナミクスを生成することができる。 大規模評価では,提案手法は従来の最先端手法よりも有利であり,様々な挑戦シナリオ下で頑健性を示す。

We propose an approach to estimate arm and hand dynamics from monocular video by utilizing the relationship between arm and hand. Although monocular full human motion capture technologies have made great progress in recent years, recovering accurate and plausible arm twists and hand gestures from in-the-wild videos still remains a challenge. To solve this problem, our solution is proposed based on the fact that arm poses and hand gestures are highly correlated in most real situations. To fully exploit arm-hand correlation as well as inter-frame information, we carefully design a Spatial-Temporal Parallel Arm-Hand Motion Transformer (PAHMT) to predict the arm and hand dynamics simultaneously. We also introduce new losses to encourage the estimations to be smooth and accurate. Besides, we collect a motion capture dataset including 200K frames of hand gestures and use this data to train our model. By integrating a 2D hand pose estimation model and a 3D human pose estimation model, the proposed method can produce plausible arm and hand dynamics from monocular video. Extensive evaluations demonstrate that the proposed method has advantages over previous state-of-the-art approaches and shows robustness under various challenging scenarios.
翻訳日:2022-03-31 22:53:06 公開日:2022-03-30
# (参考訳) マルチオブジェクト追跡におけるネットワークフローのグローバルオブジェクトの学習

Learning of Global Objective for Network Flow in Multi-Object Tracking ( http://arxiv.org/abs/2203.16210v1 )

ライセンス: CC BY 4.0
Shuai Li, Yu Kong, Hamid Rezatofighi(参考訳) 本稿では,従来線形プログラムの例として研究されてきたmin-cost flow (mcf) 定式化に基づくマルチオブジェクトトラッキングの問題について述べる。 計算に難航する推論を考えると、MCF追跡の成功は根底にある線形プログラムの学習コスト関数に大きく依存する。 従来の研究では,2フレームのみを考慮し,コスト関数の学習に重点を置いているため,マルチフレームデータアソシエーションを推論時に考慮しなければならないMCFに対して,学習コスト関数は準最適である。 この問題に対処するため,本稿では,二段階最適化問題を解くことにより,学習中にトレーニングと推論を結びつける,新たな微分可能なフレームワークを提案する。 微分可能な層による損失を勾配降下によりバックプロパゲートすることにより、グローバルパラメータ化コスト関数を明示的に学習し、規則化する。 このアプローチでは、グローバルmcfトラッキングのより良い目標を学ぶことができます。 その結果,MOT16,MOT17,MOT20などの一般的なマルチオブジェクト追跡ベンチマークにおける最先端手法と比較して,競争性能が向上した。

This paper concerns the problem of multi-object tracking based on the min-cost flow (MCF) formulation, which is conventionally studied as an instance of linear program. Given its computationally tractable inference, the success of MCF tracking largely relies on the learned cost function of underlying linear program. Most previous studies focus on learning the cost function by only taking into account two frames during training, therefore the learned cost function is sub-optimal for MCF where a multi-frame data association must be considered during inference. In order to address this problem, in this paper we propose a novel differentiable framework that ties training and inference together during learning by solving a bi-level optimization problem, where the lower-level solves a linear program and the upper-level contains a loss function that incorporates global tracking result. By back-propagating the loss through differentiable layers via gradient descent, the globally parameterized cost function is explicitly learned and regularized. With this approach, we are able to learn a better objective for global MCF tracking. As a result, we achieve competitive performances compared to the current state-of-the-art methods on the popular multi-object tracking benchmarks such as MOT16, MOT17 and MOT20.
翻訳日:2022-03-31 22:38:26 公開日:2022-03-30
# (参考訳) テンポラルオートエンコーダを用いた終端唇同期

End to End Lip Synchronization with a Temporal AutoEncoder ( http://arxiv.org/abs/2203.16224v1 )

ライセンス: CC BY 4.0
Yoav Shalev, Lior Wolf(参考訳) ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。 提案手法では,ビデオフレームのドロップおよび重複により生成する合成データに基づいて学習する2領域再帰ニューラルネットワークを用いて最適なアライメントを求める。 アライメントが見つかったら、2つのソースを同期させるためにビデオを変更します。 本手法は,既存のベンチマークおよび新しいベンチマークにおいて,文献的手法を大きく上回ることを示す。 アプリケーションとして,テキスト対音声生成音声を既存のビデオストリームにロバストに調整できることを実証する。 私たちのコードとサンプルはhttps://github.com/itsyoavshalev/End-to-End-Lip-Synchronization-with-a-Temporal-AutoEncoderで公開されています。

We study the problem of syncing the lip movement in a video with the audio stream. Our solution finds an optimal alignment using a dual-domain recurrent neural network that is trained on synthetic data we generate by dropping and duplicating video frames. Once the alignment is found, we modify the video in order to sync the two sources. Our method is shown to greatly outperform the literature methods on a variety of existing and new benchmarks. As an application, we demonstrate our ability to robustly align text-to-speech generated audio with an existing video stream. Our code and samples are available at https://github.com/itsyoavshalev/End-to-End-Lip-Synchronization-with-a-Temporal-AutoEncoder.
翻訳日:2022-03-31 22:22:09 公開日:2022-03-30
# (参考訳) メタヒューリスティックスに基づくバイクラスタ化アルゴリズム

Biclustering Algorithms Based on Metaheuristics: A Review ( http://arxiv.org/abs/2203.16241v1 )

ライセンス: CC BY 4.0
Adan Jose-Garcia, Julie Jacques, Vincent Sobanski, Clarisse Dhaenens(参考訳) biclusteringは教師なしの機械学習技術で、行と列を同時にデータマトリックスにまとめる。 ビクラスタリングは、バイオインフォマティクス、テキストマイニング、パターン認識など、様々な応用において重要な役割を担っている。 しかし、重要な双クラスターを見つけることは最適化問題として定式化できるNPハード問題である。 したがって、複雑な最適化問題を合理的な計算時間で解く探索的能力があるため、異なるメタヒューリスティックスがバイクラスタ問題に適用されている。 ビクラスタリングに関する様々な調査が提案されているが、メタヒューリスティックスを用いたビクラスタリング問題に関する包括的調査は行われていない。 本章では,二重クラスター問題に対するメタヒューリスティックスアプローチに関する調査を行う。 本総説では,表現,目的関数,変動演算子など,基礎となる最適化手法とその主な探索成分について述べる。 単目的と多目的のアプローチに関する具体的な議論を紹介する。 最後に、新たな研究の方向性を示す。

Biclustering is an unsupervised machine learning technique that simultaneously clusters rows and columns in a data matrix. Biclustering has emerged as an important approach and plays an essential role in various applications such as bioinformatics, text mining, and pattern recognition. However, finding significant biclusters is an NP-hard problem that can be formulated as an optimization problem. Therefore, different metaheuristics have been applied to biclustering problems because of their exploratory capability of solving complex optimization problems in reasonable computation time. Although various surveys on biclustering have been proposed, there is a lack of a comprehensive survey on the biclustering problem using metaheuristics. This chapter will present a survey of metaheuristics approaches to address the biclustering problem. The review focuses on the underlying optimization methods and their main search components: representation, objective function, and variation operators. A specific discussion on single versus multi-objective approaches is presented. Finally, some emerging research directions are presented.
翻訳日:2022-03-31 22:11:05 公開日:2022-03-30
# (参考訳) InstaFormer: Transformerを使ったインスタンス対応画像変換

InstaFormer: Instance-Aware Image-to-Image Translation with Transformer ( http://arxiv.org/abs/2203.16248v1 )

ライセンス: CC BY 4.0
Soohyun Kim, Jongbeom Baek, Jihye Park, Gyeongnyeon Kim, Seungryong Kim(参考訳) グローバルおよびインスタンスレベルの情報を効果的に統合するために,instaformerと呼ばれる,インスタンス認識型画像変換のためのトランスフォーマティブネットワークアーキテクチャを提案する。 画像から抽出したコンテンツ特徴をトークンとして考慮することにより,トランスフォーマーの自己認識モジュールを通じてコンテキスト情報を考慮した,コンテンツ特徴のグローバルコンセンサスを発見する。 このようなトークンをコンテンツ機能から抽出したインスタンスレベルの機能をバウンディングボックス情報に拡張することで,オブジェクトインスタンスとグローバルイメージのインタラクションを学習することが可能となり,インスタンス認識性が向上する。 標準トランスフォーマーの層正規化(layernorm)をadaptive instance normalization(adain)に置き換え、スタイルコードによるマルチモーダル変換を可能にした。 さらに、オブジェクト領域におけるインスタンス認識と翻訳品質を改善するために、入力画像と翻訳画像の間で定義されたインスタンスレベルのコントラスト損失を示す。 最新の方法よりinstaformerの有効性を実証する実験を行い,広範なアブレーション実験を行った。

We present a novel Transformer-based network architecture for instance-aware image-to-image translation, dubbed InstaFormer, to effectively integrate global- and instance-level information. By considering extracted content features from an image as tokens, our networks discover global consensus of content features by considering context information through a self-attention module in Transformers. By augmenting such tokens with an instance-level feature extracted from the content feature with respect to bounding box information, our framework is capable of learning an interaction between object instances and the global image, thus boosting the instance-awareness. We replace layer normalization (LayerNorm) in standard Transformers with adaptive instance normalization (AdaIN) to enable a multi-modal translation with style codes. In addition, to improve the instance-awareness and translation quality at object regions, we present an instance-level content contrastive loss defined between input and translated image. We conduct experiments to demonstrate the effectiveness of our InstaFormer over the latest methods and provide extensive ablation studies.
翻訳日:2022-03-31 22:09:46 公開日:2022-03-30
# (参考訳) 機械学習のための物理コミュニティのニーズ、ツール、リソース

Physics Community Needs, Tools, and Resources for Machine Learning ( http://arxiv.org/abs/2203.16255v1 )

ライセンス: CC BY 4.0
Philip Harris, Erik Katsavounidis, William Patrick McCormack, Dylan Rankin, Yongbin Feng, Abhijith Gandrakota, Christian Herwig, Burt Holzman, Kevin Pedro, Nhan Tran, Tingjun Yang, Jennifer Ngadiuba, Michael Coughlin, Scott Hauck, Shih-Chieh Hsu, Elham E Khoda, Deming Chen, Mark Neubauer, Javier Duarte, Georgia Karagiorgi, Mia Liu(参考訳) 機械学習(ML)は最先端の物理学研究においてますます重要なコンポーネントになりつつあるが、その計算要求は重要な課題を示している。 本稿では,レイテンシとスループットのレジームにまたがるmlに関する物理コミュニティのニーズ,これらのニーズに対応する可能性を提供するツールとリソース,今後数年間でこれらを最大限に活用し,アクセスする方法について論じる。

Machine learning (ML) is becoming an increasingly important component of cutting-edge physics research, but its computational requirements present significant challenges. In this white paper, we discuss the needs of the physics community regarding ML across latency and throughput regimes, the tools and resources that offer the possibility of addressing these needs, and how these can be best utilized and accessed in the coming years.
翻訳日:2022-03-31 22:08:54 公開日:2022-03-30
# (参考訳) SimSiamはなぜ負のサンプルなしで崩壊を避けるのか? 自己教師付きコントラスト学習による統一的理解

How Does SimSiam Avoid Collapse Without Negative Samples? A Unified Understanding with Self-supervised Contrastive Learning ( http://arxiv.org/abs/2203.16262v1 )

ライセンス: CC BY 4.0
Chaoning Zhang, Kang Zhang, Chenshuang Zhang, Trung X. Pham, Chang D. Yoo, In So Kweon(参考訳) 自己教師付き学習(SSL)の崩壊を避けるために、対照的な損失は広く使われているが、多くの負のサンプルを必要とすることが多い。 負のサンプルがいまだに競争性能を達成していないため、最近の研究は崩壊を避けるために最小限の単純なシムセ法(SimSiam)を提供することで大きな注目を集めている。 しかし, 負のサンプルを使わずに崩壊する原因は明らかになっていないため, 本研究はSimSiamの解説的主張を再考することから始まる。 それらの主張を反論した後,$l_2$正規化表現ベクトルの勾配解析に基づく崩壊解析のためにベクトル分解を導入する。 これにより、負のサンプルとSimSiamの崩壊を緩和する方法が統一される。 このような統一された視点は、SSLの最近の進歩を理解するためにタイムリーにやってくる。

To avoid collapse in self-supervised learning (SSL), a contrastive loss is widely used but often requires a large number of negative samples. Without negative samples yet achieving competitive performance, a recent work has attracted significant attention for providing a minimalist simple Siamese (SimSiam) method to avoid collapse. However, the reason for how it avoids collapse without negative samples remains not fully clear and our investigation starts by revisiting the explanatory claims in the original SimSiam. After refuting their claims, we introduce vector decomposition for analyzing the collapse based on the gradient analysis of the $l_2$-normalized representation vector. This yields a unified perspective on how negative samples and SimSiam alleviate collapse. Such a unified perspective comes timely for understanding the recent progress in SSL.
翻訳日:2022-03-31 22:08:04 公開日:2022-03-30
# (参考訳) 依存認識デコーダを用いた非自己回帰翻訳

Non-autoregressive Translation with Dependency-Aware Decoder ( http://arxiv.org/abs/2203.16266v1 )

ライセンス: CC0 1.0
Jiaao Zhan, Qian Chen, Boxing Chen, Wen Wang, Yu Bai, Yang Gao(参考訳) 非自己回帰翻訳(NAT)モデルは、入力からデコーダへの前のターゲットトークンへの依存を除去するため、翻訳品質が劣る。 本稿では,NATデコーダ内のターゲット依存性をデコーダ入力とデコーダ自己アテンションの2つの視点から拡張するための,新しい汎用的アプローチを提案する。 まず、最初のデコーダ入力をソース言語空間からターゲット言語空間へ、新しい注意変換プロセスによって変換する。 変換は、ターゲットトークン埋め込みに基づいてデコーダ入力を再組み立て、最終出力をターゲット側情報に条件付けする。 第2に、NATトレーニングの前に、異なる三角形の注意マスクを用いて、効果的に前向きのトレーニング前フェーズを導入する。 この事前学習フェーズにより、最終的なNAT復号プロセスの双方向依存関係を徐々に学習することができる。 実験結果から,提案手法は4つのWMT翻訳方向のNATモデルを最大1.88 BLEUスコアで継続的に改善し,全体としてはNATモデルに匹敵する推論遅延を維持した。

Non-autoregressive translation (NAT) models suffer from inferior translation quality due to removal of dependency on previous target tokens from inputs to the decoder. In this paper, we propose a novel and general approach to enhance the target dependency within the NAT decoder from two perspectives: decoder input and decoder self-attention. First, we transform the initial decoder input from the source language space to the target language space through a novel attentive transformation process. The transformation reassembles the decoder input based on target token embeddings and conditions the final output on the target-side information. Second, before NAT training, we introduce an effective forward-backward pre-training phase, implemented with different triangle attention masks. This pre-training phase enables the model to gradually learn bidirectional dependencies for the final NAT decoding process. Experimental results demonstrate that the proposed approaches consistently improve highly competitive NAT models on four WMT translation directions by up to 1.88 BLEU score, while overall maintaining inference latency comparable to other fully NAT models.
翻訳日:2022-03-31 21:44:14 公開日:2022-03-30
# (参考訳) 有望な規範的コンプライアンスによる強化学習

Reinforcement Learning Guided by Provable Normative Compliance ( http://arxiv.org/abs/2203.16275v1 )

ライセンス: CC BY 4.0
Emery Neufeld(参考訳) 強化学習(Reinforcement Learning, RL)は、自律エージェントの安全、倫理、法的行動のためのツールとして約束されている。 その使用法は通常、安全でないか非倫理的な選択を構成する状態-作用ペアに罰を割り当てることに依存する。 しかし、この課題がこのアプローチの重要なステップであるにも関わらず、刑罰選択のプロセスの一般化と適用先の決定については限定的な議論がなされている。 本稿では,既存のフレームワークであるneufeld et al.(neufeld et al., 2021)をトレーニング中に活用するアプローチを採用する。 この規範的スーパーバイザーは、状態と適用可能な規範体系を動的にデファシブルなデオン論理理論に翻訳し、これらの理論を定理証明者に供給し、エージェントに罰を与えるかどうかを決定するために導出された結論を使用する。 我々は,多目的RL(MORL)を用いて,侵害を避けるという倫理的目的と非倫理的目的とのバランスをとる。

Reinforcement learning (RL) has shown promise as a tool for engineering safe, ethical, or legal behaviour in autonomous agents. Its use typically relies on assigning punishments to state-action pairs that constitute unsafe or unethical choices. Despite this assignment being a crucial step in this approach, however, there has been limited discussion on generalizing the process of selecting punishments and deciding where to apply them. In this paper, we adopt an approach that leverages an existing framework -- the normative supervisor of (Neufeld et al., 2021) -- during training. This normative supervisor is used to dynamically translate states and the applicable normative system into defeasible deontic logic theories, feed these theories to a theorem prover, and use the conclusions derived to decide whether or not to assign a punishment to the agent. We use multi-objective RL (MORL) to balance the ethical objective of avoiding violations with a non-ethical objective; we will demonstrate that our approach works for a multiplicity of MORL techniques, and show that it is effective regardless of the magnitude of the punishment we assign.
翻訳日:2022-03-31 21:26:37 公開日:2022-03-30
# (参考訳) ゼロショットデータ-テキスト生成のためのニューラルパイプライン

Neural Pipeline for Zero-Shot Data-to-Text Generation ( http://arxiv.org/abs/2203.16279v1 )

ライセンス: CC BY-SA 4.0
Zden\v{e}k Kasner, Ond\v{r}ej Du\v{s}ek(参考訳) data-to-text (d2t) 生成では、ドメイン内データのトレーニングがデータ表現に過剰に適合し、トレーニングデータノイズを繰り返す。 PLMの表面実現能力を活用しつつ、D2T生成データセット上でのPLMの微調整を回避する方法について検討する。 パイプラインのアプローチに着想を得て,汎用的なテキストベース操作で訓練された一連のモジュール(順序付け,アグリゲーション,段落圧縮)で単一項目記述を変換してテキストを生成する手法を提案する。 英語wikipediaから構築した合成コーパスwikifluent上でこれらの操作を行うplmをトレーニングする。 WebNLGとE2Eという2つの主要な3重テキストデータセットに関する実験により、ゼロショット設定でのRDFトリプルからのD2T生成が可能になった。

In data-to-text (D2T) generation, training on in-domain data leads to overfitting to the data representation and repeating training data noise. We examine how to avoid finetuning pretrained language models (PLMs) on D2T generation datasets while still taking advantage of surface realization capabilities of PLMs. Inspired by pipeline approaches, we propose to generate text by transforming single-item descriptions with a sequence of modules trained on general-domain text-based operations: ordering, aggregation, and paragraph compression. We train PLMs for performing these operations on a synthetic corpus WikiFluent which we build from English Wikipedia. Our experiments on two major triple-to-text datasets -- WebNLG and E2E -- show that our approach enables D2T generation from RDF triples in zero-shot settings.
翻訳日:2022-03-31 21:06:04 公開日:2022-03-30
# (参考訳) 弱い監督の風景は

The Weak Supervision Landscape ( http://arxiv.org/abs/2203.16282v1 )

ライセンス: CC BY 4.0
Rafael Poyiadzi, Daniel Bacaicoa-Barber, Jesus Cid-Sueiro, Miquel Perello-Nieto, Peter Flach, Raul Santos-Rodriguez(参考訳) 通常のクラスラベルを超える機械学習分類タスクのためのデータセットを注釈する多くの方法が実際に存在する。 これらは、アノテーションの収集を単純化または促進できると同時に、結果として生じる機械学習モデルに大きな影響を与えない、という点で興味深い。 それらの多くは、弱いラベルやアノテーションの傘の言葉に該当する。 しかし、どのような選択肢が関係しているかは必ずしも明確ではない。 本稿では,(1)アノテーションプロセスを記述する際に,データセット所有者やアノテーション者が,弱監督下で利用可能なオプションをナビゲートするのを助けること,(2)機械学習実践者にデータセットの既存のアノテーションを記述することによって,学習プロセスへの影響を理解することを目的とした,弱い監督設定を分類するフレームワークを提案する。 この目的のために、弱い監督を特徴付ける重要な要素を特定し、既存のアプローチの大部分を分類する一連の次元を考案する。 本稿では,文献の共通設定がフレームワーク内でどのように適合するかを示し,その実用性について議論する。

Many ways of annotating a dataset for machine learning classification tasks that go beyond the usual class labels exist in practice. These are of interest as they can simplify or facilitate the collection of annotations, while not greatly affecting the resulting machine learning model. Many of these fall under the umbrella term of weak labels or annotations. However, it is not always clear how different alternatives are related. In this paper we propose a framework for categorising weak supervision settings with the aim of: (1) helping the dataset owner or annotator navigate through the available options within weak supervision when prescribing an annotation process, and (2) describing existing annotations for a dataset to machine learning practitioners so that we allow them to understand the implications for the learning process. To this end, we identify the key elements that characterise weak supervision and devise a series of dimensions that categorise most of the existing approaches. We show how common settings in the literature fit within the framework and discuss its possible uses in practice.
翻訳日:2022-03-31 20:39:00 公開日:2022-03-30
# (参考訳) アクティブ分散ネットワークにおけるインバータ型volt-var制御のための1ステップ2-critic深層強化学習

One-Step Two-Critic Deep Reinforcement Learning for Inverter-based Volt-Var Control in Active Distribution Networks ( http://arxiv.org/abs/2203.16289v1 )

ライセンス: CC BY 4.0
Qiong Liu, Ye Guo, Lirong Deng, Haotian Liu, Dongyu Li, Hongbin Sun, Wenqi Huang(参考訳) 本稿では,アクティブな分散ネットワークにおけるインバータ型volt-var制御(ib-vvc)のための1ステップ2-critic deep reinforcement learning(ostc-drl)手法を提案する。 まず, IB-VVCを単一周期最適化問題として定式化できることを考慮し, IB-VVCを標準マルコフ決定プロセスではなく1ステップマルコフ決定プロセスとして定式化する。 そこで我々は,最近のDRLアルゴリズムの簡易版であるワンステップアクタ批判DRLスキームを設計し,Q値過大評価の問題を回避する。 さらに,vvcの目標である電力損失の最小化と電圧違反の排除の2つを考慮して,2つの批判者を用いて2つの目標の報酬を別々に近似する。 各批評家の近似タスクを単純化し、批判の学習過程における2つの目的間の相互作用効果を回避する。 OSTC-DRLアプローチは、1段階のアクター・クリティカル・DRLスキームと2段階のテクノロジーを統合している。 OSTC-DRLに基づいて、2つの集中型DRLアルゴリズムを設計する。 さらに,OSTC-DRLを分散IB-VVC用マルチエージェントOSTC-DRLに拡張し,2つのマルチエージェントDRLアルゴリズムを設計する。 シミュレーションにより,提案OSTC-DRLはより高速な収束率と制御性能が向上し,マルチエージェントOSTC-DRLは分散IB-VVC問題に対して有効であることが示された。

A one-step two-critic deep reinforcement learning (OSTC-DRL) approach for inverter-based volt-var control (IB-VVC) in active distribution networks is proposed in this paper. Firstly, considering IB-VVC can be formulated as a single-period optimization problem, we formulate the IB-VVC as a one-step Markov decision process rather than the standard Markov decision process, which simplifies the DRL learning task. Then we design the one-step actor-critic DRL scheme which is a simplified version of recent DRL algorithms, and it avoids the issue of Q value overestimation successfully. Furthermore, considering two objectives of VVC: minimizing power loss and eliminating voltage violation, we utilize two critics to approximate the rewards of two objectives separately. It simplifies the approximation tasks of each critic, and avoids the interaction effect between two objectives in the learning process of critic. The OSTC-DRL approach integrates the one-step actor-critic DRL scheme and the two-critic technology. Based on the OSTC-DRL, we design two centralized DRL algorithms. Further, we extend the OSTC-DRL to multi-agent OSTC-DRL for decentralized IB-VVC and design two multi-agent DRL algorithms. Simulations demonstrate that the proposed OSTC-DRL has a faster convergence rate and a better control performance, and the multi-agent OSTC-DRL works well for decentralized IB-VVC problems.
翻訳日:2022-03-31 20:26:57 公開日:2022-03-30
# (参考訳) AmsterTime: 高度なドメインシフトのための視覚的位置認識ベンチマークデータセット

AmsterTime: A Visual Place Recognition Benchmark Dataset for Severe Domain Shift ( http://arxiv.org/abs/2203.16291v1 )

ライセンス: CC BY 4.0
Burak Yildiz, Seyran Khademi, Ronald Maria Siebes, Jan van Gemert(参考訳) astertime: 厳しいドメインシフトがあった場合に視覚位置認識(vpr)をベンチマークする、挑戦的なデータセットです。 AmsterTimeは、アムステルダム市の歴史的考古学的画像データと一致するストリートビューから、同じシーンと一致する2500の精巧な画像のコレクションを提供している。 画像ペアは、異なるカメラ、視点、外観で同じ場所をキャプチャします。 既存のベンチマークデータセットとは異なり、AmsterTimeは直接GISナビゲーションプラットフォーム(Mapillary)でクラウドソースされる。 検証タスクと検索タスクの両方において,非学習,教師付き,自己指導的手法を含む,さまざまなベースラインを評価した。 その結果,Landmarksデータセット上で事前学習したResNet-101モデルに対して,検証タスクと検索タスクをそれぞれ84%,検索タスクを24%の精度で行うことができた。 さらに、分類タスクで特徴評価のためにアムステルダムランドマークのサブセットが収集される。 分類ラベルは、深層メトリック学習モデルにおいて学習された類似視覚を検査するためにgrad-camを用いて視覚的な説明を抽出するために使われる。

We introduce AmsterTime: a challenging dataset to benchmark visual place recognition (VPR) in presence of a severe domain shift. AmsterTime offers a collection of 2,500 well-curated images matching the same scene from a street view matched to historical archival image data from Amsterdam city. The image pairs capture the same place with different cameras, viewpoints, and appearances. Unlike existing benchmark datasets, AmsterTime is directly crowdsourced in a GIS navigation platform (Mapillary). We evaluate various baselines, including non-learning, supervised and self-supervised methods, pre-trained on different relevant datasets, for both verification and retrieval tasks. Our result credits the best accuracy to the ResNet-101 model pre-trained on the Landmarks dataset for both verification and retrieval tasks by 84% and 24%, respectively. Additionally, a subset of Amsterdam landmarks is collected for feature evaluation in a classification task. Classification labels are further used to extract the visual explanations using Grad-CAM for inspection of the learned similar visuals in a deep metric learning models.
翻訳日:2022-03-31 20:06:41 公開日:2022-03-30
# (参考訳) 文脈認識による自動音楽書き起こし

Context-aware Automatic Music Transcription ( http://arxiv.org/abs/2203.16294v1 )

ライセンス: CC BY 4.0
Federico Simonetta, Stavros Ntalampiras, Federico Avanzini(参考訳) 本稿では,文脈関連情報を組み込んだ自動音楽書き起こしシステムを提案する。 現状の心理研究によって動機づけられた本研究では,演奏者が任意の音響的文脈で解釈をうまく伝達するために適用する適応をモデル化することにより,ATTシステムの精度を高める手法を提案する。 本研究では,音源の音響的文脈の知識を活用すれば,MIDI速度の推測に関する誤差を低減できることを示す。 提案したモデル構造はまず解釈特徴を抽出し,モデル化されたパフォーマー適応を適用した。 興味深いことに、このような方法論は、完全にコンテキスト対応のAMTモデルをトレーニングするために、わずかな努力しか必要とされないため、簡単に拡張可能である。

This paper presents an Automatic Music Transcription system that incorporates context-related information. Motivated by the state-of-art psychological research, we propose a methodology boosting the accuracy of AMT systems by modeling the adaptations that performers apply to successfully convey their interpretation in any acoustical context. In this work, we show that exploiting the knowledge of the source acoustical context allows reducing the error related to the inference of MIDI velocity. The proposed model structure first extracts the interpretation features and then applies the modeled performer adaptations. Interestingly, such a methodology is extensible in a straightforward way since only slight efforts are required to train completely context-aware AMT models.
翻訳日:2022-03-31 19:52:08 公開日:2022-03-30
# (参考訳) 将来の物体検出によるLiDARからの予測

Forecasting from LiDAR via Future Object Detection ( http://arxiv.org/abs/2203.16297v1 )

ライセンス: CC BY 4.0
Neehar Peri, Jonathon Luiten, Mengtian Li, Aljo\v{s}a O\v{s}ep, Laura Leal-Taix\'e, Deva Ramanan(参考訳) 物体検出と予測は、具体化知覚の基本的な構成要素である。 しかし、これらの2つの問題はコミュニティによって主に研究されている。 本稿では,地中真実の軌跡ではなく,原位置センサによる検出と動き予測のためのエンドツーエンドアプローチを提案する。 現在のフレームの位置を予測し、時間内に前方に予測する代わりに、将来のオブジェクトの位置とバックキャストを直接予測して、それぞれの軌道がどこから始まったかを決定する。 我々のアプローチは他のモジュラーベースラインやエンド・ツー・エンドベースラインと比べて全体的な精度を向上させるだけでなく、具体化された知覚に対する明示的な追跡の役割を再考する。 さらに、将来と現在の場所を多対一でリンクすることで、これまでエンドツーエンドのアプローチでは難しいと考えられていた、複数の未来を推論することができます。 我々は,人気のあるnuscenesデータセットを広範囲に実験し,このアプローチの実証的有効性を示す。 さらに、エンド・ツー・エンドの設定で標準予測メトリクスを再利用することの適切性を調査し、これらのメトリクスを競うための単純なベースラインを構築するための多くの制限を見つける。 本稿では,検出コミュニティから一般的なAPメトリクスを拡張し,予測精度を計測する,新しい共同予測・検出指標を用いてこの問題に対処する。 私たちのコードは \href{https://github.com/neeharperi/FutureDet}{GitHub} で利用可能です。

Object detection and forecasting are fundamental components of embodied perception. These two problems, however, are largely studied in isolation by the community. In this paper, we propose an end-to-end approach for detection and motion forecasting based on raw sensor measurement as opposed to ground truth tracks. Instead of predicting the current frame locations and forecasting forward in time, we directly predict future object locations and backcast to determine where each trajectory began. Our approach not only improves overall accuracy compared to other modular or end-to-end baselines, it also prompts us to rethink the role of explicit tracking for embodied perception. Additionally, by linking future and current locations in a many-to-one manner, our approach is able to reason about multiple futures, a capability that was previously considered difficult for end-to-end approaches. We conduct extensive experiments on the popular nuScenes dataset and demonstrate the empirical effectiveness of our approach. In addition, we investigate the appropriateness of reusing standard forecasting metrics for an end-to-end setup, and find a number of limitations which allow us to build simple baselines to game these metrics. We address this issue with a novel set of joint forecasting and detection metrics that extend the commonly used AP metrics from the detection community to measuring forecasting accuracy. Our code is available on \href{https://github.com/neeharperi/FutureDet}{GitHub}.
翻訳日:2022-03-31 19:42:58 公開日:2022-03-30
# (参考訳) IGRF-RFE:UNSW-NB15データセットを用いたMLPによるネットワーク侵入検出のためのハイブリッド特徴選択手法

IGRF-RFE: A Hybrid Feature Selection Method for MLP-based Network Intrusion Detection on UNSW-NB15 Dataset ( http://arxiv.org/abs/2203.16365v1 )

ライセンス: CC BY 4.0
Yuhua Yin, Julian Jang-Jaccard, Wen Xu, Amardeep Singh, Jinting Zhu, Fariza Sabrina, Jin Kwak(参考訳) 機械学習モデルの有効性はデータセットのサイズや、冗長で無関係な機能としての機能の質によって著しく影響を受けます。 本稿では,マルチ層パーセプトロン(MLP)ネットワークを用いたマルチクラスネットワーク異常に対するハイブリッド特徴選択手法IGRF-RFEを提案する。 IGRF-RFEはフィルタ特徴選択法とラッパー特徴選択法の両方に基づく特徴量削減手法とみなすことができる。 提案手法では,インフォメーションゲインとランダムフォレスト重要度を組み合わせたフィルタ特徴選択法を用いて,特徴部分集合探索空間を削減する。 次に, 再帰的特徴除去 (RFE) をラッパー特徴選択法として適用し, 縮小された特徴部分集合上で再帰的に冗長な特徴を除去する。 UNSW-NB15データセットを用いて得られた実験結果から,提案手法は特徴量を削減するとともに異常検出の精度を向上させることができることを確認した。 その結果,MLPのマルチクラス化精度は82.25%から84.24%に向上する一方,特徴寸法は42から23に低下した。

The effectiveness of machine learning models is significantly affected by the size of the dataset and the quality of features as redundant and irrelevant features can radically degrade the performance. This paper proposes IGRF-RFE: a hybrid feature selection method tasked for multi-class network anomalies using a Multilayer perceptron (MLP) network. IGRF-RFE can be considered as a feature reduction technique based on both the filter feature selection method and the wrapper feature selection method. In our proposed method, we use the filter feature selection method, which is the combination of Information Gain and Random Forest Importance, to reduce the feature subset search space. Then, we apply recursive feature elimination(RFE) as a wrapper feature selection method to further eliminate redundant features recursively on the reduced feature subsets. Our experimental results obtained based on the UNSW-NB15 dataset confirm that our proposed method can improve the accuracy of anomaly detection while reducing the feature dimension. The results show that the feature dimension is reduced from 42 to 23 while the multi-classification accuracy of MLP is improved from 82.25% to 84.24%.
翻訳日:2022-03-31 19:23:48 公開日:2022-03-30
# (参考訳) 心臓ID : 生体認証における不規則心信号の影響の軽減

CardioID: Mitigating the Effects of Irregular Cardiac Signals for Biometric Identification ( http://arxiv.org/abs/2203.16381v1 )

ライセンス: CC BY 4.0
Weizheng Wang, Marco Zuniga and Qing Wang(参考訳) 心臓パターンは、生体認証の難易度を得るために使われており、最先端(SoA)識別アプリケーションにおいて高い精度を導いている。 しかし、この性能は、心臓信号が比較的均一なパターンを維持し、識別プロセスを容易にする制御シナリオで得られる。 本研究では,より現実的な(制御不能)シナリオで収集された心信号を分析し,その高い信号変動性(不規則性)が安定かつ異なるユーザ特性を得ることを困難にしていることを示す。 さらに、soaは通常、特定のユーザーグループを特定することに失敗し、制御されていないシナリオで既存の識別メソッドを無駄にします。 これらの問題を解決するために,3つの新しい性質を持つフレームワークを提案する。 まず,各ユーザに対してフィルタスペクトルを調整することで,安定した特徴と異なる特徴を実現する適応手法を設計する。 第二に、ユーザーは複数の心臓形態を持つことができ、SoAに比べてはるかに大きな心臓信号と使用者のプールを提供する。 第3に,マルチクラスタアプローチとマハラノビス距離を用いた認証アプリケーションにおける他の歪み効果を克服する。 評価の結果,SoAの平均平衡精度(BAC)は制御されたシナリオでは90%以上から制御されていないシナリオでは75%に低下し,制御されていないシナリオでは90%以上に低下した。

Cardiac patterns are being used to obtain hard-to-forge biometric signatures and have led to high accuracy in state-of-the-art (SoA) identification applications. However, this performance is obtained under controlled scenarios where cardiac signals maintain a relatively uniform pattern, facilitating the identification process. In this work, we analyze cardiac signals collected in more realistic (uncontrolled) scenarios and show that their high signal variability (i.e., irregularity) makes it harder to obtain stable and distinct user features. Furthermore, SoA usually fails to identify specific groups of users, rendering existing identification methods futile in uncontrolled scenarios. To solve these problems, we propose a framework with three novel properties. First, we design an adaptive method that achieves stable and distinct features by tailoring the filtering spectrum to each user. Second, we show that users can have multiple cardiac morphologies, offering us a much bigger pool of cardiac signals and users compared to SoA. Third, we overcome other distortion effects present in authentication applications with a multi-cluster approach and the Mahalanobis distance. Our evaluation shows that the average balanced accuracy (BAC) of SoA drops from above 90% in controlled scenarios to 75% in uncontrolled ones, while our method maintains an average BAC above 90% in uncontrolled scenarios.
翻訳日:2022-03-31 19:03:39 公開日:2022-03-30
# (参考訳) アンダーサンプ型マルチコイルMRI再構成のための学習適応獲得ポリシーについて

On learning adaptive acquisition policies for undersampled multi-coil MRI reconstruction ( http://arxiv.org/abs/2203.16392v1 )

ライセンス: CC BY 4.0
Tim Bakker, Matthew Muckley, Adriana Romero-Soriano, Michal Drozdzal, Luis Pineda(参考訳) マルチコイルMRI再構成のアンサンプ化への現在のアプローチは、固定等距離取得軌道の再構成モデル学習に重点を置いている。 本稿では,再構築モデルと獲得方針の併用による共同学習の問題について考察する。 この目的を達成するために、さまざまなデータポイントに適応可能な学習可能な取得ポリシーによって、エンドツーエンドの変分ネットワークを拡張する。 我々は,大規模アンサンプ付きマルチコイル高速MRIデータセットのコイル圧縮版に対して,2つのアンサンプリング因子を用いて検証を行った。 我々の実験では、学習可能な非適応および手作りの等距離戦略を$4\times$で、ssimの$8\times$アクセラレーションで$2\%$以上の改善が観察されている。 しかし、おそらく驚くことに、最高の実行ポリシーは、明示的に非適応的であることを学びます。

Most current approaches to undersampled multi-coil MRI reconstruction focus on learning the reconstruction model for a fixed, equidistant acquisition trajectory. In this paper, we study the problem of joint learning of the reconstruction model together with acquisition policies. To this end, we extend the End-to-End Variational Network with learnable acquisition policies that can adapt to different data points. We validate our model on a coil-compressed version of the large scale undersampled multi-coil fastMRI dataset using two undersampling factors: $4\times$ and $8\times$. Our experiments show on-par performance with the learnable non-adaptive and handcrafted equidistant strategies at $4\times$, and an observed improvement of more than $2\%$ in SSIM at $8\times$ acceleration, suggesting that potentially-adaptive $k$-space acquisition trajectories can improve reconstructed image quality for larger acceleration factors. However, and perhaps surprisingly, our best performing policies learn to be explicitly non-adaptive.
翻訳日:2022-03-31 18:40:51 公開日:2022-03-30
# (参考訳) 対話型キャラクタ制御のためのオンラインモーションスタイル転送

Online Motion Style Transfer for Interactive Character Control ( http://arxiv.org/abs/2203.16393v1 )

ライセンス: CC BY 4.0
Yingtian Tang, Jiangtao Liu, Cheng Zhou, Tingguang Li(参考訳) モーションスタイルの転送はゲーム用のモーション生成システムに非常に望ましい。 オフライン版と比較すると、インタラクティブコントロール下でのオンラインモーションスタイル転送に関する研究は限られている。 本研究では,ユーザ制御下で異なるスタイルの動作を生成し,リアルタイムに動作スタイルを伝達するエンド・ツー・エンドニューラルネットワークを提案する。 本手法は手作りのフェーズ機能の使用を排除し,ゲームシステムに容易にトレーニングし,直接デプロイすることができる。 実験部では,産業ゲーム設計に不可欠な3つの側面,すなわち精度,柔軟性,多様性からアプローチを評価する。

Motion style transfer is highly desired for motion generation systems for gaming. Compared to its offline counterpart, the research on online motion style transfer under interactive control is limited. In this work, we propose an end-to-end neural network that can generate motions with different styles and transfer motion styles in real-time under user control. Our approach eliminates the use of handcrafted phase features, and could be easily trained and directly deployed in game systems. In the experiment part, we evaluate our approach from three aspects that are essential for industrial game design: accuracy, flexibility, and variety, and our model performs a satisfying result.
翻訳日:2022-03-31 18:21:30 公開日:2022-03-30
# (参考訳) 表面視覚トランスフォーマー:注意に基づくモデリングの皮質解析への応用

Surface Vision Transformers: Attention-Based Modelling applied to Cortical Analysis ( http://arxiv.org/abs/2203.16414v1 )

ライセンス: CC BY 4.0
Simon Dahan, Abdulah Fawaz, Logan Z. J. Williams, Chunhui Yang, Timothy S. Coalson, Matthew F. Glasser, A. David Edwards, Daniel Rueckert, Emma C. Robinson(参考訳) 畳み込みニューラルネットワーク(CNN)の非ユークリッド幾何学への拡張は、多様体を研究するための複数のフレームワークにつながった。 これらの方法の多くは、不規則曲面への畳み込みの一般化は非自明であるため、長距離関連のモデル化が不十分な設計上の限界を示している。 コンピュータビジョンにおける注意モデリングの成功に動機づけられ、畳み込みのない視覚トランスフォーマーアプローチを表面データに変換し、球面多様体上に投影される表面データを研究するためのドメインに依存しないアーキテクチャを導入する。 ここでは、球面データを、細分化した球状圏から抽出した三角形のパッチの列として表すことにより、表面パッチを行う。 トランスモデルは、シーケンス解像度を保持しながら、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。 発達型ヒューマン・コネクトーム・プロジェクト(dHCP)から派生した皮質表面計測値から表現型回帰を課題とした表面視変換器(SiT)の性能評価を行った。 実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。 トランスフォーマーアテンションマップの解析は、微妙な認知発達パターンを特徴づける強い可能性を提供する。

The extension of convolutional neural networks (CNNs) to non-Euclidean geometries has led to multiple frameworks for studying manifolds. Many of those methods have shown design limitations resulting in poor modelling of long-range associations, as the generalisation of convolutions to irregular surfaces is non-trivial. Motivated by the success of attention-modelling in computer vision, we translate convolution-free vision transformer approaches to surface data, to introduce a domain-agnostic architecture to study any surface data projected onto a spherical manifold. Here, surface patching is achieved by representing spherical data as a sequence of triangular patches, extracted from a subdivided icosphere. A transformer model encodes the sequence of patches via successive multi-head self-attention layers while preserving the sequence resolution. We validate the performance of the proposed Surface Vision Transformer (SiT) on the task of phenotype regression from cortical surface metrics derived from the Developing Human Connectome Project (dHCP). Experiments show that the SiT generally outperforms surface CNNs, while performing comparably on registered and unregistered data. Analysis of transformer attention maps offers strong potential to characterise subtle cognitive developmental patterns.
翻訳日:2022-03-31 18:09:26 公開日:2022-03-30
# (参考訳) 弱教師付き因果表現学習

Weakly supervised causal representation learning ( http://arxiv.org/abs/2203.16437v1 )

ライセンス: CC BY 4.0
Johann Brehmer, Pim de Haan, Phillip Lippe, and Taco Cohen(参考訳) ピクセルのような非構造化低レベルデータから因果モデルとともに高レベル因果表現を学ぶことは、観測データだけでは不可能である。 我々は、この表現が弱教師付き環境で識別可能であるという軽微な仮定の下で証明する。 これは、ランダムに未知の介入の前後にペアのサンプルを持つデータセットを必要とするが、これ以上のラベルは必要ない。 最後に,構造的因果モデルを持つ変分オートエンコーダを用いて,単純な合成領域において,表現と因果グラフを確実に推定できることを示す。

Learning high-level causal representations together with a causal model from unstructured low-level data such as pixels is impossible from observational data alone. We prove under mild assumptions that this representation is identifiable in a weakly supervised setting. This requires a dataset with paired samples before and after random, unknown interventions, but no further labels. Finally, we show that we can infer the representation and causal graph reliably in a simple synthetic domain using a variational autoencoder with a structural causal model as prior.
翻訳日:2022-03-31 17:45:36 公開日:2022-03-30
# (参考訳) 多言語変換器モデルを用いたゼロショット横断眼球追跡データ予測

Zero Shot Crosslingual Eye-Tracking Data Prediction using Multilingual Transformer Models ( http://arxiv.org/abs/2203.16474v1 )

ライセンス: CC BY 4.0
Harshvardhan Srivastava(参考訳) 読書中の視線追跡データは、言語理解過程中に起こる認知過程を理解するのに有用な情報源である。 異なる言語は異なる脳のトリガーを説明できるが、一様の指標があるようだ。 本稿では,多言語データセットにおける人間の読み出しパターンの予測に関するcmcl 2022共有タスクへの提案について述べる。 本モデルでは,2つの眼球追跡特徴に対する平均偏差と標準偏差の統計的測度を予測するために,変圧器のテキスト表現と回帰層を用いた手書き特徴を用いた。 エンド・ツー・エンドのモデルをトレーニングして、異なる言語から意味のある情報を抽出し、2つのデータセットでモデルをテストします。 異なる変圧器モデルを比較し、モデル性能に影響を与えるアブレーション研究を示す。 最後に、SubTask-1で4位、共有タスクでSubTask-2で1位にランク付けしました。

Eye tracking data during reading is a useful source of information to understand the cognitive processes that take place during language comprehension processes. Different languages account for different brain triggers , however there seems to be some uniform indicators. In this paper, we describe our submission to the CMCL 2022 shared task on predicting human reading patterns for multi-lingual dataset. Our model uses text representations from transformers and some hand engineered features with a regression layer on top to predict statistical measures of mean and standard deviation for 2 main eye-tracking features. We train an end to end model to extract meaningful information from different languages and test our model on two seperate datasets. We compare different transformer models and show ablation studies affecting model performance. Our final submission ranked 4th place for SubTask-1 and 1st place for SubTask-2 for the shared task.
翻訳日:2022-03-31 17:16:32 公開日:2022-03-30
# (参考訳) AdaMixer: 高速に収束するクエリベースのオブジェクト検出器

AdaMixer: A Fast-Converging Query-Based Object Detector ( http://arxiv.org/abs/2203.16507v1 )

ライセンス: CC BY 4.0
Ziteng Gao, Limin Wang, Bing Han, Sheng Guo(参考訳) 従来の物体検出器は、画像中の場所やスケールを走査する密集したパラダイムを採用している。 最近のクエリベースのオブジェクト検出器は、画像の特徴を学習可能なクエリのセットでデコードすることで、この規約を破っている。 しかしながら、このパラダイムは、バックボーンとデコーダの間の余分なネットワークの収束の遅さ、性能の制限、設計上の複雑さに悩まされている。 本稿では,様々なオブジェクトにクエリをキャストするためのデコーダの適応性が課題の鍵であることを示す。 そこで本研究では,クエリベースの復号処理の2つの側面から適応性を向上させることにより,高速収束型クエリベース検出器adamixerを提案する。 まず、各クエリは、推定オフセットに基づいてスペースとスケールを適応的にサンプリングし、adamixerがオブジェクトのコヒーレントな領域に効率的に出席できるようにします。 そして,各クエリのガイダンスに基づいて,適応型MLP-Mixerでこれらの特徴を動的に復号する。 この2つの重要な設計のおかげで、adamixerは集中エンコーダや明示的なピラミッドネットワークを必要とせずに、アーキテクチャの単純さを享受できる。 挑戦的なMS COCOベンチマークでは、ResNet-50をバックボーンとするAdaMixerが12のトレーニングエポックを持ち、検証セット上で最大45.0 APに達し、27.9 APで小さな物体を検出する。 より長いトレーニングスキームでは、ResNeXt-101-DCNとSwin-Sを使用したAdaMixerは49.5と51.3 APに達する。 私たちの仕事は、クエリベースのオブジェクト検出のためのシンプルで正確で高速な収束アーキテクチャに光を当てています。 コードはhttps://github.com/mcg-nju/adamixerで入手できる。

Traditional object detectors employ the dense paradigm of scanning over locations and scales in an image. The recent query-based object detectors break this convention by decoding image features with a set of learnable queries. However, this paradigm still suffers from slow convergence, limited performance, and design complexity of extra networks between backbone and decoder. In this paper, we find that the key to these issues is the adaptability of decoders for casting queries to varying objects. Accordingly, we propose a fast-converging query-based detector, named AdaMixer, by improving the adaptability of query-based decoding processes in two aspects. First, each query adaptively samples features over space and scales based on estimated offsets, which allows AdaMixer to efficiently attend to the coherent regions of objects. Then, we dynamically decode these sampled features with an adaptive MLP-Mixer under the guidance of each query. Thanks to these two critical designs, AdaMixer enjoys architectural simplicity without requiring dense attentional encoders or explicit pyramid networks. On the challenging MS COCO benchmark, AdaMixer with ResNet-50 as the backbone, with 12 training epochs, reaches up to 45.0 AP on the validation set along with 27.9 APs in detecting small objects. With the longer training scheme, AdaMixer with ResNeXt-101-DCN and Swin-S reaches 49.5 and 51.3 AP. Our work sheds light on a simple, accurate, and fast converging architecture for query-based object detectors. The code is made available at https://github.com/MCG-NJU/AdaMixer
翻訳日:2022-03-31 17:10:48 公開日:2022-03-30
# (参考訳) Vakyansh: 低リソースインデックス言語のためのASRツールキット

Vakyansh: ASR Toolkit for Low Resource Indic languages ( http://arxiv.org/abs/2203.16512v1 )

ライセンス: CC BY 4.0
Harveen Singh Chadha, Anirudh Gupta, Priyanshi Shah, Neeraj Chhimwal, Ankur Dhuriya, Rishabh Gaur, Vivek Raghavan(参考訳) Indic言語における音声認識のためのエンドツーエンドツールキットであるVakyanshを提案する。 インドには121の言語と125のクロア話者がある。 しかし、ほとんどの言語は、データと事前学習されたモデルに関して、リソースが少ない。 Vakyanshを通じて、データ生成、モデルトレーニング、モデル評価、デプロイメントのための自動データパイプラインを導入します。 私たちは23のIndic言語で14,000時間の音声データを作成し、wav2vec 2.0ベースの事前訓練モデルを訓練します。 これらの事前訓練されたモデルは、言語モデルと句読解復元モデルに続く18のIndic言語に対するアート音声認識モデルの状態を生成するために微調整される。 当社はこれらすべてのリソースをオープンソースとして公開し、言語におけるasrモデルを使用した音声ファーストアプリケーションの開発を、音声コミュニティに促すことを目標にしています。

We present Vakyansh, an end to end toolkit for Speech Recognition in Indic languages. India is home to almost 121 languages and around 125 crore speakers. Yet most of the languages are low resource in terms of data and pretrained models. Through Vakyansh, we introduce automatic data pipelines for data creation, model training, model evaluation and deployment. We create 14,000 hours of speech data in 23 Indic languages and train wav2vec 2.0 based pretrained models. These pretrained models are then finetuned to create state of the art speech recognition models for 18 Indic languages which are followed by language models and punctuation restoration models. We open source all these resources with a mission that this will inspire the speech community to develop speech first applications using our ASR models in Indic languages.
翻訳日:2022-03-31 17:09:44 公開日:2022-03-30
# デバイス指向音声検出:弱教師付きモデルの蒸留による正規化

Device-Directed Speech Detection: Regularization via Distillation for Weakly-Supervised Models ( http://arxiv.org/abs/2203.15975v1 )

ライセンス: Link先を確認
Vineet Garg, Ognjen Rudovic, Pranay Dighe, Ahmed H. Abdelaziz, Erik Marchi, Saurabh Adya, Chandra Dhir, Ahmed Tewfik(参考訳) 特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。 具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。 偶発的なボタン押圧による仮想アシスタント(VA)のアクティベーションの緩和は,ユーザエクスペリエンスに不可欠である。 false trigger mitigation (ftm) へのアプローチの多くはターゲットキーワードの存在を検出するために設計されているが、キーワードがない場合のユーザの意図を推測することは困難である。 これはまた、ユーザのデータに固有のあいまいさがあるため、このようなシステムのトレーニング/評価データを作成する際にも課題となる。 そこで本研究では,新たに導入したデータサンプリング戦略で得られた弱ラベルトレーニングデータを用いた新しいftm手法を提案する。 このサンプリング戦略はデータアノテーションの労力を減らすが、データラベルは手動でアノテートされないためうるさい。 これらのデータを用いて,asrモデル(latticernn)からの知識蒸留による損失関数を定式化することにより,ftmタスクの音響のみモデルを学習する。 これによりモデル決定が改善され、66%の精度が向上し、ベース音響のみのモデルよりもEER(Equal-error-rate)によって測定される。 また,LatticeRNNと音響蒸留モデルのアンサンブルにより,精度が20%向上することを示した。

We address the problem of detecting speech directed to a device that does not contain a specific wake-word. Specifically, we focus on audio coming from a touch-based invocation. Mitigating virtual assistants (VAs) activation due to accidental button presses is critical for user experience. While the majority of approaches to false trigger mitigation (FTM) are designed to detect the presence of a target keyword, inferring user intent in absence of keyword is difficult. This also poses a challenge when creating the training/evaluation data for such systems due to inherent ambiguity in the user's data. To this end, we propose a novel FTM approach that uses weakly-labeled training data obtained with a newly introduced data sampling strategy. While this sampling strategy reduces data annotation efforts, the data labels are noisy as the data are not annotated manually. We use these data to train an acoustics-only model for the FTM task by regularizing its loss function via knowledge distillation from an ASR-based (LatticeRNN) model. This improves the model decisions, resulting in 66% gain in accuracy, as measured by equal-error-rate (EER), over the base acoustics-only model. We also show that the ensemble of the LatticeRNN and acoustic-distilled models brings further accuracy improvement of 20%.
翻訳日:2022-03-31 16:59:29 公開日:2022-03-30
# 関連時間系列による意思決定の高速化の理論

Theory of Acceleration of Decision Making by Correlated Times Sequences ( http://arxiv.org/abs/2203.16004v1 )

ライセンス: Link先を確認
Norihiro Okada, Tomoki Yamagami, Nicolas Chauvet, Yusuke Ito, Mikio Hasegawa, Makoto Naruse(参考訳) フォトニック加速器は、物理的プロセスのユニークな特性の恩恵を受けるために情報処理能力を強化するために熱心に研究されてきた。 近年,レーザーカオスと呼ばれるレーザからの超高速時系列をカオス的に振動させることで,マルチアームバンディット(MAB)問題や決定問題をGHz順序で解くことができることが報告されている。 さらに,レーザーカオスの負相関時間領域構造が意思決定の加速に寄与することが確認された。 しかし、なぜ意思決定が相関時系列によって加速されるのかという根本的なメカニズムは不明である。 本稿では,時系列の相関による意思決定の加速を考慮した理論的モデルを示す。 まず,フーリエ変換サロゲート法を用いた二本腕バンディット問題の解法として,時系列に内在する負の自己相関の有効性を確認した。 本稿では, 意思決定システムに係わる関係時系列とシステムの内部状態を, 相関ランダムウォークにインスパイアされた統一的な方法で関連づける理論モデルを提案する。 本理論により解析的に導出された性能は,提案モデルの有効性を確認し,最適システム設計につながる数値シミュレーションとよく一致することを示す。 本研究は, 意思決定における関連時系列の有効性, 人工知能などの応用に影響を及ぼす新しい方法である。

Photonic accelerators have been intensively studied to provide enhanced information processing capability to benefit from the unique attributes of physical processes. Recently, it has been reported that chaotically oscillating ultrafast time series from a laser, called laser chaos, provides the ability to solve multi-armed bandit (MAB) problems or decision-making problems at GHz order. Furthermore, it has been confirmed that the negatively correlated time-domain structure of laser chaos contributes to the acceleration of decision-making. However, the underlying mechanism of why decision-making is accelerated by correlated time series is unknown. In this paper, we demonstrate a theoretical model to account for the acceleration of decision-making by correlated time sequence. We first confirm the effectiveness of the negative autocorrelation inherent in time series for solving two-armed bandit problems using Fourier transform surrogate methods. We propose a theoretical model that concerns the correlated time series subjected to the decision-making system and the internal status of the system therein in a unified manner, inspired by correlated random walks. We demonstrate that the performance derived analytically by the theory agrees well with the numerical simulations, which confirms the validity of the proposed model and leads to optimal system design. The present study paves the new way for the effectiveness of correlated time series for decision-making, impacting artificial intelligence and other applications.
翻訳日:2022-03-31 16:59:05 公開日:2022-03-30
# カスケード分類とオンライン予測能力指標に基づくロータ部品のフライオフの予後

Prognosis of Rotor Parts Fly-off Based on Cascade Classification and Online Prediction Ability Index ( http://arxiv.org/abs/2203.16006v1 )

ライセンス: Link先を確認
Yingjun Shen, Zhe Song and Andrew Kusiak(参考訳) 大型回転機械、例えば圧縮機、蒸気タービン、ガスタービンは、エネルギー、化学、発電といった多くのプロセス産業において重要な設備である。 回転速度が高く、ローターの膨大な運動量のため、遠心力はローターの部品を分離して飛べる可能性があり、これは運用の安全性に大きな脅威となる。 潜在的な失敗の早期発見と予測は、壊滅的なプラントのダウンタイムと経済損失を防ぐ可能性がある。 本稿では,回転機械の動作状態を,故障時点までの時間に基づいて,正常でリスクの高い,リスクの高い状態に分割する。 次に,2つのステップで状態を予測するためにカスケード分類アルゴリズムを提案する。まず,マシンが正常か異常かを判断する。 さらに、混乱行列や真偽精度といった従来の分類モデル評価指標は静的であり、オンライン予測ダイナミクスや不均一な予測価格を無視している。 オンライン予測能力指数(OPAI)は、一貫したオンライン予測とより小さなオフライン予測誤差を持つ予測モデルを選択するために提案される。 実世界のデータセットと計算実験を用いて提案手法の有効性を検証する。

Large rotating machines, e.g., compressors, steam turbines, gas turbines, are critical equipment in many process industries such as energy, chemical, and power generation. Due to high rotating speed and tremendous momentum of the rotor, the centrifugal force may lead to flying apart of the rotor parts, which brings a great threat to the operation safety. Early detection and prediction of potential failures could prevent the catastrophic plant downtime and economic loss. In this paper, we divide the operational states of a rotating machine into normal, risky, and high-risk ones based on the time to the moment of failure. Then a cascade classifying algorithm is proposed to predict the states in two steps, first we judge whether the machine is in normal or abnormal condition; for time periods which are predicted as abnormal we further classify them into risky or high-risk states. Moreover, traditional classification model evaluation metrics, such as confusion matrix, true-false accuracy, are static and neglect the online prediction dynamics and uneven wrong-prediction prices. An Online Prediction Ability Index (OPAI) is proposed to select prediction models with consistent online predictions and smaller close-to-downtime prediction errors. Real-world data sets and computational experiments are used to verify the effectiveness of proposed methods.
翻訳日:2022-03-31 16:58:43 公開日:2022-03-30
# 自己注意VAEを用いたゼロショット多人数音声変換の実現

Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention VAE ( http://arxiv.org/abs/2203.16037v1 )

ライセンス: Link先を確認
Ziang Long, Yunling Zheng, Meng Yu, Jack Xin(参考訳) 変分自動エンコーダ(VAE)は、発話を話者のアイデンティティと言語内容の埋め込みに切り離し、ターゲット話者に対する発話を元話者から生成する効果的なニューラルネットワークアーキテクチャである。 これは、ターゲット話者のアイデンティティ埋め込みと、所望の文を発するソース話者のコンテンツ埋め込みとを連結することにより可能となる。 本研究では,VAEのデコーダの適切な位置を,変換された発話を生成し,音源話者の身元を隠蔽するために,非局所情報を組み込む自己注意層を追加する。 VCTKデータセットにおけるゼロショット多対多音声変換タスクの実験において、自己認識層は、デコーダパラメーターのサイズを12\%増加させながら、見えない話者の話者分類精度を27\%向上させる。 変換された発話の音質は、MOSNetスコアで測定された3\%で劣化する。 オーバーフィッティングと一般化の誤りを減らすため、ネットワークトレーニングにおいて、リラックスしたグループ分割法を適用し、mosnetスコアの変換音声品質を維持しつつ、未認識話者の話者分類精度を46\%向上させた。 ゼロショット多対多音声変換の実現に向けたvaeフレームワークにおける,より多様な注意構造の統合に関する今後の研究を奨励する。

Variational auto-encoder(VAE) is an effective neural network architecture to disentangle a speech utterance into speaker identity and linguistic content latent embeddings, then generate an utterance for a target speaker from that of a source speaker. This is possible by concatenating the identity embedding of the target speaker and the content embedding of the source speaker uttering a desired sentence. In this work, we found a suitable location of VAE's decoder to add a self-attention layer for incorporating non-local information in generating a converted utterance and hiding the source speaker's identity. In experiments of zero-shot many-to-many voice conversion task on VCTK data set, the self-attention layer enhances speaker classification accuracy on unseen speakers by 27\% while increasing the decoder parameter size by 12\%. The voice quality of converted utterance degrades by merely 3\% measured by the MOSNet scores. To reduce over-fitting and generalization error, we further applied a relaxed group-wise splitting method in network training and achieved a gain of speaker classification accuracy on unseen speakers by 46\% while maintaining the conversion voice quality in terms of MOSNet scores. Our encouraging findings point to future research on integrating more variety of attention structures in VAE framework for advancing zero-shot many-to-many voice conversions.
翻訳日:2022-03-31 16:58:23 公開日:2022-03-30
# 未知話者数に対する粗-重再帰音声分離

Coarse-to-Fine Recursive Speech Separation for Unknown Number of Speakers ( http://arxiv.org/abs/2203.16054v1 )

ライセンス: Link先を確認
Zhenhao Jin, Xiang Hao and Xiangdong Su(参考訳) 音声分離手法の大多数は、話者の数が予め知られているため、話者の数に比例していると仮定している。 対照的に、より現実的で困難なタスクは、話者数が不明な混合物を分離することである。 本稿では,未知話者数による音声分離をマルチパス音源抽出問題として定式化し,粗大な再帰的音声分離法を提案する。 この方法は、2つの段階、すなわち再帰的キュー抽出とターゲット話者抽出からなる。 再帰的キュー抽出段階は、どれだけの計算繰り返しを行う必要があるかを決定し、混合の統計を監視して粗いキュー音声を出力する。 再帰的な反復の数が増加するにつれて、歪みの蓄積は最終的に抽出された音声とリマインダーに現れる。 そこで,第2段階では,ターゲット話者抽出ネットワークを用いて,粗いターゲットキューと元の歪みのない混合に基づく微細な音声を抽出する。 実験により,提案手法は,話者数が異なるwsj0データセット上で,最先端のパフォーマンスをアーカイブすることを示した。 さらに、目に見えない多数の話者によく一般化する。

The vast majority of speech separation methods assume that the number of speakers is known in advance, hence they are specific to the number of speakers. By contrast, a more realistic and challenging task is to separate a mixture in which the number of speakers is unknown. This paper formulates the speech separation with the unknown number of speakers as a multi-pass source extraction problem and proposes a coarse-to-fine recursive speech separation method. This method comprises two stages, namely, recursive cue extraction and target speaker extraction. The recursive cue extraction stage determines how many computational iterations need to be performed and outputs a coarse cue speech by monitoring statistics in the mixture. As the number of recursive iterations increases, the accumulation of distortion eventually comes into the extracted speech and reminder. Therefore, in the second stage, we use a target speaker extraction network to extract a fine speech based on the coarse target cue and the original distortionless mixture. Experiments show that the proposed method archived state-of-the-art performance on the WSJ0 dataset with a different number of speakers. Furthermore, it generalizes well to an unseen large number of speakers.
翻訳日:2022-03-31 16:57:59 公開日:2022-03-30
# ドメイン適応による自己教師付き音声処理タスクの歪みロバスト性の改善

Improving Distortion Robustness of Self-supervised Speech Processing Tasks with Domain Adaptation ( http://arxiv.org/abs/2203.16104v1 )

ライセンス: Link先を確認
Kuan Po Huang, Yu-Kuan Fu, Yu Zhang, Hung-yi Lee(参考訳) 音声歪みは、監督訓練された音声処理モデルの性能を劣化させる長年の問題である。 クリーン音声の本来の性能を損なわずに、音声歪みに遭遇する際の良好な性能を得るために、音声処理モデルの堅牢性を向上する時が来た。 本研究では,DAT(Domain Adversarial Training)による音声処理モデルの堅牢性向上を提案する。 5種類の音声処理タスクにおいて,SUPERBフレームワークを用いた実験を行った。 音声データの歪みのタイプを常に把握していない場合、前者が全ての歪んだ音声を1つの領域として扱い、後者が異なる領域として異なる歪みを捉えているバイナリドメインとマルチドメインの設定を分析した。 教師あり学習法とは対照的に,実験中に導入された新たな未知の歪みを含む異なる歪みで音声データを歪ませる対象領域において,有望な結果を得た。

Speech distortions are a long-standing problem that degrades the performance of supervisely trained speech processing models. It is high time that we enhance the robustness of speech processing models to obtain good performance when encountering speech distortions while not hurting the original performance on clean speech. In this work, we propose to improve the robustness of speech processing models by domain adversarial training (DAT). We conducted experiments based on the SUPERB framework on five different speech processing tasks. In case we do not always have knowledge of the distortion types for speech data, we analyzed the binary-domain and multi-domain settings, where the former treats all distorted speech as one domain, and the latter views different distortions as different domains. In contrast to supervised training methods, we obtained promising results in target domains where speech data is distorted with different distortions including new unseen distortions introduced during testing.
翻訳日:2022-03-31 16:57:42 公開日:2022-03-30
# 高速変圧器を用いた汎用損失圧縮機

A Fast Transformer-based General-Purpose Lossless Compressor ( http://arxiv.org/abs/2203.16114v1 )

ライセンス: Link先を確認
Yu Mao, Yufei Cui, Tei-Wei Kuo, Chun Jason Xue(参考訳) ディープラーニングベースの圧縮機は最近、圧縮比が大幅に改善されたため関心を集めている。 しかし、現代のアプローチは長い実行時間に苦しむ。 そこで本研究では,ディープラーニングを用いた圧縮機の実行時間を短縮することを目的とした。 時系列的な履歴依存(リカレントニューラルネットワークなど)の構築は、長い推論遅延の原因となる。 代わりに、トランスフォーマーをディープラーニング圧縮機に導入して、履歴依存を並列に構築する。 しかし、既存のトランスフォーマーは計算が重く、圧縮タスクと互換性がない。 本稿では, 単一層トランスを用いた圧縮親しみやすい構造を設計し, 高速汎用ロスレス圧縮機 TRACE を提案する。 まず,圧縮モデル構造の選択部分を助言するために,新しい指標を設計する。 バイトグループ化と共有ffnスキームは単層トランスフォーマの容量を十分に活用するためにさらに提案されている。 これらの特徴により、トレースは競争力のある圧縮比とより速い速度を達成することができる。 さらに,パラメータ更新オーバーヘッドを低減するためにコントローラを設計することで,圧縮手順をさらに高速化する。 実験の結果、TRACEは全体の$\sim$3xのスピードアップを達成する一方で、最先端圧縮機と同等の圧縮比を維持することがわかった。 TRACEのソースコードとデータセットへのリンクはhttps://github.com/mynotwo/A-Fast-Transformer-based-General-Purpose-LosslessCompressorで確認できる。

Deep-learning-based compressor has received interests recently due to much improved compression ratio. However, modern approaches suffer from long execution time. To ease this problem, this paper targets on cutting down the execution time of deep-learning-based compressors. Building history-dependencies sequentially (e.g., recurrent neural networks) is responsible for long inference latency. Instead, we introduce transformer into deep learning compressors to build history-dependencies in parallel. However, existing transformer is too heavy in computation and incompatible to compression tasks. This paper proposes a fast general-purpose lossless compressor, TRACE, by designing a compression-friendly structure based on a single-layer transformer. We first design a new metric to advise the selection part of compression model structures. Byte-grouping and Shared-ffn schemes are further proposed to fully utilize the capacity of the single-layer transformer. These features allow TRACE to achieve competitive compression ratio and a much faster speed. In addition, we further accelerate the compression procedure by designing a controller to reduce the parameter updating overhead. Experiments show that TRACE achieves an overall $\sim$3x speedup while keeps a comparable compression ratio to the state-of-the-art compressors. The source code for TRACE and links to the datasets are available at https://github.com/mynotwo/A-Fast-Transformer-based-General-Purpose-LosslessCompressor.
翻訳日:2022-03-31 16:57:27 公開日:2022-03-30
# 呼吸音分析における敵対的攻撃の事例に基づく説明

Example-based Explanations with Adversarial Attacks for Respiratory Sound Analysis ( http://arxiv.org/abs/2203.16141v1 )

ライセンス: Link先を確認
Yi Chang, Zhao Ren, Thanh Tam Nguyen, Wolfgang Nejdl, Bj\"orn W. Schuller(参考訳) 呼吸音分類は、肺炎、喘息、COVID-19などの呼吸器関連疾患のリモートスクリーニングのための重要なツールである。 特に深層学習に基づく分類結果の解釈を容易にするために,プロトタイプを用いて多くの説明手法が提案されている。 しかし、既存の説明手法ではデータが偏りがないと仮定されることが多く、予測結果は原型的な例のセットで説明できる。 本研究では,代表データ(プロトタイプ)と外れ値(批判)の両方を選択する統一的な例に基づく説明手法を開発する。 特に,反復的高速勾配符号法によるデータインスタンスの説明スペクトルを生成するために,新たな攻撃手法を提案する。 このような統一された説明は、人間の専門家がケースごとのモデルミスを評価することによって、過度な一般化と偏見を避けることができる。 我々は,本手法が効果的かつ理解可能な説明を生成し,多くの深層学習モデルで堅牢であることを示すため,幅広い定量的・質的な評価を行った。

Respiratory sound classification is an important tool for remote screening of respiratory-related diseases such as pneumonia, asthma, and COVID-19. To facilitate the interpretability of classification results, especially ones based on deep learning, many explanation methods have been proposed using prototypes. However, existing explanation techniques often assume that the data is non-biased and the prediction results can be explained by a set of prototypical examples. In this work, we develop a unified example-based explanation method for selecting both representative data (prototypes) and outliers (criticisms). In particular, we propose a novel application of adversarial attacks to generate an explanation spectrum of data instances via an iterative fast gradient sign method. Such unified explanation can avoid over-generalisation and bias by allowing human experts to assess the model mistakes case by case. We performed a wide range of quantitative and qualitative evaluations to show that our approach generates effective and understandable explanation and is robust with many deep learning models
翻訳日:2022-03-31 16:57:08 公開日:2022-03-30
# 位相認識による深部音声強調 - フレーム長について

Phase-Aware Deep Speech Enhancement: It's All About The Frame Length ( http://arxiv.org/abs/2203.16222v1 )

ライセンス: Link先を確認
Tal Peer, Timo Gerkmann(参考訳) 近年, 位相認識型音声処理が注目されているが, フレーム長が約32msの狭い帯域STFTアプローチでは, 全体的な性能に対する位相の影響が比較的小さい。 同時に、Conv-TasNetのような、現代のディープニューラルネットワーク(DNN)ベースのアプローチでは、非常に短いフレーム(2ms)で、大きさとフェーズの両方を暗黙的に変更する。 本稿では,異なるフレーム長に対するDNNに基づく音声強調における位相と大きさの役割を体系的に検討する。 その結果、位相認識型DNNは、クリーン音声の再構成に関するこれまでの研究の利点を生かして、位相スペクトルがより重要になる一方で、大きさスペクトルの重要性が低下することを示した。 さらに, 実験により, 寸法と位相の両方を推定すると, 明らかに位相推定を行うDNNにおいて, フレーム長が大幅に向上することを示した。 逆に、マグニチュードしか処理されないフェーズblindの場合、32msフレームが最高のパフォーマンスをもたらす。 DNNに基づく位相推定は,より短いフレームを用いることで有効であり,将来の位相認識深層音声強調法には約4msのフレーム長を推奨する。

While phase-aware speech processing has been receiving increasing attention in recent years, most narrowband STFT approaches with frame lengths of about 32ms show a rather modest impact of phase on overall performance. At the same time, modern deep neural network (DNN)-based approaches, like Conv-TasNet, that implicitly modify both magnitude and phase yield great performance on very short frames (2ms). Motivated by this observation, in this paper we systematically investigate the role of phase and magnitude in DNN-based speech enhancement for different frame lengths. The results show that a phase-aware DNN can take advantage of what previous studies concerning reconstruction of clean speech have shown: When using short frames, the phase spectrum becomes more important while the importance of the magnitude spectrum decreases. Furthermore, our experiments show that when both magnitude and phase are estimated, shorter frames result in a considerably improved performance in a DNN with explicit phase estimation. Contrarily, in the phase-blind case, where only magnitudes are processed, 32ms frames lead to the best performance. We conclude that DNN-based phase estimation benefits from the use of shorter frames and recommend a frame length of about 4ms for future phase-aware deep speech enhancement methods.
翻訳日:2022-03-31 16:56:53 公開日:2022-03-30
# ハイパーグラフ平均フィールドゲーム

Hypergraphon Mean Field Games ( http://arxiv.org/abs/2203.16223v1 )

ライセンス: Link先を確認
Kai Cui, Wasiur R. KhudaBukhsh, Heinz Koeppl(参考訳) 本研究では、平均場ゲームの理論と超グラフの概念を用いて、単にエージェントのペア以上の相互作用を可能にする大規模マルチエージェント力学系をモデル化する手法を提案する。 我々の知る限りでは、ハイパーグラフ上の平均フィールドゲームに関する最初の研究である。 多層構成の拡張とともに、非線形で弱い相互作用を持つ動的エージェントの大規模システムに対する制限記述を得る。 理論面では、結果のハイパーグラフ平均場ゲームの存在と近似的なナッシュ特性の両方を示す。 適用側では、ハイパーグラフ平均場平衡を計算するために数値および学習アルゴリズムを拡張する。 このアプローチを実証的に検証するため,我々は,流行防止問題と社会的うわさ拡散モデルを検討し,エージェントがエージェントにうわさを広める動機を与える。

We propose an approach to modelling large-scale multi-agent dynamical systems allowing interactions among more than just pairs of agents using the theory of mean-field games and the notion of hypergraphons, which are obtained as limits of large hypergraphs. To the best of our knowledge, ours is the first work on mean field games on hypergraphs. Together with an extension to a multi-layer setup, we obtain limiting descriptions for large systems of non-linear, weakly-interacting dynamical agents. On the theoretical side, we prove the well-foundedness of the resulting hypergraphon mean field game, showing both existence and approximate Nash properties. On the applied side, we extend numerical and learning algorithms to compute the hypergraphon mean field equilibria. To verify our approach empirically, we consider an epidemic control problem and a social rumor spreading model, where we give agents intrinsic motivation to spread rumors to unaware agents.
翻訳日:2022-03-31 16:56:29 公開日:2022-03-30
# オーディオディープフェイク検出は一般化するか?

Does Audio Deepfake Detection Generalize? ( http://arxiv.org/abs/2203.16263v1 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Pavel Czempin, Franziska Dieckmann, Adam Froghyar, Konstantin B\"ottinger(参考訳) 現在のテキストから音声へのアルゴリズムは、人間の声の現実的なフェイクを生成し、ディープフェイク検出を非常に必要な研究領域にする。 研究者たちは、オーディオスプーフを検出するための様々なテクニックを提示してきたが、これらのアーキテクチャが成功した理由がよく分かっていない: 事前処理ステップ、ハイパーパラメータ設定、微調整の程度は、関連する作業間で一致していない。 成功に寄与する要因は何か。 本研究では, 関連する作業からアーキテクチャを再実装し, 均一に評価することで, 音声スプーフィング検出をシステム化する。 メリースペック機能の代わりにcqtspecやlogspec機能などのオーディオディープフェイク検出を成功させるためには,平均で37%のEERの性能向上が期待できる。 我々は、有名人や政治家の音声記録を37.9時間収集し、新しいデータセットを公開し、そのうち17.2時間はディープフェイクである。 このような実世界のデータ(最大1000パーセントの性能劣化)では、関連する作業が不十分であることが分かりました。 これは、コミュニティがASVSpoofベンチマークに近づきすぎており、ディープフェイクが以前考えられていたよりもラボ外で検出するのがずっと難しいことを示唆しているかもしれない。

Current text-to-speech algorithms produce realistic fakes of human voices, making deepfake detection a much-needed area of research. While researchers have presented various techniques for detecting audio spoofs, it is often unclear exactly why these architectures are successful: Preprocessing steps, hyperparameter settings, and the degree of fine-tuning are not consistent across related work. Which factors contribute to success, and which are accidental? In this work, we address this problem: We systematize audio spoofing detection by re-implementing and uniformly evaluating architectures from related work. We identify overarching features for successful audio deepfake detection, such as using cqtspec or logspec features instead of melspec features, which improves performance by 37% EER on average, all other factors constant. Additionally, we evaluate generalization capabilities: We collect and publish a new dataset consisting of 37.9 hours of found audio recordings of celebrities and politicians, of which 17.2 hours are deepfakes. We find that related work performs poorly on such real-world data (performance degradation of up to one thousand percent). This may suggest that the community has tailored its solutions too closely to the prevailing ASVSpoof benchmark and that deepfakes are much harder to detect outside the lab than previously thought.
翻訳日:2022-03-31 16:56:17 公開日:2022-03-30
# ニューラルNARXモデルで学習したシステムのオフセットフリー非線形MPCスキーム

An Offset-Free Nonlinear MPC scheme for systems learned by Neural NARX models ( http://arxiv.org/abs/2203.16290v1 )

ライセンス: Link先を確認
Fabio Bonassi, Jing Xie, Marcello Farina, Riccardo Scattolini(参考訳) 本稿では、ニューラル非線形自己回帰eXogenous(NNARX)ネットワークで記述されたモデルに対して、オフセットフリーなセットポイントトラッキングを提供する非線形MPCコントローラの設計について述べる。 nnarxモデルは、植物から収集された入出力データから識別され、過去の入出力変数によって生成された既知の測定可能な状態の状態空間表現を与えることができ、状態観察者を必要としない。 訓練段階では、プラントの挙動と一致した場合、インクリメンタルな入出力安定性({\delta}iss)特性を強制することができる。 デルタISSのプロパティは、出力追跡エラーに対して明示的な積分作用でモデルを増強するために利用され、設計した制御スキームに対するオフセットフリーなトラッキング機能を実現することができる。 提案した制御アーキテクチャは水温システム上で数値的にテストされ,その結果が他の一般的なオフセットフリーMPC法と比較され,植物に作用する障害があっても顕著な性能を発揮することが示された。

This paper deals with the design of nonlinear MPC controllers that provide offset-free setpoint tracking for models described by Neural Nonlinear AutoRegressive eXogenous (NNARX) networks. The NNARX model is identified from input-output data collected from the plant, and can be given a state-space representation with known measurable states made by past input and output variables, so that a state observer is not required. In the training phase, the Incremental Input-to-State Stability ({\delta}ISS) property can be forced when consistent with the behavior of the plant. The {\delta}ISS property is then leveraged to augment the model with an explicit integral action on the output tracking error, which allows to achieve offset-free tracking capabilities to the designed control scheme. The proposed control architecture is numerically tested on a water heating system and the achieved results are compared to those scored by another popular offset-free MPC method, showing that the proposed scheme attains remarkable performances even in presence of disturbances acting on the plant.
翻訳日:2022-03-31 16:55:55 公開日:2022-03-30
# 多目的地形トラバーサビリティの学習

Learning multiobjective rough terrain traversability ( http://arxiv.org/abs/2203.16354v1 )

ライセンス: Link先を確認
Martin Servin, Erik Wallin, Folke Vesterlund, Viktor Wiberg, Johan Holmgren, Henrik Persson(参考訳) 本研究では,高分解能地形データと地上車両シミュレーションを用いてトラバーサビリティを推定する手法を提案する。 トラバーサビリティは、目標速度で地形を横切る能力、エネルギー消費、加速の3つの独立した尺度として表現される。 この措置は連続的であり、二分分類を超えた計画の目的を反映している。 ディープニューラルネットワークは、局所ハイマップと目標速度からトラバーサビリティ測度を予測するように訓練される。 トレーニングデータを作成するために、車輪付きボギーサスペンションと手続き的に生成された地形を併用する。 従来は見つからなかったレーザ走査型森林地形におけるモデルの評価を行った。 このモデルは90%の精度でトラバーサビリティを予測する。 予測は、方向に対して局所的な粗さと傾斜を超える高次元地形データの特徴に依存する。 相関関係は、3つのトラバーサビリティ対策が相互に相補的であることを示している。 推定速度は基底真理シミュレーションの3000倍速く、自明に並列化可能であるため、このモデルは広範囲にわたるトラバーサビリティ解析や最適経路計画に適している。

We present a method that uses high-resolution topography data of rough terrain, and ground vehicle simulation, to predict traversability. Traversability is expressed as three independent measures: the ability to traverse the terrain at a target speed, energy consumption, and acceleration. The measures are continuous and reflect different objectives for planning that go beyond binary classification. A deep neural network is trained to predict the traversability measures from the local heightmap and target speed. To produce training data, we use an articulated vehicle with wheeled bogie suspensions and procedurally generated terrains. We evaluate the model on laser-scanned forest terrains, previously unseen by the model. The model predicts traversability with an accuracy of 90%. Predictions rely on features from the high-dimensional terrain data that surpass local roughness and slope relative to the heading. Correlations show that the three traversability measures are complementary to each other. With an inference speed 3000 times faster than the ground truth simulation and trivially parallelizable, the model is well suited for traversability analysis and optimal path planning over large areas.
翻訳日:2022-03-31 16:55:26 公開日:2022-03-30
# 因子グラフのニューラルエンハンスメントに基づく低複雑さ近傍最適シンボル検出

Low-complexity Near-optimum Symbol Detection Based on Neural Enhancement of Factor Graphs ( http://arxiv.org/abs/2203.16417v1 )

ライセンス: Link先を確認
Luca Schmid, Laurent Schmalen(参考訳) シンボル検出のための因子グラフフレームワークの線形シンボル間干渉チャネルへの応用を検討する。 ungerboeckの観測モデルに基づいて、複雑性特性に訴える検出アルゴリズムを導出することができる。 しかし、基礎となる因子グラフはサイクルを含むため、和積アルゴリズム(SPA)は準最適アルゴリズムを生成する。 本稿では,ニューラルエンハンスメントによる因子グラフに基づくシンボル検出の性能向上のための効率的な手法を開発し,評価する。 特に、因子グラフ内のサイクルの効果を緩和するための効果的な方法として、神経信念伝播を考える。 また,因子ノードの一般化とプルーニング手法の適用について検討する。 チャネル出力にジェネリックプリプロセッサを適用することにより、SPAイテレーション毎に基礎となる因子グラフを変更するための簡単な手法を提案する。 この動的因子グラフ遷移を用いることで、サイクルによって障害を受けるSPAメッセージの外在的な性質を保ちたい。 シミュレーションの結果,提案手法はブロック長とチャネルメモリの双方において線形な複雑さを維持しつつ,各種伝送シナリオの最大後続性能に接近しても検出性能を大幅に向上できることがわかった。

We consider the application of the factor graph framework for symbol detection on linear inter-symbol interference channels. Based on the Ungerboeck observation model, a detection algorithm with appealing complexity properties can be derived. However, since the underlying factor graph contains cycles, the sum-product algorithm (SPA) yields a suboptimal algorithm. In this paper, we develop and evaluate efficient strategies to improve the performance of the factor graph-based symbol detection by means of neural enhancement. In particular, we consider neural belief propagation as an effective way to mitigate the effect of cycles within the factor graph. We also investigate the application of factor node generalizations and pruning techniques. By applying a generic preprocessor to the channel output, we propose a simple technique to vary the underlying factor graph in every SPA iteration. Using this dynamic factor graph transition, we intend to preserve the extrinsic nature of the SPA messages which is otherwise impaired due to cycles. Simulation results show that the proposed methods can massively improve the detection performance, even approaching the maximum a posteriori performance for various transmission scenarios, while preserving a complexity which is linear in both the block length and the channel memory.
翻訳日:2022-03-31 16:55:07 公開日:2022-03-30
# (参考訳) 高速軽量近接場光度ステレオ

Fast Light-Weight Near-Field Photometric Stereo ( http://arxiv.org/abs/2203.16515v1 )

ライセンス: CC BY 4.0
Daniel Lichy, Soumyadip Sengupta, David W. Jacobs(参考訳) 本稿では,光源が対象物に近い近距離場測光ステレオ(ps)に対して,エンド・ツー・エンド学習に基づく最初の解法を提案する。 この構成は特に大きな移動体オブジェクトの再構成に有用である。 我々の手法は高速で、52512$\times$384の解像度画像からコモディティGPUで約1秒でメッシュを生成し、いくつかのAR/VRアプリケーションをアンロックする可能性がある。 既存のアプローチは、ピクセルや小さなパッチで動作する遠距離PSネットワークと組み合わせた最適化に依存している。 最適化を使用すると、これらのアプローチは遅くてメモリ集約的になり(17gb gpuと27gb cpuメモリが必要)、ピクセルやパッチのみを使用するとノイズやキャリブレーションエラーに強い影響を受けます。 これらの問題に対処するため、各ステップで画像全体の面正規および深度マップを推定する再帰的多分解能手法を開発した。 次に、各スケールの予測深度マップを用いて次のスケールの「ピクセル当たりの照明」を推定する。 この設計により、我々のアプローチはほぼ45$\times$高速かつ2$^{\circ}$より正確な(11.3$^{\circ}$対13.3$^{\circ}$Mean Angular Error)が、反復最適化を用いた最先端の近距離PS再構成技術よりも優れている。

We introduce the first end-to-end learning-based solution to near-field Photometric Stereo (PS), where the light sources are close to the object of interest. This setup is especially useful for reconstructing large immobile objects. Our method is fast, producing a mesh from 52 512$\times$384 resolution images in about 1 second on a commodity GPU, thus potentially unlocking several AR/VR applications. Existing approaches rely on optimization coupled with a far-field PS network operating on pixels or small patches. Using optimization makes these approaches slow and memory intensive (requiring 17GB GPU and 27GB of CPU memory) while using only pixels or patches makes them highly susceptible to noise and calibration errors. To address these issues, we develop a recursive multi-resolution scheme to estimate surface normal and depth maps of the whole image at each step. The predicted depth map at each scale is then used to estimate `per-pixel lighting' for the next scale. This design makes our approach almost 45$\times$ faster and 2$^{\circ}$ more accurate (11.3$^{\circ}$ vs. 13.3$^{\circ}$ Mean Angular Error) than the state-of-the-art near-field PS reconstruction technique, which uses iterative optimization.
翻訳日:2022-03-31 16:53:24 公開日:2022-03-30
# 音声の拡散検出のための構造化情報を用いたスパン分類

Span Classification with Structured Information for Disfluency Detection in Spoken Utterances ( http://arxiv.org/abs/2203.16028v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Sonal Kumar, Yaman Kumar Singla, Rajiv Ratn Shah, S. Umesh(参考訳) 既存のディフルエンシー検出のアプローチでは、テキストのディフルエンシーを識別および削除するためのトークンレベルの分類タスクの解決に重点を置いている。 さらに、ほとんどの作品は、テキストの線形シーケンスでキャプチャされたコンテキスト情報のみを活用することに重点を置いているため、依存木によって効率的にキャプチャされるテキストの構造化情報を無視している。 本稿では,エンティティ認識のスパン分類パラダイムを基盤として,言語発話からの転写の不一致を検出する新しいアーキテクチャを提案し,依存木が取得したコンバータと長距離構造化情報の両方をグラフ畳み込みネットワーク(GCN)を介して組み込んだ。 実験の結果,提案手法は,不流動性検出に広く用いられている英語スイッチボードにおいて最先端の成果を達成し,先行技術を大きく上回った。 コードはすべてGitHubで公開しています(https://github.com/Sreyan88/Disfluency-Detection-with-Span-Classification)。

Existing approaches in disfluency detection focus on solving a token-level classification task for identifying and removing disfluencies in text. Moreover, most works focus on leveraging only contextual information captured by the linear sequences in text, thus ignoring the structured information in text which is efficiently captured by dependency trees. In this paper, building on the span classification paradigm of entity recognition, we propose a novel architecture for detecting disfluencies in transcripts from spoken utterances, incorporating both contextual information through transformers and long-distance structured information captured by dependency trees, through graph convolutional networks (GCNs). Experimental results show that our proposed model achieves state-of-the-art results on the widely used English Switchboard for disfluency detection and outperforms prior-art by a significant margin. We make all our codes publicly available on GitHub (https://github.com/Sreyan88/Disfluency-Detection-with-Span-Classification)
翻訳日:2022-03-31 16:32:19 公開日:2022-03-30
# Rainbow Keywords: オンライン音声キーワードスポッティングのための効果的なインクリメンタル学習

Rainbow Keywords: Efficient Incremental Learning for Online Spoken Keyword Spotting ( http://arxiv.org/abs/2203.16361v1 )

ライセンス: Link先を確認
Yang Xiao and Nana Hou and Eng Siong Chng(参考訳) 破滅的な忘れは、デプロイ後にキーワードスポッティング(KWS)モデルを更新する際の厄介な課題である。 この問題は、kwsモデルがメモリに制限があるため、エッジデバイスにさらに必要となる場合、より困難になる。 このような問題を緩和するために,Rainbow Keywords (RK) という新しい多様性を考慮した漸進学習手法を提案する。 特に,提案手法では,分類の不確かさを計算し,歴史的キーワードや入ってくるキーワードから多様な集合を選択できる多様性を意識したサンプラーを導入する。 その結果、rkアプローチは、事前の知識を忘れずに、段階的に新しいタスクを学習できる。 さらにRKアプローチでは,エッジデバイス上での効率的なメモリ管理のためのデータ拡張と知識蒸留損失関数も提案している。 実験の結果,提案手法は,必要メモリの少ないgoogle speech commandデータセットにおける最良ベースラインに対して,平均精度で4.2%の絶対改善を達成した。 スクリプトはgithubから入手できる。

Catastrophic forgetting is a thorny challenge when updating keyword spotting (KWS) models after deployment. This problem will be more challenging if KWS models are further required for edge devices due to their limited memory. To alleviate such an issue, we propose a novel diversity-aware incremental learning method named Rainbow Keywords (RK). Specifically, the proposed RK approach introduces a diversity-aware sampler to select a diverse set from historical and incoming keywords by calculating classification uncertainty. As a result, the RK approach can incrementally learn new tasks without forgetting prior knowledge. Besides, the RK approach also proposes data augmentation and knowledge distillation loss function for efficient memory management on the edge device. Experimental results show that the proposed RK approach achieves 4.2% absolute improvement in terms of average accuracy over the best baseline on Google Speech Command dataset with less required memory. The scripts are available on GitHub.
翻訳日:2022-03-31 16:32:01 公開日:2022-03-30
# StyleFool: スタイル転送によるビデオ分類システム

StyleFool: Fooling Video Classification Systems via Style Transfer ( http://arxiv.org/abs/2203.16000v1 )

ライセンス: Link先を確認
Yuxin Cao, Xi Xiao, Ruoxi Sun, Derui Wang, Minhui Xue, Sheng Wen(参考訳) ビデオ分類システムは敵攻撃に対して脆弱であり、ビデオ検証において深刻なセキュリティ問題を引き起こす可能性がある。 現在のブラックボックス攻撃は成功するために大量のクエリを必要とするため、攻撃の過程で高い計算オーバーヘッドが発生する。 一方、制限された摂動による攻撃は、敵意や敵意の訓練などの防御には効果がない。 本稿では,制約のない摂動に着目し,動画分類システムを騙すために,スタイル転送によるブラックボックスビデオ敵攻撃であるstylefoolを提案する。 stylefoolはまず、カラーテーマの近接を利用して最良のスタイル画像を選択し、スタイル化されたビデオの不自然な詳細を避ける。 一方、分類器の出力分布に影響を与えるターゲット攻撃においては、分類された映像を判定境界に近づいたり、あるいは向こう側に移動させたりすることで、対象クラスの信頼度も考慮する。 その後、逆摂動をさらに最適化するために勾配のない方法が用いられる。 UCF-101とHMDB-51の2つの標準データセット上でStyleFoolを評価するための広範な実験を行った。 実験結果から、StyleFoolは、既存の防御に対するクエリ数と堅牢性の両方の観点から、最先端の敵攻撃よりも優れていることが示唆された。 非ターゲティング攻撃におけるスタイル化されたビデオの50%は、ビデオ分類モデルを騙すことができるため、クエリを必要としない。 さらに, ユーザ調査により, スタイルフイルの敵対的サンプルが, 拘束力のない摂動にもかかわらず, 人間の目には知覚できないことを示すために, 識別不能性を評価した。

Video classification systems are vulnerable to adversarial attacks, which can create severe security problems in video verification. Current black-box attacks need a large number of queries to succeed, resulting in high computational overhead in the process of attack. On the other hand, attacks with restricted perturbations are ineffective against defenses such as denoising or adversarial training. In this paper, we focus on unrestricted perturbations and propose StyleFool, a black-box video adversarial attack via style transfer to fool the video classification system. StyleFool first utilizes color theme proximity to select the best style image, which helps avoid unnatural details in the stylized videos. Meanwhile, the target class confidence is additionally considered in targeted attack to influence the output distribution of the classifier by moving the stylized video closer to or even across the decision boundary. A gradient-free method is then employed to further optimize the adversarial perturbation. We carry out extensive experiments to evaluate StyleFool on two standard datasets, UCF-101 and HMDB-51. The experimental results suggest that StyleFool outperforms the state-of-the-art adversarial attacks in terms of both number of queries and robustness against existing defenses. We identify that 50% of the stylized videos in untargeted attack do not need any query since they can already fool the video classification model. Furthermore, we evaluate the indistinguishability through a user study to show that the adversarial samples of StyleFool look imperceptible to human eyes, despite unrestricted perturbations.
翻訳日:2022-03-31 16:31:04 公開日:2022-03-30
# axiou:ビデオモーメント検索のための公理的に正当化された尺度

AxIoU: An Axiomatically Justified Measure for Video Moment Retrieval ( http://arxiv.org/abs/2203.16062v1 )

ライセンス: Link先を確認
Riku Togashi, Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkila, Tetsuya Sakai(参考訳) 評価尺度は研究の方向性に重大な影響を与える。 したがって、従来の対策が適さない新規アプリケーションに対して、適切で信頼性の高い評価手法を開発することが最も重要である。 Video Moment Retrieval (VMR)はそのようなアプリケーションのひとつで、現在のプラクティスは、VMRシステムの評価にR@$K,\theta$を使用することである。 しかし、この尺度には2つの欠点がある。 リストを集合として扱うことで、上位の$K$ランクリストのローカライズされたモーメントのランク位置を無視する。 第二に、検索された各ビデオモーメントのIoU(Intersection over Union)をしきい値$\theta$で二項化することで、ランキングモーメントのきめ細かいローカライゼーション品質を無視する。 本稿では、上記の2つの問題から解放された平均マックスIoU(AxIoU)と呼ばれるVMRの評価方法を提案する。 我々は、AxIoUがVMR評価に重要な公理を2つ満たしていることを示す。すなわち、冗長モーメントに対する \textbf{Invariance とベストモーメントに対する \textbf{Monotonicity であり、R@$K,\theta$ は最初の公理のみを満たす。 また,axiou が r@$k,\theta$ とどのように一致するか,また,テストデータの変化と人間による時間的境界の安定性についても実験的に検討した。

Evaluation measures have a crucial impact on the direction of research. Therefore, it is of utmost importance to develop appropriate and reliable evaluation measures for new applications where conventional measures are not well suited. Video Moment Retrieval (VMR) is one such application, and the current practice is to use R@$K,\theta$ for evaluating VMR systems. However, this measure has two disadvantages. First, it is rank-insensitive: It ignores the rank positions of successfully localised moments in the top-$K$ ranked list by treating the list as a set. Second, it binarizes the Intersection over Union (IoU) of each retrieved video moment using the threshold $\theta$ and thereby ignoring fine-grained localisation quality of ranked moments. We propose an alternative measure for evaluating VMR, called Average Max IoU (AxIoU), which is free from the above two problems. We show that AxIoU satisfies two important axioms for VMR evaluation, namely, \textbf{Invariance against Redundant Moments} and \textbf{Monotonicity with respect to the Best Moment}, and also that R@$K,\theta$ satisfies the first axiom only. We also empirically examine how AxIoU agrees with R@$K,\theta$, as well as its stability with respect to change in the test data and human-annotated temporal boundaries.
翻訳日:2022-03-31 16:30:43 公開日:2022-03-30
# SIT:スパイクニューラルネットワークのためのバイオン・非線形ニューロン

SIT: A Bionic and Non-Linear Neuron for Spiking Neural Network ( http://arxiv.org/abs/2203.16117v1 )

ライセンス: Link先を確認
Cheng Jin, Rui-Jie Zhu, Xiao Wu, Liang-Jian Deng(参考訳) スパイキングニューラルネットワーク(SNN)は、時間的情報処理能力と消費電力の低さから、研究者の関心を喚起している。 しかし、現在の最先端の手法では、ニューロンは単純な Leaky-Integrate-and-Fire (LIF) モデルに基づいて構築されているため、生物学的妥当性と性能が制限されている。 高レベルの動的複雑さのため、現代のニューロンモデルはSNNの実践ではほとんど実装されていない。 本研究では,神経力学の分野でよく用いられる位相平面解析(phase plane analysis, ppa)技術を用いて,最新のニューロンモデル,すなわちizhikevichニューロンを統合する。 神経科学の発展の成果に基づいて、Izhikevichニューロンモデルは、LIFニューロンと同等の計算コストを維持しながら生物学的に妥当である。 導入したPPAを利用して、修正Izhikevichモデルで構築したニューロンをSNNの練習に投入し、SIT(Standardized Izhikevich Tonic)ニューロンと呼ばれる。 静的MNIST, Fashion-MNIST, CIFAR-10データセットおよびニューロモルフィックN-MNIST, CIFAR10-DVS, DVS128ジェスチャデータセット上で, LIF- and-SIT-consisted SNNを自作したHybrid Neural Network (HNN) における画像分類タスクの評価を行った。 実験の結果,提案手法は,ほぼすべての試験データセットに対して,より生物学的に現実的な挙動を示しながら,同等の精度を達成できることが示唆された。

Spiking Neural Networks (SNNs) have piqued researchers' interest because of their capacity to process temporal information and low power consumption. However, current state-of-the-art methods limited their biological plausibility and performance because their neurons are generally built on the simple Leaky-Integrate-and-Fire (LIF) model. Due to the high level of dynamic complexity, modern neuron models have seldom been implemented in SNN practice. In this study, we adopt the Phase Plane Analysis (PPA) technique, a technique often utilized in neurodynamics field, to integrate a recent neuron model, namely, the Izhikevich neuron. Based on the findings in the advancement of neuroscience, the Izhikevich neuron model can be biologically plausible while maintaining comparable computational cost with LIF neurons. By utilizing the adopted PPA, we have accomplished putting neurons built with the modified Izhikevich model into SNN practice, dubbed as the Standardized Izhikevich Tonic (SIT) neuron. For performance, we evaluate the suggested technique for image classification tasks in self-built LIF-and-SIT-consisted SNNs, named Hybrid Neural Network (HNN) on static MNIST, Fashion-MNIST, CIFAR-10 datasets and neuromorphic N-MNIST, CIFAR10-DVS, and DVS128 Gesture datasets. The experimental results indicate that the suggested method achieves comparable accuracy while exhibiting more biologically realistic behaviors on nearly all test datasets, demonstrating the efficiency of this novel strategy in bridging the gap between neurodynamics and SNN practice.
翻訳日:2022-03-31 16:28:39 公開日:2022-03-30
# マルチオブジェクト追跡のための2次元・3次元特徴の対話型マルチスケール融合

Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object Tracking ( http://arxiv.org/abs/2203.16268v1 )

ライセンス: Link先を確認
Guangming Wang, Chensheng Peng, Jinpeng Zhang, Hesheng Wang(参考訳) 複数物体追跡(MOT)は自律走行を実現する上で重要な課題である。 従来の作業では、LiDARが収集した点雲(PC)や、カメラから撮影した画像に基づいてこのタスクを完了させようとしていた。 しかし、単一のセンサーに頼るだけでは、追跡プロセス中に失敗する可能性があるため、十分に堅牢ではない。 一方,複数のモダリティによる特徴融合は,精度の向上に寄与する。 その結果,複数モードの特徴を組み込んだ異なるセンサに基づく新しい技術が開発されている。 RGBカメラのテクスチャ情報とLidarの3D構造情報は、異なる状況下でそれぞれ利点がある。 しかし、全く異なる情報モダリティのため、効果的な機能融合を実現することは容易ではない。 以前のフュージョンメソッドは通常、バックボーンが異なるモダリティから特徴を抽出する後、トップレベルの機能を融合する。 本稿では,まずpointnet++を,複数スケールの画像とポイントクラウド間の対話的特徴融合に適応するために,ポイントクラウドのマルチスケールな深層表現を得るために導入する。 具体的には,マルチスケールなインタラクティブなクエリと,ピクセルレベルとポイントレベルの融合によって,より識別性の高い特徴を得ることにより,複数のオブジェクト追跡の性能を向上させる。 さらに,各モダリティの事前学習と核融合モデルにおける微調整の有効性について検討する。 実験の結果,提案手法はKITTIベンチマークで優れた性能を示し,マルチスケール機能融合を使わずに他の手法よりも優れていることがわかった。 さらに, アブレーション研究は, 単一モダリティに対するマルチスケール特徴融合と事前学習の有効性を示した。

Multiple object tracking (MOT) is a significant task in achieving autonomous driving. Traditional works attempt to complete this task, either based on point clouds (PC) collected by LiDAR, or based on images captured from cameras. However, relying on one single sensor is not robust enough, because it might fail during the tracking process. On the other hand, feature fusion from multiple modalities contributes to the improvement of accuracy. As a result, new techniques based on different sensors integrating features from multiple modalities are being developed. Texture information from RGB cameras and 3D structure information from Lidar have respective advantages under different circumstances. However, it's not easy to achieve effective feature fusion because of completely distinct information modalities. Previous fusion methods usually fuse the top-level features after the backbones extract the features from different modalities. In this paper, we first introduce PointNet++ to obtain multi-scale deep representations of point cloud to make it adaptive to our proposed Interactive Feature Fusion between multi-scale features of images and point clouds. Specifically, through multi-scale interactive query and fusion between pixel-level and point-level features, our method, can obtain more distinguishing features to improve the performance of multiple object tracking. Besides, we explore the effectiveness of pre-training on each single modality and fine-tuning on the fusion-based model. The experimental results demonstrate that our method can achieve good performance on the KITTI benchmark and outperform other approaches without using multi-scale feature fusion. Moreover, the ablation studies indicates the effectiveness of multi-scale feature fusion and pre-training on single modality.
翻訳日:2022-03-31 16:28:09 公開日:2022-03-30
# 経皮的椎体骨折診断

Interpretable Vertebral Fracture Diagnosis ( http://arxiv.org/abs/2203.16273v1 )

ライセンス: Link先を確認
Paul Engstler, Matthias Keicher, David Schinz, Kristina Mach, Alexandra S. Gersing, Sarah C. Foreman, Sophia S. Goller, Juergen Weissinger, Jon Rischewski, Anna-Sophia Dietrich, Benedikt Wiestler, Jan S. Kirschke, Ashkan Khakzar, Nassir Navab(参考訳) black-boxニューラルネットワークモデルは骨折診断に臨床的に関連した特徴を学ぶか? この答えは、科学的好奇心を沈静化させるだけでなく、放射線科医の最終的な支援と信頼の増大につながる説明可能かつ冗長な発見につながる。 この研究は、CT画像における脊椎骨折の診断にネットワークが使用する概念を特定する。 これは、データセット内の特定の診断と高い相関を持つニューロンに概念を関連付けることで達成される。 この概念は、放射線学者によるニューロンと関連付けられているか、特定の予測中に可視化され、ユーザの解釈に残されている。 我々は、どの概念が正しい診断につながるか、どの概念が偽陽性につながるかを評価する。 提案したフレームワークと解析は、信頼性と説明可能な脊椎骨折診断の道を開いた。

Do black-box neural network models learn clinically relevant features for fracture diagnosis? The answer not only establishes reliability quenches scientific curiosity but also leads to explainable and verbose findings that can assist the radiologists in the final and increase trust. This work identifies the concepts networks use for vertebral fracture diagnosis in CT images. This is achieved by associating concepts to neurons highly correlated with a specific diagnosis in the dataset. The concepts are either associated with neurons by radiologists pre-hoc or are visualized during a specific prediction and left for the user's interpretation. We evaluate which concepts lead to correct diagnosis and which concepts lead to false positives. The proposed frameworks and analysis pave the way for reliable and explainable vertebral fracture diagnosis.
翻訳日:2022-03-31 16:27:43 公開日:2022-03-30
# HDSDF:高速逆レンダリングのためのハイブリッド方向と符号付き距離関数

HDSDF: Hybrid Directional and Signed Distance Functions for Fast Inverse Rendering ( http://arxiv.org/abs/2203.16284v1 )

ライセンス: Link先を確認
Tarun Yenamandra and Ayush Tewari and Nan Yang and Florian Bernard and Christian Theobalt and Daniel Cremers(参考訳) 3次元形状の暗黙的な神経表現は、シングルビューやマルチビューの3d再構成など、様々な用途に有用な強い事前構造を形成する。 既存のニューラルネットワーク表現のマイナス面は、レンダリングに複数のネットワーク評価を必要とするため、計算コストが高くなることだ。 この制限は、画像ベースの3D再構成のような逆問題において特にボトルネックとなる。 この問題に対処するため、本稿では i) 物体を囲む球面上の任意の点から物体表面への距離を予測できるように、方向距離関数(DDF)で拡張した符号付き距離関数(SDF)に基づく新しいハイブリッド3次元オブジェクト表現を提案する。 さらに (ii)提案するハイブリッド表現を用いて,既存のddf表現に共通する多視点一貫性問題に対処する。 単視点深度復元作業における新しいハイブリッド表現を評価し,提案手法が競合手法に比べて数倍高速であると同時に,再現精度も向上していることを示す。

Implicit neural representations of 3D shapes form strong priors that are useful for various applications, such as single and multiple view 3D reconstruction. A downside of existing neural representations is that they require multiple network evaluations for rendering, which leads to high computational costs. This limitation forms a bottleneck particularly in the context of inverse problems, such as image-based 3D reconstruction. To address this issue, in this paper (i) we propose a novel hybrid 3D object representation based on a signed distance function (SDF) that we augment with a directional distance function (DDF), so that we can predict distances to the object surface from any point on a sphere enclosing the object. Moreover, (ii) using the proposed hybrid representation we address the multi-view consistency problem common in existing DDF representations. We evaluate our novel hybrid representation on the task of single-view depth reconstruction and show that our method is several times faster compared to competing methods, while at the same time achieving better reconstruction accuracy.
翻訳日:2022-03-31 16:27:32 公開日:2022-03-30
# ニューラル二部グラフマッチングによるマルチロボットアクティブマッピング

Multi-Robot Active Mapping via Neural Bipartite Graph Matching ( http://arxiv.org/abs/2203.16319v1 )

ライセンス: Link先を確認
Kai Ye, Siyan Dong, Qingnan Fan, He Wang, Li Yi, Fei Xia, Jue Wang, Baoquan Chen(参考訳) 最小時間ステップでシーンマップを構築することを目的としたマルチロボットアクティブマッピングの問題点について検討する。 この問題の鍵は、より効率的なロボットの動きを可能にする目標位置推定にある。 従来のアプローチでは、時間効率を妨げるミオピックソリューションによるゴール位置としてフロンティアを選択するか、強化学習による長期的な価値を最大化してゴール位置を直接回帰するが、完全なマップ構築は保証しない。 本稿では,両手法を活用した新しいアルゴリズムであるneuralcomappingを提案する。 この問題を二部グラフマッチングに還元し、2つのグラフ間のノード対応を確立し、ロボットとフロンティアを示す。 本稿では,より効果的なグラフマッチングのための親和性行列を満たすために,神経距離を学習する多重グラフニューラルネットワーク(mgnn)を提案する。 時間効率を優先する長期値と強化学習による地図完全性を最大化することにより,mgnnを微分可能な線形割当層で最適化する。 提案アルゴリズムを,最先端のマルチロボットアクティブマッピング手法と適応型強化学習ベースラインと比較した。 実験により,9つの屋内シーンでのみトレーニングを行う場合,様々な屋内シーンにおけるアルゴリズムの優れた性能と例外的な一般化能力を示す。

We study the problem of multi-robot active mapping, which aims for complete scene map construction in minimum time steps. The key to this problem lies in the goal position estimation to enable more efficient robot movements. Previous approaches either choose the frontier as the goal position via a myopic solution that hinders the time efficiency, or maximize the long-term value via reinforcement learning to directly regress the goal position, but does not guarantee the complete map construction. In this paper, we propose a novel algorithm, namely NeuralCoMapping, which takes advantage of both approaches. We reduce the problem to bipartite graph matching, which establishes the node correspondences between two graphs, denoting robots and frontiers. We introduce a multiplex graph neural network (mGNN) that learns the neural distance to fill the affinity matrix for more effective graph matching. We optimize the mGNN with a differentiable linear assignment layer by maximizing the long-term values that favor time efficiency and map completeness via reinforcement learning. We compare our algorithm with several state-of-the-art multi-robot active mapping approaches and adapted reinforcement-learning baselines. Experimental results demonstrate the superior performance and exceptional generalization ability of our algorithm on various indoor scenes and unseen number of robots, when only trained with 9 indoor scenes.
翻訳日:2022-03-31 16:27:14 公開日:2022-03-30
# DCT領域におけるマルチレベルクロスチャネルエントロピーモデルを用いた実例学習型JPEG圧縮

Practical Learned Lossless JPEG Recompression with Multi-Level Cross-Channel Entropy Model in the DCT Domain ( http://arxiv.org/abs/2203.16357v1 )

ライセンス: Link先を確認
Lina Guo, Xinjie Shi, Dailan He, Yuanyuan Wang, Rui Ma, Hongwei Qin, Yan Wang(参考訳) JPEGは、個人、データセンター、クラウドストレージ、ネットワークファイルシステムなどで広く使われている画像圧縮手法である。 しかし、画像圧縮の最近の進歩は主に圧縮されていない画像に焦点を当て、既存のJPEG画像は無視している。 これらのJPEG画像を適切に圧縮し、必要に応じてJPEG形式に復元するために、DCTドメイン上で動作するディープラーニングに基づくJPEG再圧縮手法を提案し、最も情報性の高いY成分を圧縮するマルチレベルクロスチャネルエントロピーモデルを提案する。 実験の結果,従来のJPEG圧縮手法であるLepton,JPEG XL,CMIXと比較して,最先端性能が得られた。 我々の知る限りでは、JPEG画像をより多くのストレージ節約ビットストリームに無作為に変換する最初の学習圧縮手法である。

JPEG is a popular image compression method widely used by individuals, data center, cloud storage and network filesystems. However, most recent progress on image compression mainly focuses on uncompressed images while ignoring trillions of already-existing JPEG images. To compress these JPEG images adequately and restore them back to JPEG format losslessly when needed, we propose a deep learning based JPEG recompression method that operates on DCT domain and propose a Multi-Level Cross-Channel Entropy Model to compress the most informative Y component. Experiments show that our method achieves state-of-the-art performance compared with traditional JPEG recompression methods including Lepton, JPEG XL and CMIX. To the best of our knowledge, this is the first learned compression method that losslessly transcodes JPEG images to more storage-saving bitstreams.
翻訳日:2022-03-31 16:26:50 公開日:2022-03-30
# voxelレベルセグメンテーション指標が多局所前立腺癌局所化の評価に及ぼす影響

The impact of using voxel-level segmentation metrics on evaluating multifocal prostate cancer localisation ( http://arxiv.org/abs/2203.16415v1 )

ライセンス: Link先を確認
Wen Yan and Qianye Yang and Tom Syer and Zhe Min and Shonit Punwani and Mark Emberton and Dean C. Barratt and Bernard Chiu and Yipeng Hu(参考訳) Dice similarity coefficient (DSC) と Hausdorff distance (HD) は医療画像セグメンテーションの評価に広く用いられている。 彼らはまた、単独で報告されたとき、その不明瞭な、あるいは誤解を招く臨床解釈について批判されている。 DSCは、被検体内の境界の滑らかさや複数の関心領域(ROI)のため、HDと大きく異なる場合もある。 さらに重要なことに、どちらのメトリックも、タイプ1と2のエラーに基づく結果と非線形で非単調な関係を持ち、結果のセグメンテーションを使用する特定の臨床判断のために設計された。 これらのメトリクス間の不一致を引き起こすケースは、仮定が難しくない。 この研究はまず, 前立腺癌治療の計画にオブジェクト検出に使用する新しい非対称検出指標を提案する。 病変レベルの指標はvoxelレベルのdscとhdと比較され、3d unetはマルチパラメトリックmr(mpmr)画像から病変を分割するために使用される。 実験結果をもとに ペアワイズ・アグリーメントと相関関係を 1) DSC と HD の間, そして 2) ボクセルレベルのDSCと病変レベルのリコール制御精度の間には, コーエンの[0.49, 0.61]とピアソンの [0.66, 0.76] (p-values}<0.001) が様々なカットオフで一致した。 しかし, 偽陽性例と偽陰性例の差は, dscが使用される場合, 実際の誤差と偽陰性例との差は, 357例中152例, 154例にみられた。 したがって,dscなどのvoxelレベル指標は有意な相関関係があるにもかかわらず,多焦点前立腺癌の局所化を評価するために病変レベル検出精度を誤認し,注意して解釈すべきである。

Dice similarity coefficient (DSC) and Hausdorff distance (HD) are widely used for evaluating medical image segmentation. They have also been criticised, when reported alone, for their unclear or even misleading clinical interpretation. DSCs may also differ substantially from HDs, due to boundary smoothness or multiple regions of interest (ROIs) within a subject. More importantly, either metric can also have a nonlinear, non-monotonic relationship with outcomes based on Type 1 and 2 errors, designed for specific clinical decisions that use the resulting segmentation. Whilst cases causing disagreement between these metrics are not difficult to postulate. This work first proposes a new asymmetric detection metric, adapting those used in object detection, for planning prostate cancer procedures. The lesion-level metrics is then compared with the voxel-level DSC and HD, whereas a 3D UNet is used for segmenting lesions from multiparametric MR (mpMR) images. Based on experimental results we report pairwise agreement and correlation 1) between DSC and HD, and 2) between voxel-level DSC and recall-controlled precision at lesion-level, with Cohen's [0.49, 0.61] and Pearson's [0.66, 0.76] (p-values}<0.001) at varying cut-offs. However, the differences in false-positives and false-negatives, between the actual errors and the perceived counterparts if DSC is used, can be as high as 152 and 154, respectively, out of the 357 test set lesions. We therefore carefully conclude that, despite of the significant correlations, voxel-level metrics such as DSC can misrepresent lesion-level detection accuracy for evaluating localisation of multifocal prostate cancer and should be interpreted with caution.
翻訳日:2022-03-31 16:26:38 公開日:2022-03-30
# モーション検索を伴わないフォベーションに基づく深部映像圧縮

Foveation-based Deep Video Compression without Motion Search ( http://arxiv.org/abs/2203.16490v1 )

ライセンス: Link先を確認
Meixu Chen, Richard Webb, Alan C. Bovik(参考訳) より大きなファイルサイズ、異なるストレージフォーマット、VRの没入的な視聴条件の要件は、高品質なVRコンテンツの取得、送信、圧縮、表示という目標に重大な課題をもたらす。 同時に、ビデオ圧縮問題の進歩に深層学習が果たす大きな可能性によって、大きな研究が進められている。 VRの帯域幅の要求が高いため、空間可変のフォベレーテッド圧縮プロトコルの使用にも大きな関心が寄せられている。 我々はこれらの技術を統合し、エンドツーエンドのディープラーニングビデオ圧縮フレームワークを作成しました。 我々の新しい圧縮モデルの特徴は、高価な検索ベースの動き予測計算を必要としないことである。 これは、変位フレーム差によって表現される動画の動きに固有の統計正則性を活用することで達成される。 フォベーションプロトコルは、vrで見るビデオのごく一部しか、ユーザーが任意の方向を見つめているときに見ることができないため、望ましい。 さらに、現在の視野内(FOV)においても、網膜ニューロンの分解能は、投射された視線からの距離(偏心性)によって急速に低下する。 学習ベースアプローチでは、ビットの割り当てを指示するフェーベーションマスクを生成するFGU(Foveation Generator Unit)を導入し、圧縮効率を大幅に向上させ、適切な視線幾何学により視覚的損失の少ない印象を保てるようにすることで、フェーベーションを実現する。 実験結果から,我々はFoveated Motionless VIdeo Codec (Foveated MOVI-Codec) と呼ぶ新しい圧縮モデルを用いて,H.264とH.265の両方のFoveatedバージョンを,広く使用されているUVGデータセットおよびHEVC標準クラスBテストシーケンス上で高速に圧縮できることが判明した。

The requirements of much larger file sizes, different storage formats, and immersive viewing conditions of VR pose significant challenges to the goals of acquiring, transmitting, compressing, and displaying high-quality VR content. At the same time, the great potential of deep learning to advance progress on the video compression problem has driven a significant research effort. Because of the high bandwidth requirements of VR, there has also been significant interest in the use of space-variant, foveated compression protocols. We have integrated these techniques to create an end-to-end deep learning video compression framework. A feature of our new compression model is that it dispenses with the need for expensive search-based motion prediction computations. This is accomplished by exploiting statistical regularities inherent in video motion expressed by displaced frame differences. Foveation protocols are desirable since only a small portion of a video viewed in VR may be visible as a user gazes in any given direction. Moreover, even within a current field of view (FOV), the resolution of retinal neurons rapidly decreases with distance (eccentricity) from the projected point of gaze. In our learning based approach, we implement foveation by introducing a Foveation Generator Unit (FGU) that generates foveation masks which direct the allocation of bits, significantly increasing compression efficiency while making it possible to retain an impression of little to no additional visual loss given an appropriate viewing geometry. Our experiment results reveal that our new compression model, which we call the Foveated MOtionless VIdeo Codec (Foveated MOVI-Codec), is able to efficiently compress videos without computing motion, while outperforming foveated version of both H.264 and H.265 on the widely used UVG dataset and on the HEVC Standard Class B Test Sequences.
翻訳日:2022-03-31 16:26:05 公開日:2022-03-30
# 確率型および非確率型システムのバイシミュレートのためのメタ確率型プログラミング言語

A meta-probabilistic-programming language for bisimulation of probabilistic and non-well-founded type systems ( http://arxiv.org/abs/2203.15970v1 )

ライセンス: Link先を確認
Jonathan Warrell, Alexey Potapov, Adam Vandervorst, Ben Goertzel(参考訳) 本稿では,プログラムと組込み型システムの両方を表現可能な,確率的プログラミングのための形式メタ言語を提案する。 ここでのモチベーションは、agiが関連する知識(プログラム/証明)だけでなく、適切な推論方法(論理/型システム)を学習できるようにすることです。 我々は、立方体型理論の枠組みと依存型メタグラフを用いて、我々のアプローチを形式化する。 そこで本稿では,メタ言語内の特定の構造が,対応する型システムとバイシミュレーション(経路等価性)によって関連付けられることを示す。 そこで本手法は,様々な型システムに対して,合成意味論を導出する便利な手段を提供する。 特に,純粋型システム (PTS) と確率依存型システム (PDTS) のビシミュレーションを導出する。 我々は、PSSと、未確立集合論との関係をさらに議論する。

We introduce a formal meta-language for probabilistic programming, capable of expressing both programs and the type systems in which they are embedded. We are motivated here by the desire to allow an AGI to learn not only relevant knowledge (programs/proofs), but also appropriate ways of reasoning (logics/type systems). We draw on the frameworks of cubical type theory and dependent typed metagraphs to formalize our approach. In doing so, we show that specific constructions within the meta-language can be related via bisimulation (implying path equivalence) to the type systems they correspond. In doing so, our approach provides a convenient means of deriving synthetic denotational semantics for various type systems. Particularly, we derive bisimulations for pure type systems (PTS), and probabilistic dependent type systems (PDTS). We discuss further the relationship of PTS to non-well-founded set theory.
翻訳日:2022-03-31 16:25:29 公開日:2022-03-30
# 連続的感情に基づくシンボリック音楽の生成

Symbolic music generation conditioned on continuous-valued emotions ( http://arxiv.org/abs/2203.16165v1 )

ライセンス: Link先を確認
Serkan Sulun, Matthew E. P. Davies, Paula Viana(参考訳) 本稿では,音楽的感情を駆動するマルチインストゥルメントシンボリック音楽の生成のための新しいアプローチを提案する。 提案手法の主な特徴は,連続値と覚醒ラベルに基づく最先端の変圧器の条件付けである。 さらに,感情ラベルとペアリングされたシンボリック音楽のヴァレンスと覚醒という新たな大規模データセットを提供する。 提案手法を2つの方法で定量的に評価し, 第一に音符予測精度を測定し, 第二にvalence-arousal planeにおける回帰課題を用いて評価した。 提案手法は,現状を表す制御トークンを用いた条件付けよりも優れていることを示す。

In this paper we present a new approach for the generation of multi-instrument symbolic music driven by musical emotion. The principal novelty of our approach centres on conditioning a state-of-the-art transformer based on continuous-valued valence and arousal labels. In addition, we provide a new large-scale dataset of symbolic music paired with emotion labels in terms of valence and arousal. We evaluate our approach in a quantitative manner in two ways, first by measuring its note prediction accuracy, and second via a regression task in the valence-arousal plane. Our results demonstrate that our proposed approaches outperform conditioning using control tokens which is representative of the current state of the art.
翻訳日:2022-03-31 16:24:50 公開日:2022-03-30
# 空間拡張と動的グラフ畳み込みネットワークに基づく科学論文の研究動向予測

Research topic trend prediction of scientific papers based on spatial enhancement and dynamic graph convolution network ( http://arxiv.org/abs/2203.16256v1 )

ライセンス: Link先を確認
Changwei Zheng and Zhe Xue and Meiyu Liang and Feifei Kou(参考訳) 近年,科学研究への社会投資の増加に伴い,様々な分野の研究成果が著しく増加している。 将来の研究トピックの傾向を正確かつ効果的に予測することは、将来の研究ホットスポットを発見するのに役立つ。 しかし,様々な研究テーマ間の関係が深まるにつれて,多くの研究テーマの間には一定の依存関係が存在する。 単一研究テーマを分離し,従来のシーケンス問題処理手法を用いることで,これらの研究テーマ間の空間的依存関係を効果的に探索することはできない。 研究トピック間の空間依存性と時間変化を同時に捉えるために,深層ニューラルネットワークに基づく研究トピックのホットネス予測アルゴリズム,時空間畳み込みネットワークモデルを提案する。 本モデルでは, グラフ畳み込みニューラルネットワーク(GCN)と時間畳み込みニューラルネットワーク(TCN)を組み合わせて, 研究トピックaの空間依存性を学習し, 空間依存性を利用して空間特性を強化する。 TCNは、研究トピックのトレンドのダイナミクスを学ぶために使用される。 最適化は時間距離に基づく重み付き損失の計算に基づく。 論文データセット上の現在の主流シーケンス予測モデルや同様の時空間モデルと比較すると、研究トピック予測タスクでは、我々のモデルは時空間関係を効果的に捉え、その予測は最先端のベースラインを上回っている。

In recent years, with the increase of social investment in scientific research, the number of research results in various fields has increased significantly. Accurately and effectively predicting the trends of future research topics can help researchers discover future research hotspots. However, due to the increasingly close correlation between various research themes, there is a certain dependency relationship between a large number of research themes. Viewing a single research theme in isolation and using traditional sequence problem processing methods cannot effectively explore the spatial dependencies between these research themes. To simultaneously capture the spatial dependencies and temporal changes between research topics, we propose a deep neural network-based research topic hotness prediction algorithm, a spatiotemporal convolutional network model. Our model combines a graph convolutional neural network (GCN) and Temporal Convolutional Network (TCN), specifically, GCNs are used to learn the spatial dependencies of research topics a and use space dependence to strengthen spatial characteristics. TCN is used to learn the dynamics of research topics' trends. Optimization is based on the calculation of weighted losses based on time distance. Compared with the current mainstream sequence prediction models and similar spatiotemporal models on the paper datasets, experiments show that, in research topic prediction tasks, our model can effectively capture spatiotemporal relationships and the predictions outperform state-of-art baselines.
翻訳日:2022-03-31 16:24:39 公開日:2022-03-30
# 適応Kを用いた適応プライベートK選択と多ラベルPATEへの応用

Adaptive Private-K-Selection with Adaptive K and Application to Multi-label PATE ( http://arxiv.org/abs/2203.16100v1 )

ライセンス: Link先を確認
Yuqing Zhu and Yu-Xiang Wang(参考訳) 極端にプライベートなトップ$k$選択のためのrenyi dpベースのフレームワークを提供する。 従来の$k$でデータに依存しない選択を必要とするアプローチとは異なり、$k$-thと$(k+1)$stのギャップが大きくなるように、$k$のデータに依存しない選択を個人的にリリースすることを提案します。 これはReport-Noisy-Maxの新たな応用によって実現されている。 これは1つのハイパーパラメータを除去するだけでなく、$k$の適応的な選択は、非順序集合の上位$k$インデックスの安定性を証明し、ノイズを加えることなくプロジェクション・テスト・リリース(PTR)の変種を使ってそれらを解放する。 提案手法は,従来のトップ$選択アルゴリズムと比較して,理論的かつ実証的にプライバシーとユーティリティのトレードオフを改善していることを示す。 さらに,多数のラベルを持つ複数ラベル分類タスクにおいて,本アルゴリズムを"Private Aggregation of Teacher Ensembles (PATE)"に適用し,性能向上につながることを示す。

We provide an end-to-end Renyi DP based-framework for differentially private top-$k$ selection. Unlike previous approaches, which require a data-independent choice on $k$, we propose to privately release a data-dependent choice of $k$ such that the gap between $k$-th and the $(k+1)$st "quality" is large. This is achieved by a novel application of the Report-Noisy-Max. Not only does this eliminate one hyperparameter, the adaptive choice of $k$ also certifies the stability of the top-$k$ indices in the unordered set so we can release them using a variant of propose-test-release (PTR) without adding noise. We show that our construction improves the privacy-utility trade-offs compared to the previous top-$k$ selection algorithms theoretically and empirically. Additionally, we apply our algorithm to "Private Aggregation of Teacher Ensembles (PATE)" in multi-label classification tasks with a large number of labels and show that it leads to significant performance gains.
翻訳日:2022-03-31 16:23:24 公開日:2022-03-30
# AdaGrid: リンク予測トレーニング対象のための適応的グリッド検索

AdaGrid: Adaptive Grid Search for Link Prediction Training Objective ( http://arxiv.org/abs/2203.16162v1 )

ライセンス: Link先を確認
Tim Po\v{s}tuvan, Jiaxuan You, Mohammadreza Banaei, R\'emi Lebret, Jure Leskovec(参考訳) 機械学習モデルの成功に寄与する最も重要な要素の1つは、優れたトレーニング目標である。 トレーニングの目的は、モデルの性能と一般化能力に決定的に影響を及ぼす。 本稿では,既存の文献では研究されていないリンク予測のためのグラフニューラルネットワークの学習目標に注目した。 ここでは、トレーニング対象には、ネガティブサンプリング戦略や、トレーニングエッジの使用方法を制御するエッジメッセージ比など、さまざまなハイパーパラメータが含まれる。 一般的に、これらのハイパーパラメータは完全なグリッドサーチによって微調整される。 これらの制限を緩和するために、トレーニング中にエッジメッセージ比を動的に調整するAdaptive Grid Search (AdaGrid)を提案する。 モデルに依存しず、完全にカスタマイズ可能な計算予算で高度にスケーラブルである。 広範な実験を通じて、adagridはモデルの性能を最大1.9\%まで向上させ、完全な検索よりも9倍の時間効率が得られることを示した。 全体として、adagridは機械学習のトレーニング目標を設計するための効果的な自動化アルゴリズムである。

One of the most important factors that contribute to the success of a machine learning model is a good training objective. Training objective crucially influences the model's performance and generalization capabilities. This paper specifically focuses on graph neural network training objective for link prediction, which has not been explored in the existing literature. Here, the training objective includes, among others, a negative sampling strategy, and various hyperparameters, such as edge message ratio which controls how training edges are used. Commonly, these hyperparameters are fine-tuned by complete grid search, which is very time-consuming and model-dependent. To mitigate these limitations, we propose Adaptive Grid Search (AdaGrid), which dynamically adjusts the edge message ratio during training. It is model agnostic and highly scalable with a fully customizable computational budget. Through extensive experiments, we show that AdaGrid can boost the performance of the models up to $1.9\%$ while being nine times more time-efficient than a complete search. Overall, AdaGrid represents an effective automated algorithm for designing machine learning training objectives.
翻訳日:2022-03-31 16:23:05 公開日:2022-03-30
# 化学物質の自動同定

Automatic Identification of Chemical Moieties ( http://arxiv.org/abs/2203.16205v1 )

ライセンス: Link先を確認
Jonas Lederer, Michael Gastegger, Kristof T. Sch\"utt, Michael Kampffmeyer, Klaus-Robert M\"uller, Oliver T. Unke(参考訳) 近年,機械学習手法による量子力学的観測値の予測が盛んに行われている。 メッセージパッシングニューラルネットワーク(MPNN)は、関心の性質を予測する原子表現を構築することで、この課題を解決する。 本稿では,このような表現から化学運動量(分子構成要素)を自動的に識別する手法を提案する。 必要な表現は、事前訓練されたMPNNによって提供されるか、構造情報のみを使用してスクラッチから学習される。 分子指紋のデータ駆動設計の他に, 化学データベースにおける代表成分の選択, 粗粒界の自動構築, 反応座標の同定などにより, 本手法の汎用性を実証した。

In recent years, the prediction of quantum mechanical observables with machine learning methods has become increasingly popular. Message-passing neural networks (MPNNs) solve this task by constructing atomic representations, from which the properties of interest are predicted. Here, we introduce a method to automatically identify chemical moieties (molecular building blocks) from such representations, enabling a variety of applications beyond property prediction, which otherwise rely on expert knowledge. The required representation can either be provided by a pretrained MPNN, or learned from scratch using only structural information. Beyond the data-driven design of molecular fingerprints, the versatility of our approach is demonstrated by enabling the selection of representative entries in chemical databases, the automatic construction of coarse-grained force fields, as well as the identification of reaction coordinates.
翻訳日:2022-03-31 16:22:49 公開日:2022-03-30
# 共同メンバに基づくジェネリック異常コミュニティ検出

Co-Membership-based Generic Anomalous Communities Detection ( http://arxiv.org/abs/2203.16246v1 )

ライセンス: Link先を確認
Shay Lapid, Dima Kagan, Michael Fire(参考訳) 今日では、ネットワーク内の異常なコミュニティの検出は、コミュニティ構造化ネットワークに対する洞察の発見を支援するため、研究において不可欠である。 既存の方法の多くは、頂点の属性に関する情報やコミュニティのトポロジー構造を利用する。 本研究では,複数のコミュニティにおける頂点コメンバシップの情報を利用した新しい汎用的手法であるジェネリック・異常コミュニティ検出アルゴリズム(CMMACを参照)を紹介する。 CMMACはドメインフリーであり、コミュニティのサイズや密度に影響を受けない。 具体的には、分類器を訓練して、コミュニティのメンバーであるコミュニティ内の各頂点の確率を予測する。 次に、各コミュニティの頂点の合計メンバーシップ確率でコミュニティをランク付けする。 最下層のコミュニティは異常であると考えられている。 さらに,その分野の研究を容易にするために,異常なコミュニティの注入を可能にするコミュニティ構造ランダムネットワークを生成するアルゴリズムを提案する。 数千のラベル付き異常注入ネットワークからなる2つのデータセットを生成して公開しました。 人工的な異常を注入したシミュレーションと実世界のネットワークを広範囲に実験した。 CMMACは様々な設定で既存のメソッドよりも優れていた。 さらに, reddit や wikipedia など, 異なるドメインにおける実世界非ラベルネットワークの異常コミュニティを cmmac が特定できることを実証した。

Nowadays, detecting anomalous communities in networks is an essential task in research, as it helps discover insights into community-structured networks. Most of the existing methods leverage either information regarding attributes of vertices or the topological structure of communities. In this study, we introduce the Co-Membership-based Generic Anomalous Communities Detection Algorithm (referred as to CMMAC), a novel and generic method that utilizes the information of vertices co-membership in multiple communities. CMMAC is domain-free and almost unaffected by communities' sizes and densities. Specifically, we train a classifier to predict the probability of each vertex in a community being a member of the community. We then rank the communities by the aggregated membership probabilities of each community's vertices. The lowest-ranked communities are considered to be anomalous. Furthermore, we present an algorithm for generating a community-structured random network enabling the infusion of anomalous communities to facilitate research in the field. We utilized it to generate two datasets, composed of thousands of labeled anomaly-infused networks, and published them. We experimented extensively on thousands of simulated, and real-world networks, infused with artificial anomalies. CMMAC outperformed other existing methods in a range of settings. Additionally, we demonstrated that CMMAC can identify abnormal communities in real-world unlabeled networks in different domains, such as Reddit and Wikipedia.
翻訳日:2022-03-31 16:22:36 公開日:2022-03-30
# mpd検出器における時間投影室応答の高速シミュレーションのための生成逆ネットワーク

Generative Adversarial Networks for the fast simulation of the Time Projection Chamber responses at the MPD detector ( http://arxiv.org/abs/2203.16355v1 )

ライセンス: Link先を確認
A. Maevskiy, F. Ratnikov, A. Zinchenko, V. Riabov, A. Sukhorosov and D. Evdokimov(参考訳) 詳細な検出器シミュレーションモデルは、現代の高エネルギー物理実験の成功に不可欠である。 ほとんどの場合、このような詳細なモデルは大量の計算リソースを必要とする。 多くの場合、これは余裕がなく、リソース集約的なアプローチが望まれる。 本研究では,ニカ加速器のmpd検出器における時間投影室(tpc)の場合,そのような高速シミュレーションモデルの基礎としてgan(generative adversarial networks)の適用性を示す。 試作したtpcのganベースモデルは,生成されたデータに対する高レベル復元特性の質を低下させることなく,詳細なシミュレーションよりも1桁以上高速に動作する。 直接的および間接的な品質指標最適化のアプローチを比較する。

The detailed detector simulation models are vital for the successful operation of modern high-energy physics experiments. In most cases, such detailed models require a significant amount of computing resources to run. Often this may not be afforded and less resource-intensive approaches are desired. In this work, we demonstrate the applicability of Generative Adversarial Networks (GAN) as the basis for such fast-simulation models for the case of the Time Projection Chamber (TPC) at the MPD detector at the NICA accelerator complex. Our prototype GAN-based model of TPC works more than an order of magnitude faster compared to the detailed simulation without any noticeable drop in the quality of the high-level reconstruction characteristics for the generated data. Approaches with direct and indirect quality metrics optimization are compared.
翻訳日:2022-03-31 16:21:18 公開日:2022-03-30
# (参考訳) 未確認の授業は後回し? 問題ない

Unseen Classes at a Later Time? No Problem ( http://arxiv.org/abs/2203.16517v1 )

ライセンス: CC BY 4.0
Hari Chandana Kuchibhotla, Sumitra S Malagi, Shivam Chandhok, Vineeth N Balasubramanian(参考訳) 限られた監督から学ぶための最近の進歩は、テスト時に新しいクラスを認識できるモデル(一般化ゼロショット学習(gzsl))を設計する取り組みを奨励している。 GZSLアプローチは、事前にラベル付きデータの有無にかかわらず、すべてのクラスの知識を前提とします。 しかし、現実的なシナリオでは、適応可能なモデルが必要であり、新しく見えるクラスや見えないクラスの動的追加を扱うことができる(これは連続的な一般化されたゼロショット学習(CGZSL)である)。 一つの解決策は、従来のgzsl法を順次再訓練し再利用することであるが、そのようなアプローチは破滅的な忘れ込みに苦しみ、準最適一般化性能に繋がる。 CGZSLに取り組むための最近の取り組みは、設定、実用性、データ分割、プロトコルの継続による公正比較と明確な方向性の違いによって制限されている。 これらの観測から,本研究ではまず,異なるCGZSL設定を統合し,より実用的でフレキシブルな新しいオンラインCGZSL設定を提案する。 次に,双方向のインクリメンタルアライメントを活用したcgzslのための統合機能生成フレームワークを導入し,これらのcgzsl設定において,ラベル付きデータの有無に関わらず,新たなクラスの追加に動的に適応する。 5つのベンチマークデータセットに関する総合的な実験と分析とベースラインとの比較から,本手法が既存の手法,特により実用的なオンライン環境を一貫して上回っていることが示された。

Recent progress towards learning from limited supervision has encouraged efforts towards designing models that can recognize novel classes at test time (generalized zero-shot learning or GZSL). GZSL approaches assume knowledge of all classes, with or without labeled data, beforehand. However, practical scenarios demand models that are adaptable and can handle dynamic addition of new seen and unseen classes on the fly (that is continual generalized zero-shot learning or CGZSL). One solution is to sequentially retrain and reuse conventional GZSL methods, however, such an approach suffers from catastrophic forgetting leading to suboptimal generalization performance. A few recent efforts towards tackling CGZSL have been limited by difference in settings, practicality, data splits and protocols followed-inhibiting fair comparison and a clear direction forward. Motivated from these observations, in this work, we firstly consolidate the different CGZSL setting variants and propose a new Online-CGZSL setting which is more practical and flexible. Secondly, we introduce a unified feature-generative framework for CGZSL that leverages bi-directional incremental alignment to dynamically adapt to addition of new classes, with or without labeled data, that arrive over time in any of these CGZSL settings. Our comprehensive experiments and analysis on five benchmark datasets and comparison with baselines show that our approach consistently outperforms existing methods, especially on the more practical Online setting.
翻訳日:2022-03-31 16:19:41 公開日:2022-03-30
# RICON:顧客の混乱を防ぐためのリアルタイムかつ積極的な介入のためのMLフレームワーク

RICON: A ML framework for real-time and proactive intervention to prevent customer churn ( http://arxiv.org/abs/2203.16155v1 )

ライセンス: Link先を確認
Arnab Chakraborty, Vikas Raturi, Shrutendra Harsola(参考訳) 我々は,リアルタイムな予測の問題を考える。 推論生成のバッチモードのため、従来のメソッドは、テストメッセージ、Eメール、静的な製品内ノッジなどのオフライン介入による保持キャンペーンのみをサポートすることができる。 リアルタイムチャーン予測における他の最近の研究は、そのようなモデルを本番環境にデプロイするための正確なトレードオフのコストを評価していない。 本稿では,クリックストリームデータを用いてリアルタイムに顧客のチャーン傾向を予測する,フレキシブルでコスト効率が高く頑健な機械学習システムriconを提案する。 整合性予測に加えて、RICONは製品利用のインテリジェンスに基づいた洞察を提供する。 QBOアドバンスト顧客による真のビッグデータの適用を通じて、強いクラス不均衡の存在下でRICONが2.68の上昇を達成した様子を実演する。 さらに、RICONのモデリング選択を正当化するために、広範な比較研究を実施する。 最後に、RICONをIntuit内の介入プラットフォームと統合して、リアルタイムな製品内コンテキスト支援による大規模保持キャンペーンを実行する方法について述べる。

We consider the problem of churn prediction in real-time. Because of the batch mode of inference generation, the traditional methods can only support retention campaigns with offline interventions, e.g., test messages, emails or static in-product nudges. Other recent works in real-time churn predictions do not assess the cost to accuracy trade-off to deploy such models in production. In this paper we present RICON, a flexible, cost-effective and robust machine learning system to predict customer churn propensities in real-time using clickstream data. In addition to churn propensity prediction, RICON provides insights based on product usage intelligence. Through application on a real big data of QBO Advanced customers we showcase how RICON has achieved a top decile lift of 2.68 in the presence of strong class imbalance. Moreover, we execute an extensive comparative study to justify our modeling choices for RICON. Finally, we mention how RICON can be integrated with intervention platforms within Intuit to run large-scale retention campaigns with real-time in-product contextual helps.
翻訳日:2022-03-31 15:53:22 公開日:2022-03-30
# オフライン強化学習のためのマルガナライズド演算子

Marginalized Operators for Off-policy Reinforcement Learning ( http://arxiv.org/abs/2203.16177v1 )

ライセンス: Link先を確認
Yunhao Tang, Mark Rowland, R\'emi Munos, Michal Valko(参考訳) そこで本研究では,強化学習のための新しいオフポリシー評価演算子であるmarginalized operatorを提案する。 マージン化演算子は、retraceのような一般的なマルチステップ演算子を特別なケースとして厳密に一般化する。 マージン化演算子は、元のマルチステップ演算子のサンプルベース推定と比較して、潜在的な分散低減を伴うサンプルベース推定の形式も提案している。 境界化演算子の見積もりをスケーラブルに計算できることを示し,特別な場合として限界化重要度サンプリングの事前結果を一般化する。 最後に、極小化演算子がオフ・ポリティクス評価および下流ポリシー最適化アルゴリズムの性能向上を実証的に示す。

In this work, we propose marginalized operators, a new class of off-policy evaluation operators for reinforcement learning. Marginalized operators strictly generalize generic multi-step operators, such as Retrace, as special cases. Marginalized operators also suggest a form of sample-based estimates with potential variance reduction, compared to sample-based estimates of the original multi-step operators. We show that the estimates for marginalized operators can be computed in a scalable way, which also generalizes prior results on marginalized importance sampling as special cases. Finally, we empirically demonstrate that marginalized operators provide performance gains to off-policy evaluation and downstream policy optimization algorithms.
翻訳日:2022-03-31 15:53:06 公開日:2022-03-30
# 適応的発散に基づく非負遅延因子解析

Adaptive Divergence-based Non-negative Latent Factor Analysis ( http://arxiv.org/abs/2203.16214v1 )

ライセンス: Link先を確認
Ye Yuan, Guangxiao Yuan, Renfang Wang, and Xin Luo(参考訳) 高次元および不完全(HDI)データは、多くのノード間の複雑な相互作用を持つ様々な産業アプリケーションでよく見られるが、一般にノード間の相互作用の固有の非負性を表すために非負である。 非負の潜在因子(NLF)モデルは、そのようなデータから本質的な特徴を効率的に抽出することができる。 しかし、既存のNLFモデルは、すべてユークリッド距離や {\alpha}-\b{eta}分散のような静的な発散距離を用いて学習目標を構築し、異なるドメインからHDIデータを正確に表現するスケーラビリティを著しく制限している。 本研究は,この課題に対処するために,適応的分岐に基づく非負遅延因子(ADNLF)モデルを提案する。 a) 目的関数を {\alpha}-\b{eta}-divergence で一般化して,様々なhdiデータを表現できる可能性を拡大すること。 b)非負のブリッジ機能を採用して最適化変数を非負性制約を常に満たすための出力遅延因子と接続すること。 c) 粒子群最適化による発散パラメータの適応化により,学習目標における適応発散が促進され,高いスケーラビリティが達成される。 実アプリケーションから得られた4つのhdiデータセットについて実証研究を行い,その結果から,adnlfモデルと最先端nlfモデルとの比較により,計算効率の高いhdiデータセットの欠落データに対する推定精度が有意に高いことを証明した。

High-Dimensional and Incomplete (HDI) data are frequently found in various industrial applications with complex interactions among numerous nodes, which are commonly non-negative for representing the inherent non-negativity of node interactions. A Non-negative Latent Factor (NLF) model is able to extract intrinsic features from such data efficiently. However, existing NLF models all adopt a static divergence metric like Euclidean distance or {\alpha}-\b{eta} divergence to build its learning objective, which greatly restricts its scalability of accurately representing HDI data from different domains. Aiming at addressing this issue, this study presents an Adaptive Divergence-based Non-negative Latent Factor (ADNLF) model with three-fold ideas: a) generalizing the objective function with the {\alpha}-\b{eta}-divergence to expand its potential of representing various HDI data; b) adopting a non-negative bridging function to connect the optimization variables with output latent factors for fulfilling the non-negativity constraints constantly; and c) making the divergence parameters adaptive through particle swarm optimization, thereby facilitating adaptive divergence in the learning objective to achieve high scalability. Empirical studies are conducted on four HDI datasets from real applications, whose results demonstrate that in comparison with state-of-the-art NLF models, an ADNLF model achieves significantly higher estimation accuracy for missing data of an HDI dataset with high computational efficiency.
翻訳日:2022-03-31 15:52:54 公開日:2022-03-30
# 有効寿命推定のための低変速ダイナミクスを用いた機械用テンポラルカプセルネットワーク

Slow-varying Dynamics Assisted Temporal Capsule Network for Machinery Remaining Useful Life Estimation ( http://arxiv.org/abs/2203.16373v1 )

ライセンス: Link先を確認
Yan Qin, Chau Yuen, Yimin Shao, Bo Qin, Xiaoli Li(参考訳) カプセルネットワーク(capsnet)は、機械機器の持続的有用寿命(rul)推定モデルを開発する主要なネットワークである典型的な畳み込みニューラルネットワークの代替として有望な役割を果たす。 CapsNetは、高次元ベクトル埋め込みによってエンティティの階層的関係を表現できる印象的な能力を備えているが、劣化した機械機器から測定されたラン・トゥ・フェイル時系列の長期的時間的相関を捉えられない。 一方、機械的力学挙動に隠された低周波情報を明らかにする遅い変動ダイナミクスは、既存のRUL推定モデルでは見過ごされ、高度なネットワークの最大限の能力を制限する。 上記の問題に対処するため,RUL推定のための測定値から低変速動特性と時相動特性を同時に学習するために,Slow-variant Dynamics Assisted Temporal CapsNet (SD-TemCapsNet)を提案する。 まず, 断層変動の感度を考慮し, 緩やかな特徴を通常の生データから分解し, システム力学に対応する低周波成分を伝達する。 次に、長い短期記憶(LSTM)機構をCapsNetに導入し、時系列の時間的相関を捉える。 この目的のために、航空機エンジンとミリングマシンで実施された実験は、提案されたSD-TemCapsNetが主流の手法より優れていることを検証した。 capsnetと比較して、4つの異なるシナリオによる航空機エンジンの推定精度がそれぞれ10.17%、24.97%、3.25%、および13.03%改善されている。 同様に、ミリングマシンの推定精度はLSTMと比較して23.57%向上し、CapsNetに比べて19.54%向上した。

Capsule network (CapsNet) acts as a promising alternative to the typical convolutional neural network, which is the dominant network to develop the remaining useful life (RUL) estimation models for mechanical equipment. Although CapsNet comes with an impressive ability to represent the entities' hierarchical relationships through a high-dimensional vector embedding, it fails to capture the long-term temporal correlation of run-to-failure time series measured from degraded mechanical equipment. On the other hand, the slow-varying dynamics, which reveals the low-frequency information hidden in mechanical dynamical behaviour, is overlooked in the existing RUL estimation models, limiting the utmost ability of advanced networks. To address the aforementioned concerns, we propose a Slow-varying Dynamics assisted Temporal CapsNet (SD-TemCapsNet) to simultaneously learn the slow-varying dynamics and temporal dynamics from measurements for accurate RUL estimation. First, in light of the sensitivity of fault evolution, slow-varying features are decomposed from normal raw data to convey the low-frequency components corresponding to the system dynamics. Next, the long short-term memory (LSTM) mechanism is introduced into CapsNet to capture the temporal correlation of time series. To this end, experiments conducted on an aircraft engine and a milling machine verify that the proposed SD-TemCapsNet outperforms the mainstream methods. In comparison with CapsNet, the estimation accuracy of the aircraft engine with four different scenarios has been improved by 10.17%, 24.97%, 3.25%, and 13.03% concerning the index root mean squared error, respectively. Similarly, the estimation accuracy of the milling machine has been improved by 23.57% compared to LSTM and 19.54% compared to CapsNet.
翻訳日:2022-03-31 15:52:29 公開日:2022-03-30
# 実践的なMLテストの探索 -- Axis Communicationsによるインタラクティブな迅速なレビューから学んだ教訓

Exploring ML testing in practice -- Lessons learned from an interactive rapid review with Axis Communications ( http://arxiv.org/abs/2203.16225v1 )

ライセンス: Link先を確認
Qunying Song and Markus Borg and Emelie Engstr\"om and H{\aa}kan Ard\"o and Sergio Rico(参考訳) 機械学習(ML)テストでは、業界や学界への関心が高まっている。 産業とアカデミックは、厳密で関連する知識を生み出すために共に学ぶ必要があると信じています。 本研究では,1つの事例会社,1つの研究機関,および1つの大学からの利害関係者のコラボレーションを開始する。 問題領域の共通見解を確立するため,我々はインタラクティブに最先端の迅速なレビューを行った。 Lund UniversityとRISE Research Institutesの4人の研究者とAxis Communicationsの4人の実践者が、MLテストに関する180の研究をレビューした。 我々は、MLテストの課題と結果に関するコミュニケーションのための分類法を開発し、軸通信に関連する12のレビュー質問のリストを特定した。 3つの重要な質問(データテスト、アセスメントのためのメトリクス、テスト生成)を文献にマッピングし、最も重要な質問(データテスト)にマッチする35の一次研究の詳細な分析を行った。 5つのベストマッチの最終セットを分析し、業界への適用性および関連性の基準を反映した。 分類はコミュニケーションに役立つが、最終ではない。 さらに、調査対象のレビュー問題(データテスト)には、完璧に一致しなかった。 しかし、概念レベルに関する5つの研究から関連するアプローチを抽出し、後続の文脈固有の改善をサポートする。 インタラクティブな迅速なレビューアプローチは、異なるステークホルダ間のコミュニケーションをトリガーし、調整するのに役立ちました。

There is a growing interest in industry and academia in machine learning (ML) testing. We believe that industry and academia need to learn together to produce rigorous and relevant knowledge. In this study, we initiate a collaboration between stakeholders from one case company, one research institute, and one university. To establish a common view of the problem domain, we applied an interactive rapid review of the state of the art. Four researchers from Lund University and RISE Research Institutes and four practitioners from Axis Communications reviewed a set of 180 primary studies on ML testing. We developed a taxonomy for the communication around ML testing challenges and results and identified a list of 12 review questions relevant for Axis Communications. The three most important questions (data testing, metrics for assessment, and test generation) were mapped to the literature, and an in-depth analysis of the 35 primary studies matching the most important question (data testing) was made. A final set of the five best matches were analysed and we reflect on the criteria for applicability and relevance for the industry. The taxonomies are helpful for communication but not final. Furthermore, there was no perfect match to the case company's investigated review question (data testing). However, we extracted relevant approaches from the five studies on a conceptual level to support later context-specific improvements. We found the interactive rapid review approach useful for triggering and aligning communication between the different stakeholders.
翻訳日:2022-03-31 15:51:43 公開日:2022-03-30
# (参考訳) クロスドメインセグメンテーションのための学習事例別適応

Learning Instance-Specific Adaptation for Cross-Domain Segmentation ( http://arxiv.org/abs/2203.16530v1 )

ライセンス: CC BY 4.0
Yuliang Zou, Zizhao Zhang, Chun-Liang Li, Han Zhang, Tomas Pfister, Jia-Bin Huang(参考訳) クロスドメイン画像セグメンテーションのためのテスト時間適応手法を提案する。 テスト時に新しいunseenインスタンスが与えられた場合、インスタンス固有のバッチノルム(統計)キャリブレーションを実行して事前学習したモデルに適応する。 このアプローチには2つのコアコンポーネントがあります。 まず、手動で設計したBatchNormキャリブレーションルールを学習可能なモジュールに置き換える。 第2に,ランダム領域シフトをシミュレートしてキャリブレーションルールを学習するために,強いデータ拡張を利用する。 既存のドメイン適応手法とは対照的に,本手法では,トレーニング時に対象ドメインデータにアクセスしたり,計算コストの高いテスト時間モデルトレーニング/最適化を行う必要はない。 提案手法を標準レシピで訓練したモデルに適用することにより,いくつかの最先端のドメイン一般化とワンショットの教師なしドメイン適応アプローチとの比較により,大幅な改善が達成される。 この手法と領域一般化法を組み合わせることで、パフォーマンスが向上し、新たな最先端技術が実現される。

We propose a test-time adaptation method for cross-domain image segmentation. Our method is simple: Given a new unseen instance at test time, we adapt a pre-trained model by conducting instance-specific BatchNorm (statistics) calibration. Our approach has two core components. First, we replace the manually designed BatchNorm calibration rule with a learnable module. Second, we leverage strong data augmentation to simulate random domain shifts for learning the calibration rule. In contrast to existing domain adaptation methods, our method does not require accessing the target domain data at training time or conducting computationally expensive test-time model training/optimization. Equipping our method with models trained by standard recipes achieves significant improvement, comparing favorably with several state-of-the-art domain generalization and one-shot unsupervised domain adaptation approaches. Combining our method with the domain generalization methods further improves performance, reaching a new state of the art.
翻訳日:2022-03-31 15:49:42 公開日:2022-03-30

PP-YOLOE: An evolved version of YOLO ( http://arxiv.org/abs/2203.16250v1 )

ライセンス: Link先を確認
Shangliang Xu, Xinxin Wang, Wenyu Lv, Qinyao Chang, Cheng Cui, Kaipeng Deng, Guanzhong Wang, Qingqing Dang, Shengyu Wei, Yuning Du, Baohua Lai(参考訳) 本稿では,高性能で親密な展開が可能な工業用最先端物体検出器PP-YOLOEについて述べる。 我々は,従来の PP-YOLOv2 に基づいて,CSPRepResStage,ET-head および動的ラベル代入アルゴリズム TAL を備えたアンカーフリーパラダイム,より強力なバックボーン,ネックを最適化した。 異なるプラクティスシナリオに対してs/m/l/xモデルを提供します。 その結果、PP-YOLOE-lはCOCOテストデブで51.4 mAP、Tesla V100で78.1 FPSを達成し(+1.9 AP、+13.35%のスピードアップ)、(+1.3 AP、+24.96%のスピードアップ)、従来の最先端産業モデルであるPP-YOLOv2とYOLOXをそれぞれ改善した。 さらに、PP-YOLOE推論速度はTensorRTとFP16精度で129.2 FPSを達成する。 設計の有効性を検証するための広範な実験も行っています。 ソースコードと事前学習されたモデルはhttps://github.com/paddlepaddle/paddledetectionで入手できる。

In this report, we present PP-YOLOE, an industrial state-of-the-art object detector with high performance and friendly deployment. We optimize on the basis of the previous PP-YOLOv2, using anchor-free paradigm, more powerful backbone and neck equipped with CSPRepResStage, ET-head and dynamic label assignment algorithm TAL. We provide s/m/l/x models for different practice scenarios. As a result, PP-YOLOE-l achieves 51.4 mAP on COCO test-dev and 78.1 FPS on Tesla V100, yielding a remarkable improvement of (+1.9 AP, +13.35% speed up) and (+1.3 AP, +24.96% speed up), compared to the previous state-of-the-art industrial models PP-YOLOv2 and YOLOX respectively. Further, PP-YOLOE inference speed achieves 149.2 FPS with TensorRT and FP16-precision. We also conduct extensive experiments to verify the effectiveness of our designs. Source code and pre-trained models are available at https://github.com/PaddlePaddle/PaddleDetection .
翻訳日:2022-03-31 15:46:39 公開日:2022-03-30
# SeqTR: ビジュアルグラウンドのためのシンプルだが普遍的なネットワーク

SeqTR: A Simple yet Universal Network for Visual Grounding ( http://arxiv.org/abs/2203.16265v1 )

ライセンス: Link先を確認
Chaoyang Zhu, Yiyi Zhou, Yunhang Shen, Gen Luo, Xingjia Pan, Mingbao Lin, Chao Chen, Liujuan Cao, Xiaoshuai Sun, Rongrong Ji(参考訳) 本稿では,視覚的な接地作業,例えば句のローカライゼーション,参照表現理解(rec)とセグメンテーション(res)のための,単純かつ普遍的なネットワークであるseqtrを提案する。 視覚グラウンディングの標準的なパラダイムは、ネットワークアーキテクチャや損失関数の設計にかなりの専門知識を必要とすることが多いため、タスク間の一般化が困難である。 モデリングの簡略化と統一を図るため,画像およびテキスト入力に規定された点予測問題として視覚的グラウンドをキャストし,境界ボックスまたはバイナリマスクを離散座標トークンのシーケンスとして表現した。 このパラダイムの下では、視覚的なグラウンドタスクはタスク固有のブランチやヘッドを使わずにSeqTRネットワークに統合され、例えば、RESのための畳み込みマスクデコーダはマルチタスクモデリングの複雑さを大幅に低減する。 さらに、SeqTRは単純なクロスエントロピー損失を持つ全てのタスクに対して同じ最適化目標を共有しており、手作りの損失関数の展開の複雑さをさらに軽減している。 5つのベンチマークデータセットの実験では、提案されたSeqTRが既存の最先端技術よりも優れている(あるいは同等である)ことが示され、視覚的接地のための単純だが普遍的なアプローチが実際に実現可能であることが証明された。

In this paper, we propose a simple yet universal network termed SeqTR for visual grounding tasks, e.g., phrase localization, referring expression comprehension (REC) and segmentation (RES). The canonical paradigms for visual grounding often require substantial expertise in designing network architectures and loss functions, making them hard to generalize across tasks. To simplify and unify the modeling, we cast visual grounding as a point prediction problem conditioned on image and text inputs, where either the bounding box or binary mask is represented as a sequence of discrete coordinate tokens. Under this paradigm, visual grounding tasks are unified in our SeqTR network without task-specific branches or heads, e.g., the convolutional mask decoder for RES, which greatly reduces the complexity of multi-task modeling. In addition, SeqTR also shares the same optimization objective for all tasks with a simple cross-entropy loss, further reducing the complexity of deploying hand-crafted loss functions. Experiments on five benchmark datasets demonstrate that the proposed SeqTR outperforms (or is on par with) the existing state-of-the-arts, proving that a simple yet universal approach for visual grounding is indeed feasible.
翻訳日:2022-03-31 15:46:17 公開日:2022-03-30
# PEGG-Net: 閉ループ条件下での背景非依存の画素幅効率よいグラフ生成

PEGG-Net: Background Agnostic Pixel-Wise Efficient Grasp Generation Under Closed-Loop Conditions ( http://arxiv.org/abs/2203.16301v1 )

ライセンス: Link先を確認
Zhiyang Liu, Haozhe Wang, Lei Zhou, Huan Yin and Marcelo H Ang Jr(参考訳) 物体に近接してクローズドループ把持を行うには、広い視野が必要となる。 しかし、そのような画像は必然的に大量の不要な背景情報をもたらし、特に初期段階でカメラが対象物から遠く離れている場合、把持ネットワークの性能が低下する。 この問題に対処するため,我々はPEGG-Netという,リアルタイム,ピクセルワイド,ロボットグリップ生成ネットワークを設計した。 提案する軽量ネットワークは本質的に背景雑音の除去を学習でき、把持精度を低減できる。 提案したPEG-Netは,コーネルデータセット(98.9%)とジャカードデータセット(93.8%)の両方において,最先端のパフォーマンスの向上を実現する。 実世界のテストでは、pegg-netはダイナミックな環境で480x480の画像サイズを使用して、最大50hzのクローズドループ把握をサポートできる。 トレーニングされたモデルは、複雑な幾何学的形状の物体、家庭用物、ワークショップツールを一般化し、実世界の把握実験で全体の91.2%の成功率を達成した。

Performing closed-loop grasping at close proximity to an object requires a large field of view. However, such images will inevitably bring large amounts of unnecessary background information, especially when the camera is far away from the target object at the initial stage, resulting in performance degradation of the grasping network. To address this problem, we design a novel PEGG-Net, a real-time, pixel-wise, robotic grasp generation network. The proposed lightweight network is inherently able to learn to remove background noise that can reduce grasping accuracy. Our proposed PEGG-Net achieves improved state-of-the-art performance on both Cornell dataset (98.9%) and Jacquard dataset (93.8%). In the real-world tests, PEGG-Net can support closed-loop grasping at up to 50Hz using an image size of 480x480 in dynamic environments. The trained model also generalizes to previously unseen objects with complex geometrical shapes, household objects and workshop tools and achieved an overall grasp success rate of 91.2% in our real-world grasping experiments.
翻訳日:2022-03-31 15:45:55 公開日:2022-03-30
# ディープラーニングによるSentinel-1 SAR画像の極低認識

Recognition of polar lows in Sentinel-1 SAR images with deep learning ( http://arxiv.org/abs/2203.16401v1 )

ライセンス: Link先を確認
Jakob Grahn, Filippo Maria Bianchi(参考訳) 本稿では,深層学習によるCバンドSAR画像の極低検出の可能性について検討する。 具体的には,正にラベル付けされたSentinel-1画像からなる新しいデータセットを導入し,海上のメソサイクロン,あるいは正に海の状態を表す。 era5データセットをベースラインとして構築し、2004年の注釈付き画像で構成されている。 私たちの知る限り、この種のデータセットが公開されたのはこれが初めてです。 データセットは、ラベル付き画像を分類するためにディープラーニングモデルをトレーニングするために使用される。 独立したテストセットで評価すると、モデルはF-1スコアが0.95であり、極低がSAR画像から一貫して検出可能であることを示す。 深層学習モデルに適用した解釈可能性の手法は,大気面とサイクロニックアイが分類の重要な特徴であることを明らかにした。 さらに, 実験結果から, モデルが正確であることを示す。 (i)これらの特徴は、SARのスワス幅の制限により顕著に収穫される。 (二)部分的に海氷で覆われているもの (iii)土地は画像のかなりの部分をカバーしている。 複数の入力画像解像度(画素サイズ500m,1km,2km)でモデル性能を評価することにより,高分解能が最高の性能が得られることがわかった。 これは、従来の散乱計のようなセンサーと比較して、SARのような高解像度のセンサーを使って極低を検知する可能性を強調している。

In this paper, we explore the possibility of detecting polar lows in C-band SAR images by means of deep learning. Specifically, we introduce a novel dataset consisting of Sentinel-1 images labeled as positive; representing a maritime mesocyclone, or negative; representing a normal sea state. The dataset is constructed using the ERA5 dataset as baseline and it consists of 2004 annotated images. To our knowledge, this is the first dataset of its kind to be publicly released. The dataset is used to train a deep learning model to classify the labeled images. Evaluated on an independent test set, the model yields an F-1 score of 0.95, indicating that polar lows can be consistently detected from SAR images. Interpretability techniques applied to the deep learning model reveal that atmospheric fronts and cyclonic eyes are key features in the classification. Moreover, experimental results show that the model is accurate even if: (i) such features are significantly cropped due to the limited swath width of the SAR, (ii) the features are partly covered by sea ice and (iii) land is covering significant parts of the images. By evaluating the model performance on multiple input image resolutions (pixel sizes of 500m, 1km and 2km), it is found that higher resolution yield the best performance. This emphasises the potential of using high resolution sensors like SAR for detecting polar lows, as compared to conventionally used sensors such as scatterometers.
翻訳日:2022-03-31 15:45:33 公開日:2022-03-30
# OPD:Single-view 3D Openable Part Detection

OPD: Single-view 3D Openable Part Detection ( http://arxiv.org/abs/2203.16421v1 )

ライセンス: Link先を確認
Hanxiao Jiang, Yongsen Mao, Manolis Savva, Angel X. Chang(参考訳) オブジェクトのどの部分が開くのか、どのように動くのかを予測するタスクに対処する。 入力はオブジェクトの1つのイメージであり、出力として、オブジェクトのどの部分が開き得るか、そして各開き可能な部分の関節を記述する運動パラメータを検出する。 この課題に取り組むために,既存の合成オブジェクトに基づくOPDSynthと,実オブジェクトのRGBD再構成に基づくOPDRealという,2つの3Dオブジェクトのデータセットを作成する。 次に、オープンな部分を検出し、その動作パラメータを予測するニューラルネットワークであるPDRCNNを設計する。 実験の結果,特に対象カテゴリ間の一般化や,単一画像における限られた情報量を考慮した場合,これは難しい課題であることがわかった。 我々のアーキテクチャは、特にRGB画像入力において、ベースラインと先行作業より優れています。 https://www.youtube.com/watch? v=P85iCaD0rfc

We address the task of predicting what parts of an object can open and how they move when they do so. The input is a single image of an object, and as output we detect what parts of the object can open, and the motion parameters describing the articulation of each openable part. To tackle this task, we create two datasets of 3D objects: OPDSynth based on existing synthetic objects, and OPDReal based on RGBD reconstructions of real objects. We then design OPDRCNN, a neural architecture that detects openable parts and predicts their motion parameters. Our experiments show that this is a challenging task especially when considering generalization across object categories, and the limited amount of information in a single image. Our architecture outperforms baselines and prior work especially for RGB image inputs. Short video summary at https://www.youtube.com/watch?v=P85iCaD0rfc
翻訳日:2022-03-31 15:45:08 公開日:2022-03-30
# 不均衡視覚回帰のためのバランスドmse

Balanced MSE for Imbalanced Visual Regression ( http://arxiv.org/abs/2203.16427v1 )

ライセンス: Link先を確認
Jiawei Ren, Mingyuan Zhang, Cunjun Yu, Ziwei Liu(参考訳) データの不均衡は実世界の視覚的回帰、例えば年齢推定やポーズ推定において普遍的に存在し、モデルの一般化性と公平性を損なう。 このように、不均衡回帰は近年研究の注目を集めている。 不均衡分類と比較すると、不均衡回帰は連続ラベルにフォーカスしており、境界なく高次元であり、それゆえより困難である。 本研究では,広く使用されている平均正方形誤差(MSE)損失関数が不均衡回帰において非効率であることを示す。 統計的視点からmseを再検討し,不均衡なトレーニングラベル分布に対応するための新しい損失関数であるバランスドmseを提案する。 さらに、トレーニングラベルの分布に関する事前知識を必要としないものを含む、さまざまな現実シナリオに対処するために、Balanced MSEの複数の実装を設計する。 さらに、我々の知る限りでは、高次元の不均衡回帰に対する最初の一般解である。 合成ベンチマークと3つの実世界のベンチマークの両方に関する広範な実験は、バランスのとれたmseの有効性を示している。

Data imbalance exists ubiquitously in real-world visual regressions, e.g., age estimation and pose estimation, hurting the model's generalizability and fairness. Thus, imbalanced regression gains increasing research attention recently. Compared to imbalanced classification, imbalanced regression focuses on continuous labels, which can be boundless and high-dimensional and hence more challenging. In this work, we identify that the widely used Mean Square Error (MSE) loss function can be ineffective in imbalanced regression. We revisit MSE from a statistical view and propose a novel loss function, Balanced MSE, to accommodate the imbalanced training label distribution. We further design multiple implementations of Balanced MSE to tackle different real-world scenarios, particularly including the one that requires no prior knowledge about the training label distribution. Moreover, to the best of our knowledge, Balanced MSE is the first general solution to high-dimensional imbalanced regression. Extensive experiments on both synthetic and three real-world benchmarks demonstrate the effectiveness of Balanced MSE.
翻訳日:2022-03-31 15:44:55 公開日:2022-03-30
# RFNet-4D:4次元点雲からの連成物体再構成と流れの推定

RFNet-4D: Joint Object Reconstruction and Flow Estimation from 4D Point Clouds ( http://arxiv.org/abs/2203.16482v1 )

ライセンス: Link先を確認
Tuan-Anh Vu, Duc-Thanh Nguyen, Binh-Son Hua, Quang-Hieu Pham and Sai-Kit Yeung(参考訳) 3dポイントクラウドからのオブジェクトの再構築は、コンピュータビジョンとコンピュータグラフィックス研究の分野で素晴らしい進歩を遂げた。 しかし、時変点雲(すなわち4D点雲)からの復元は一般的に見過ごされている。 本稿では,4次元点雲から物体と動きの流れを協調的に再構成する新しいネットワークアーキテクチャrfnet-4dを提案する。 重要な洞察は、複数のポイントクラウドから空間的および時間的特徴を学習することで、複数のタスクを同時に実行することで、個々のタスクを活用し、全体的なパフォーマンスを改善することだ。 提案するネットワークは教師なし学習と教師なし学習の両方を用いて訓練することができる。 この能力を証明するため,物体再構成のための空間構造の教師付き学習により,非教師付き学習手法を用いて時間ベクトル場学習モジュールを設計する。 ベンチマークデータセットの広範な実験と解析により,本手法の有効性と有効性が検証された。 実験結果に示すように,本手法は流速推定と物体再構成の両面での最先端性能を実現し,既存の手法に比べてトレーニングと推論の両面ではるかに高速である。

Object reconstruction from 3D point clouds has achieved impressive progress in the computer vision and computer graphics research field. However, reconstruction from time-varying point clouds (a.k.a. 4D point clouds) is generally overlooked. In this paper, we propose a new network architecture, namely RFNet-4D, that jointly reconstructs objects and their motion flows from 4D point clouds. The key insight is that simultaneously performing both tasks via learning spatial and temporal features from a sequence of point clouds can leverage individual tasks and lead to improved overall performance. The proposed network can be trained using both supervised and unsupervised learning. To prove this ability, we design a temporal vector field learning module using an unsupervised learning approach for flow estimation, leveraged by supervised learning of spatial structures for object reconstruction. Extensive experiments and analyses on benchmark dataset validated the effectiveness and efficiency of our method. As shown in experimental results, our method achieves state-of-the-art performance on both flow estimation and object reconstruction while performing much faster than existing methods in both training and inference.
翻訳日:2022-03-31 15:44:38 公開日:2022-03-30
# PromptDet:不正確な画像で検出語彙を広げる

PromptDet: Expand Your Detector Vocabulary with Uncurated Images ( http://arxiv.org/abs/2203.16513v1 )

ライセンス: Link先を確認
Chengjian Feng, Yujie Zhong, Zequn Jie, Xiangxiang Chu, Haibing Ren, Xiaolin Wei, Weidi Xie, Lin Ma(参考訳) この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。 それを達成するために、私たちは以下の4つの貢献をします。 i) 一般化を追求するために,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器により,各ボックスの提案を分類する2段階のオープンボキャブラリー物体検出器を提案する。 (二)事前学習したテキストエンコーダと視覚潜在空間(RPNボックスの提案から)を組み合わせて、学習可能な2つのプロンプトベクトルを最適化し、テキスト埋め込み空間を視覚中心の画像に適合させる地域的プロンプト学習のアイデアを提案する。 3) より広い範囲の物体を検出するための学習手順をスケールアップするために,利用可能なオンラインリソースを活用し,プロンプトを反復的に更新し,その後,ノイズの多い未処理のWeb画像の大規模なコーパス上に生成された擬似ラベルを用いて自己学習する。 自己学習型検出器はprompdetと呼ばれ、手動アノテーションが使用できないカテゴリや入手が難しいカテゴリ、例えばレアカテゴリの検出性能を大幅に向上させる。 最後に (4) 提案するコンポーネントの必要性を検証するため, LVISとMS-COCOデータセットに対する広範な実験を行い, 既存のアプローチよりも優れた性能を示し, 追加のトレーニング画像が少なく, マニュアルアノテーションが全くない。 プロジェクトページとコード: https://fcjian.github.io/promptdet。

The goal of this work is to establish a scalable pipeline for expanding an object detector towards novel/unseen categories, using zero manual annotations. To achieve that, we make the following four contributions: (i) in pursuit of generalisation, we propose a two-stage open-vocabulary object detector that categorises each box proposal by a classifier generated from the text encoder of a pre-trained visual-language model; (ii) To pair the visual latent space (from RPN box proposal) with that of the pre-trained text encoder, we propose the idea of regional prompt learning to optimise a couple of learnable prompt vectors, converting the textual embedding space to fit those visually object-centric images; (iii) To scale up the learning procedure towards detecting a wider spectrum of objects, we exploit the available online resource, iteratively updating the prompts, and later self-training the proposed detector with pseudo labels generated on a large corpus of noisy, uncurated web images. The self-trained detector, termed as PromptDet, significantly improves the detection performance on categories for which manual annotations are unavailable or hard to obtain, e.g. rare categories. Finally, (iv) to validate the necessity of our proposed components, we conduct extensive experiments on the challenging LVIS and MS-COCO dataset, showing superior performance over existing approaches with fewer additional training images and zero manual annotations whatsoever. Project page with code: https://fcjian.github.io/promptdet.
翻訳日:2022-03-31 15:43:24 公開日:2022-03-30
# CoordGAN: GANsの自己監督型Dense対応

CoordGAN: Self-Supervised Dense Correspondences Emerge from GANs ( http://arxiv.org/abs/2203.16521v1 )

ライセンス: Link先を確認
Jiteng Mu, Shalini De Mello, Zhiding Yu, Nuno Vasconcelos, Xiaolong Wang, Jan Kautz, Sifei Liu(参考訳) 近年の進歩により,GAN(Generative Adversarial Networks)は,ポーズ,表現,レイアウトなど,意味的に意味のある潜在方向に沿って,スムーズなバリエーションで画像を合成できることが示されている。 これはganが画像間でピクセルレベルの対応を暗黙的に学習することを示しているが、それらを明示的に抽出する方法を探究した研究はほとんどない。 本稿では,各生成画像の高密度対応マップを学習する構造テクスチャ不整合GANであるCoordinate GAN(CoordGAN)を紹介する。 我々は、異なる画像の対応マップを、標準座標フレームから変換された歪んだ座標フレーム、すなわち、その構造(例えば、顔の形状)を記述する対応マップとして表現し、変換を介して制御する。 したがって、対応を見つけることは、異なる対応写像で同じ座標を割り出すために沸騰する。 CoordGANでは、合成されたインスタンスの構造を表す変換をサンプリングし、独立したテクスチャブランチは構造に直交する外観の詳細を描画する。 また,生成器上にエンコーダを付加することにより,実画像の高密度対応マップを抽出できる。 複数のデータセット上でのセグメンテーションマスク転送により,学習した高密度通信の品質を定量的に示す。 また,提案したジェネレータは既存手法と比較して構造やテクスチャの絡み合いが良くなることを示す。 プロジェクトページ: https://jitengmu.github.io/CoordGAN/

Recent advances show that Generative Adversarial Networks (GANs) can synthesize images with smooth variations along semantically meaningful latent directions, such as pose, expression, layout, etc. While this indicates that GANs implicitly learn pixel-level correspondences across images, few studies explored how to extract them explicitly. In this work, we introduce Coordinate GAN (CoordGAN), a structure-texture disentangled GAN that learns a dense correspondence map for each generated image. We represent the correspondence maps of different images as warped coordinate frames transformed from a canonical coordinate frame, i.e., the correspondence map, which describes the structure (e.g., the shape of a face), is controlled via a transformation. Hence, finding correspondences boils down to locating the same coordinate in different correspondence maps. In CoordGAN, we sample a transformation to represent the structure of a synthesized instance, while an independent texture branch is responsible for rendering appearance details orthogonal to the structure. Our approach can also extract dense correspondence maps for real images by adding an encoder on top of the generator. We quantitatively demonstrate the quality of the learned dense correspondences through segmentation mask transfer on multiple datasets. We also show that the proposed generator achieves better structure and texture disentanglement compared to existing approaches. Project page: https://jitengmu.github.io/CoordGAN/
翻訳日:2022-03-31 15:42:57 公開日:2022-03-30
# 物体検出のためのプレーンビジョントランスフォーマーバックボーンの検討

Exploring Plain Vision Transformer Backbones for Object Detection ( http://arxiv.org/abs/2203.16527v1 )

ライセンス: Link先を確認
Yanghao Li, Hanzi Mao, Ross Girshick, Kaiming He(参考訳) 物体検出のためのバックボーンネットワークとして,非階層型視覚変換器(ViT)を探索する。 この設計により、オリジナルのViTアーキテクチャは、事前トレーニングのために階層的なバックボーンを再設計することなく、オブジェクト検出のために微調整できる。 微調整のための最小限の適応により、我々のプレーンバックボーン検出器は競争的な結果が得られる。 驚くべきことに (i)単一スケールの特徴地図から(共通FPN設計なしで)単純な特徴ピラミッドを構築するだけで十分である。 (ii)非常に少ないクロスウインドウ伝搬ブロックでウィンドウアテンション(シフトなし)を使用するには十分である。 Masked Autoencoders (MAE) として事前トレーニングされたプレーンなViTバックボーンでは、ViTDetという名前の検出器が、階層的なバックボーンをベースとした以前のリードメソッドと競合し、ImageNet-1K事前トレーニングのみを使用してCOCOデータセット上の61.3ボックスAPに達する。 我々の研究は、プレーンバックボーン検出器の研究に注目されることを願っている。 コードは利用可能になる。

We explore the plain, non-hierarchical Vision Transformer (ViT) as a backbone network for object detection. This design enables the original ViT architecture to be fine-tuned for object detection without needing to redesign a hierarchical backbone for pre-training. With minimal adaptations for fine-tuning, our plain-backbone detector can achieve competitive results. Surprisingly, we observe: (i) it is sufficient to build a simple feature pyramid from a single-scale feature map (without the common FPN design) and (ii) it is sufficient to use window attention (without shifting) aided with very few cross-window propagation blocks. With plain ViT backbones pre-trained as Masked Autoencoders (MAE), our detector, named ViTDet, can compete with the previous leading methods that were all based on hierarchical backbones, reaching up to 61.3 box AP on the COCO dataset using only ImageNet-1K pre-training. We hope our study will draw attention to research on plain-backbone detectors. Code will be made available.
翻訳日:2022-03-31 15:42:31 公開日:2022-03-30
# CaDeX:ニューラルホメオモルフィズムによる動的表面表現のための標準変形座標空間の学習

CaDeX: Learning Canonical Deformation Coordinate Space for Dynamic Surface Representation via Neural Homeomorphism ( http://arxiv.org/abs/2203.16529v1 )

ライセンス: Link先を確認
Jiahui Lei and Kostas Daniilidis(参考訳) 静的な3次元形状の神経表現は広く研究されているが、変形可能な表面の表現はテンプレート依存か効率の欠如に制限されている。 形状と非剛性の両方の統一的な表現であるCaDeX(Caonical deformation Coordinate Space)を導入する。 我々の重要な洞察は、連続的単射正準写像(同型)と学習された正準形状を通るそれらの逆写像によるフレーム間の変形の因子化である。 この新しい変形表現とその実装は, シンプルで効率的であり, サイクル一貫性, トポロジー保存, および必要であればボリューム保存を保証できる。 学習した標準形状のモデル化は、学習前の形状に柔軟で安定した空間を提供する。 我々は、人体、動物体、関節した物体など幅広い変形可能なジオメトリのモデル化において、最先端のパフォーマンスを示す。

While neural representations for static 3D shapes are widely studied, representations for deformable surfaces are limited to be template-dependent or lack efficiency. We introduce Canonical Deformation Coordinate Space (CaDeX), a unified representation of both shape and nonrigid motion. Our key insight is the factorization of the deformation between frames by continuous bijective canonical maps (homeomorphisms) and their inverses that go through a learned canonical shape. Our novel deformation representation and its implementation are simple, efficient, and guarantee cycle consistency, topology preservation, and, if needed, volume conservation. Our modelling of the learned canonical shapes provides a flexible and stable space for shape prior learning. We demonstrate state-of-the-art performance in modelling a wide range of deformable geometries: human bodies, animal bodies, and articulated objects.
翻訳日:2022-03-31 15:42:13 公開日:2022-03-30
# インターネットビデオにおける3次元物体の調音理解

Understanding 3D Object Articulation in Internet Videos ( http://arxiv.org/abs/2203.16531v1 )

ライセンス: Link先を確認
Shengyi Qian, Linyi Jin, Chris Rockwell, Siyi Chen, David F. Fouhey(参考訳) 本研究では,通常の映像からの物体の3次元平面明瞭度の検出と特徴付けについて検討する。 人間にとって簡単と思われるが、この問題はコンピュータに多くの課題をもたらす。 そこで本研究では,3次元平面に対して,観察された調音列を記述可能な最適化手法と合わせて,調音可能な平面を求めるトップダウン検出システムを提案する。 このシステムは,ビデオと3Dスキャンデータセットの組み合わせでトレーニング可能であることを示す。 挑戦的なインターネットビデオとCharadesデータセットのデータセットでテストすると、強いパフォーマンスが得られる。 プロジェクトサイト: https://jasonqsy.github.io/articulation3d

We propose to investigate detecting and characterizing the 3D planar articulation of objects from ordinary videos. While seemingly easy for humans, this problem poses many challenges for computers. We propose to approach this problem by combining a top-down detection system that finds planes that can be articulated along with an optimization approach that solves for a 3D plane that can explain a sequence of observed articulations. We show that this system can be trained on a combination of videos and 3D scan datasets. When tested on a dataset of challenging Internet videos and the Charades dataset, our approach obtains strong performance. Project site: https://jasonqsy.github.io/Articulation3D
翻訳日:2022-03-31 15:41:57 公開日:2022-03-30
# 騒音ラベルによる人物識別のための大規模事前訓練

Large-Scale Pre-training for Person Re-identification with Noisy Labels ( http://arxiv.org/abs/2203.16533v1 )

ライセンス: Link先を確認
Dengpan Fu and Dongdong Chen and Hao Yang and Jianmin Bao and Lu Yuan and Lei Zhang and Houqiang Li and Fang Wen and Dong Chen(参考訳) 本稿では,騒音ラベルによる人物再識別(Re-ID)の事前訓練の問題に対処することを目的とする。 事前学習タスクをセットアップするために、既存のラベルなしRe-IDデータセットLUPersonの生ビデオに簡易なオンライン多目的追跡システムを適用し、LUPerson-NLと呼ばれるNoisy Labeled変異体を構築する。 トラックレットから導出されるこれらのidラベルは必然的にノイズを含むため,教師付き再id学習,プロトタイプベースのコントラスト学習,ラベルガイド付きコントラスト学習という3つの学習モジュールからなる雑音ラベル(pnl)を活用した大規模事前学習フレームワークを開発した。 原則として、これらの3つのモジュールの合同学習は、1つのプロトタイプに類似したクラスタの例だけでなく、プロトタイプの割り当てに基づいてノイズラベルを修正します。 生動画から直接学習することが、空間的・時間的相関を弱い監督力として活用する事前学習の有望な代替手段であることを示す。 このシンプルな事前学習タスクは、鐘や笛なしで"LUPerson-NL"でSOTA Re-ID表現をゼロから学習するスケーラブルな方法を提供する。 例えば、同じ教師付きRe-ID法MGNを適用することで、教師なし事前学習モデルのmAPをCUHK03, DukeMTMC, MSMT17で5.7%、 2.2%、 2.3%改善する。 小規模または少数の設定では、パフォーマンス向上はさらに重要であり、学習した表現の転送性が向上することを示唆している。 コードはhttps://github.com/DengpanFu/LUPerson-NLで入手できる。

This paper aims to address the problem of pre-training for person re-identification (Re-ID) with noisy labels. To setup the pre-training task, we apply a simple online multi-object tracking system on raw videos of an existing unlabeled Re-ID dataset "LUPerson" nd build the Noisy Labeled variant called "LUPerson-NL". Since theses ID labels automatically derived from tracklets inevitably contain noises, we develop a large-scale Pre-training framework utilizing Noisy Labels (PNL), which consists of three learning modules: supervised Re-ID learning, prototype-based contrastive learning, and label-guided contrastive learning. In principle, joint learning of these three modules not only clusters similar examples to one prototype, but also rectifies noisy labels based on the prototype assignment. We demonstrate that learning directly from raw videos is a promising alternative for pre-training, which utilizes spatial and temporal correlations as weak supervision. This simple pre-training task provides a scalable way to learn SOTA Re-ID representations from scratch on "LUPerson-NL" without bells and whistles. For example, by applying on the same supervised Re-ID method MGN, our pre-trained model improves the mAP over the unsupervised pre-training counterpart by 5.7%, 2.2%, 2.3% on CUHK03, DukeMTMC, and MSMT17 respectively. Under the small-scale or few-shot setting, the performance gain is even more significant, suggesting a better transferability of the learned representation. Code is available at https://github.com/DengpanFu/LUPerson-NL
翻訳日:2022-03-31 15:41:47 公開日:2022-03-30
# DELTA: テンソル再計算を超えてGPUメモリを動的に最適化する

DELTA: Dynamically Optimizing GPU Memory beyond Tensor Recomputation ( http://arxiv.org/abs/2203.15980v1 )

ライセンス: Link先を確認
Yu Tang, Chenyu Wang, Yufan Zhang, Yuliang Liu, Xingcheng Zhang, Linbo Qiao, Zhiquan Lai, Dongsheng Li(参考訳) ディープニューラルネットワークのさらなる発展は、限られたgpuメモリリソースによって阻害される。 そのため、GPUメモリリソースの最適化が要求される。 スワップと再計算は、ディープラーニングでgpuメモリをより利用するために一般的に適用されます。 しかし、新しいドメインとして、1)再計算の効率は静的メソッドと動的メソッドの両方で制限される。 2)スワッピングにはパラメータを手動でオフロードする必要があります。 3) 現在テンソル再計算を伴うテンソル交換を伴うような動的できめ細かな手法は存在しない。 DELTA(Dynamic tEnsor offLoad and recompuTAtion)と呼ばれる新しいスケジューラマネージャを提案する。 私たちの知る限りでは、ユーザによる監視なしにテンソル交換とテンソル再計算を組み合わせることで、合理的な動的ランタイムスケジューラを最初に作成しました。 DELTAでは,GPUメモリから解放される最適なテンソルを選択するフィルタアルゴリズムを提案し,各テンソルに対して適切なアクションを選択するためのディレクタアルゴリズムを提案する。 さらに、プレフェッチとオーバーラップはテンソルの交換と再計算による時間コストを意図的に克服すると考えられる。 実験の結果、DELTAはGPUメモリの40%-70%を節約し、最先端の手法をはるかに上回るだけでなく、許容時間遅れのベースラインとして同等の収束結果が得られることがわかった。 また、DELTAは、ResNet-50トレーニング時の最大バッチサイズ2.04$\times$と、ベースラインと比較してResNet-101トレーニング時の2.25$\times$を得る。 さらに,本実験におけるスワップコストと再計算コストの比較により,テンソルスワップとテンソル再計算において合理的な動的スケジューラを作ることの重要性が示された。

The further development of deep neural networks is hampered by the limited GPU memory resource. Therefore, the optimization of GPU memory resources is highly demanded. Swapping and recomputation are commonly applied to make better use of GPU memory in deep learning. However, as an emerging domain, several challenges remain:1)The efficiency of recomputation is limited for both static and dynamic methods. 2)Swapping requires offloading parameters manually, which incurs a great time cost. 3) There is no such dynamic and fine-grained method that involves tensor swapping together with tensor recomputation nowadays. To remedy the above issues, we propose a novel scheduler manager named DELTA(Dynamic tEnsor offLoad and recompuTAtion). To the best of our knowledge, we are the first to make a reasonable dynamic runtime scheduler on the combination of tensor swapping and tensor recomputation without user oversight. In DELTA, we propose a filter algorithm to select the optimal tensors to be released out of GPU memory and present a director algorithm to select a proper action for each of these tensors. Furthermore, prefetching and overlapping are deliberately considered to overcome the time cost caused by swapping and recomputing tensors. Experimental results show that DELTA not only saves 40%-70% of GPU memory, surpassing the state-of-the-art method to a great extent but also gets comparable convergence results as the baseline with acceptable time delay. Also, DELTA gains 2.04$\times$ maximum batchsize when training ResNet-50 and 2.25$\times$ when training ResNet-101 compared with the baseline. Besides, comparisons between the swapping cost and recomputation cost in our experiments demonstrate the importance of making a reasonable dynamic scheduler on tensor swapping and tensor recomputation, which refutes the arguments in some related work that swapping should be the first and best choice.
翻訳日:2022-03-31 15:38:37 公開日:2022-03-30
# コラボレーティブ・インテリジェンスに向けて:分散プライベートデータに基づくルータビリティ推定

Towards Collaborative Intelligence: Routability Estimation based on Decentralized Private Data ( http://arxiv.org/abs/2203.16009v1 )

ライセンス: Link先を確認
Jingyu Pan, Chen-Chia Chang, Zhiyao Xie, Ang Li, Minxue Tang, Tunhou Zhang, Jiang Hu and Yiran Chen(参考訳) 設計フローに機械学習(ML)を適用することは、設計品質予測から最適化まで、さまざまなアプリケーションでEDAで一般的なトレンドである。 学術研究と工業用ツールの両方で実証されているその約束にもかかわらず、その効果は大量の高品質のトレーニングデータが利用可能であることに大きく影響している。 実際、EDA開発者は最新のデザインデータに非常に限られたアクセス権を持っている。 mlモデルのトレーニングを設計会社に委託することは可能だが、特に中小企業の場合、単一の企業のデータは不適切あるいは偏りがある可能性がある。 このようなデータ可用性問題は、チップ設計におけるMLの将来的な成長の制限となっている。 本研究では,EDA におけるよく研究された ML アプリケーションに対するフェデレートラーニングに基づくアプローチを提案する。 このアプローチでは、MLモデルを複数のクライアントのデータで協調的にトレーニングできるが、データのプライバシを尊重するためのデータへの明示的なアクセスは行わない。 この結果をさらに強化するため,分散トレーニングシナリオでカスタマイズしたmlモデルflnetとパーソナライズを共同設計した。 包括的データセットを用いた実験では、各局所モデルと比較して協調学習が精度を11%向上し、我々のカスタマイズされたモデルFLNetは、この協調トレーニングフローにおいて、過去のroutability 推定器の最高の性能を著しく上回っている。

Applying machine learning (ML) in design flow is a popular trend in EDA with various applications from design quality predictions to optimizations. Despite its promise, which has been demonstrated in both academic researches and industrial tools, its effectiveness largely hinges on the availability of a large amount of high-quality training data. In reality, EDA developers have very limited access to the latest design data, which is owned by design companies and mostly confidential. Although one can commission ML model training to a design company, the data of a single company might be still inadequate or biased, especially for small companies. Such data availability problem is becoming the limiting constraint on future growth of ML for chip design. In this work, we propose an Federated-Learning based approach for well-studied ML applications in EDA. Our approach allows an ML model to be collaboratively trained with data from multiple clients but without explicit access to the data for respecting their data privacy. To further strengthen the results, we co-design a customized ML model FLNet and its personalization under the decentralized training scenario. Experiments on a comprehensive dataset show that collaborative training improves accuracy by 11% compared with individual local models, and our customized model FLNet significantly outperforms the best of previous routability estimators in this collaborative training flow.
翻訳日:2022-03-31 15:38:05 公開日:2022-03-30
# ノード分類と推奨のための隣接強化グラフ畳み込みネットワーク

Neighbor Enhanced Graph Convolutional Networks for Node Classification and Recommendation ( http://arxiv.org/abs/2203.16097v1 )

ライセンス: Link先を確認
Hao Chen, Zhong Huang, Yue Xu, Zengde Deng, Feiran Huang, Peng He, Zhoujun Li(参考訳) 最近提案されたグラフ畳み込みネットワーク(gcns)は、ノード分類やレコメンデーションなど、様々なグラフ関連タスクにおいて著しく優れた性能を達成している。 しかし、現在gcnモデルの研究は、グラフ畳み込みの間、集約された隣人が有用な情報を提供するかどうかを明示的に特定することなく、通常、すべての隣人またはランダムにサンプリングされた隣接部分集合から情報を再帰的に集約する。 本稿では,GCNモデルの性能に対する隣接品質の影響を理論的に分析し,既存のGCNモデルの性能向上を目的としたNeighbor Enhanced Graph Convolutional Network (NEGCN) フレームワークを提案する。 私たちの貢献は3倍です。 まず,ノード分類とレコメンデーションタスクの双方について,一般に理論的な枠組みで隣り合う品質の概念を提案する。 具体的には,近傍品質がgcnモデルのノード分類性能に与える影響を理論的に解析する3つの提案を提案する。 第2に,提案する3つの提案に基づき,ノード分類と推薦タスクの両方を増加させるために,隣接評価法を特別に設計したグラフリファインメントプロセスを導入する。 第3に、複数のベンチマークデータセットに対して、広範なノード分類とレコメンデーション実験を行う。 提案したNEGCNフレームワークは,ノード分類とレコメンデーションタスクの両方において,様々な典型的なGCNモデルの性能を大幅に向上できることを確認した。

The recently proposed Graph Convolutional Networks (GCNs) have achieved significantly superior performance on various graph-related tasks, such as node classification and recommendation. However, currently researches on GCN models usually recursively aggregate the information from all the neighbors or randomly sampled neighbor subsets, without explicitly identifying whether the aggregated neighbors provide useful information during the graph convolution. In this paper, we theoretically analyze the affection of the neighbor quality over GCN models' performance and propose the Neighbor Enhanced Graph Convolutional Network (NEGCN) framework to boost the performance of existing GCN models. Our contribution is three-fold. First, we at the first time propose the concept of neighbor quality for both node classification and recommendation tasks in a general theoretical framework. Specifically, for node classification, we propose three propositions to theoretically analyze how the neighbor quality affects the node classification performance of GCN models. Second, based on the three proposed propositions, we introduce the graph refinement process including specially designed neighbor evaluation methods to increase the neighbor quality so as to boost both the node classification and recommendation tasks. Third, we conduct extensive node classification and recommendation experiments on several benchmark datasets. The experimental results verify that our proposed NEGCN framework can significantly enhance the performance for various typical GCN models on both node classification and recommendation tasks.
翻訳日:2022-03-31 15:37:41 公開日:2022-03-30
# (参考訳) conceptevo: 深層学習における概念進化の解釈

ConceptEvo: Interpreting Concept Evolution in Deep Learning Training ( http://arxiv.org/abs/2203.16475v1 )

ライセンス: CC BY 4.0
Haekyu Park, Seongmin Lee, Benjamin Hoover, Austin Wright, Omar Shaikh, Rahul Duggal, Nilaksh Das, Judy Hoffman, Duen Horng Chau(参考訳) ディープニューラルネットワーク(DNN)は意思決定に広く使われており、これらの複雑なモデルがどのように機能するかを理解することへの関心が高まっている。 dnnの解釈に関する最近の文献は、既に訓練済みのモデルを取り上げているが、モデルを訓練しながらどのように進化させるかに関する研究は少ない。 モデル進化の解釈はネットワークトレーニングの監視に不可欠であり、必要な介入に関する積極的な決定を支援する。 本研究では、DNNの一般的な解釈フレームワークであるConceptEvoを紹介し、学習中に検出された概念の発端と進化を明らかにする。 260人の参加者による大規模な人間評価と定量的実験を通じて、conceptevoは、人間にとって意味のある異なるモデルにまたがる進化を発見し、早期の介入決定に役立ち、与えられたクラスの予測に不可欠であることを示した。

Deep neural networks (DNNs) have been widely used for decision making, prompting a surge of interest in interpreting how these complex models work. Recent literature on DNN interpretation has revolved around already-trained models; however, much less research focuses on interpreting how the models evolve as they are trained. Interpreting model evolution is crucial to monitor network training and can aid proactive decisions about necessary interventions. In this work, we present ConceptEvo, a general interpretation framework for DNNs that reveals the inception and evolution of detected concepts during training. Through a large-scale human evaluation with 260 participants and quantitative experiments, we show that ConceptEvo discovers evolution across different models that are meaningful to humans, helpful for early-training intervention decisions, and crucial to the prediction for a given class.
翻訳日:2022-03-31 15:35:59 公開日:2022-03-30
# ビデオセグメント参照のためのディープインターリーブ2ストリームエンコーダ

Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation ( http://arxiv.org/abs/2203.15969v1 )

ライセンス: Link先を確認
Guang Feng, Lihe Zhang, Zhiwei Hu, Huchuan Lu(参考訳) 参照ビデオセグメンテーションは、言語表現で記述された対応するビデオオブジェクトをセグメンテーションすることを目的としている。 この課題に対処するために,まず,cnnに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計し,視覚言語相互誘導(vlmg)モジュールを複数回エンコーダに挿入し,マルチモーダル特徴の階層的・漸進的融合を促進する。 既存のマルチモーダル融合法と比較して、この2ストリームエンコーダは、多粒度言語文脈を考慮に入れ、VLGMの助けを借りて、モーダル間の深いインターリーブを実現する。 さらに, フレーム間の時間的アライメントを促進するために, 時間的コヒーレンスを強化するために, 時間的コヒーレンスを強化するための言語誘導多スケール動的フィルタリング (lmdf) モジュールを提案する。 4つのデータセットに対する大規模な実験により、提案モデルの有効性が検証された。

Referring video segmentation aims to segment the corresponding video object described by the language expression. To address this task, we first design a two-stream encoder to extract CNN-based visual features and transformer-based linguistic features hierarchically, and a vision-language mutual guidance (VLMG) module is inserted into the encoder multiple times to promote the hierarchical and progressive fusion of multi-modal features. Compared with the existing multi-modal fusion methods, this two-stream encoder takes into account the multi-granularity linguistic context, and realizes the deep interleaving between modalities with the help of VLGM. In order to promote the temporal alignment between frames, we further propose a language-guided multi-scale dynamic filtering (LMDF) module to strengthen the temporal coherence, which uses the language-guided spatial-temporal features to generate a set of position-specific dynamic filters to more flexibly and effectively update the feature of current frame. Extensive experiments on four datasets verify the effectiveness of the proposed model.
翻訳日:2022-03-31 15:09:23 公開日:2022-03-30
# 反復的深部ホログラフィー推定

Iterative Deep Homography Estimation ( http://arxiv.org/abs/2203.15982v1 )

ライセンス: Link先を確認
Si-Yuan Cao, Jianxin Hu, Zehua Sheng, Hui-Liang Shen(参考訳) 本稿では,新しい深層ホモグラフィ推定アーキテクチャであるihnを提案する。 ネットワークカスケードやトレーニング不可能なIC-LKイテレータによる反復的な洗練を実現する以前の作業とは異なり、IHNのイテレータは重みを結び、完全に訓練可能である。 IHNは、挑戦的なシーンを含むいくつかのデータセットで最先端の精度を達成する。 IHN の静的なシーンに対する IHN と移動物体を伴う動的シーンに対する IHN-mov の2つのバージョンを提案する。 どちらのバージョンも効率は1スケール、精度は2スケールで配置できる。 基礎的な1スケールIHNは既存の手法よりも優れていることを示す。 さまざまなデータセットにおいて、2スケールのIHNは、大きなギャップですべての競合より優れています。 移動物体シーンの推定精度をさらに向上させるため,イリアーマスクを用いてihn-movを導入する。 ihnの反復フレームワークは,ネットワークパラメータをかなり節約しながら95%の誤り低減を達成できることを示す。 シーケンシャルなイメージペアを処理する場合、IC-LKイテレータの約8倍の32.7 fpsを達成することができる。 ソースコードはhttps://github.com/imdumpl78/ihn。

We propose Iterative Homography Network, namely IHN, a new deep homography estimation architecture. Different from previous works that achieve iterative refinement by network cascading or untrainable IC-LK iterator, the iterator of IHN has tied weights and is completely trainable. IHN achieves state-of-the-art accuracy on several datasets including challenging scenes. We propose 2 versions of IHN: (1) IHN for static scenes, (2) IHN-mov for dynamic scenes with moving objects. Both versions can be arranged in 1-scale for efficiency or 2-scale for accuracy. We show that the basic 1-scale IHN already outperforms most of the existing methods. On a variety of datasets, the 2-scale IHN outperforms all competitors by a large gap. We introduce IHN-mov by producing an inlier mask to further improve the estimation accuracy of moving-objects scenes. We experimentally show that the iterative framework of IHN can achieve 95% error reduction while considerably saving network parameters. When processing sequential image pairs, IHN can achieve 32.7 fps, which is about 8x the speed of IC-LK iterator. Source code is available at https://github.com/imdumpl78/IHN.
翻訳日:2022-03-31 15:09:00 公開日:2022-03-30
# 自己監督型ポスアライメントによる細粒度オブジェクト分類

Fine-Grained Object Classification via Self-Supervised Pose Alignment ( http://arxiv.org/abs/2203.15987v1 )

ライセンス: Link先を確認
Xuhui Yang, Yaowei Wang, Ke Chen, Yong Xu, Yonghong Tian(参考訳) 細かい粒度の物体の意味的パターンは、局所的な部分の微妙な外観の違いによって決定されるため、多くの部分ベースの方法が引き起こされる。 しかし、制御不能な物体が画像に現れるため、局所的な地域によって運ばれる特徴的な細部は空間的に分布したり、あるいは自閉したりすることができ、オブジェクト表現に大きな変化をもたらす。 そこで本研究では,深層学習ネットワークにおける補助的特徴正規化として活用されるクラス間における自己監督型ポーズアライメントのための局所的な部分のグローバルな構成を明らかにするために,グラフベースのオブジェクト表現を新たに学習することを提案する。 提案手法を3種類のオブジェクト分類ベンチマークで評価し,最先端性能を継続的に達成した。 ソースコードはhttps://github.com/yangxh11/P2P-Netで入手できる。

Semantic patterns of fine-grained objects are determined by subtle appearance difference of local parts, which thus inspires a number of part-based methods. However, due to uncontrollable object poses in images, distinctive details carried by local regions can be spatially distributed or even self-occluded, leading to a large variation on object representation. For discounting pose variations, this paper proposes to learn a novel graph based object representation to reveal a global configuration of local parts for self-supervised pose alignment across classes, which is employed as an auxiliary feature regularization on a deep representation learning network.Moreover, a coarse-to-fine supervision together with the proposed pose-insensitive constraint on shallow-to-deep sub-networks encourages discriminative features in a curriculum learning manner. We evaluate our method on three popular fine-grained object classification benchmarks, consistently achieving the state-of-the-art performance. Source codes are available at https://github.com/yangxh11/P2P-Net.
翻訳日:2022-03-31 15:08:40 公開日:2022-03-30
# ITTR:トランスフォーマーを用いた画像間翻訳

ITTR: Unpaired Image-to-Image Translation with Transformers ( http://arxiv.org/abs/2203.16015v1 )

ライセンス: Link先を確認
Wanfeng Zheng, Qiang Li, Guoxin Zhang, Pengfei Wan, Zhongyuan Wang(参考訳) unpaired image-to-image translationは、トレーニングデータをペアにすることなく、ソースドメインからターゲットドメインへの画像変換である。 ローカルセマンティクスの抽出にCNNを活用することにより,翻訳性能を向上させるために様々な技術が開発されている。 しかし、cnnベースのジェネレータは、グローバルセマンティクスをうまく活用するために長距離依存性をキャプチャする能力が欠けている。 近年,視覚トランスフォーマーが認識課題として広く研究されている。 魅力的ではあるが、生成の困難さと計算の制限により、認識ベースの視覚変換器を画像間変換に単純に移行するのは不適切である。 本稿では,トランスフォーマー(ittr)を用いた画像対画像変換の効率的かつ効率的なアーキテクチャを提案する。 主なデザインは2つあります 1)グローバルセマンティクスを利用するための異なる受容領域からのトークン混合のためのハイブリッド認識ブロック(HPB) 2) 2重プルーンド自己注意(DPSA)は計算複雑性を著しく低減する。 当社のittrは,6つのベンチマークデータセットで,画像対画像変換の最先端技術よりも優れています。

Unpaired image-to-image translation is to translate an image from a source domain to a target domain without paired training data. By utilizing CNN in extracting local semantics, various techniques have been developed to improve the translation performance. However, CNN-based generators lack the ability to capture long-range dependency to well exploit global semantics. Recently, Vision Transformers have been widely investigated for recognition tasks. Though appealing, it is inappropriate to simply transfer a recognition-based vision transformer to image-to-image translation due to the generation difficulty and the computation limitation. In this paper, we propose an effective and efficient architecture for unpaired Image-to-Image Translation with Transformers (ITTR). It has two main designs: 1) hybrid perception block (HPB) for token mixing from different receptive fields to utilize global semantics; 2) dual pruned self-attention (DPSA) to sharply reduce the computational complexity. Our ITTR outperforms the state-of-the-arts for unpaired image-to-image translation on six benchmark datasets.
翻訳日:2022-03-31 15:08:21 公開日:2022-03-30
# リプレースブロック:背景情報に基づく改良正規化手法

ReplaceBlock: An improved regularization method based on background information ( http://arxiv.org/abs/2203.16029v1 )

ライセンス: Link先を確認
Zhemin Zhang, Xun Gong, Jinyi Wu(参考訳) より優れた特徴表現のためにネットワークをトレーニングするために頻繁に使用される注意機構は、ターゲットオブジェクトを背景にある無関係なオブジェクトから効果的に切り離すことができる。 任意の画像が与えられた場合、背景の無関係なオブジェクトがターゲットオブジェクトを遮蔽/ブロックする可能性が最も高い。 この発見に基づき、ターゲットオブジェクトが背景と見なされるオブジェクトによって部分的にオクルードされた場合の状況をシミュレートするための置換ブロックを提案する。 具体的には、replaceblockはイメージ内の対象オブジェクトを消去し、モデルによって無関係なオブジェクトと背景のみを持つフィーチャーマップを生成する。 最後に、背景特徴マップのいくつかの領域は、元の画像特徴マップのターゲットオブジェクトのいくつかの領域を置き換えるために使用される。 これにより、ReplaceBlockは、隠された画像の特徴マップを効果的にシミュレートできる。 実験の結果,ReplaceBlockは畳み込みネットワークの正規化においてDropBlockよりも優れていることがわかった。

Attention mechanism, being frequently used to train networks for better feature representations, can effectively disentangle the target object from irrelevant objects in the background. Given an arbitrary image, we find that the background's irrelevant objects are most likely to occlude/block the target object. We propose, based on this finding, a ReplaceBlock to simulate the situations when the target object is partially occluded by the objects that are deemed as background. Specifically, ReplaceBlock erases the target object in the image, and then generates a feature map with only irrelevant objects and background by the model. Finally, some regions in the background feature map are used to replace some regions of the target object in the original image feature map. In this way, ReplaceBlock can effectively simulate the feature map of the occluded image. The experimental results show that ReplaceBlock works better than DropBlock in regularizing convolutional networks.
翻訳日:2022-03-31 15:08:07 公開日:2022-03-30
# ゼロショット学習のための反復学習型トランスダクティブフレームワーク

An Iterative Co-Training Transductive Framework for Zero Shot Learning ( http://arxiv.org/abs/2203.16041v1 )

ライセンス: Link先を確認
Bo Liu, Lihua Hu, Qiulei Dong, and Zhanyi Hu(参考訳) ゼロショット学習(ZSL)コミュニティでは,非目にないサンプルもトレーニング段階で使用されるため,トランスダクティブ学習が誘導学習よりも優れていることが一般的に認識されている。 非seenクラスサンプルの擬似ラベルの生成方法と、そのような騒がしい擬似ラベルの使い方は、トランスダクティブ学習において2つの重要な問題である。 本研究では、2つの異なるベースZSLモデルと交換モジュールを含む反復的協調学習フレームワークを提案する。 各イテレーションにおいて、2つの異なるZSLモデルを共同でトレーニングし、未確認のサンプルの擬似ラベルを個別に予測し、交換モジュールが予測された擬似ラベルを交換した後、次のイテレーションで交換された擬似ラベル付きサンプルをトレーニングセットに追加する。 これにより、2つのモデルの分類能力の潜在的な相補性をフル活用することにより、ZSLの性能を徐々に向上させることができる。 さらに,本手法を一般化したZSL (GZSL) にも適用し,GZSLのバイアス問題を緩和するために,クラスレベルの分類の前に最も見知らぬ可能性のあるサンプルを抽出する意味誘導OOD検出器を提案する。 3つのベンチマークを広範囲に実験した結果,提案手法が約311ドルの最先端手法を著しく上回ることがわかった。

In zero-shot learning (ZSL) community, it is generally recognized that transductive learning performs better than inductive one as the unseen-class samples are also used in its training stage. How to generate pseudo labels for unseen-class samples and how to use such usually noisy pseudo labels are two critical issues in transductive learning. In this work, we introduce an iterative co-training framework which contains two different base ZSL models and an exchanging module. At each iteration, the two different ZSL models are co-trained to separately predict pseudo labels for the unseen-class samples, and the exchanging module exchanges the predicted pseudo labels, then the exchanged pseudo-labeled samples are added into the training sets for the next iteration. By such, our framework can gradually boost the ZSL performance by fully exploiting the potential complementarity of the two models' classification capabilities. In addition, our co-training framework is also applied to the generalized ZSL (GZSL), in which a semantic-guided OOD detector is proposed to pick out the most likely unseen-class samples before class-level classification to alleviate the bias problem in GZSL. Extensive experiments on three benchmarks show that our proposed methods could significantly outperform about $31$ state-of-the-art ones.
翻訳日:2022-03-31 15:07:52 公開日:2022-03-30
# WSSSにおける閾値:閾値に対するロバストかつ正確なセグメンテーションモデルの活性化を操作する

Threshold Matters in WSSS: Manipulating the Activation for the Robust and Accurate Segmentation Model Against Thresholds ( http://arxiv.org/abs/2203.16045v1 )

ライセンス: Link先を確認
Minhyun Lee, Dongseob Kim, Hyunjung Shim(参考訳) 弱教師付きセマンティックセグメンテーション(wsss)は最近、画像レベルのラベルのみでセグメンテーションモデルをトレーニングするという約束で多くの注目を集めている。 既存のWSSSメソッドは一般的に、CAMのスパースカバレッジがWSSSのパフォーマンスボトルネックを引き起こすと主張している。 本稿は, 実際のボトルネックはスパースカバレッジではなく, CAM後に適用されるグローバルしきい値設定方式である,という分析的および実証的な証拠を提供する。 そして,この問題を2つの条件を満たすことで緩和できることを示す。 1)前景の活性化と不均衡の低減 2)前景と背景アクティベーションのギャップを増加させる。 そこで本研究では,画素単位の分類損失とラベル条件付きモジュールを備えた新しいアクティベーション操作ネットワークを提案する。 ピクセルごとの分類は、アクティベーションマップにおいて自然に2段階の活性化を誘導し、最も差別的な部分をペナルティ化し、より差別的な部分を促進し、背景領域を非活性化させる。 ラベル条件付けでは、擬似マスクの出力ラベルは真のイメージレベルのラベルのいずれかでなければならないと規定されている。 広範な分析と評価に基づいて,各コンポーネントが正確な擬似マスクを生成し,グローバルしきい値の選択に対するロバスト性を達成することを実証する。 最後に, PASCAL VOC 2012 と MS COCO 2014 の2つのデータセット上で, 最先端の記録を達成した。

Weakly-supervised semantic segmentation (WSSS) has recently gained much attention for its promise to train segmentation models only with image-level labels. Existing WSSS methods commonly argue that the sparse coverage of CAM incurs the performance bottleneck of WSSS. This paper provides analytical and empirical evidence that the actual bottleneck may not be sparse coverage but a global thresholding scheme applied after CAM. Then, we show that this issue can be mitigated by satisfying two conditions; 1) reducing the imbalance in the foreground activation and 2) increasing the gap between the foreground and the background activation. Based on these findings, we propose a novel activation manipulation network with a per-pixel classification loss and a label conditioning module. Per-pixel classification naturally induces two-level activation in activation maps, which can penalize the most discriminative parts, promote the less discriminative parts, and deactivate the background regions. Label conditioning imposes that the output label of pseudo-masks should be any of true image-level labels; it penalizes the wrong activation assigned to non-target classes. Based on extensive analysis and evaluations, we demonstrate that each component helps produce accurate pseudo-masks, achieving the robustness against the choice of the global threshold. Finally, our model achieves state-of-the-art records on both PASCAL VOC 2012 and MS COCO 2014 datasets.
翻訳日:2022-03-31 15:07:25 公開日:2022-03-30
# ハイクオリティ・ヒューマン・モーション・予測のための新しい段階に向けての進化的初期ガイダンスの作成

Progressively Generating Better Initial Guesses Towards Next Stages for High-Quality Human Motion Prediction ( http://arxiv.org/abs/2203.16051v1 )

ライセンス: Link先を確認
Tiezheng Ma, Yongwei Nie, Chengjiang Long, Qing Zhang, and Guiqing Li(参考訳) 本稿では,観察された人間の将来のポーズを正確に予測する高品質な人間の動作予測手法を提案する。 本手法は,予測精度の向上に有効であることを示す。 これは、良い推測を計算するためのinit-prediction networkと、推測に基づいてターゲットの将来を予測するformal-prediction networkを含む、新しい2段階予測フレームワークを提案する動機付けとなります。 さらに重要なのは、このアイデアをさらに拡張し、各ステージが次のステージの最初の推測を予測し、パフォーマンス向上をもたらす多段階予測フレームワークを設計することです。 各段階での予測タスクを実現するために,空間密グラフ畳み込みネットワーク(s-dgcn)と時間密グラフ畳み込みネットワーク(t-dgcn)からなるネットワークを提案する。 あるいは、2つのネットワークの実行は、全ポーズシーケンスのグローバルな受容領域上の時空間的特徴の抽出に役立ちます。 ヒト3.6Mでは6%-7%、CMU-MoCapでは5%-10%、3DPWでは13%-16%である。

This paper presents a high-quality human motion prediction method that accurately predicts future human poses given observed ones. Our method is based on the observation that a good initial guess of the future poses is very helpful in improving the forecasting accuracy. This motivates us to propose a novel two-stage prediction framework, including an init-prediction network that just computes the good guess and then a formal-prediction network that predicts the target future poses based on the guess. More importantly, we extend this idea further and design a multi-stage prediction framework where each stage predicts initial guess for the next stage, which brings more performance gain. To fulfill the prediction task at each stage, we propose a network comprising Spatial Dense Graph Convolutional Networks (S-DGCN) and Temporal Dense Graph Convolutional Networks (T-DGCN). Alternatively executing the two networks helps extract spatiotemporal features over the global receptive field of the whole pose sequence. All the above design choices cooperating together make our method outperform previous approaches by large margins: 6%-7% on Human3.6M, 5%-10% on CMU-MoCap, and 13%-16% on 3DPW.
翻訳日:2022-03-31 15:07:00 公開日:2022-03-30
# 顔の皮膚を自動的に検出する

Automatic Facial Skin Feature Detection for Everyone ( http://arxiv.org/abs/2203.16056v1 )

ライセンス: Link先を確認
Qian Zheng, Ankur Purwar, Heng Zhao, Guang Liang Lim, Ling Li, Debasish Behera, Qian Wang, Min Tan, Rizhao Cai, Jennifer Werner, Dennis Sng, Maurice van Steensel, Weisi Lin, Alex C Kot(参考訳) 顔の皮膚状態の自動評価と理解には、基礎疾患の早期発見、ライフスタイルと食事療法、スキンケア製品推奨など、いくつかの応用がある。 自然界の自撮りは、肌質評価の民主化に優れたデータ資源として機能するが、いくつかのデータ収集課題に悩まされており、正確な評価を保証する鍵は、皮膚の特徴の正確な検出である。 本研究では,野生の自撮り自撮りのために,さまざまな肌のトーンと年齢群にまたがって機能する顔顔の特徴自動検出法を提案する。 具体的には,肌の色,重度度,照明条件の異なる自撮り画像に対して,アクネ,顔料,ニキビの位置を注釈する。 このアノテーションは、皮膚科医の助けを借りて、アノテーションのためにボランティアを訓練する2段階のスキームで行われる。 機能検出のネットワークアーキテクチャとしてUnet++を採用している。 本研究は, 肌色, 重症度, 年齢, 照明条件の異なる自撮り画像に対して, 発色, 色素沈着, しわの正確な位置を2相アノテーションによりロバストに検出できることを示す。

Automatic assessment and understanding of facial skin condition have several applications, including the early detection of underlying health problems, lifestyle and dietary treatment, skin-care product recommendation, etc. Selfies in the wild serve as an excellent data resource to democratize skin quality assessment, but suffer from several data collection challenges.The key to guaranteeing an accurate assessment is accurate detection of different skin features. We present an automatic facial skin feature detection method that works across a variety of skin tones and age groups for selfies in the wild. To be specific, we annotate the locations of acne, pigmentation, and wrinkle for selfie images with different skin tone colors, severity levels, and lighting conditions. The annotation is conducted in a two-phase scheme with the help of a dermatologist to train volunteers for annotation. We employ Unet++ as the network architecture for feature detection. This work shows that the two-phase annotation scheme can robustly detect the accurate locations of acne, pigmentation, and wrinkle for selfie images with different ethnicities, skin tone colors, severity levels, age groups, and lighting conditions.
翻訳日:2022-03-31 15:06:35 公開日:2022-03-30
# 自己教師付き360$^{\circ}$ルームレイアウト推定

Self-supervised 360$^{\circ}$ Room Layout Estimation ( http://arxiv.org/abs/2203.16057v1 )

ライセンス: Link先を確認
Hao-Wen Ting, Cheng Sun, Hwann-Tzong Chen(参考訳) ラベル付きデータを使わずにパノラマ部屋配置推定モデルを訓練するための,最初の自己教師方式を提案する。 豊富な対応制約を提供する画素ごとの濃密な深さとは異なり、レイアウト表現はスパースでトポロジカルであり、画像に対する自己教師付き再投影の一貫性を妨げている。 この問題に対処するために,対象画像から推定レイアウトが与えられた場合,対象カメラのポーズにソース画像をワープできる微分レイアウトレンダリングを提案する。 各レンダリングピクセルは推定レイアウトに対して微分可能であるため、再投影損失を最小限に抑えてレイアウト推定モデルを訓練することができる。 さらに,マンハッタンアライメント,天井床アライメント,サイクル一貫性,レイアウトストレッチ一貫性を促進するために正規化損失を導入し,予測をさらに改善した。 最後に、ZilloIndoorとMatterportLayoutのデータセット上で、最初の自己教師型結果を示す。 私たちのアプローチでは、データ収集シナリオやアクティブラーニングにおける有望なソリューションも示しています。 コードはhttps://github.com/joshua049/stereo-360-layoutで入手できる。

We present the first self-supervised method to train panoramic room layout estimation models without any labeled data. Unlike per-pixel dense depth that provides abundant correspondence constraints, layout representation is sparse and topological, hindering the use of self-supervised reprojection consistency on images. To address this issue, we propose Differentiable Layout View Rendering, which can warp a source image to the target camera pose given the estimated layout from the target image. As each rendered pixel is differentiable with respect to the estimated layout, we can now train the layout estimation model by minimizing reprojection loss. Besides, we introduce regularization losses to encourage Manhattan alignment, ceiling-floor alignment, cycle consistency, and layout stretch consistency, which further improve our predictions. Finally, we present the first self-supervised results on ZilloIndoor and MatterportLayout datasets. Our approach also shows promising solutions in data-scarce scenarios and active learning, which would have an immediate value in the real estate virtual tour software. Code is available at https://github.com/joshua049/Stereo-360-Layout.
翻訳日:2022-03-31 15:05:51 公開日:2022-03-30
# ビデオデブラリングのための隠れた状態に注意を払う:ping-pongリカレントニューラルネットワークと選択的非局所的注意

Pay Attention to Hidden States for Video Deblurring: Ping-Pong Recurrent Neural Networks and Selective Non-Local Attention ( http://arxiv.org/abs/2203.16063v1 )

ライセンス: Link先を確認
JoonKyu Park, Seungjun Nah, Kyoung Mu Lee(参考訳) ビデオデブラリングモデルは、隣接するフレーム内の情報を利用して、カメラとオブジェクトの動きによって引き起こされるぼやけを取り除く。 recurrent neural networks~(rnn)は、隠れ状態を介してフレーム間の時間依存性をモデル化するためによく用いられる。 しかし、動きのぼかしが強い場合、異なるフレーム間の変位により隠蔽状態が適切な情報を提供するのは難しい。 隠れた状態を更新する試みはあったが、単純なモジュールの受容的フィールドを超えた不整合な機能を扱うのは難しい。 そこで本研究では,RNNアーキテクチャを補完する2つのモジュールを提案する。 まず,Ping-Pong RNN〜(PPRNN)を設計し,現在時刻と前時刻との特徴を交互に参照することで隠れた状態を更新する。 PPRNNは、繰り返しアーキテクチャを利用して、両方の機能から関連する情報を反復的かつバランスよく収集する。 第2に,選択的非局所的注意~(snla)モジュールを用いて,入力フレーム特徴からの位置情報と整合することにより,隠れ状態をさらに洗練する。 注意スコアは、入力特徴との関係によりスケールされ、必要な情報に集中する。 強力な相乗効果を持つ両モジュールの隠れ状態に注意を払うことで、PAHSフレームワークはRNN構造の表現能力を改善し、標準ベンチマークや実世界のビデオで最先端の劣化性能を達成する。

Video deblurring models exploit information in the neighboring frames to remove blur caused by the motion of the camera and the objects. Recurrent Neural Networks~(RNNs) are often adopted to model the temporal dependency between frames via hidden states. When motion blur is strong, however, hidden states are hard to deliver proper information due to the displacement between different frames. While there have been attempts to update the hidden states, it is difficult to handle misaligned features beyond the receptive field of simple modules. Thus, we propose 2 modules to supplement the RNN architecture for video deblurring. First, we design Ping-Pong RNN~(PPRNN) that acts on updating the hidden states by referring to the features from the current and the previous time steps alternately. PPRNN gathers relevant information from the both features in an iterative and balanced manner by utilizing its recurrent architecture. Second, we use a Selective Non-Local Attention~(SNLA) module to additionally refine the hidden state by aligning it with the positional information from the input frame feature. The attention score is scaled by the relevance to the input feature to focus on the necessary information. By paying attention to hidden states with both modules, which have strong synergy, our PAHS framework improves the representation powers of RNN structures and achieves state-of-the-art deblurring performance on standard benchmarks and real-world videos.
翻訳日:2022-03-31 15:05:30 公開日:2022-03-30
# 食品画像と調理レシピの学習プログラム表現

Learning Program Representations for Food Images and Cooking Recipes ( http://arxiv.org/abs/2203.16071v1 )

ライセンス: Link先を確認
Dim P. Papadopoulos, Enrique Mora, Nadiia Chepurko, Kuan Wei Huang, Ferda Ofli and Antonio Torralba(参考訳) 本稿では,料理レシピなどのハウツー指導手順を,有意義でリッチなハイレベル表現でモデル化することに興味がある。 具体的には,料理のレシピや料理のイメージを料理プログラムとして表現することを提案する。 プログラムはタスクの構造的な表現を提供し、グラフの形式で料理の意味やアクションのシーケンシャルな関係をキャプチャする。 これにより、ユーザーは簡単に操作でき、エージェントによって実行される。 この目的のために,レシピと食品イメージの融合組込みを自己スーパービジョンで学習し,この組込みをシーケンスとしてプログラムを共同で生成するモデルを構築する。 アイデアを検証するために、私たちはレシピを作るためのプログラムをクラウドソースし、次のように示します。 (a) 画像レシピ埋め込みをプログラムに投影することは、より優れたクロスモーダル検索結果をもたらす。 (b)画像からプログラムを生成すると、生の調理指示の予測よりも認識結果が良くなる。 (c)ganの潜在コードを最適化することでプログラムを操作することで食品画像を生成することができる。 コード、データ、モデルはオンラインで入手できる。

In this paper, we are interested in modeling a how-to instructional procedure, such as a cooking recipe, with a meaningful and rich high-level representation. Specifically, we propose to represent cooking recipes and food images as cooking programs. Programs provide a structured representation of the task, capturing cooking semantics and sequential relationships of actions in the form of a graph. This allows them to be easily manipulated by users and executed by agents. To this end, we build a model that is trained to learn a joint embedding between recipes and food images via self-supervision and jointly generate a program from this embedding as a sequence. To validate our idea, we crowdsource programs for cooking recipes and show that: (a) projecting the image-recipe embeddings into programs leads to better cross-modal retrieval results; (b) generating programs from images leads to better recognition results compared to predicting raw cooking instructions; and (c) we can generate food images by manipulating programs via optimizing the latent code of a GAN. Code, data, and models are available online.
翻訳日:2022-03-31 15:05:04 公開日:2022-03-30
# CTスキャンにおける効率的なアンカーレスユニバーサル病変検出

An Efficient Anchor-free Universal Lesion Detection in CT-scans ( http://arxiv.org/abs/2203.16074v1 )

ライセンス: Link先を確認
Manu Sheoran, Meghal Dani, Monika Sharma, Lovekesh Vig(参考訳) 既存のUniversal lesion Detection (ULD) 法では、事前に定義されたアンカーボックスに依存する計算集約型アンカーベースアーキテクチャを使用しており、特に中小の病変では不満足な検出性能が得られる。 さらに、これらのデフォルト固定アンカーサイズと比率は、異なるデータセットにうまく一般化しない。 そこで本研究では,対象物との重なりではなく,その中心的関連性に基づいてボックス予測を分類できることを生かして,各種病変サイズにわたって良好に動作可能なロバストなワンステージアンカーフリー病変検出ネットワークを提案する。 さらに,複数のHUウインドウを用いて生成したマルチインテンシティ画像の形でドメイン固有情報を明示的に提供し,さらにCTスキャン上での自己超越によって学習した重みを用いた自己注意型特徴融合とバックボーンの初期化により,UDDを改善できることを実証した。 今回我々は、deeplesionデータセットにおいて、各種臓器にアノテートされた病変を有する約32kのctスキャンからなり、全体の感度を86.05%とした最先端法と同等の結果を得た。

Existing universal lesion detection (ULD) methods utilize compute-intensive anchor-based architectures which rely on predefined anchor boxes, resulting in unsatisfactory detection performance, especially in small and mid-sized lesions. Further, these default fixed anchor-sizes and ratios do not generalize well to different datasets. Therefore, we propose a robust one-stage anchor-free lesion detection network that can perform well across varying lesions sizes by exploiting the fact that the box predictions can be sorted for relevance based on their center rather than their overlap with the object. Furthermore, we demonstrate that the ULD can be improved by explicitly providing it the domain-specific information in the form of multi-intensity images generated using multiple HU windows, followed by self-attention based feature-fusion and backbone initialization using weights learned via self-supervision over CT-scans. We obtain comparable results to the state-of-the-art methods, achieving an overall sensitivity of 86.05% on the DeepLesion dataset, which comprises of approximately 32K CT-scans with lesions annotated across various body organs.
翻訳日:2022-03-31 15:04:51 公開日:2022-03-30
# Omni-DETR:トランスを用いたOmni-Supervised Object Detection

Omni-DETR: Omni-Supervised Object Detection with Transformers ( http://arxiv.org/abs/2203.16089v1 )

ライセンス: Link先を確認
Pei Wang, Zhaowei Cai, Hao Yang, Gurumurthy Swaminathan, Nuno Vasconcelos, Bernt Schiele, Stefano Soatto(参考訳) 画像タグやカウント、ポイントなど、ラベルなし、ラベルなし、ラベル付き、弱いラベル付きアノテーションをオブジェクト検出に使用できる全教師付きオブジェクト検出の問題を考察する。 これは、学生-教師フレームワークの最近の進歩とエンドツーエンドトランスフォーマーベースのオブジェクト検出に基づいて、統一アーキテクチャであるOmni-DETRによって実現されている。 この統一アーキテクチャの下では、モデルが学習するための二部マッチングに基づくフィルタリング機構により、異なる種類の弱いラベルを利用して正確な擬似ラベルを生成することができる。 実験では、Omni-DETRは複数のデータセットと設定で最先端の結果を得た。 そして、弱いアノテーションは検出性能を向上させるのに役立ち、それらの混合は標準の完全アノテーションよりもアノテーションのコストと精度のトレードオフをより良く達成できることがわかった。 これらの発見は、混合アノテーションによるより大きなオブジェクト検出データセットを促進する可能性がある。 コードはhttps://github.com/amazon-research/omni-detrで入手できる。

We consider the problem of omni-supervised object detection, which can use unlabeled, fully labeled and weakly labeled annotations, such as image tags, counts, points, etc., for object detection. This is enabled by a unified architecture, Omni-DETR, based on the recent progress on student-teacher framework and end-to-end transformer based object detection. Under this unified architecture, different types of weak labels can be leveraged to generate accurate pseudo labels, by a bipartite matching based filtering mechanism, for the model to learn. In the experiments, Omni-DETR has achieved state-of-the-art results on multiple datasets and settings. And we have found that weak annotations can help to improve detection performance and a mixture of them can achieve a better trade-off between annotation cost and accuracy than the standard complete annotation. These findings could encourage larger object detection datasets with mixture annotations. The code is available at https://github.com/amazon-research/omni-detr.
翻訳日:2022-03-31 15:04:31 公開日:2022-03-30
# 地域トラッカーの集合によるグローバルな追跡

Global Tracking via Ensemble of Local Trackers ( http://arxiv.org/abs/2203.16092v1 )

ライセンス: Link先を確認
Zikun Zhou, Jianqiu Chen, Wenjie Pei, Kaige Mao, Hongpeng Wang, Zhenyu He(参考訳) 長期追跡の頂点は、視界外や閉塞によって生じる不連続な動きで目標を追跡することの困難さにある。 既存の長期追跡手法は2つの典型的な戦略に従う。 第1の戦略は、スムーズな追跡を行うためにローカルトラッカーを使用し、ターゲットが失われたときにターゲットを検出するために別の再検出器を使用する。 歴史的外観や目標の位置のような時間的文脈を活用できるが、そのような戦略の潜在的な制限は、実際の目標が見えないときにリ検出器を活性化する代わりに、局所的なトラッカーがそのターゲットを誤識別する傾向があることである。 その他の長期的な追跡戦略は、以前の追跡結果に基づくローカルトラッキングではなく、画像全体のターゲットをグローバルに追跡する。 残念ながら、このようなグローバルな追跡戦略は、時間的文脈を効果的に活用できない。 本研究では,時間的文脈を利用して,グローバルな視点でターゲットを追跡するという,両方の戦略の利点を組み合わせる。 具体的には、全画像を広めるローカルトラッカのアンサンブルを通じて、グローバルトラッキングを行う。 ターゲットの滑らかな移動を1つのローカルトラッカーで着実に処理することができる。 突然の不連続な動きによってローカルトラッカーが誤ってターゲットを失うと、ターゲットに近い別のローカルトラッカーが起動され、ターゲットを見つけるために簡単にトラッキングを乗っ取ることができる。 アクティベートされたローカルトラッカーは、時間的文脈を利用してローカルでトラッキングを行うが、ローカルトラッカーのアンサンブルは、追跡のためのグローバルビューとして我々のモデルをレンダリングする。 6つのデータセットに関する広範囲な実験により,本手法が最先端アルゴリズムに対して有利に動作することを示した。

The crux of long-term tracking lies in the difficulty of tracking the target with discontinuous moving caused by out-of-view or occlusion. Existing long-term tracking methods follow two typical strategies. The first strategy employs a local tracker to perform smooth tracking and uses another re-detector to detect the target when the target is lost. While it can exploit the temporal context like historical appearances and locations of the target, a potential limitation of such strategy is that the local tracker tends to misidentify a nearby distractor as the target instead of activating the re-detector when the real target is out of view. The other long-term tracking strategy tracks the target in the entire image globally instead of local tracking based on the previous tracking results. Unfortunately, such global tracking strategy cannot leverage the temporal context effectively. In this work, we combine the advantages of both strategies: tracking the target in a global view while exploiting the temporal context. Specifically, we perform global tracking via ensemble of local trackers spreading the full image. The smooth moving of the target can be handled steadily by one local tracker. When the local tracker accidentally loses the target due to suddenly discontinuous moving, another local tracker close to the target is then activated and can readily take over the tracking to locate the target. While the activated local tracker performs tracking locally by leveraging the temporal context, the ensemble of local trackers renders our model the global view for tracking. Extensive experiments on six datasets demonstrate that our method performs favorably against state-of-the-art algorithms.
翻訳日:2022-03-31 15:04:15 公開日:2022-03-30
# 熱画像集束問題における被写体温度の寄与

Contribution of the Temperature of the Objects to the Problem of Thermal Imaging Focusing ( http://arxiv.org/abs/2203.16106v1 )

ライセンス: Link先を確認
Virginia Espinosa-Dur\'o, Marcos Faundez-Zanuy, Jiri Mekyska(参考訳) 焦点を合わせるとき、視野の深さ、カメラから物体までの距離は、可視スペクトルと赤外線スペクトルの両方で考慮しなければならない。 実験の結果,熱スペクトルの焦点問題も物体自体の温度(および/またはシーン)にはほとんど依存しないことが判明した。

When focusing an image, depth of field, aperture and distance from the camera to the object, must be taking into account, both, in visible and in infrared spectrum. Our experiments reveal that in addition, the focusing problem in thermal spectrum is also hardly dependent of the temperature of the object itself (and/or the scene).
翻訳日:2022-03-31 15:03:41 公開日:2022-03-30
# 顔画像の熱放射率調整に関する予備実験

Preliminary experiments on thermal emissivity adjustment for face images ( http://arxiv.org/abs/2203.16107v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Xavier Font Aragones, Jiri Mekyska(参考訳) 本稿では,熱画像による応用について概説する。 適切な温度測定のための放射率調整の重要性を強調する。 ステップ0.01の異なる許容値で取得された新しい顔画像も提示され、研究目的で無料で配布される。 ユーティリティには、次のようなものがあります。 a) 画像が間違った放射率値で取得され,かつ,新しい画像を取得することができない場合に補正を適用することができること ロ 感熱画像におけるプライバシー保護であって、低い放射率で得ることができるものであって、いくつかの用途に適しているが、ユーザの身元を隠しているもの c) 異なる放射率の被写体を含むシーンの温度検出を改善する画像処理

In this paper we summarize several applications based on thermal imaging. We emphasize the importance of emissivity adjustment for a proper temperature measurement. A new set of face images acquired at different emissivity values with steps of 0.01 is also presented and will be distributed for free for research purposes. Among the utilities, we can mention: a) the possibility to apply corrections once an image is acquired with a wrong emissivity value and it is not possible to acquire a new one; b) privacy protection in thermal images, which can be obtained with a low emissivity factor, which is still suitable for several applications, but hides the identity of a user; c) image processing for improving temperature detection in scenes containing objects of different emissivity.
翻訳日:2022-03-31 15:03:28 公開日:2022-03-30
# 自律運転システムにおけるセンサデータ検証と運転安全

Sensor Data Validation and Driving Safety in Autonomous Driving Systems ( http://arxiv.org/abs/2203.16130v1 )

ライセンス: Link先を確認
Jindi Zhang(参考訳) 自動運転技術は、急速な開発と非常に高い商業価値のために多くの注目を集めている。 最近の自動運転の技術的飛躍は、主に環境認識の進歩に起因している。 良い環境認識は、自動運転車が安全かつ正確な運転決定と戦略を行うために必要な、正確なハイレベルな環境情報を提供する。 さらに、深層学習モデルや、光学センサー(LiDARとカメラ)、レーダー、GPSなどの高度な搭載センサーがなければ、正確な環境認識の進歩は不可能である。 しかし、先進的なセンサーとディープラーニングモデルは、最近発明された攻撃方法の傾向にある。 例えば、LiDARやカメラは光学攻撃によって損なわれ、ディープラーニングモデルは敵の例によって攻撃される。 高度なセンサーやディープラーニングモデルへの攻撃は、環境知覚の精度に大きな影響を与え、自動運転車の安全性と安全性に大きな脅威となる。 本稿では,車載センサの攻撃に対する検出方法と,攻撃されたディープラーニングモデルと自動運転車の運転安全性の関連性について検討する。 被害者センサデータの攻撃による情報歪みは、他の冗長ソースの情報と矛盾するため、攻撃を検出するために冗長データソースを利用することができる。 攻撃された深層学習モデルと運転安全の関係を調べるために

Autonomous driving technology has drawn a lot of attention due to its fast development and extremely high commercial values. The recent technological leap of autonomous driving can be primarily attributed to the progress in the environment perception. Good environment perception provides accurate high-level environment information which is essential for autonomous vehicles to make safe and precise driving decisions and strategies. Moreover, such progress in accurate environment perception would not be possible without deep learning models and advanced onboard sensors, such as optical sensors (LiDARs and cameras), radars, GPS. However, the advanced sensors and deep learning models are prone to recently invented attack methods. For example, LiDARs and cameras can be compromised by optical attacks, and deep learning models can be attacked by adversarial examples. The attacks on advanced sensors and deep learning models can largely impact the accuracy of the environment perception, posing great threats to the safety and security of autonomous vehicles. In this thesis, we study the detection methods against the attacks on onboard sensors and the linkage between attacked deep learning models and driving safety for autonomous vehicles. To detect the attacks, redundant data sources can be exploited, since information distortions caused by attacks in victim sensor data result in inconsistency with the information from other redundant sources. To study the linkage between attacked deep learning models and driving safety...
翻訳日:2022-03-31 15:03:18 公開日:2022-03-30
# セマンティックイメージセグメンテーションのためのオンライン適応への道

On the Road to Online Adaptation for Semantic Image Segmentation ( http://arxiv.org/abs/2203.16195v1 )

ライセンス: Link先を確認
Riccardo Volpi, Pau de Jorge, Diane Larlus, Gabriela Csurka(参考訳) セマンティックイメージセグメンテーションのための教師なし領域適応の研究を進めるための新しい問題定式化とそれに対応する評価フレームワークを提案する。 全体的な目標は、常に変化する環境で継続的に、監督なしで学習する適応学習システムの開発を促進することである。 セグメンテーションモデルの適応アルゴリズムを研究する典型的なプロトコルは、少数のドメインに限定され、適応はオフラインで行われ、人間の介入は、少なくともハイパーパラメータチューニングのためのアノテートデータを必要とする。 このような制約は、異なる現実の状況に継続的に適応できるアルゴリズムとは相容れないと主張する。 そこで本研究では,時間的相関画像列から連続的なフレーム・バイ・フレーム適応を要求されるオンライン学習プロトコルを提案する。 提案する定式化に対処するための様々な基本となるプロトコルと,今後の研究の出発点となる行動の広範な分析に付随する。

We propose a new problem formulation and a corresponding evaluation framework to advance research on unsupervised domain adaptation for semantic image segmentation. The overall goal is fostering the development of adaptive learning systems that will continuously learn, without supervision, in ever-changing environments. Typical protocols that study adaptation algorithms for segmentation models are limited to few domains, adaptation happens offline, and human intervention is generally required, at least to annotate data for hyper-parameter tuning. We argue that such constraints are incompatible with algorithms that can continuously adapt to different real-world situations. To address this, we propose a protocol where models need to learn online, from sequences of temporally correlated images, requiring continuous, frame-by-frame adaptation. We accompany this new protocol with a variety of baselines to tackle the proposed formulation, as well as an extensive analysis of their behaviors, which can serve as a starting point for future research.
翻訳日:2022-03-31 15:02:34 公開日:2022-03-30
# 顔の属性分類のためのフェアコントラスト学習

Fair Contrastive Learning for Facial Attribute Classification ( http://arxiv.org/abs/2203.16209v1 )

ライセンス: Link先を確認
Sungho Park, Jewook Lee, Pilhyeon Lee, Sunhee Hwang, Dohyung Kim, Hyeran Byun(参考訳) 高品質な視覚表現の学習は画像分類に不可欠である。 近年,一連のコントラスト表現学習手法が顕著な成功を収めている。 特に、SupConは表現学習におけるクロスエントロピー損失に基づく支配的手法よりも優れていた。 しかし、教師付き対照学習には潜在的な倫理的リスクがあることに気付く。 本稿では,教師付きコントラスト学習による不公平性を初めて分析し,公正な視覚表現学習のための新たなFair Supervised Contrastive Loss (FSCL)を提案する。 教師付きコントラスト学習の哲学を継承し、同じクラスの表現が異なるクラスの表現よりも互いに近いことを奨励し、また、表現に繊細な属性情報を含めることによる公平性を保証する。 さらに,不公平な分類を喚起する集団間のグループ内コンパクト性とクラス間分離性の差を減少させるために,グループ間正規化を導入する。 CelebA と UTK Face に関する広範な実験を通じて,提案手法がSupCon と既存の最先端手法を,トップ1 の精度と公平性の間のトレードオフという点で著しく上回っていることを確認した。 さらに,本手法はデータバイアスの強度に頑健であり,不完全な教師付き設定で効果的に機能する。 私たちのコードはhttps://github.com/sungho-CoolG/FSCLで利用可能です。

Learning visual representation of high quality is essential for image classification. Recently, a series of contrastive representation learning methods have achieved preeminent success. Particularly, SupCon outperformed the dominant methods based on cross-entropy loss in representation learning. However, we notice that there could be potential ethical risks in supervised contrastive learning. In this paper, we for the first time analyze unfairness caused by supervised contrastive learning and propose a new Fair Supervised Contrastive Loss (FSCL) for fair visual representation learning. Inheriting the philosophy of supervised contrastive learning, it encourages representation of the same class to be closer to each other than that of different classes, while ensuring fairness by penalizing the inclusion of sensitive attribute information in representation. In addition, we introduce a group-wise normalization to diminish the disparities of intra-group compactness and inter-class separability between demographic groups that arouse unfair classification. Through extensive experiments on CelebA and UTK Face, we validate that the proposed method significantly outperforms SupCon and existing state-of-the-art methods in terms of the trade-off between top-1 accuracy and fairness. Moreover, our method is robust to the intensity of data bias and effectively works in incomplete supervised settings. Our code is available at https://github.com/sungho-CoolG/FSCL.
翻訳日:2022-03-31 15:02:17 公開日:2022-03-30
# シングル陽性ラベルを用いたマルチラベル学習における未知の認識

Acknowledging the Unknown for Multi-label Learning with Single Positive Labels ( http://arxiv.org/abs/2203.16219v1 )

ライセンス: Link先を確認
Donghao Zhou, Pengfei Chen, Qiong Wang, Guangyong Chen, Pheng-Ann Heng(参考訳) 徹底的な複数ラベルアノテーションの収集が難しいため、多ラベルトレーニングデータは部分ラベルを含むことが多い。 単一正の多ラベル学習(SPML)と呼ばれる,各多ラベル学習画像が1つの正のラベルしか持たない,この問題の極端な部分について考察する。 伝統的に、すべての無注釈ラベルは、偽陰性ラベルを導入し、モデルトレーニングを仮定陰性ラベルに支配するSPMLの負ラベルとして想定される。 この研究では、異なる視点から全ての無記名ラベルを扱い、それらが未知であることを認める \textit{i.e.} を選択する。 そこで本稿では, 予測確率のエントロピーを最大化するエントロピー最大化(EM)損失を提案する。 非通知ラベルの正負ラベル不均衡を考慮し、非対称耐性戦略とより精密な監視を行うセルフペースト手順を備えた非対称擬似ラベル(APL)を提案する。 実験により,本手法は性能を著しく向上し,4つのベンチマークで最先端の結果が得られた。

Due to the difficulty of collecting exhaustive multi-label annotations, multi-label training data often contains partial labels. We consider an extreme of this problem, called single positive multi-label learning (SPML), where each multi-label training image has only one positive label. Traditionally, all unannotated labels are assumed as negative labels in SPML, which would introduce false negative labels and make model training be dominated by assumed negative labels. In this work, we choose to treat all unannotated labels from a different perspective, \textit{i.e.} acknowledging they are unknown. Hence, we propose entropy-maximization (EM) loss to maximize the entropy of predicted probabilities for all unannotated labels. Considering the positive-negative label imbalance of unannotated labels, we propose asymmetric pseudo-labeling (APL) with asymmetric-tolerance strategies and a self-paced procedure to provide more precise supervision. Experiments show that our method significantly improves performance and achieves state-of-the-art results on all four benchmarks.
翻訳日:2022-03-31 15:01:56 公開日:2022-03-30
# 物体検出用赤外線と可視光を用いたターゲット認識二重対向学習とマルチシナリオマルチモードベンチマーク

Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection ( http://arxiv.org/abs/2203.16220v1 )

ライセンス: Link先を確認
Jinyuan Liu, Xin Fan, Zhanbo Huang, Guanyao Wu, Risheng Liu, Wei Zhong and Zhongxuan Luo(参考訳) 本研究は、物体検出に異なる外観の赤外線と可視画像の融合の問題に対処する。 視覚的品質の高い画像を生成するために、従来の手法では2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。 これらのアプローチは、相補的情報を暗示するモダリティ差が融合とその後の検出タスクの両方にとって極めて重要であることを無視する。 本稿では,核融合と検出の合同問題に対する二段階最適化を定式化し,核融合のためのターゲット・アウェア・デュアル・アドバーサル・ラーニング(tardal)ネットワークと一般的な検出ネットワークに展開する。 1つのジェネレータと2つの識別器との融合ネットワークは、可視から赤外線とテキストの詳細からターゲットの構造情報を保存し、差異から学習しながらコモンズを求める。 さらに,キャリブレーションされた赤外線および光学センサを用いた同期撮像システムを構築し,現在,幅広いシナリオをカバーする最も包括的なベンチマークを収集する。 いくつかの公開データセットに対する大規模な実験とベンチマークにより、我々の手法は融合を視覚的にアピールするだけでなく、最先端のアプローチよりも高い検出mAPを出力することを示した。

This study addresses the issue of fusing infrared and visible images that appear differently for object detection. Aiming at generating an image of high visual quality, previous approaches discover commons underlying the two modalities and fuse upon the common space either by iterative optimization or deep networks. These approaches neglect that modality differences implying the complementary information are extremely important for both fusion and subsequent detection task. This paper proposes a bilevel optimization formulation for the joint problem of fusion and detection, and then unrolls to a target-aware Dual Adversarial Learning (TarDAL) network for fusion and a commonly used detection network. The fusion network with one generator and dual discriminators seeks commons while learning from differences, which preserves structural information of targets from the infrared and textural details from the visible. Furthermore, we build a synchronized imaging system with calibrated infrared and optical sensors, and collect currently the most comprehensive benchmark covering a wide range of scenarios. Extensive experiments on several public datasets and our benchmark demonstrate that our method outputs not only visually appealing fusion but also higher detection mAP than the state-of-the-art approaches.
翻訳日:2022-03-31 15:01:37 公開日:2022-03-30
# cycda: 画像からビデオへの教師なしサイクルドメイン適応

CycDA: Unsupervised Cycle Domain Adaptation from Image to Video ( http://arxiv.org/abs/2203.16244v1 )

ライセンス: Link先を確認
Wei Lin, Anna Kukleva, Kunyang Sun, Horst Possegger, Hilde Kuehne, Horst Bischof(参考訳) 近年、アクション認識は目覚ましい成果を上げているが、ビデオトレーニングデータの収集とアノテーションはいまだに時間がかかり、費用がかかる。 そのため,ラベルのないweb画像ソースを,ラベルのないターゲットビデオに適応させるために,映像から映像への適応が提案されている。 これは,(1)Web画像とビデオフレーム間の空間的領域シフト,(2)画像とビデオデータのモダリティギャップ,という2つの大きな課題を提起する。 これらの課題に対処するために,画像とビデオの連接空間情報を活用することで,教師なし画像とビデオの領域適応のためのサイクルベースアプローチであるCycDAを提案し,一方,モードギャップを埋めるために,独立した時空間モデルを訓練する。 空間的・時空間的学習と,各サイクルにおける知識伝達を交互に行う。 我々は、画像から映像までのベンチマークデータセットと、最先端の成果を達成し、循環適応の利点を実証する混合ソースドメイン適応に対するアプローチを評価した。

Although action recognition has achieved impressive results over recent years, both collection and annotation of video training data are still time-consuming and cost intensive. Therefore, image-to-video adaptation has been proposed to exploit labeling-free web image source for adapting on unlabeled target videos. This poses two major challenges: (1) spatial domain shift between web images and video frames; (2) modality gap between image and video data. To address these challenges, we propose Cycle Domain Adaptation (CycDA), a cycle-based approach for unsupervised image-to-video domain adaptation by leveraging the joint spatial information in images and videos on the one hand and, on the other hand, training an independent spatio-temporal model to bridge the modality gap. We alternate between the spatial and spatio-temporal learning with knowledge transfer between the two in each cycle. We evaluate our approach on benchmark datasets for image-to-video as well as for mixed-source domain adaptation achieving state-of-the-art results and demonstrating the benefits of our cyclic adaptation.
翻訳日:2022-03-31 15:01:15 公開日:2022-03-30
# (参考訳) 音声対話言語モデルの作成

Generative Spoken Dialogue Language Modeling ( http://arxiv.org/abs/2203.16502v1 )

ライセンス: CC BY 4.0
Tu Anh Nguyen, Eugene Kharitonov, Jade Copet, Yossi Adi, Wei-Ning Hsu, Ali Elkahky, Paden Tomasello, Robin Algayres, Benoit Sagot, Abdelrahman Mohamed, Emmanuel Dupoux(参考訳) 自然言語対話の音声サンプルを生成できる最初の「テキストレス」モデルであるdGSLMを紹介する。 教師なし音声単位発見に関する最近の研究と、テキストやラベルを使わずに、2チャンネルの生会話音声(Fisherデータセット)の2000時間でトレーニングされたクロスアテンションを備えたデュアルトワートランスフォーマーアーキテクチャを併用する。 2つのチャネルで音声、笑い、その他のパラ言語信号を同時に生成し、自然主義的なターンテイクを再現することができる。 生成サンプルは、https://speechbot.github.io/dgslmで見ることができる。

We introduce dGSLM, the first "textless" model able to generate audio samples of naturalistic spoken dialogues. It uses recent work on unsupervised spoken unit discovery coupled with a dual-tower transformer architecture with cross-attention trained on 2000 hours of two-channel raw conversational audio (Fisher dataset) without any text or labels. It is able to generate speech, laughter and other paralinguistic signals in the two channels simultaneously and reproduces naturalistic turn taking. Generation samples can be found at: https://speechbot.github.io/dgslm.
翻訳日:2022-03-31 15:00:26 公開日:2022-03-30
# TextPruner: 事前学習言語モデルのためのモデル解析ツールキット

TextPruner: A Model Pruning Toolkit for Pre-Trained Language Models ( http://arxiv.org/abs/2203.15996v1 )

ライセンス: Link先を確認
Ziqing Yang, Yiming Cui, Zhigang Chen(参考訳) 事前訓練された言語モデルは自然言語処理において普及し、多くのNLPタスクのバックボーンとなっているが、計算資源の要求はアプリケーションに制限されている。 本稿では,事前学習型言語モデル用に設計されたオープンソースのモデル解析ツールキットであるTextPrunerについて紹介する。 TextPrunerは、ボキャブラリプルーニングやトランスフォーマープルーニングなど、構造化後プルーニングの手法を提供し、様々なモデルやタスクに適用できる。 また,ラベル付きデータなしで適用可能な自己教師付きプルーニング手法を提案する。 複数のnlpタスクを用いた実験により、textprunerがモデルを再トレーニングすることなく、モデルサイズを削減できることが示されました。

Pre-trained language models have been prevailed in natural language processing and become the backbones of many NLP tasks, but the demands for computational resources have limited their applications. In this paper, we introduce TextPruner, an open-source model pruning toolkit designed for pre-trained language models, targeting fast and easy model compression. TextPruner offers structured post-training pruning methods, including vocabulary pruning and transformer pruning, and can be applied to various models and tasks. We also propose a self-supervised pruning method that can be applied without the labeled data. Our experiments with several NLP tasks demonstrate the ability of TextPruner to reduce the model size without re-training the model.
翻訳日:2022-03-31 14:43:33 公開日:2022-03-30
# テキスト要約に用いるインド語データセットの概要

An Overview of Indian Language Datasets used for Text Summarization ( http://arxiv.org/abs/2203.16127v1 )

ライセンス: Link先を確認
Shagun Sinha and Girish Nath Jha(参考訳) 本稿では,低リソース言語 (LRL) であるインドランゲージ (IL) におけるテキスト要約 (TS) データセットについて調査する。 インド語テキスト要約(ilts)データセットのプールは増加しているか、それとも深刻なリソース不足があるのか? 第一の質問に答えるために、私たちはILTSデータセットについて求めている2つのサブクエストを提示します。 第二に、高リソース言語(HRL)、特に英語からのILTSデータセットの特徴がどの程度異なるか。 ILTSと英語のデータセットの調査では、2つの類似点と1つのコントラストが明らかになった。 まず、データセットのドメインは一般的にnews(hermann et al., 2015)である。 2つめの類似点は、抽出的かつ抽象的なデータセットの形式である。 対照的に、データセット開発の研究は進展している。 ILは、英語と比較して、開発速度とデータセットの公開速度が遅い。 ILTSデータセットが比較的少ないのは、まず、TSツールを開発するための専用のフォーラムがない、という2つの理由からである、と結論付けています。 次に、パブリックドメインで共有可能な標準データセットがない。

In this paper, we survey Text Summarization (TS) datasets in Indian Lan-guages (ILs), which are also low-resource languages (LRLs). We seek to answer one primary question: is the pool of Indian Language Text Summarization (ILTS) dataset growing or is there a serious resource poverty? To an-swer the primary question, we pose two sub-questions that we seek about ILTS datasets: first, what characteristics: format and domain do ILTS da-tasets have? Second, how different are those characteristics of ILTS datasets from high-resource languages (HRLs) particularly English. The survey of ILTS and English datasets reveals two similarities and one contrast. The two similarities are: first, the domain of dataset commonly is news (Hermann et al., 2015). The second similarity is the format of the dataset which is both extractive and abstractive. The contrast is in how the research in dataset development has progressed. ILs face a slow speed of development and public release of datasets as compared with English. We conclude that the relatively lower number of ILTS datasets is because of two reasons: first, absence of a dedicated forum for developing TS tools. And second, lack of shareable standard datasets in the public domain.
翻訳日:2022-03-31 14:43:19 公開日:2022-03-30
# スペイン語における未同化借入の検出:注釈付きコーパスとモデリングへのアプローチ

Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and Approaches to Modeling ( http://arxiv.org/abs/2203.16169v1 )

ライセンス: Link先を確認
Elena \'Alvarez-Mellado, Constantine Lignos(参考訳) 本研究は、識別のための新しいリソースを提示し、このタスクにおける複数のモデルの性能とエラーを分析する。 本稿では,非同化語彙の語彙借用に富んだスペイン語ニューズワイヤの注釈付きコーパスについて紹介する。このコーパスを用いて,複数のシーケンスラベリングモデル(crf,bilstm-crf,transformer-based model)の性能評価を行う。 コーパスには370,000のトークンが含まれており、このタスクで利用可能な以前のコーパスよりも大きく、借用量が多く、OOV豊かで、トピック価値が高い。 以上の結果から,多言語bertモデルで得られた結果よりも,コード切り換えデータに事前学習したトランスフォーマティブ・組込みやコンテキスト化単語組込みの組み合わせにより,サブワード組込みを付与したbilstm-crfモデルの方が優れていることが示された。

This work presents a new resource for borrowing identification and analyzes the performance and errors of several models on this task. We introduce a new annotated corpus of Spanish newswire rich in unassimilated lexical borrowings -- words from one language that are introduced into another without orthographic adaptation -- and use it to evaluate how several sequence labeling models (CRF, BiLSTM-CRF, and Transformer-based models) perform. The corpus contains 370,000 tokens and is larger, more borrowing-dense, OOV-rich, and topic-varied than previous corpora available for this task. Our results show that a BiLSTM-CRF model fed with subword embeddings along with either Transformer-based embeddings pretrained on codeswitched data or a combination of contextualized word embeddings outperforms results obtained by a multilingual BERT-based model.
翻訳日:2022-03-31 14:43:02 公開日:2022-03-30
# Auto-MLM:自己教師型多言語知識検索のためのコントラスト学習の改善

Auto-MLM: Improved Contrastive Learning for Self-supervised Multi-lingual Knowledge Retrieval ( http://arxiv.org/abs/2203.16187v1 )

ライセンス: Link先を確認
Wenshen Xu, Mieradilijiang Maimaiti, Yuanhang Zheng, Xin Tang and Ji Zhang(参考訳) コントラスト学習(CL)は、いくつかの自然言語処理(NLP)下流タスク、特に質問応答(QA)において、ユビキタスなアプローチとなっている。 しかし、知識検索モデルを教師なしで効率的に訓練する方法という大きな課題はまだ未解決のままである。 近年一般的に使われている手法はCLとマスキング言語モデル(MLM)である。 MLMは文レベルのトレーニングを無視し、CLはクエリから内部情報の抽出も無視する。 CLを最適化するために,CLとAuto-MLMを組み合わせて,自己教師付き多言語知識検索を行う共同学習手法を提案する。 まず、固定次元の文ベクトルを取得する。 次に、原文中の単語をランダムな戦略でマスクする。 最後に、マスクされたトークンを予測するための新しいトークン表現を生成する。 実験の結果,提案手法は,AliExpress$\&$ LAZADAサービスコーパスと8言語で利用可能なオープンコーパスの両方において,従来のSOTAメソッドよりも一貫して優れていた。

Contrastive learning (CL) has become a ubiquitous approach for several natural language processing (NLP) downstream tasks, especially for question answering (QA). However, the major challenge, how to efficiently train the knowledge retrieval model in an unsupervised manner, is still unresolved. Recently the commonly used methods are composed of CL and masked language model (MLM). Unexpectedly, MLM ignores the sentence-level training, and CL also neglects extraction of the internal info from the query. To optimize the CL hardly obtain internal information from the original query, we introduce a joint training method by combining CL and Auto-MLM for self-supervised multi-lingual knowledge retrieval. First, we acquire the fixed dimensional sentence vector. Then, mask some words among the original sentences with random strategy. Finally, we generate a new token representation for predicting the masked tokens. Experimental results show that our proposed approach consistently outperforms all the previous SOTA methods on both AliExpress $\&$ LAZADA service corpus and openly available corpora in 8 languages.
翻訳日:2022-03-31 14:42:42 公開日:2022-03-30
# 予測逆計画

Anticipatory Counterplanning ( http://arxiv.org/abs/2203.16171v1 )

ライセンス: Link先を確認
Alberto Pozanco, Yolanda E-Mart\'in, Susana Fern\'andez, Daniel Borrajo(参考訳) 競争環境においては、通常エージェントは相手が目標を達成するのを防ぐ。 従来の予防アプローチのほとんどは、相手のゴールが優先順位であると仮定している。 相手のゴールが推測された後にのみ行動を開始する者もいる。 本研究では,予測的逆計画法と呼ばれる新しいドメイン非依存アルゴリズムを提案する。 これは、相手のゴールが不明な問題において、相手のゴールと計画センタロイドの計算を組み合わせ、積極的なカウンター戦略を得る。 実験の結果, この手法が反計画に勝ることを示し, 相手が目標を達成するのを阻止できる可能性が高まった。

In competitive environments, commonly agents try to prevent opponents from achieving their goals. Most previous preventing approaches assume the opponent's goal is known a priori. Others only start executing actions once the opponent's goal has been inferred. In this work we introduce a novel domain-independent algorithm called Anticipatory Counterplanning. It combines inference of opponent's goals with computation of planning centroids to yield proactive counter strategies in problems where the opponent's goal is unknown. Experimental results show how this novel technique outperforms reactive counterplanning, increasing the chances of stopping the opponent from achieving its goals.
翻訳日:2022-03-31 14:42:22 公開日:2022-03-30
# CMMD:クロスメトリック多次元根本原因解析

CMMD: Cross-Metric Multi-Dimensional Root Cause Analysis ( http://arxiv.org/abs/2203.16280v1 )

ライセンス: Link先を確認
Shifu Yan, Caihua Shan, Wenyi Yang, Bixiong Xu, Dongsheng Li, Lili Qiu, Jie Tong, Qi Zhang(参考訳) 大規模オンラインサービスでは、重要な指標であるキーパフォーマンス指標(KPI)が定期的に監視され、実行状態をチェックする。 一般に、KPIは複数の次元に沿って集約され、生データから基本的なメトリクスの複雑な計算によって導かれる。 異常KPI値が観察されると,根本原因分析(RCA)を用いて異常の原因を同定し,早期にトラブルシュートを行うことができる。 近年,複数の自動RCA手法が提案され,関連する次元(あるいは次元の組み合わせ)を局所化し,異常を説明する。 しかしながら、それらの分析は異常なメトリックのデータに限定され、異常と関連する可能性のある他のメトリックのデータを無視し、不正確または誤った根本原因につながる。 そこで本研究では,2つの主成分からなるクロスメトリック多次元根因解析法であるcmmdを提案する。 1) グラフニューラルネットワーク(GNN)を用いてメトリクス間の未知の複素計算と履歴データからの次元間の集約関数をモデル化する関係モデリング。 2)KPI異常が検出されると,遺伝子アルゴリズムを用いて生データに効率よく効果的に飛び込み,異常次元を局在させる。 合成データセット, 公開データセット, オンライン生産環境に関する実験は, ベースラインよりもCMMD法の方が優れていることを示す。 現在、CMMDはMicrosoft Azureのオンラインサービスとして動いている。

In large-scale online services, crucial metrics, a.k.a., key performance indicators (KPIs), are monitored periodically to check their running statuses. Generally, KPIs are aggregated along multiple dimensions and derived by complex calculations among fundamental metrics from the raw data. Once abnormal KPI values are observed, root cause analysis (RCA) can be applied to identify the reasons for anomalies, so that we can troubleshoot quickly. Recently, several automatic RCA techniques were proposed to localize the related dimensions (or a combination of dimensions) to explain the anomalies. However, their analyses are limited to the data on the abnormal metric and ignore the data of other metrics which may be also related to the anomalies, leading to imprecise or even incorrect root causes. To this end, we propose a cross-metric multi-dimensional root cause analysis method, named CMMD, which consists of two key components: 1) relationship modeling, which utilizes graph neural network (GNN) to model the unknown complex calculation among metrics and aggregation function among dimensions from historical data; 2) root cause localization, which adopts the genetic algorithm to efficiently and effectively dive into the raw data and localize the abnormal dimension(s) once the KPI anomalies are detected. Experiments on synthetic datasets, public datasets and online production environment demonstrate the superiority of our proposed CMMD method compared with baselines. Currently, CMMD is running as an online service in Microsoft Azure.
翻訳日:2022-03-31 14:40:56 公開日:2022-03-30
# PSMNet:部屋レイアウト推定のための位置対応ステレオマージネットワーク

PSMNet: Position-aware Stereo Merging Network for Room Layout Estimation ( http://arxiv.org/abs/2203.15965v1 )

ライセンス: Link先を確認
Haiyan Wang, Will Hutchcroft, Yuguang Li, Zhiqiang Wan, Ivaylo Boyadzhiev, Yingli Tian, Sing Bing Kang(参考訳) 本論文では,360パノラマ対の部屋配置を推定する深層学習に基づく新しい手法を提案する。 位置対応Stereo Merging Network(PSMNet)と呼ばれるこのシステムは、エンドツーエンドの関節配置推定器である。 psmnetはステレオパノポーズ(sp2)トランスと新しいクロススペクティブプロジェクション(cp2)層で構成されている。 ステレオビューsp2トランスは、ビュー間の対応を暗黙的に推論するために使用され、ノイズの多いポーズを処理できる。 ポーズ対応CP2レイヤは、ビューフュージョンを実行し、可視レイアウトを推定するために、隣接するビューからアンカー(参照)ビューに特徴をレンダリングするように設計されている。 実験と解析により,特に大規模で複雑な室内空間において,最先端のレイアウト推定器を著しく上回る手法が検証された。

In this paper, we propose a new deep learning-based method for estimating room layout given a pair of 360 panoramas. Our system, called Position-aware Stereo Merging Network or PSMNet, is an end-to-end joint layout-pose estimator. PSMNet consists of a Stereo Pano Pose (SP2) transformer and a novel Cross-Perspective Projection (CP2) layer. The stereo-view SP2 transformer is used to implicitly infer correspondences between views, and can handle noisy poses. The pose-aware CP2 layer is designed to render features from the adjacent view to the anchor (reference) view, in order to perform view fusion and estimate the visible layout. Our experiments and analysis validate our method, which significantly outperforms the state-of-the-art layout estimators, especially for large and complex room spaces.
翻訳日:2022-03-31 14:39:29 公開日:2022-03-30
# (参考訳) L^3U-net: 並列CNNプロセッサのための低レイテンシ軽量U-net画像分割モデル

L^3U-net: Low-Latency Lightweight U-net Based Image Segmentation Model for Parallel CNN Processors ( http://arxiv.org/abs/2203.16528v1 )

ライセンス: CC BY 4.0
Osman Erman Okman, Mehmet Gorkem Ulkar, Gulnur Selda Uyanik(参考訳) 本研究では,低リソースエッジデバイス上でリアルタイムに動作する画像分割モデルL^3U-netを提案する。 本稿では,cnnアクセラレータの並列畳み込み層処理機能を活用し,推論遅延を低減するデータ折り畳み手法を提案する。 また,提案モデルをmax78000にデプロイした結果,l^3u-netは10fpsの異なる2つのセグメンテーションデータセットに対して90%以上の精度を達成できた。

In this research, we propose a tiny image segmentation model, L^3U-net, that works on low-resource edge devices in real-time. We introduce a data folding technique that reduces inference latency by leveraging the parallel convolutional layer processing capability of the CNN accelerators. We also deploy the proposed model to such a device, MAX78000, and the results show that L^3U-net achieves more than 90% accuracy over two different segmentation datasets with 10 fps.
翻訳日:2022-03-31 14:37:33 公開日:2022-03-30
# 改良された衛星画像時系列分類のための改ざんVAE

Tampered VAE for Improved Satellite Image Time Series Classification ( http://arxiv.org/abs/2203.16149v1 )

ライセンス: Link先を確認
Xin Cai, Yaxin Bi, Peter Nicholl(参考訳) 作物型マッピングのための空間的・時間的高解像度衛星画像時系列(SITS)は、両方の次元から生じる課題に対応するためにディープラーニングアーキテクチャを必要とすると考えられている。 最近の最先端ディープラーニングモデルは、空間エンコーダと時間エンコーダを積み重ねることで有望な結果を示している。 しかし,時間次元のみで動作するピラミッド型時系列変換器(PTST)は,空間次元を無視することで,GPUメモリ消費の大幅な削減と拡張性の向上を実現している。 さらに,クラスタリング機構を潜在空間に導入し,線形分離性を促進できる分類フレンドリなVAEフレームワークを提案することにより,半教師付き学習を実現する。 したがって、潜在空間のいくつかの主軸は、生データの分散のほとんどを説明できる。 一方、提案されているvaeフレームワークは、ラベル付きデータのわずか40\%$の場合にのみ、純粋に識別可能なものとして、競争力のある分類性能を維持することができる。 提案するフレームワークが,SITSによる作物分類のベースラインとして機能し,モジュール性と簡易性を期待する。

The unprecedented availability of spatial and temporal high-resolution satellite image time series (SITS) for crop type mapping is believed to necessitate deep learning architectures to accommodate challenges arising from both dimensions. Recent state-of-the-art deep learning models have shown promising results by stacking spatial and temporal encoders. However, we present a Pyramid Time-Series Transformer (PTST) that operates solely on the temporal dimension, i.e., neglecting the spatial dimension, can produce superior results with a drastic reduction in GPU memory consumption and easy extensibility. Furthermore, we augment it to perform semi-supervised learning by proposing a classification-friendly VAE framework that introduces clustering mechanisms into latent space and can promote linear separability therein. Consequently, a few principal axes of the latent space can explain the majority of variance in raw data. Meanwhile, the VAE framework with proposed tweaks can maintain competitive classification performance as its purely discriminative counterpart when only $40\%$ of labelled data is used. We hope the proposed framework can serve as a baseline for crop classification with SITS for its modularity and simplicity.
翻訳日:2022-03-31 14:26:41 公開日:2022-03-30
# 自律運転データのための画像-ライダー自己監督蒸留

Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data ( http://arxiv.org/abs/2203.16258v1 )

ライセンス: Link先を確認
Corentin Sautier, Gilles Puy, Spyros Gidaris, Alexandre Boulch, Andrei Bursuc, Renaud Marlet(参考訳) sparse lidar point cloudのオブジェクトのセグメンテーションや検出は、自動運転における2つの重要なタスクであり、車両が3d環境で安全に動作できるようにする。 3Dセマンティックセグメンテーションやオブジェクト検出における最良の方法は、大量の注釈付きデータに依存する。 しかし、これらのタスクに3D Lidarデータをアノテートするのは面倒でコストもかかる。 本研究では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。 具体的には、自己教師付き事前学習画像表現を3dモデルに蒸留する自動運転セットアップにおいて、同期および校正された画像およびlidarセンサの可用性を活用する。 したがって、このメソッドにはポイントクラウドやイメージアノテーションは不要です。 本手法の重要な要素は,視覚的に類似した領域に3d点特徴と2d画素特徴をプールするために使用されるスーパーピクセルの使用である。 次に、これらのプーリングされた点特徴と対応する画像画素特徴とをマッチングする自己教師型タスクで3Dネットワークを訓練する。 The advantages of contrasting regions obtained by superpixels are that: (1) grouping together pixels and points of visually coherent regions leads to a more meaningful contrastive task that produces features well adapted to 3D semantic segmentation and 3D object detection; (2) all the different regions have the same weight in the contrastive loss regardless of the number of 3D points sampled in these regions; (3) it mitigates the noise produced by incorrect matching of points and pixels due to occlusions between the different sensors. 自律運転データセットに関する広範な実験は、画像からライダーへの蒸留戦略が、セマンティックセグメンテーションとオブジェクト検出タスクをうまく伝達する3d表現を生成する能力を示している。

Segmenting or detecting objects in sparse Lidar point clouds are two important tasks in autonomous driving to allow a vehicle to act safely in its 3D environment. The best performing methods in 3D semantic segmentation or object detection rely on a large amount of annotated data. Yet annotating 3D Lidar data for these tasks is tedious and costly. In this context, we propose a self-supervised pre-training method for 3D perception models that is tailored to autonomous driving data. Specifically, we leverage the availability of synchronized and calibrated image and Lidar sensors in autonomous driving setups for distilling self-supervised pre-trained image representations into 3D models. Hence, our method does not require any point cloud nor image annotations. The key ingredient of our method is the use of superpixels which are used to pool 3D point features and 2D pixel features in visually similar regions. We then train a 3D network on the self-supervised task of matching these pooled point features with the corresponding pooled image pixel features. The advantages of contrasting regions obtained by superpixels are that: (1) grouping together pixels and points of visually coherent regions leads to a more meaningful contrastive task that produces features well adapted to 3D semantic segmentation and 3D object detection; (2) all the different regions have the same weight in the contrastive loss regardless of the number of 3D points sampled in these regions; (3) it mitigates the noise produced by incorrect matching of points and pixels due to occlusions between the different sensors. Extensive experiments on autonomous driving datasets demonstrate the ability of our image-to-Lidar distillation strategy to produce 3D representations that transfer well on semantic segmentation and object detection tasks.
翻訳日:2022-03-31 14:26:25 公開日:2022-03-30
# マスク検出のための注意機構に基づく軽量YOLOv5モデルの改良

An Improved Lightweight YOLOv5 Model Based on Attention Mechanism for Face Mask Detection ( http://arxiv.org/abs/2203.16506v1 )

ライセンス: Link先を確認
Sheng Xu(参考訳) 2019年は世界的な社会安定と公衆衛生に深刻な課題をもたらした。 流行を抑える効果的な方法の1つは、公共の場でマスクを着用し、適切な自動検知器を利用することでマスク着用状態を監視することである。 しかし、既存のディープラーニングベースのモデルは、高精度とリアルタイムの両方のパフォーマンスの要求を同時に達成するのに苦労している。 そこで本稿では,yolov5に基づく軽量面マスク検出装置を提案し,精度と速度のバランスを良好に両立させる。 まず、shufflenetv2ネットワークと座標注意機構を組み合わせた新しいバックボーンshufflecanetがバックボーンとして提案されている。 次に、機能融合ネックとしてBiFPNを使用します。 さらに,ローカライゼーションの損失関数をciouに置き換え,高品質アンカーを得る。 データ拡張、適応的なイメージスケーリング、アンカークラスタ操作といった重要な戦略も活用されている。 実験結果は,提案モデルの性能と有効性を示す。 元のYOLOv5モデルに基づいて、我々の研究は推論速度を28.3%向上させながら、AIZOOフェイスマスクデータセットの精度を0.58%向上させた。 平均精度は95.2%であり、これはベースラインよりも4.4%高く、他のモデルよりも正確である。

Coronavirus 2019 has brought severe challenges to social stability and public health worldwide. One effective way of curbing the epidemic is to require people to wear masks in public places and monitor mask-wearing states by utilizing suitable automatic detectors. However, existing deep learning based models struggle to simultaneously achieve the requirements of both high precision and real-time performance. To solve this problem, we propose an improved lightweight face mask detector based on YOLOv5, which can achieve an excellent balance of precision and speed. Firstly, a novel backbone ShuffleCANet that combines ShuffleNetV2 network with Coordinate Attention mechanism is proposed as the backbone. Then we use BiFPN as the feature fusion neck. Furthermore, we replace the loss function of localization with -CIoU to obtain higher-quality anchors. Some valuable strategies such as data augmentation, adaptive image scaling, and anchor cluster operation are also utilized. Experimental results show the performance and effectiveness of the proposed model. On the basis of the original YOLOv5 model, our work increases the inference speed by 28.3% while still improving the precision by 0.58% on the AIZOO face mask dataset. It achieves a mean average precision of 95.2%, which is 4.4% higher than the baseline and is also more accurate compared with other existing models.
翻訳日:2022-03-31 14:26:01 公開日:2022-03-30
# 回帰・分類マルチタスクネットワークを用いたMRIから合成CTへの関心領域

Region of Interest focused MRI to Synthetic CT Translation using Regression and Classification Multi-task Network ( http://arxiv.org/abs/2203.16288v1 )

ライセンス: Link先を確認
Sandeep Kaushik, Mikael Bylund, Cristina Cozzini, Dattesh Shanbhag, Steven F Petit, Jonathan J Wyatt, Marion I Menzel, Carolin Pirkl, Bhairav Mehta, Vikas Chauhan, Kesavadas Chandrasekharan, Joakim Jonsson, Tufve Nyholm, Florian Wiesinger, and Bjoern Menze(参考訳) 本研究では,ゼロエコ時間(ZTE)MRIから合成CT(sCT)を生成する手法を提案する。 画像中の空間的にスパースな領域を好む損失関数を提案する。 マルチタスクネットワークが相関出力を生成できる能力を利用して、分類による関心領域(RoI)のローカライズを可能にし、RoI内の値の回帰を強調し、グローバルレグレッションによる全体的な精度を維持している。 ネットワークは、各タスクからの専用損失を組み合わせた複合損失関数によって最適化される。 本稿では,RoIに着目したマルチタスクネットワークが,ネットワークの他の構成よりも優れた性能を実現する方法を示す。 これは、骨の高ハウンズフィールド単位値を正確に推定できないことが臨床応用の精度を損なう可能性があるsCTに関係している。 放射線治療計画において,提案したsCTと実CTの線量計算マップを比較した。

In this work, we present a method for synthetic CT (sCT) generation from zero-echo-time (ZTE) MRI aimed at structural and quantitative accuracies of the image, with a particular focus on the accurate bone density value prediction. We propose a loss function that favors a spatially sparse region in the image. We harness the ability of a multi-task network to produce correlated outputs as a framework to enable localisation of region of interest (RoI) via classification, emphasize regression of values within RoI and still retain the overall accuracy via global regression. The network is optimized by a composite loss function that combines a dedicated loss from each task. We demonstrate how the multi-task network with RoI focused loss offers an advantage over other configurations of the network to achieve higher accuracy of performance. This is relevant to sCT where failure to accurately estimate high Hounsfield Unit values of bone could lead to impaired accuracy in clinical applications. We compare the dose calculation maps from the proposed sCT and the real CT in a radiation therapy treatment planning setup.
翻訳日:2022-03-31 14:25:42 公開日:2022-03-30
# 高速, 高精度, メモリ効率の良い部分置換同期

Fast, Accurate and Memory-Efficient Partial Permutation Synchronization ( http://arxiv.org/abs/2203.16505v1 )

ライセンス: Link先を確認
Shaohan Li, Yunpeng Shi, Gilad Lerman(参考訳) 従来の部分置換同期(PPS)アルゴリズムは、一般にマルチオブジェクトマッチングに使用されるが、計算集約およびメモリ要求行列演算を伴うことが多い。 これらの操作は、運動データセットから大規模構造を抽出できる。 純粋な置換同期のために、最近の cycle-edge message passing (cemp) フレームワークは、メモリ効率が高く高速なソリューションを提案している。 ここでは,コンパクト群に対するcempの制限を克服し,観測された部分置換の腐敗レベルを推定する改良アルゴリズムcemp-partialを提案する。 これにより、スペクトル初期化を必要とせずに非凸重み付き電力法を実装できる。 得られた新しいPSアルゴリズムであるMatchFAME(Fast, Accurate and Memory-Efficient Matching)は、疎行列演算のみを伴い、従来のPSアルゴリズムと比較して時間と空間の複雑さが低い。 敵対的腐敗の下では、付加的なノイズが無く、特定の仮定でCEMP-Partialは、破損した部分置換を正確に分類することができる。 提案手法の精度,高速化,メモリ効率を,合成データと実データの両方で実証する。

Previous partial permutation synchronization (PPS) algorithms, which are commonly used for multi-object matching, often involve computation-intensive and memory-demanding matrix operations. These operations become intractable for large scale structure-from-motion datasets. For pure permutation synchronization, the recent Cycle-Edge Message Passing (CEMP) framework suggests a memory-efficient and fast solution. Here we overcome the restriction of CEMP to compact groups and propose an improved algorithm, CEMP-Partial, for estimating the corruption levels of the observed partial permutations. It allows us to subsequently implement a nonconvex weighted projected power method without the need of spectral initialization. The resulting new PPS algorithm, MatchFAME (Fast, Accurate and Memory-Efficient Matching), only involves sparse matrix operations, and thus enjoys lower time and space complexities in comparison to previous PPS algorithms. We prove that under adversarial corruption, though without additive noise and with certain assumptions, CEMP-Partial is able to exactly classify corrupted and clean partial permutations. We demonstrate the state-of-the-art accuracy, speed and memory efficiency of our method on both synthetic and real datasets.
翻訳日:2022-03-31 14:25:24 公開日:2022-03-30
# APG:クリックスルーレート予測のための適応パラメータ生成ネットワーク

APG: Adaptive Parameter Generation Network for Click-Through Rate Prediction ( http://arxiv.org/abs/2203.16218v1 )

ライセンス: Link先を確認
Bencheng Yan, Pengjie Wang, Kai Zhang, Feng Li, Jian Xu and Bo Zheng(参考訳) 多くのWebアプリケーションでは、ディープラーニングベースのCTR予測モデル(略してCTRモデル)が広く採用されている。 従来の深いCTRモデルは、静的な方法でパターンを学習する。 しかし、そのような方法では、基礎となる分布が異なるインスタンスをそれぞれ特徴付けることはほとんどできない。 これは実際に深部CTRモデルの表現力を制限し、準最適結果をもたらす。 本稿では,深層ctrモデルのパラメータを実機上で動的に生成する効率的で効率的な適応パラメータ生成ネットワーク(apg)を提案する。 その結果, 各種深部CTRモデルにAPGを適用でき, 性能を著しく向上できることがわかった。 我々は,apgをtaobaoスポンサー検索システムに導入し,それぞれ3-% ctrゲインと1-% rpmゲインを達成した。

In many web applications, deep learning-based CTR prediction models (deep CTR models for short) are widely adopted. Traditional deep CTR models learn patterns in a static manner, i.e., the network parameters are the same across all the instances. However, such a manner can hardly characterize each of the instances which may have different underlying distribution. It actually limits the representation power of deep CTR models, leading to sub-optimal results. In this paper, we propose an efficient, effective, and universal module, Adaptive Parameter Generation network (APG), where the parameters of deep CTR models are dynamically generated on-the-fly based on different instances. Extensive experimental evaluation results show that APG can be applied to a variety of deep CTR models and significantly improve their performance. We have deployed APG in the Taobao sponsored search system and achieved 3\% CTR gain and 1\% RPM gain respectively.
翻訳日:2022-03-31 14:23:54 公開日:2022-03-30
# PerfectDou: DouDizhuを統括する完璧な情報蒸留

PerfectDou: Dominating DouDizhu with Perfect Information Distillation ( http://arxiv.org/abs/2203.16406v1 )

ライセンス: Link先を確認
Yang Guan, Minghuan Liu, Weijun Hong, Weinan Zhang, Fei Fang, Guangjun Zeng, Yue Lin(参考訳) 挑戦的なマルチプレイヤーカードゲームとして、DouDizhuは最近、不完全な情報ゲームにおける競争やコラボレーションの分析に多くの注目を集めている。 本稿では,ゲームを支配する最先端のdoudizhu aiシステムであるperfectdouを提案する。 詳細は,エージェントがグローバル情報を利用して,まるで完璧な情報ゲームであるかのようにポリシーのトレーニングをガイドし,トレーニングされたポリシーを実際のゲーム中に不完全な情報ゲームをプレイするために使用できる完全学習・不完全実行フレームワークを採用する。 この目的のために,DouDizhuのカードとゲームの特徴を特徴付け,完全かつ不完全な情報を表現する。 システムをトレーニングするために、並列トレーニングパラダイムにおいて、一般化したアドバンテージ推定による近位政策最適化を採用する。 実験では、PerfectDouが既存のAIプログラムをすべて破り、最先端のパフォーマンスを達成する方法と理由を示します。

As a challenging multi-player card game, DouDizhu has recently drawn much attention for analyzing competition and collaboration in imperfect-information games. In this paper, we propose PerfectDou, a state-of-the-art DouDizhu AI system that dominates the game, in an actor-critic framework with a proposed technique named perfect information distillation. In detail, we adopt a perfect-training-imperfect-execution framework that allows the agents to utilize the global information to guide the training of the policies as if it is a perfect information game and the trained policies can be used to play the imperfect information game during the actual gameplay. To this end, we characterize card and game features for DouDizhu to represent the perfect and imperfect information. To train our system, we adopt proximal policy optimization with generalized advantage estimation in a parallel training paradigm. In experiments we show how and why PerfectDou beats all existing AI programs, and achieves state-of-the-art performance.
翻訳日:2022-03-31 14:23:41 公開日:2022-03-30
# 繊細な属性のない公平なモデルを学ぶ:生成的アプローチ

Learning Fair Models without Sensitive Attributes: A Generative Approach ( http://arxiv.org/abs/2203.16413v1 )

ライセンス: Link先を確認
Huaisheng Zhu, Suhang Wang(参考訳) 既存のフェア分類器の多くは、公平性を達成するためにセンシティブな属性に依存している。 しかし、多くのシナリオでは、プライバシーや法的な問題によるセンシティブな属性は得られない。 繊細な属性の欠如は多くの既存の作業に挑戦する。 センシティブな属性が欠けているが、多くのアプリケーションでは、通常、センシティブな属性に関連する様々なフォーマットの特徴や情報が存在する。 例えば、個人購入履歴は自身の人種を反映しており、これはレースで公正な分類法を学ぶのに役立つだろう。 しかし、センシティブな属性を持たない公正なモデルを学ぶための関連する機能を探究する作業は限られている。 そこで本研究では,関連する特徴を探索することで,繊細な属性を持たずに公平なモデルを学ぶという新しい課題について検討する。 そこで本研究では,様々な形態の特徴を持つ学習データから感性属性を効果的に推定する確率的生成フレームワークを提案し,その推定感性属性情報を用いて公正なモデル学習を行う。 実世界のデータセットを用いた実験結果は,精度と公平性の両方の観点から,我々のフレームワークの有効性を示す。

Most existing fair classifiers rely on sensitive attributes to achieve fairness. However, for many scenarios, we cannot obtain sensitive attributes due to privacy and legal issues. The lack of sensitive attributes challenges many existing works. Though we lack sensitive attributes, for many applications, there usually exists features or information of various formats that are relevant to sensitive attributes. For example, a personal purchase history can reflect his or her race, which would be helpful for learning fair classifiers on race. However, the work on exploring relevant features for learning fair models without sensitive attributes is rather limited. Therefore, in this paper, we study a novel problem of learning fair models without sensitive attributes by exploring relevant features. We propose a probabilistic generative framework to effectively estimate the sensitive attribute from the training data with relevant features in various formats and utilize the estimated sensitive attribute information to learn fair models. Experimental results on real-world datasets show the effectiveness of our framework in terms of both accuracy and fairness.
翻訳日:2022-03-31 14:23:25 公開日:2022-03-30
# 連合学習における不正中央サーバによる完全高精度メンバーシップ推定

Perfectly Accurate Membership Inference by a Dishonest Central Server in Federated Learning ( http://arxiv.org/abs/2203.16463v1 )

ライセンス: Link先を確認
Georg Pichler and Marco Romanelli and Leonardo Rey Vega and Pablo Piantanida(参考訳) Federated Learningは、グラデーションやモデルパラメータだけでなく、クライアント間またはクライアントと中央サーバ間でのプレーンテキストトレーニングデータが交換されることはないため、強力なプライバシー保証を提供すると期待されている。 本稿では,1つのトレーニングステップにのみ依存する,シンプルだが非常に効果的なメンバシップ推論攻撃アルゴリズムを導入することで,この主張に挑戦する。 一般的な正直な、しかし厳密なモデルとは対照的に、我々は不正な中央サーバを持つフレームワークを調査します。 我々の戦略は、ReLUアクティベーションを持つモデルに適用可能であり、このアクティベーション関数の特性を利用して完全な精度を実現する。 MNIST, CIFAR10, CIFAR100, CelebAデータセットを用いた視覚的分類課題の実証評価により, 数千のサンプルを用いたトレーニングセットにおける1つのサンプルの同定に最適な精度が得られた。 また,cifar100 と celeba のデータセットでは,重複画像が検出されることがある。

Federated Learning is expected to provide strong privacy guarantees, as only gradients or model parameters but no plain text training data is ever exchanged either between the clients or between the clients and the central server. In this paper, we challenge this claim by introducing a simple but still very effective membership inference attack algorithm, which relies only on a single training step. In contrast to the popular honest-but-curious model, we investigate a framework with a dishonest central server. Our strategy is applicable to models with ReLU activations and uses the properties of this activation function to achieve perfect accuracy. Empirical evaluation on visual classification tasks with MNIST, CIFAR10, CIFAR100 and CelebA datasets show that our method provides perfect accuracy in identifying one sample in a training set with thousands of samples. Occasional failures of our method lead us to discover duplicate images in the CIFAR100 and CelebA datasets.
翻訳日:2022-03-31 14:23:10 公開日:2022-03-30
# 可変化による確率勾配ランゲヴィンダイナミクスの収束率の向上と最適化への応用

Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with Variance Reduction and its Application to Optimization ( http://arxiv.org/abs/2203.16217v1 )

ライセンス: Link先を確認
Yuri Kinoshita and Taiji Suzuki(参考訳) 確率勾配ランゲヴィンダイナミクスは、サンプリング問題といくつかの機械学習アプリケーションに現れる非凸最適化を解くための最も基本的なアルゴリズムの1つである。 特に、その分散化バージョンは、現在特に注目を集めている。 本稿では, 確率的分散還元勾配ランジュバンダイナミクスと確率的再帰的勾配ランジュバンダイナミクスの2つの変種について検討した。 これらのアルゴリズムの従来の研究よりも弱い条件である滑らかさと対数ソボレフの不等式のみの仮定の下で、KL偏差による目的分布への収束性を証明する。 バッチサイズと内部ループ長が$\sqrt{n}$に設定されている場合、$\epsilon$-precisionを達成するための勾配複雑性は$\tilde{O}((n+dn^{1/2}\epsilon^{-1})\gamma^2 L^2\alpha^{-2})$である。 また,非凸最適化への本質的な応用を示す。

The stochastic gradient Langevin Dynamics is one of the most fundamental algorithms to solve sampling problems and non-convex optimization appearing in several machine learning applications. Especially, its variance reduced versions have nowadays gained particular attention. In this paper, we study two variants of this kind, namely, the Stochastic Variance Reduced Gradient Langevin Dynamics and the Stochastic Recursive Gradient Langevin Dynamics. We prove their convergence to the objective distribution in terms of KL-divergence under the sole assumptions of smoothness and Log-Sobolev inequality which are weaker conditions than those used in prior works for these algorithms. With the batch size and the inner loop length set to $\sqrt{n}$, the gradient complexity to achieve an $\epsilon$-precision is $\tilde{O}((n+dn^{1/2}\epsilon^{-1})\gamma^2 L^2\alpha^{-2})$, which is an improvement from any previous analyses. We also show some essential applications of our result to non-convex optimization.
翻訳日:2022-03-31 14:21:17 公開日:2022-03-30
# GPUにおける古典的機械学習問題の最適化

Optimization for Classical Machine Learning Problems on the GPU ( http://arxiv.org/abs/2203.16340v1 )

ライセンス: Link先を確認
S\"oren Laue, Mark Blacher, Joachim Giesen(参考訳) 制約付き最適化問題は古典的な機械学習で頻繁に発生する。 CVXPYやGENOなど、制約付き最適化に対処するフレームワークが存在する。 しかし、ディープラーニングフレームワークとは対照的に、GPUのサポートは限られている。 ここでは、genOフレームワークを拡張し、GPU上の制約付き最適化問題を解く。 このフレームワークは、ユーザが制約付き最適化問題を、読みやすいモデリング言語で指定できるようにする。 そして、この仕様からソルバが自動的に生成される。 GPU上で実行すると、CVXPYのような最先端のアプローチと、cuOSQPやSCSといったGPUアクセラレーションによるソルバとを、数桁の桁差で比較する。

Constrained optimization problems arise frequently in classical machine learning. There exist frameworks addressing constrained optimization, for instance, CVXPY and GENO. However, in contrast to deep learning frameworks, GPU support is limited. Here, we extend the GENO framework to also solve constrained optimization problems on the GPU. The framework allows the user to specify constrained optimization problems in an easy-to-read modeling language. A solver is then automatically generated from this specification. When run on the GPU, the solver outperforms state-of-the-art approaches like CVXPY combined with a GPU-accelerated solver such as cuOSQP or SCS by a few orders of magnitude.
翻訳日:2022-03-31 14:20:55 公開日:2022-03-30
# meta-sampler: ほぼ普遍的だがタスク指向のポイントクラウドサンプリング

Meta-Sampler: Almost-Universal yet Task-Oriented Sampling for Point Clouds ( http://arxiv.org/abs/2203.16001v1 )

ライセンス: Link先を確認
Ta-Ying Cheng, Qingyong Hu, Qian Xie, Niki Trigoni, Andrew Markham(参考訳) サンプリングはポイントクラウドタスクの重要な操作であり、冗長なポイントを破棄することで計算効率とトラクタビリティを向上させる。 ユニバーサルサンプリングアルゴリズム(例えば、Farthest Point Smpling)は、異なるタスク、モデル、データセットを変更せずに機能するが、その性質上、下流のタスク/モデルに非依存である。 そのため、どのポイントが最善か、どのポイントを拒否するかについて、暗黙の知識を持っていない。 最近の研究は、タスク固有のポイントクラウドサンプリング(例:SampleNet)が、どのポイントがより有益なかを学ぶことによって、従来のサンプリングアプローチより優れていることを示す。 しかし、これらの学習可能なサンプル作成者は、2つの本質的な問題に直面している: i) タスクではなくモデルに過度に適合すること、および \ii) タスクネットワークに加えてサンプリングネットワークをスクラッチからトレーニングすること。 本研究では,特定のタスクに最も有用な点を保存できるが,異なるタスクやモデル,あるいはデータセットに適応するためのコストが安いサンプルを探索するために,ほぼ普遍的なサンプル手法を提案する。 まず,同一タスクに対する複数のモデル(形状再構成など)のトレーニングが,サンプルネットワークを特定のタスクネットワークに過大化しないようにすることで,精度の面でバニラサンプルネットを著しく上回っていることを示す。 次に、複数のタスクにまたがるほぼ普遍的なメタサンプルをトレーニングする方法を示す。 このメタサンプラーは、異なるデータセット、ネットワーク、あるいは異なるタスクに適用されると急速に微調整され、トレーニングの最初のコストを償うことができる。

Sampling is a key operation in point-cloud task and acts to increase computational efficiency and tractability by discarding redundant points. Universal sampling algorithms (e.g., Farthest Point Sampling) work without modification across different tasks, models, and datasets, but by their very nature are agnostic about the downstream task/model. As such, they have no implicit knowledge about which points would be best to keep and which to reject. Recent work has shown how task-specific point cloud sampling (e.g., SampleNet) can be used to outperform traditional sampling approaches by learning which points are more informative. However, these learnable samplers face two inherent issues: i) overfitting to a model rather than a task, and \ii) requiring training of the sampling network from scratch, in addition to the task network, somewhat countering the original objective of down-sampling to increase efficiency. In this work, we propose an almost-universal sampler, in our quest for a sampler that can learn to preserve the most useful points for a particular task, yet be inexpensive to adapt to different tasks, models, or datasets. We first demonstrate how training over multiple models for the same task (e.g., shape reconstruction) significantly outperforms the vanilla SampleNet in terms of accuracy by not overfitting the sample network to a particular task network. Second, we show how we can train an almost-universal meta-sampler across multiple tasks. This meta-sampler can then be rapidly fine-tuned when applied to different datasets, networks, or even different tasks, thus amortizing the initial cost of training.
翻訳日:2022-03-31 14:20:47 公開日:2022-03-30
# 深層ニューラルネットワークにおける勾配降下の収束

Convergence of gradient descent for deep neural networks ( http://arxiv.org/abs/2203.16462v1 )

ライセンス: Link先を確認
Sourav Chatterjee(参考訳) 勾配降下による最適化は、"deep learning revolution"の原動力となっている。 しかし、非常に広いネットワークでの最近の進歩にもかかわらず、深層ニューラルネットワークのトレーニングにおいて勾配降下がグローバルミニマに収束する理由を理解することは、まだ未解決の問題である。 本稿では,文献から得られる最善の基準,すなわちロジャシェヴィッツの不等式とその一般化よりも強力な,勾配降下のグローバル最小値への収束に関する新たな基準について述べる。 この基準は、入力次元がデータ点数より大きいと仮定して、スムーズで厳密に増加する活性化関数を持つフィードフォワードニューラルネットワークを訓練する際に、適切な初期化による勾配降下が大域最小に収束することを示すために用いられる。

Optimization by gradient descent has been one of main drivers of the "deep learning revolution". Yet, despite some recent progress for extremely wide networks, it remains an open problem to understand why gradient descent often converges to global minima when training deep neural networks. This article presents a new criterion for convergence of gradient descent to a global minimum, which is provably more powerful than the best available criteria from the literature, namely, the Lojasiewicz inequality and its generalizations. This criterion is used to show that gradient descent with proper initialization converges to a global minimum when training any feedforward neural network with smooth and strictly increasing activation functions, provided that the input dimension is greater than or equal to the number of data points.
翻訳日:2022-03-31 14:20:16 公開日:2022-03-30
# (参考訳) 一般化アグレッシブデコーディングによる自動回帰翻訳のロスレス高速化

Lossless Speedup of Autoregressive Translation with Generalized Aggressive Decoding ( http://arxiv.org/abs/2203.16487v1 )

ライセンス: CC BY 4.0
Heming Xia, Tao Ge, Furu Wei, Zhifang Sui(参考訳) 本稿では,GAD(Generalized Aggressive Decoding)を提案する。トランスフォーマーの自己回帰的・非自己回帰的翻訳(NAT)の協調により,品質損失のない自己回帰的翻訳を高速化する新しいアプローチである。 各デコーディングイテレーションで、gadはnatを通してドラフトとして並行して多数のトークンを積極的にデコードし、検証をパスするトークンのみがデコードされたトークンとして保持される自己回帰的な方法でそれらを検証する。 GADは自動回帰翻訳と同じ性能を達成できるが、NATの起草と自己回帰検証は並列計算のため高速であるため、はるかに効率的に行うことができる。 我々はwmt14の英ドイツ語翻訳タスクで実験を行い、バニラgadが約3倍のスピードアップでグリーディ復号と全く同じ結果が得られること、そしてその進化した検証戦略(gad++)がグリーディ翻訳よりも優れるだけでなく、ビーム検索結果と同等の翻訳品質を達成し、さらにデコード速度を向上し、自己回帰翻訳よりも約5倍のスピードアップをもたらすことを確認した。

In this paper, we propose Generalized Aggressive Decoding (GAD) -- a novel approach to accelerating autoregressive translation with no quality loss, through the collaboration of autoregressive and non-autoregressive translation (NAT) of the Transformer. At each decoding iteration, GAD aggressively decodes a number of tokens in parallel as a draft through NAT and then verifies them in the autoregressive manner, where only the tokens that pass the verification are kept as decoded tokens. GAD can achieve the same performance as autoregressive translation but perform much more efficiently because both NAT drafting and autoregressive verification are fast due to parallel computing. We conduct experiments in the WMT14 English-German translation task and confirm that the vanilla GAD yields exactly the same results as greedy decoding with about 3x speedup, and that its variant (GAD++) with an advanced verification strategy not only outperforms the greedy translation and even achieves the comparable translation quality with the beam search result, but also further improves the decoding speed, resulting in an around 5x speedup over autoregressive translation.
翻訳日:2022-03-31 14:17:48 公開日:2022-03-30
# Aspect-based Sentiment Analysisのための事前学習言語モデルへの動的セマンティックスの導入

Incorporating Dynamic Semantics into Pre-Trained Language Model for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2203.16369v1 )

ライセンス: Link先を確認
Kai Zhang, Kun Zhang, Mengdi Zhang, Hongke Zhao, Qi Liu, Wei Wu, Enhong Chen(参考訳) アスペクトベース感情分析(ABSA)は、与えられた文の特定の側面に対する感情極性を予測する。 BERTのような事前訓練された言語モデルは大きな成功を収めているが、ABSAに動的セマンティックな変更を加えることは依然として困難である。 そこで本稿では,ABSA の動的アスペクト指向意味論を学習するための新しい手法である Dynamic Re-weighting BERT (DR-BERT) を提案する。 具体的には、まずStack-BERT層を第一エンコーダとして、文の全体的な意味を把握し、軽量な動的再重み付けアダプタ(DRA)を組み込んで微調整する。 注意すべき点は、DRAは各段階の文の小さな領域に注意を払って、重要な単語を再検討し、アスペクト認識の感情理解を改善することである。 最後に,3つのベンチマークデータセットにおける実験結果から,提案モデルの有効性と合理性を示し,今後の意味モデリングに優れた解釈的洞察を与える。

Aspect-based sentiment analysis (ABSA) predicts sentiment polarity towards a specific aspect in the given sentence. While pre-trained language models such as BERT have achieved great success, incorporating dynamic semantic changes into ABSA remains challenging. To this end, in this paper, we propose to address this problem by Dynamic Re-weighting BERT (DR-BERT), a novel method designed to learn dynamic aspect-oriented semantics for ABSA. Specifically, we first take the Stack-BERT layers as a primary encoder to grasp the overall semantic of the sentence and then fine-tune it by incorporating a lightweight Dynamic Re-weighting Adapter (DRA). Note that the DRA can pay close attention to a small region of the sentences at each step and re-weigh the vitally important words for better aspect-aware sentiment understanding. Finally, experimental results on three benchmark datasets demonstrate the effectiveness and the rationality of our proposed model and provide good interpretable insights for future semantic modeling.
翻訳日:2022-03-31 13:53:48 公開日:2022-03-30
# 潜在セマンティクスによる高分解能顔スワップ

High-resolution Face Swapping via Latent Semantics Disentanglement ( http://arxiv.org/abs/2203.15958v1 )

ライセンス: Link先を確認
Yangyang Xu and Bailin Deng and Junle Wang and Yanqing Jing and Jia Pan and Shengfeng He(参考訳) 本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能顔交換法を提案する。 従来の研究では、生成前処理を利用して高解像度な結果を生成することができたが、その品質は潜在空間の絡み合った意味論に苦しむ可能性がある。 我々は,ジェネレータの進行的性質を利用し,浅い層から構造属性を導出し,より深い層から外観属性を導出することにより,潜在意味論を明示的に分離する。 ランドマーク駆動構造転送潜在方向を導入することにより、構造属性内のアイデンティティとポーズ情報はさらに分離される。 疎結合な潜在コードは、機能ブレンドを組み込んだ豊富な生成的特徴を生み出し、妥当な交換結果を生成する。 さらに, 潜在空間と画像空間に2つの時空間制約を課すことで, 映像面スワッピングに本手法を拡張した。 広汎な実験により,提案手法は幻覚の質と一貫性の観点から,最先端の画像/ビデオの顔交換法より優れていた。 コードは、https://github.com/cnnlstm/FSLSD_HiResで参照できる。

We present a novel high-resolution face swapping method using the inherent prior knowledge of a pre-trained GAN model. Although previous research can leverage generative priors to produce high-resolution results, their quality can suffer from the entangled semantics of the latent space. We explicitly disentangle the latent semantics by utilizing the progressive nature of the generator, deriving structure attributes from the shallow layers and appearance attributes from the deeper ones. Identity and pose information within the structure attributes are further separated by introducing a landmark-driven structure transfer latent direction. The disentangled latent code produces rich generative features that incorporate feature blending to produce a plausible swapping result. We further extend our method to video face swapping by enforcing two spatio-temporal constraints on the latent space and the image space. Extensive experiments demonstrate that the proposed method outperforms state-of-the-art image/video face swapping methods in terms of hallucination quality and consistency. Code can be found at: https://github.com/cnnlstm/FSLSD_HiRes.
翻訳日:2022-03-31 13:53:09 公開日:2022-03-30
# PseCo:半教師対象検出のための擬似ラベリングと一貫性トレーニング

PseCo: Pseudo Labeling and Consistency Training for Semi-Supervised Object Detection ( http://arxiv.org/abs/2203.16317v1 )

ライセンス: Link先を確認
Gang Li, Xiang Li, Yujie Wang, Shanshan Zhang, Yichao Wu, Ding Liang(参考訳) 本稿では,Semi-Supervised Object Detection (SSOD) における2つの重要な手法,すなわち擬似ラベリングと整合性トレーニングについて検討する。 この2つの手法は,現在オブジェクト検出の重要な特性を無視しており,ラベルなしデータでの効率的な学習を妨げている。 特に、擬似ラベリングでは、既存の作品が分類スコアのみに焦点を当てるが、擬似ボックスのローカライゼーション精度の保証に失敗し、一貫性トレーニングでは、広く採用されているランダムリサイズトレーニングはラベルレベルの一貫性のみを考慮しているが、機能レベルの一貫性を欠いているため、スケールの不変性を確保する上でも重要な役割を果たす。 ノイズシュートボックスによる問題に対処するために,予測誘導ラベル割り当て (pla) と正定値整合性投票 (pcv) を含むノイズシュートボックス学習 (npl) を設計する。 PCVは擬似箱の局所化品質を反映するために正の提案の回帰一貫性を利用する。 さらに、一貫性トレーニングにおいて、ラベルレベルの一貫性と特徴レベルの整合性のメカニズムを含むマルチビュースケール不変学習(MSL)を提案する。 COCOベンチマークでは, PSEudo labeling と Consistency training (PseCo) と呼ばれ, SOTA (Soft Teacher) を2.0, 1.8, 2.0 でそれぞれ1%, 5%, 10% で上回っている。 SSODの学習効率も大幅に向上し、例えばPseCoはSOTAアプローチのトレーニング時間を半減するが、パフォーマンスはさらに向上する。

In this paper, we delve into two key techniques in Semi-Supervised Object Detection (SSOD), namely pseudo labeling and consistency training. We observe that these two techniques currently neglect some important properties of object detection, hindering efficient learning on unlabeled data. Specifically, for pseudo labeling, existing works only focus on the classification score yet fail to guarantee the localization precision of pseudo boxes; For consistency training, the widely adopted random-resize training only considers the label-level consistency but misses the feature-level one, which also plays an important role in ensuring the scale invariance. To address the problems incurred by noisy pseudo boxes, we design Noisy Pseudo box Learning (NPL) that includes Prediction-guided Label Assignment (PLA) and Positive-proposal Consistency Voting (PCV). PLA relies on model predictions to assign labels and makes it robust to even coarse pseudo boxes; while PCV leverages the regression consistency of positive proposals to reflect the localization quality of pseudo boxes. Furthermore, in consistency training, we propose Multi-view Scale-invariant Learning (MSL) that includes mechanisms of both label- and feature-level consistency, where feature consistency is achieved by aligning shifted feature pyramids between two images with identical content but varied scales. On COCO benchmark, our method, termed PSEudo labeling and COnsistency training (PseCo), outperforms the SOTA (Soft Teacher) by 2.0, 1.8, 2.0 points under 1%, 5%, and 10% labelling ratios, respectively. It also significantly improves the learning efficiency for SSOD, e.g., PseCo halves the training time of the SOTA approach but achieves even better performance.
翻訳日:2022-03-31 13:52:52 公開日:2022-03-30
# 生物医学文献のエンティティ駆動型ファクトアウェア抽象要約

Entity-driven Fact-aware Abstractive Summarization of Biomedical Literature ( http://arxiv.org/abs/2203.15959v1 )

ライセンス: Link先を確認
Amanuel Alambo, Tanvi Banerjee, Krishnaprasad Thirunarayan, Michael Raymer(参考訳) 毎年多くの科学論文が出版されている中で、生物医学文献の出版率は増加している。 その結果,大量のバイオメディカル研究論文の活用と要約に多大な努力が払われている。 バニラソースの文書から要約への抽象要約のためにトランスフォーマティブベースのエンコーダ・デコーダモデルが広く研究されているが、その主な制限はエンティティ幻覚(生成した要約がソースの記事に関連しない、あるいは存在しないエンティティを構成する現象)と事実的矛盾である。 この問題は、名前付きエンティティとその意味論(知識ベースを通して捉えられる)が記事の本質を構成する生体医学的な環境で悪化する。 抽象的な要約を導くために名前付きエンティティに関連する背景知識ベースから抽出された名前付きエンティティや事実は、生物医学記事要約文献では研究されていない。 本稿では,エンド・ツー・エンドのトランスフォーマーに基づくエンコーダ・デコーダモデルを訓練し,生体医学論文の要約を行うエンティティ駆動ファクト・アウェア・フレームワークを提案する。 提案手法はトランスフォーマーモデル, efas, entity-driven fact-aware abstractive summarization の構成要素である。 5つの最先端トランスフォーマーモデル(そのうちの2つは長文要約のために特別に設計された)を用いて実験を行い、これらのモデルのトレーニング/推論フェーズに知識を注入することで、エンティティレベルの事実の正確性、n-gramのノベル性、意味的等価性の観点から、モデルが標準のソースドキュメント対サマリー設定よりも大幅に優れたパフォーマンスを実現することを実証する。 提案手法はICD-11-Summ-1000とPubMed-50kで評価される。

As part of the large number of scientific articles being published every year, the publication rate of biomedical literature has been increasing. Consequently, there has been considerable effort to harness and summarize the massive amount of biomedical research articles. While transformer-based encoder-decoder models in a vanilla source document-to-summary setting have been extensively studied for abstractive summarization in different domains, their major limitations continue to be entity hallucination (a phenomenon where generated summaries constitute entities not related to or present in source article(s)) and factual inconsistency. This problem is exacerbated in a biomedical setting where named entities and their semantics (which can be captured through a knowledge base) constitute the essence of an article. The use of named entities and facts mined from background knowledge bases pertaining to the named entities to guide abstractive summarization has not been studied in biomedical article summarization literature. In this paper, we propose an entity-driven fact-aware framework for training end-to-end transformer-based encoder-decoder models for abstractive summarization of biomedical articles. We call the proposed approach, whose building block is a transformer-based model, EFAS, Entity-driven Fact-aware Abstractive Summarization. We conduct experiments using five state-of-the-art transformer-based models (two of which are specifically designed for long document summarization) and demonstrate that injecting knowledge into the training/inference phase of these models enables the models to achieve significantly better performance than the standard source document-to-summary setting in terms of entity-level factual accuracy, N-gram novelty, and semantic equivalence while performing comparably on ROUGE metrics. The proposed approach is evaluated on ICD-11-Summ-1000, and PubMed-50k.
翻訳日:2022-03-31 13:51:50 公開日:2022-03-30
# 比較カリキュラム学習による弱教師付き時間経路表現学習-拡張版

Weakly-supervised Temporal Path Representation Learning with Contrastive Curriculum Learning -- Extended Version ( http://arxiv.org/abs/2203.16110v1 )

ライセンス: Link先を確認
Sean Bin Yang, Chenjuan Guo, Jilin Hu, Bin Yang, Jian Tang, and Christian S. Jensen(参考訳) 交通のデジタル化にともなって、旅行時間推定や旅行経路ランキングなど、経路ベースのスマートシティアプリケーションの増加を目の当たりにしている。 時間的情報(例えば出発時刻など)を含む時間的パス~(TP)は、そのようなアプリケーションを可能にするために基本的なものである。 この設定では、空間的および時間的相関を同時に考慮し、下流タスクなど様々なアプリケーションで使用できる一般的な時間的経路表現~(TPR)を学ぶことが不可欠である。 既存のメソッドはそれ以来目標達成に失敗する i) 指導方法は,訓練中に大量のタスク固有のラベルを必要とするため,取得したTPRを他のタスクに一般化することができない。 (II) 教師なし手法は汎用表現を学習できるが, 時間的側面を無視し, 準最適結果をもたらす。 既存のソリューションの限界に対抗して、Weakly-Supervised Contrastive (WSC)学習モデルを提案する。 まず,時間的経路の空間的情報と時間的情報の両方をTPRにエンコードする時間的経路エンコーダを提案する。 エンコーダを訓練するには, 入手が容易で安価で, 出発時刻からピーク時刻とオフピーク時刻を示す時間ラベルなど, 異なるタスクに関連する弱いラベルを導入する。 弱ラベルに基づいて,空間情報と時間情報の両方を考慮して有意な正・負の時間パスサンプルを構築し,正のサンプル表現を狭めながら負のサンプル表現をプッシュすることで,コントラスト学習を用いてエンコーダを訓練する。 そこで本研究では,コントラスト学習をよりよく指導するために,カリキュラム学習に基づく学習戦略を提案する。 提案手法の有効性を検証する実験を行った。

In step with the digitalization of transportation, we are witnessing a growing range of path-based smart-city applications, e.g., travel-time estimation and travel path ranking. A temporal path~(TP) that includes temporal information, e.g., departure time, into the path is of fundamental to enable such applications. In this setting, it is essential to learn generic temporal path representations~(TPRs) that consider spatial and temporal correlations simultaneously and that can be used in different applications, i.e., downstream tasks. Existing methods fail to achieve the goal since (i) supervised methods require large amounts of task-specific labels when training and thus fail to generalize the obtained TPRs to other tasks; (ii) though unsupervised methods can learn generic representations, they disregard the temporal aspect, leading to sub-optimal results. To contend with the limitations of existing solutions, we propose a Weakly-Supervised Contrastive (WSC) learning model. We first propose a temporal path encoder that encodes both the spatial and temporal information of a temporal path into a TPR. To train the encoder, we introduce weak labels that are easy and inexpensive to obtain, and are relevant to different tasks, e.g., temporal labels indicating peak vs. off-peak hour from departure times. Based on the weak labels, we construct meaningful positive and negative temporal path samples by considering both spatial and temporal information, which facilities training the encoder using contrastive learning by pulling closer the positive samples' representations while pushing away the negative samples' representations. To better guide the contrastive learning, we propose a learning strategy based on Curriculum Learning such that the learning performs from easy to hard training instances. Experiments studies verify the effectiveness of the proposed method.
翻訳日:2022-03-31 13:48:52 公開日:2022-03-30
# 逆強化学習による解釈可能な深層強化学習モデルの構築

Towards Interpretable Deep Reinforcement Learning Models via Inverse Reinforcement Learning ( http://arxiv.org/abs/2203.16464v1 )

ライセンス: Link先を確認
Yuansheng Xie, Soroush Vosoughi, Saeed Hassanpour(参考訳) 人工知能は、特に近年のディープラーニングの進歩を通じて、自然言語処理やコンピュータビジョンといった分野における多くのタスクにおいて、例外的なパフォーマンスを達成した。 望ましい評価指標に加えて、これらのモデルを確実に活用するには高いレベルの解釈可能性が必要である。 したがって、モデルが入力を出力にマッピングするプロセスに関する洞察を提供する説明は、ずっと求められている。 残念なことに、現在の機械学習モデルのブラックボックスの性質はまだ未解決の問題であり、この性質は研究者がモデルの振る舞いと最終的な予測を学習し説明することを妨げる。 本研究では,Reinforcement Learningモデルによる意思決定のグローバルな説明を提供し,モデルの意思決定プロセスの要約によってモデルが従う直感的な傾向を捉えるための,Adversarial Inverse Reinforcement Learningを活用した新しいフレームワークを提案する。

Artificial intelligence, particularly through recent advancements in deep learning, has achieved exceptional performances in many tasks in fields such as natural language processing and computer vision. In addition to desirable evaluation metrics, a high level of interpretability is often required for these models to be reliably utilized. Therefore, explanations that offer insight into the process by which a model maps its inputs onto its outputs are much sought-after. Unfortunately, current black box nature of machine learning models is still an unresolved issue and this very nature prevents researchers from learning and providing explicative descriptions for a model's behavior and final predictions. In this work, we propose a novel framework utilizing Adversarial Inverse Reinforcement Learning that can provide global explanations for decisions made by a Reinforcement Learning model and capture intuitive tendencies that the model follows by summarizing the model's decision-making process.
翻訳日:2022-03-31 13:46:17 公開日:2022-03-30
# 高次一般化境界:PAC-Bayes目的による深い確率的プログラムの学習

Higher-Order Generalization Bounds: Learning Deep Probabilistic Programs via PAC-Bayes Objectives ( http://arxiv.org/abs/2203.15972v1 )

ライセンス: Link先を確認
Jonathan Warrell, Mark Gerstein(参考訳) deep probabilistic programming (dpp)は、効率的なディープラーニング最適化技術を用いて、再帰的計算に基づく強力なモデルを学ぶことができる。 さらに、DPPは統合された視点を提供し、推論と学習アルゴリズムは確率的プログラムとしてモデルと同等に扱われる。 そこで我々は,フレキシブルPAC-Bayes境界をDPP法を用いて確率的プログラムとして表現し,学習するためのフレームワークを提供する。 特に, DPP の手法は DPP 表現の構成性に基づく一般化境界の導出に有効であることを示す。 そこで本研究では,高次確率的プログラムに対する原則的学習目標を提案する。 本稿では, モデル複雑性の学習尺度に基づいて, シングルタスクとマルチタスクの一般化視点(トランスファーやメタラーニングを含む)を自然に含む高階一般化境界を定義する。 さらに, DPPトレーニングの目的として, 変分法を用いて高次境界の修正形式を効率的に最適化できることを示す。 我々は,合成データと生体データに対する単一タスクとマルチタスクの一般化設定を用いて,フレキシブルDPPモデル表現と学習複雑性尺度を用いて,性能と一般化予測の改善を示す。

Deep Probabilistic Programming (DPP) allows powerful models based on recursive computation to be learned using efficient deep-learning optimization techniques. Additionally, DPP offers a unified perspective, where inference and learning algorithms are treated on a par with models as stochastic programs. Here, we offer a framework for representing and learning flexible PAC-Bayes bounds as stochastic programs using DPP-based methods. In particular, we show that DPP techniques may be leveraged to derive generalization bounds that draw on the compositionality of DPP representations. In turn, the bounds we introduce offer principled training objectives for higher-order probabilistic programs. We offer a definition of a higher-order generalization bound, which naturally encompasses single- and multi-task generalization perspectives (including transfer- and meta-learning) and a novel class of bound based on a learned measure of model complexity. Further, we show how modified forms of all higher-order bounds can be efficiently optimized as objectives for DPP training, using variational techniques. We test our framework using single- and multi-task generalization settings on synthetic and biological data, showing improved performance and generalization prediction using flexible DPP model representations and learned complexity measures.
翻訳日:2022-03-31 13:46:02 公開日:2022-03-30
# 解釈可能なデータストリーム学習のための動的モデルツリー

Dynamic Model Tree for Interpretable Data Stream Learning ( http://arxiv.org/abs/2203.16181v1 )

ライセンス: Link先を確認
Johannes Haug, Klaus Broelemann, Gjergji Kasneci(参考訳) データストリームは現代のビジネスや社会で広く使われている。 実際には、データストリームは時間とともに進化し、無期限に保存することはできない。 したがって、データストリーム上の効率的で透明な機械学習は、しばしば困難である。 Hoeffding Treesはオンライン予測モデリングの最先端技術として登場した。 訓練が容易で、定常プロセス下で有意義な収束保証を提供する。 しかし同時に、Hoeffding Treesは、しばしば分布の変化に適応するためにヒューリスティックでコストのかかる拡張を必要とする。 本研究では,進化するデータストリームにおける機械学習のためのモデルツリーを再検討する。 モデルツリーは、アクティブなデータコンセプトのより柔軟で局所的な堅牢な表現を維持することができ、データストリームアプリケーションに自然にフィットします。 私たちの新しいフレームワークはdynamic model treeと呼ばれ、望ましい一貫性と最小性特性を満たす。 合成および実世界の表付きストリーミングデータセットを用いた実験では,既存のインクリメンタル決定木に必要な分割数を劇的に削減できることを示した。 同時に、私たちのフレームワークは、特にコンセプトドリフトが関与している場合、予測品質の観点から、最先端のモデルを上回っています。 ダイナミックモデルツリーは、データストリームにおけるより軽量で解釈可能な機械学習に寄与する強力なオンライン学習フレームワークである。

Data streams are ubiquitous in modern business and society. In practice, data streams may evolve over time and cannot be stored indefinitely. Effective and transparent machine learning on data streams is thus often challenging. Hoeffding Trees have emerged as a state-of-the art for online predictive modelling. They are easy to train and provide meaningful convergence guarantees under a stationary process. Yet, at the same time, Hoeffding Trees often require heuristic and costly extensions to adjust to distributional change, which may considerably impair their interpretability. In this work, we revisit Model Trees for machine learning in evolving data streams. Model Trees are able to maintain more flexible and locally robust representations of the active data concept, making them a natural fit for data stream applications. Our novel framework, called Dynamic Model Tree, satisfies desirable consistency and minimality properties. In experiments with synthetic and real-world tabular streaming data sets, we show that the proposed framework can drastically reduce the number of splits required by existing incremental decision trees. At the same time, our framework often outperforms state-of-the-art models in terms of predictive quality -- especially when concept drift is involved. Dynamic Model Trees are thus a powerful online learning framework that contributes to more lightweight and interpretable machine learning in data streams.
翻訳日:2022-03-31 13:45:40 公開日:2022-03-30
# ディープラーニングを回帰に使用するときのバイアスの修正を忘れないでください。

Remember to correct the bias when using deep learning for regression! ( http://arxiv.org/abs/2203.16470v1 )

ライセンス: Link先を確認
Christian Igel and Stefan Oehmcke(参考訳) 最小二乗回帰のためにディープラーニングモデルをトレーニングする場合、一定のトレーニング時間後に選択された最終モデルのトレーニングエラー残差や、ホールドアウトデータセットの性能に基づいて、ゼロになると予想できない。 これは、多くのデータポイントの合計的なパフォーマンスに興味がある場合に蓄積する体系的なエラーを導入することができる。 トレーニング後の機械学習モデルのバイアスをデフォルトの後処理ステップとして調整し,効率よく問題を解くことを提案する。 模範実験では,誤差蓄積の重大さとバイアス補正の有効性が示された。

When training deep learning models for least-squares regression, we cannot expect that the training error residuals of the final model, selected after a fixed training time or based on performance on a hold-out data set, sum to zero. This can introduce a systematic error that accumulates if we are interested in the total aggregated performance over many data points. We suggest to adjust the bias of the machine learning model after training as a default postprocessing step, which efficiently solves the problem. The severeness of the error accumulation and the effectiveness of the bias correction is demonstrated in exemplary experiments.
翻訳日:2022-03-31 13:45:24 公開日:2022-03-30
# ベイズ分類における不確かさ・テンパリング・データ拡張について

On Uncertainty, Tempering, and Data Augmentation in Bayesian Classification ( http://arxiv.org/abs/2203.16481v1 )

ライセンス: Link先を確認
Sanyam Kapoor, Wesley J. Maddox, Pavel Izmailov, Andrew Gordon Wilson(参考訳) aleatoric uncertaintyは、測定ノイズなど、データの本質的なランダム性をキャプチャする。 ベイズ回帰では、しばしばガウス観測モデルを使用し、ノイズ分散パラメータを用いてアレタリック不確実性のレベルを制御する。 対照的に、ベイズ分類では、アレラト的不確実性についての信念を表現するメカニズムのないカテゴリー分布を用いる。 本研究は,アレータティック不確実性の明示的説明がベイズニューラルネットワークの性能を著しく向上させることを示す。 CIFARのような多くの標準ベンチマークは、本質的にアレータリックな不確実性を持っていない。 さらに,近似推論におけるデータの増補は,確率を軟化させ,不信感を生じさせ,愛国的不確実性に対する我々の正直な信念を深く誤ったものにする効果を示す。 それゆえ、寒冷な後方は、1より大きい力によって温められ、しばしば率直に言えば、温暖化よりもアリータティックな不確実性に対する我々の信念を反映している。 我々はディリクレ観測モデルを用いて, 座位不確かさのレベルをテンパリングを必要とせずに明示的に制御することにより, 後方テンパリングの性能と一致あるいは超過できることを示す。

Aleatoric uncertainty captures the inherent randomness of the data, such as measurement noise. In Bayesian regression, we often use a Gaussian observation model, where we control the level of aleatoric uncertainty with a noise variance parameter. By contrast, for Bayesian classification we use a categorical distribution with no mechanism to represent our beliefs about aleatoric uncertainty. Our work shows that explicitly accounting for aleatoric uncertainty significantly improves the performance of Bayesian neural networks. We note that many standard benchmarks, such as CIFAR, have essentially no aleatoric uncertainty. Moreover, we show data augmentation in approximate inference has the effect of softening the likelihood, leading to underconfidence and profoundly misrepresenting our honest beliefs about aleatoric uncertainty. Accordingly, we find that a cold posterior, tempered by a power greater than one, often more honestly reflects our beliefs about aleatoric uncertainty than no tempering -- providing an explicit link between data augmentation and cold posteriors. We show that we can match or exceed the performance of posterior tempering by using a Dirichlet observation model, where we explicitly control the level of aleatoric uncertainty, without any need for tempering.
翻訳日:2022-03-31 13:45:14 公開日:2022-03-30
# 芸術の深み:シングルタスク・シングルモーダルニューラルネットワークにおける芸術的理解の限界に関する実験的研究

How Deep is Your Art: An Experimental Study on the Limits of Artistic Understanding in a Single-Task, Single-Modality Neural Network ( http://arxiv.org/abs/2203.16031v1 )

ライセンス: Link先を確認
Mahan Agha Zahedi, Niloofar Gholamrezaei, Alex Doboli(参考訳) 芸術作品の数学的モデリングと審美規則抽出は複雑な活動である。 これは芸術が多次元の主観的な規律であるからである。 芸術の知覚と解釈は多くの点で、測定可能というよりむしろ相対的でオープンなものである。 本稿では,現代の2次元視覚芸術の分類において,単一タスク,単一モダリティのベンチマークコンピュータビジョンモデルが果たす限界について,人間の理解可能な方法で検討した。 この研究は、Deep Neural Networksのブラックボックスを開くための解釈方法を導入せず、むしろ、混乱行列から導かれた既存の評価指標を使用して、Deep Neural Networksが芸術を理解するメカニズムを明らかにすることが重要である。 そのため、ImageNetで事前訓練されたVGG-11は、実世界のギャラリーから設計された手作りの小型データデータセットに使用された。 美術品の表現特性や形状や色彩といった形式的要因は,非過剰な性質や歴史や意図といった内容要因よりも,芸術作品が非常に類似した表現特性を持つ場合,決定要因となる可能性がはるかに高いことを実証した。 また, 単一タスクモデルと単一モダリティモデルによる美術の理解が不十分であることを示し, 非展示性を無視した。

Mathematical modeling and aesthetic rule extraction of works of art are complex activities. This is because art is a multidimensional, subjective discipline. Perception and interpretation of art are, to many extents, relative and open-ended rather than measurable. Following the explainable Artificial Intelligence paradigm, this paper investigated in a human-understandable fashion the limits to which a single-task, single-modality benchmark computer vision model performs in classifying contemporary 2D visual arts. It is important to point out that this work does not introduce an interpreting method to open the black box of Deep Neural Networks, instead it uses existing evaluating metrics derived from the confusion matrix to try to uncover the mechanism with which Deep Neural Networks understand art. To achieve so, VGG-11, pre-trained on ImageNet and discriminatively fine-tuned, was used on handcrafted small-data datasets designed from real-world photography gallery shows. We demonstrated that the artwork's Exhibited Properties or formal factors such as shape and color, rather than Non-Exhibited Properties or content factors such as history and intention, have much higher potential to be the determinant when art pieces have very similar Exhibited Properties. We also showed that a single-task and single-modality model's understanding of art is inadequate as it largely ignores Non-Exhibited Properties.
翻訳日:2022-03-31 13:44:53 公開日:2022-03-30
# (参考訳) 接地状況認識のための協調変圧器

Collaborative Transformers for Grounded Situation Recognition ( http://arxiv.org/abs/2203.16518v1 )

ライセンス: CC BY-SA 4.0
Junhyeong Cho, Youngseok Yoon, Suha Kwak(参考訳) グラウンドドシチュエーション認識は、メインアクティビティ、アクティビティ内で特定の役割を演じるエンティティ、与えられたイメージ内のエンティティのバウンディングボックスグラウンドを予測するタスクである。 この課題に効果的に対処するために,アクティビティ分類とエンティティ推定の2つのプロセスが対話的で相補的なアプローチを導入する。 そこで本研究では,活動分類のためのeyes-gaze transformer (coformer) と,エンティティ推定のための gaze transformer という2つのモジュールからなる協調型eyes-gaze transformer (coformer) を提案する。 視線トランスフォーマは、物体とその関係を分析する視線トランスフォーマの助けを借りて主活動を予測する一方、視線トランスフォーマは、視線トランスフォーマによって予測される活動に関連するエンティティのみに焦点を当てて、接地した実体を推定する。 我々のCoFormerは、SWiGデータセット上のすべての評価指標において、その技術の状態を達成する。 トレーニングコードとモデルウェイトはhttps://github.com/jhcho99/CoFormer.comで入手できる。

Grounded situation recognition is the task of predicting the main activity, entities playing certain roles within the activity, and bounding-box groundings of the entities in the given image. To effectively deal with this challenging task, we introduce a novel approach where the two processes for activity classification and entity estimation are interactive and complementary. To implement this idea, we propose Collaborative Glance-Gaze TransFormer (CoFormer) that consists of two modules: Glance transformer for activity classification and Gaze transformer for entity estimation. Glance transformer predicts the main activity with the help of Gaze transformer that analyzes entities and their relations, while Gaze transformer estimates the grounded entities by focusing only on the entities relevant to the activity predicted by Glance transformer. Our CoFormer achieves the state of the art in all evaluation metrics on the SWiG dataset. Training code and model weights are available at https://github.com/jhcho99/CoFormer.
翻訳日:2022-03-31 13:43:40 公開日:2022-03-30
# TubeDETR: トランスフォーマー付き時空間ビデオグラウンド

TubeDETR: Spatio-Temporal Video Grounding with Transformers ( http://arxiv.org/abs/2203.16434v1 )

ライセンス: Link先を確認
Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid(参考訳) 与えられたテキストクエリに対応するビデオに時空間的チューブを配置する問題を考える。 これは、時間的、空間的、マルチモーダルな相互作用のジョイントかつ効率的なモデリングを必要とする課題である。 そこで本稿では,テキスト条件付き物体検出における最近の成功に触発されたトランスフォーマーベースのアーキテクチャである tubedetr を提案する。 私たちのモデルは特に 一 余分なサンプルフレーム上の空間的マルチモーダル相互作用をモデル化する効率的なビデオ及びテキストエンコーダ (ii)時空間ローカライゼーションを共同で行う時空間デコーダ。 広範囲なアブレーション研究を通じて,提案するコンポーネントの利点を実証する。 また、時空間ビデオグラウンドタスクに対する我々の全アプローチを評価し、挑戦的なVidSTGとHC-STVGベンチマークによる技術状況の改善を実証した。 コードとトレーニングされたモデルはhttps://antoyang.github.io/tubedetr.htmlで公開されている。

We consider the problem of localizing a spatio-temporal tube in a video corresponding to a given text query. This is a challenging task that requires the joint and efficient modeling of temporal, spatial and multi-modal interactions. To address this task, we propose TubeDETR, a transformer-based architecture inspired by the recent success of such models for text-conditioned object detection. Our model notably includes: (i) an efficient video and text encoder that models spatial multi-modal interactions over sparsely sampled frames and (ii) a space-time decoder that jointly performs spatio-temporal localization. We demonstrate the advantage of our proposed components through an extensive ablation study. We also evaluate our full approach on the spatio-temporal video grounding task and demonstrate improvements over the state of the art on the challenging VidSTG and HC-STVG benchmarks. Code and trained models are publicly available at https://antoyang.github.io/tubedetr.html.
翻訳日:2022-03-31 13:22:47 公開日:2022-03-30
# 正一致深さ完了のためのモニター蒸留

Monitored Distillation for Positive Congruent Depth Completion ( http://arxiv.org/abs/2203.16034v1 )

ライセンス: Link先を確認
Tian Yu Liu and Parth Agrawal and Allison Chen and Byung-Woo Hong and Alex Wong(参考訳) 本研究では,1つの画像から深度マップ,キャリブレーション,および関連するスパース点雲を推定する手法を提案する。 そこで本研究では, 教師の誤りモードの学習を回避し, 学習者の学習過程を正に一致させる適応的知識蒸留手法を提案する。 我々は、モデル選択やトレーニングのために、真実にアクセスすることができないブラインドアンサンブルのシナリオを考察する。 monitored distillation(監視蒸留法)と呼ばれるこの方法は、特定の画像の測光再投影誤差を最も最小化する予測を選択することで、教師から学ぶことができるバリデーション基準に基づいている。 その結果、特定の教師からの予測が観測された画像にどの程度適合するかを示す蒸留深度マップと信頼度マップ、または「監視」となる。 モニタは蒸留深度を適応的に重み付けし、教師全員が高い残差を示した場合、標準の教師なし画像再構成損失が監督信号として引き継がれる。 室内シーン(VOID)では、ブラインドアンサンブルベースラインを13.3%、教師なしメソッドを20.3%で上回り、最高の教師付きメソッドに匹敵する性能を維持しながら、モデルサイズを79%削減した。 アウトドア(KITTI)については、地上の真実を使わずとも、ベンチマーク全体で5位にランク付けします。

We propose a method to infer a dense depth map from a single image, its calibration, and the associated sparse point cloud. In order to leverage existing models that produce putative depth maps (teacher models), we propose an adaptive knowledge distillation approach that yields a positive congruent training process, where a student model avoids learning the error modes of the teachers. We consider the scenario of a blind ensemble where we do not have access to ground truth for model selection nor training. The crux of our method, termed Monitored Distillation, lies in a validation criterion that allows us to learn from teachers by choosing predictions that best minimize the photometric reprojection error for a given image. The result of which is a distilled depth map and a confidence map, or "monitor", for how well a prediction from a particular teacher fits the observed image. The monitor adaptively weights the distilled depth where, if all of the teachers exhibit high residuals, the standard unsupervised image reconstruction loss takes over as the supervisory signal. On indoor scenes (VOID), we outperform blind ensembling baselines by 13.3% and unsupervised methods by 20.3%; we boast a 79% model size reduction while maintaining comparable performance to the best supervised method. For outdoors (KITTI), we tie for 5th overall on the benchmark despite not using ground truth.
翻訳日:2022-03-31 13:22:14 公開日:2022-03-30
# 分類型検索エンジンの意図推定を改善する意味コーパスの自動生成

Automatic generation of semantic corpora for improving intent estimation of taxonomy-driven search engines ( http://arxiv.org/abs/2203.16230v1 )

ライセンス: Link先を確認
Lorenzo Massai(参考訳) 異なるユーザコンテキスト(例えば移動中のユーザ)で動作可能なインテリジェントシステムの需要が高まる中、このようなシステムによるユーザニーズの正しい解釈は、ユーザクエリに対して一貫した回答を与えるために重要になっている。 このような課題に対処するために最も効果的な技術は、自然言語処理と用語の意味的拡張の分野である。 このようなシステムは、ユーザの質問の中で表現される単語の概念に対処して、入力クエリの実際の意味を推定することを目的としている。 本研究の目的は, 意味的拡張に基づく検索システムにおいて, 意味的関係が最も影響を与えているかを示し, それらの関係を組み合わせる際に, 正確性と雑音導入の最良のトレードオフを明らかにすることである。 評価は、知識資源として異なる意味展開の組み合わせを利用して、任意の分類駆動ドメインをクエリできるシンプルな自然言語処理システムを構築した。 提案手法は広く多様な分類をユースケースとして採用し,拡張の基盤としてラベルを活用した。 知識資源を構築するために、分類ラベルに対応する擬似クエリを推定するために、いくつかのコーパスが作成され、ガゼターとしてNLPインフラストラクチャに統合されている。

With the increasing demand of intelligent systems capable of operating in different user contexts (e.g. users on the move) the correct interpretation of the user-need by such systems has become crucial to give a consistent answer to the user query. The most effective techniques which are used to address such task are in the fields of natural language processing and semantic expansion of terms. Such systems are aimed at estimating the actual meaning of input queries, addressing the concepts of the words which are expressed within the user questions. The aim of this paper is to demonstrate which semantic relation impacts the most in semantic expansion-based retrieval systems and to identify the best tradeoff between accuracy and noise introduction when combining such relations. The evaluations are made building a simple natural language processing system capable of querying any taxonomy-driven domain, making use of the combination of different semantic expansions as knowledge resources. The proposed evaluation employs a wide and varied taxonomy as a use-case, exploiting its labels as basis for the expansions. To build the knowledge resources several corpora have been produced and integrated as gazetteers into the NLP infrastructure with the purpose of estimating the pseudo-queries corresponding to the taxonomy labels, considered as the possible intents.
翻訳日:2022-03-31 13:21:27 公開日:2022-03-30
# (参考訳) NMTは私を理解できますか? 摂動に基づくコード生成のためのNMTモデルの評価に向けて

Can NMT Understand Me? Towards Perturbation-based Evaluation of NMT Models for Code Generation ( http://arxiv.org/abs/2203.15319v2 )

ライセンス: CC BY 4.0
Pietro Liguori, Cristina Improta, Simona De Vivo, Roberto Natella, Bojan Cukic and Domenico Cotroneo(参考訳) ニューラルマシン翻訳(nmt)は、異なる言語間の翻訳の第一の方法として認識されるレベルに達し、ソフトウェア工学を含む様々な研究分野への関心を喚起した。 nmtモデルのロバスト性を検証するための重要なステップは、逆入力(すなわち、少量の摂動を加えることで元の入力から得られる入力)におけるモデルの性能を評価することである。 しかしながら、コード生成の特定のタスク(すなわち自然言語による記述から始まるコードの生成)を扱う場合、NMTモデルの堅牢性を検証するアプローチがまだ定義されていない。 本研究では,このようなモデルのロバスト性評価に適した摂動とメトリクスのセットを特定することで,この問題に対処する。 そこで本研究では,摂動のタイプがモデルに最も影響を与えていることを示す予備的な実験評価を行い,今後の方向性について有用な知見を導出する。

Neural Machine Translation (NMT) has reached a level of maturity to be recognized as the premier method for the translation between different languages and aroused interest in different research areas, including software engineering. A key step to validate the robustness of the NMT models consists in evaluating the performance of the models on adversarial inputs, i.e., inputs obtained from the original ones by adding small amounts of perturbation. However, when dealing with the specific task of the code generation (i.e., the generation of code starting from a description in natural language), it has not yet been defined an approach to validate the robustness of the NMT models. In this work, we address the problem by identifying a set of perturbations and metrics tailored for the robustness assessment of such models. We present a preliminary experimental evaluation, showing what type of perturbations affect the model the most and deriving useful insights for future directions.
翻訳日:2022-03-31 13:19:03 公開日:2022-03-30
# (参考訳) TransductGAN:ノベルティ検出のためのトランスダクティブ逆数モデル

TransductGAN: a Transductive Adversarial Model for Novelty Detection ( http://arxiv.org/abs/2203.15406v2 )

ライセンス: CC BY-SA 4.0
Najiba Toron, Janaina Mourao-Miranda, John Shawe-Taylor(参考訳) 機械学習において広く研究されているノベルティ検出は、これまで観測されていない新しい種類のデータを検出する問題である。 ノベルティ検出の一般的な設定は、トレーニング期間中に負のクラスの例のみが利用可能となる誘導的である。 一方、トランスダクティブノベルティ検出は、最近の関心の高まりを目撃したばかりでなく、トレーニング中に負のクラスを利用するだけでなく、新しい例を検出するための(ラベルのない)テストセットも組み込んでいる。 いくつかの研究がトランスダクティブ・セッティング・傘の下に現れ、インダクティブ・セッティング・傘よりも優位性を示している。 データに関する仮定によっては、これらの手法は異なる名前(トランスダクティブ・ノベルティ検出、半教師付きノベルティ検出、ポジティブ・ラベル付き学習、分布外検出など)で行われる。 generative adversarial network (gan) の使用により、これらの研究のセグメントは、新しいクラスの例を生成する方法を学ぶために、トランスダクティブな設定を採用した。 本研究では,トランスダクティブ・ジェネレーティブ・逆向ネットワークであるTransductGANを提案する。このトランスダクティブ・逆向ネットワークは,潜在空間における2つのガウスアンの混合を用いて,新規クラスと負クラスの両方から画像例を生成する方法を学ぶ。 GANネットワークに対向オートエンコーダを組み込むことで、新しいデータポイントの例を生成する能力は、新規性の視覚的表現を提供するだけでなく、決定規則レベルでモデルハイパーパラメータをチューニングする方法の多くの誘導的手法が直面するハードルを克服する。 我々のモデルは最先端のインダクティブ法やトランスダクティブ法よりも優れた性能を示した。 私たちの研究は完全に再現可能で、コードは公開されています。

Novelty detection, a widely studied problem in machine learning, is the problem of detecting a novel class of data that has not been previously observed. A common setting for novelty detection is inductive whereby only examples of the negative class are available during training time. Transductive novelty detection on the other hand has only witnessed a recent surge in interest, it not only makes use of the negative class during training but also incorporates the (unlabeled) test set to detect novel examples. Several studies have emerged under the transductive setting umbrella that have demonstrated its advantage over its inductive counterpart. Depending on the assumptions about the data, these methods go by different names (e.g. transductive novelty detection, semi-supervised novelty detection, positive-unlabeled learning, out-of-distribution detection). With the use of generative adversarial networks (GAN), a segment of those studies have adopted a transductive setup in order to learn how to generate examples of the novel class. In this study, we propose TransductGAN, a transductive generative adversarial network that attempts to learn how to generate image examples from both the novel and negative classes by using a mixture of two Gaussians in the latent space. It achieves that by incorporating an adversarial autoencoder with a GAN network, the ability to generate examples of novel data points offers not only a visual representation of novelties, but also overcomes the hurdle faced by many inductive methods of how to tune the model hyperparameters at the decision rule level. Our model has shown superior performance over state-of-the-art inductive and transductive methods. Our study is fully reproducible with the code available publicly.
翻訳日:2022-03-31 12:58:20 公開日:2022-03-30
# (参考訳) osop: 多段階ワンショットオブジェクトポーズ推定フレームワーク

OSOP: A Multi-Stage One Shot Object Pose Estimation Framework ( http://arxiv.org/abs/2203.15533v2 )

ライセンス: CC BY 4.0
Ivan Shugurov, Fu Li, Benjamin Busam, Slobodan Ilic(参考訳) 対象物検出のための新しいワンショット手法と,対象物に対する訓練を必要としない6DoFポーズ推定を提案する。 テスト時には、ターゲット画像とテクスチャ化された3Dクエリモデルを入力する。 中心となる考え方は、異なる視点からレンダリングされた多くの2Dテンプレートを持つ3Dモデルを表現することである。 これにより、CNNベースの直接濃密な特徴抽出とマッチングが可能になる。 物体はまず2Dで局所化され、その近似的な視点が推定され、次いで密度の高い2D-3D対応予測が行われる。 最後のポーズはPnPで計算される。 この手法はLineMOD, Occlusion, Homebrewed, YCB-V, TLESSのデータセットで評価し, テストに使用するオブジェクトモデルでは訓練されていないが, 合成データで訓練された最先端の手法と比較して非常に高い性能を示した。

We present a novel one-shot method for object detection and 6 DoF pose estimation, that does not require training on target objects. At test time, it takes as input a target image and a textured 3D query model. The core idea is to represent a 3D model with a number of 2D templates rendered from different viewpoints. This enables CNN-based direct dense feature extraction and matching. The object is first localized in 2D, then its approximate viewpoint is estimated, followed by dense 2D-3D correspondence prediction. The final pose is computed with PnP. We evaluate the method on LineMOD, Occlusion, Homebrewed, YCB-V and TLESS datasets and report very competitive performance in comparison to the state-of-the-art methods trained on synthetic data, even though our method is not trained on the object models used for testing.
翻訳日:2022-03-31 12:40:52 公開日:2022-03-30
# (参考訳) me-capsnet:ルーティング機構を備えたマルチエンハンスカプセルネットワーク

ME-CapsNet: A Multi-Enhanced Capsule Networks with Routing Mechanism ( http://arxiv.org/abs/2203.15547v2 )

ライセンス: CC BY 4.0
Jerrin Bright, Suryaprakash Rajkumar and Arockia Selvakumar Arockia Doss(参考訳) 畳み込みニューラルネットワークは、ネットワーク層におけるチャネルワイドおよび空間ワイドの情報によって決定される情報的特徴を構築する必要がある。 本研究では,各レイヤの受容領域内の空間成分とチャネル成分の両方を強化するために,高度な最適化を用いた新しい解法を提案する。 カプセルネットワークは特徴マップの特徴間の空間的関連を理解するために使われた。 スタンドアローンカプセルネットワークは、異常な量の特徴情報の結果として、複雑なデータセットよりも比較的単純なデータセットに対して良い結果を示した。 そこで我々は,ME-CapsNetを提案し,より深い畳み込み層を導入して重要な特徴を抽出し,戦略的にカプセル層のモジュールを通過し,ネットワークの性能を大幅に向上させた。 深層畳み込み層は、ソフトプールアプローチを用いて空間サイズを漸進的に縮小し、重要な特徴情報を損なうことなく相互依存性を再構築することにより、チャネルを動的に再調整するスクイーズ励起ネットワークのブロックを含む。 提案するme-capsnetの効率を示す一般的なデータセットを用いて大規模な実験を行い、複雑なデータセットにおけるモデルの複雑さを最小限に抑えながら、高い精度を達成することにより、様々な研究成果を明らかに上回っている。

Convolutional Neural Networks need the construction of informative features, which are determined by channel-wise and spatial-wise information at the network's layers. In this research, we focus on bringing in a novel solution that uses sophisticated optimization for enhancing both the spatial and channel components inside each layer's receptive field. Capsule Networks were used to understand the spatial association between features in the feature map. Standalone capsule networks have shown good results on comparatively simple datasets than on complex datasets as a result of the inordinate amount of feature information. Thus, to tackle this issue, we have proposed ME-CapsNet by introducing deeper convolutional layers to extract important features before passing through modules of capsule layers strategically to improve the performance of the network significantly. The deeper convolutional layer includes blocks of Squeeze-Excitation networks which uses a soft-pooling approach for progressively reducing the spatial size thereby dynamically recalibrating the channels by reconstructing their interdependencies without much loss of important feature information. Extensive experimentation was done using commonly used datasets demonstrating the efficiency of the proposed ME-CapsNet, which clearly outperforms various research works by achieving higher accuracy with minimal model complexity in complex datasets.
翻訳日:2022-03-31 12:27:13 公開日:2022-03-30
# (参考訳) 時空間交通時系列予測に向けて-フルバージョン

Towards Spatio-Temporal Aware Traffic Time Series Forecasting--Full Version ( http://arxiv.org/abs/2203.15737v2 )

ライセンス: CC0 1.0
Razvan-Gabriel Cirstea, Bin Yang, Chenjuan Guo, Tung Kieu, Shirui Pan(参考訳) 交通時系列の予測は、異なる場所からの複雑な時空間的時系列は、しばしば異なるパターンを持つため困難であり、同時に、パターンは時間によって異なる可能性がある。 最近の予測モデル、特に深層学習に基づくモデルは有望な結果を示すが、時空間非依存である。 このような時空間非依存モデルは、時系列の位置や期間に関係なく共有パラメータ空間を採用しており、時空間パターンは場所間で類似しており、時間を超えて進化しないと仮定している。 本研究では,時空間非依存モデルから時空間認識モデルへの変換を目的としたフレームワークを提案する。 そのため、異なる位置からの時系列を確率変数にエンコードし、そこから位置特化および時間変動モデルパラメータを生成し、時空間力学をよりよく捉える。 時空間的注意力を高めるために,フレームワークを標準的注意力と統合する方法を示す。 次に、時空間認識モデルパラメータ生成プロセスによってもたらされる追加のオーバーヘッドを補うために、二次から線形までの複雑さを低減し、時空間認識の注意を競争力のあるものにする新しいウィンドウアテンションスキームを提案する。 提案手法は,4つの交通時系列データセットに対して強い実証的証拠を示し,その精度と効率の点で,時空間的注意が最先端の手法より優れていることを示す。 これは"towards spatio-temporal aware traffic time series forecasting"の延長版であり、追加の実験結果を含むicde 2022 [1]に登場した。

Traffic time series forecasting is challenging due to complex spatio-temporal dynamics time series from different locations often have distinct patterns; and for the same time series, patterns may vary across time, where, for example, there exist certain periods across a day showing stronger temporal correlations. Although recent forecasting models, in particular deep learning based models, show promising results, they suffer from being spatio-temporal agnostic. Such spatio-temporal agnostic models employ a shared parameter space irrespective of the time series locations and the time periods and they assume that the temporal patterns are similar across locations and do not evolve across time, which may not always hold, thus leading to sub-optimal results. In this work, we propose a framework that aims at turning spatio-temporal agnostic models to spatio-temporal aware models. To do so, we encode time series from different locations into stochastic variables, from which we generate location-specific and time-varying model parameters to better capture the spatio-temporal dynamics. We show how to integrate the framework with canonical attentions to enable spatio-temporal aware attentions. Next, to compensate for the additional overhead introduced by the spatio-temporal aware model parameter generation process, we propose a novel window attention scheme, which helps reduce the complexity from quadratic to linear, making spatio-temporal aware attentions also have competitive efficiency. We show strong empirical evidence on four traffic time series datasets, where the proposed spatio-temporal aware attentions outperform state-of-the-art methods in term of accuracy and efficiency. This is an extended version of "Towards Spatio-Temporal Aware Traffic Time Series Forecasting", to appear in ICDE 2022 [1], including additional experimental results.
翻訳日:2022-03-31 12:17:25 公開日:2022-03-30
# ぼやけたタスク境界を持つ汚染データストリーム上でのオンライン連続学習

Online Continual Learning on a Contaminated Data Stream with Blurry Task Boundaries ( http://arxiv.org/abs/2203.15355v2 )

ライセンス: Link先を確認
Jihwan Bang, Hyunseo Koh, Seulki Park, Hwanjun Song, Jung-Woo Ha, Jonghyun Choi(参考訳) 不正確なラベルで継続的に変化するデータ分布の下で学ぶことは、現実世界で望ましい問題である。 しかし、多くの連続学習(cl)手法では、クリーンなラベルでデータストリームを想定しており、ノイズの多いデータストリームの下でのオンライン学習シナリオは未検討のままである。 我々は、既存のCLメソッドが苦労しているラベル付きぼやけたデータストリームからオンライン学習のより実用的なCLタスク設定を検討する。 この課題に対処するために、我々はまず、連続学習モデルのエピソード記憶におけるサンプルの多様性と純度の重要性を論じる。 エピソジックメモリの多様性と純度をバランスさせるため,ラベルノイズを認識した多種多様なサンプリングとロバスト学習と半教師付き学習の統一的アプローチにより,メモリの管理と利用を行う新しい手法を提案する。 実世界の4つの合成ノイズデータセット(CIFAR10,100,mini-WebVision,Food-101N)に対する実証的検証により,本手法は,この現実的で挑戦的な連続学習シナリオにおいて,先行技術よりも著しく優れていることが示された。 コードとデータの分割はhttps://github.com/clovaai/puridiverで確認できる。

Learning under a continuously changing data distribution with incorrect labels is a desirable real-world problem yet challenging. A large body of continual learning (CL) methods, however, assumes data streams with clean labels, and online learning scenarios under noisy data streams are yet underexplored. We consider a more practical CL task setup of an online learning from blurry data stream with corrupted labels, where existing CL methods struggle. To address the task, we first argue the importance of both diversity and purity of examples in the episodic memory of continual learning models. To balance diversity and purity in the episodic memory, we propose a novel strategy to manage and use the memory by a unified approach of label noise aware diverse sampling and robust learning with semi-supervised learning. Our empirical validations on four real-world or synthetic noise datasets (CIFAR10 and 100, mini-WebVision, and Food-101N) exhibit that our method significantly outperforms prior arts in this realistic and challenging continual learning scenario. Code and data splits are available in https://github.com/clovaai/puridiver.
翻訳日:2022-03-31 11:45:34 公開日:2022-03-30
# wsebp:多層畳み込みスパース符号化のための新しい幅深度同期拡張ベース追従アルゴリズム

WSEBP: A Novel Width-depth Synchronous Extension-based Basis Pursuit Algorithm for Multi-Layer Convolutional Sparse Coding ( http://arxiv.org/abs/2203.14856v2 )

ライセンス: Link先を確認
Haitong Tang, Shuang He, Lingbin Bian, Zhiming Cui, Nizhuan Wang(参考訳) 多層畳み込みスパース符号化(ML-CSC)に組み込まれた追従アルゴリズムは、畳み込みニューラルネットワーク(CNN)を解釈することができる。 しかし、ML-CSCのソリューションを最適化するためには、多くの現在の最先端(SOTA)追従アルゴリズムが複数のイテレーションを必要とする。 本研究では,ML-CSCの解法を改善するため,各層に対して効率的な初期化戦略を導入することにより,探索アルゴリズムにおける0番目の繰り返しに着目した。 具体的には,somaアルゴリズムと比較して,反復数を制限せずにml-csc問題を解き,各層における効果的な初期化による性能を最大化する,新しい幅深度同期拡張ベース基底追従法(wsebp)を提案する。 そこで我々は,ML-CSCをベースとした特徴エンコーダと,画像分類タスクにおけるWSEBPの性能を評価するための完全接続層からなる,シンプルで統一的なML-CSCベースの分類ネットワーク(ML-CSC-Net)を提案する。 実験の結果,提案する WSEBP は精度と消費資源の点で SOTA アルゴリズムより優れていることがわかった。 さらに、CNNに統合されたWSEBPは、より深いCNNの性能を改善し、それらを解釈できるようにする。 最後に、VGGを例として、VGG13の性能を高めるためにWSEBP-VGG13を提案する。これは、4つのパブリックデータセット、すなわちCifar-10データセットで87.79%対86.83%、Cifar-100データセットで58.01%対54.60%、COVID-19データセットで91.52%対89.58%、スクラッチデータセットで99.88%対99.78%である。 その結果,提案した WSEBP の有効性,WSEBP を用いた ML-CSC の性能向上,CNN やより深い CNN の解釈が示された。

The pursuit algorithms integrated in multi-layer convolutional sparse coding (ML-CSC) can interpret the convolutional neural networks (CNNs). However, many current state-of-art (SOTA) pursuit algorithms require multiple iterations to optimize the solution of ML-CSC, which limits their applications to deeper CNNs due to high computational cost and large number of resources for getting very tiny gain of performance. In this study, we focus on the 0th iteration in pursuit algorithm by introducing an effective initialization strategy for each layer, by which the solution for ML-CSC can be improved. Specifically, we first propose a novel width-depth synchronous extension-based basis pursuit (WSEBP) algorithm which solves the ML-CSC problem without the limitation of the number of iterations compared to the SOTA algorithms and maximizes the performance by an effective initialization in each layer. Then, we propose a simple and unified ML-CSC-based classification network (ML-CSC-Net) which consists of an ML-CSC-based feature encoder and a fully-connected layer to validate the performance of WSEBP on image classification task. The experimental results show that our proposed WSEBP outperforms SOTA algorithms in terms of accuracy and consumption resources. In addition, the WSEBP integrated in CNNs can improve the performance of deeper CNNs and make them interpretable. Finally, taking VGG as an example, we propose WSEBP-VGG13 to enhance the performance of VGG13, which achieves competitive results on four public datasets, i.e., 87.79% vs. 86.83% on Cifar-10 dataset, 58.01% vs. 54.60% on Cifar-100 dataset, 91.52% vs. 89.58% on COVID-19 dataset, and 99.88% vs. 99.78% on Crack dataset, respectively. The results show the effectiveness of the proposed WSEBP, the improved performance of ML-CSC with WSEBP, and interpretation of the CNNs or deeper CNNs.
翻訳日:2022-03-31 11:45:11 公開日:2022-03-30
# 機械学習を用いたcovid-19自動温熱スクリーニング

Automated Thermal Screening for COVID-19 using Machine Learning ( http://arxiv.org/abs/2203.14128v2 )

ライセンス: Link先を確認
Pratik Katte, Siva Teja Kakileti, Himanshu J. Madhu, and Geetha Manjunath(参考訳) 過去2年間で、新型コロナウイルスにより数百万人の命が失われた。 1年間のワクチン接種にもかかわらず、新型ウイルスによる入院率と死亡率は依然として高い。 厳格なガイドラインや、すべての公共の場所での温度チェックやマスクチェックなどの新型コロナウイルスのスクリーニング措置は、新型コロナウイルスの感染拡大を減らすのに役立っている。 これらのスクリーニング対策を確実にするための視覚検査は、課税と誤認である。 自動検査は効果的で正確なスクリーニングを保証する。 従来のアプローチでは、視覚カメラ画像から顔やマスクを識別し、熱画像カメラから温度値を抽出する。 主モダリティとしての視覚画像の利用は、良い照明条件に限られる。 これらのスクリーニングのための熱画像のみの使用は、システムは照明に不変である。 しかし、そのようなシステムを開発する上では、オープンソースデータセットの欠如が問題となる。 本稿では、顔やマスクの検出やその後の温度スクリーニングに熱ビデオストリームを用いた機械学習を応用し、公共の場で効果的なcovid-19スクリーニング手法を実現するための、パッシブな非侵襲的な方法を提案する。 NTICデータセットをオープンソースにして、モデルをトレーニングし、8つの異なる場所で収集しました。 以上の結果から,高照明下では,熱画像の利用が視覚画像と同じくらい有効であることが示された。 この性能は低照度条件下でも熱画像では変わらないが、視覚訓練された分類器の性能は50%以上劣化している。

In the last two years, millions of lives have been lost due to COVID-19. Despite the vaccination programmes for a year, hospitalization rates and deaths are still high due to the new variants of COVID-19. Stringent guidelines and COVID-19 screening measures such as temperature check and mask check at all public places are helping reduce the spread of COVID-19. Visual inspections to ensure these screening measures can be taxing and erroneous. Automated inspection ensures an effective and accurate screening. Traditional approaches involve identification of faces and masks from visual camera images followed by extraction of temperature values from thermal imaging cameras. Use of visual imaging as a primary modality limits these applications only for good-lighting conditions. The use of thermal imaging alone for these screening measures makes the system invariant to illumination. However, lack of open source datasets is an issue to develop such systems. In this paper, we discuss our work on using machine learning over thermal video streams for face and mask detection and subsequent temperature screening in a passive non-invasive way that enables an effective automated COVID-19 screening method in public places. We open source our NTIC dataset that was used for training our models and was collected at 8 different locations. Our results show that the use of thermal imaging is as effective as visual imaging in the presence of high illumination. This performance stays the same for thermal images even under low-lighting conditions, whereas the performance with visual trained classifiers show more than 50% degradation.
翻訳日:2022-03-31 11:44:27 公開日:2022-03-30
# 動的コードクラウドを用いた3次元形状の深い暗黙関数の学習

Learning Deep Implicit Functions for 3D Shapes with Dynamic Code Clouds ( http://arxiv.org/abs/2203.14048v2 )

ライセンス: Link先を確認
Tianyang Li, Xin Wen, Yu-Shen Liu, Hua Su, Zhizhong Han(参考訳) Deep Implicit Function (DIF) は効率的な3次元形状表現として人気を集めている。 幾何学の詳細を捉えるために、現在の手法では、通常の3dグリッド(octree)に空間を区別し、ローカルコードをグリッドポイント(octreeノード)に格納するローカル潜在コードを使ってdifを学習する。 クエリポイントが与えられると、ローカル機能は、隣接するローカルコードとその位置を補間することで計算される。 しかし、ローカルコードはグリッドポイントのような離散的かつ規則的な位置で制約されているため、最適化が困難になり、表現能力が制限される。 そこで本研究では,Defを動的コードクラウドで学習するDCC-DIFを提案する。 提案手法は,局所符号と学習可能な位置ベクトルを明示的に関連付け,位置ベクトルは連続であり,動的に最適化され,表現能力が向上する。 さらに,複雑な幾何学的詳細の周囲に分散するように,より局所的なコードをヒューリスティックに誘導する,符号位置を最適化する新しい符号位置損失を提案する。 従来の手法とは対照的に,dcc-difは少ない局所符号で3次元形状をより効率的に表現し,再構成品質を向上させる。 実験により、DCC-DIFは従来の手法よりも優れた性能を発揮することが示された。 コードとデータはhttps://github.com/lity20/dccdifで入手できる。

Deep Implicit Function (DIF) has gained popularity as an efficient 3D shape representation. To capture geometry details, current methods usually learn DIF using local latent codes, which discretize the space into a regular 3D grid (or octree) and store local codes in grid points (or octree nodes). Given a query point, the local feature is computed by interpolating its neighboring local codes with their positions. However, the local codes are constrained at discrete and regular positions like grid points, which makes the code positions difficult to be optimized and limits their representation ability. To solve this problem, we propose to learn DIF with Dynamic Code Cloud, named DCC-DIF. Our method explicitly associates local codes with learnable position vectors, and the position vectors are continuous and can be dynamically optimized, which improves the representation ability. In addition, we propose a novel code position loss to optimize the code positions, which heuristically guides more local codes to be distributed around complex geometric details. In contrast to previous methods, our DCC-DIF represents 3D shapes more efficiently with a small amount of local codes, and improves the reconstruction quality. Experiments demonstrate that DCC-DIF achieves better performance over previous methods. Code and data are available at https://github.com/lity20/DCCDIF.
翻訳日:2022-03-31 11:44:09 公開日:2022-03-30
# 視覚言語事前学習のための単一ストリーム多レベルアライメント

Single-Stream Multi-Level Alignment for Vision-Language Pretraining ( http://arxiv.org/abs/2203.14395v2 )

ライセンス: Link先を確認
Zaid Khan, Vijay Kumar BG, Xiang Yu, Samuel Schulter, Manmohan Chandraker, Yun Fu(参考訳) 大規模視覚言語事前学習の最近の進歩は、下流視覚言語タスクにおける視覚とテキストの調整の重要性を示している。 多くの方法は、表現学習後に視覚トークンと言語トークンを融合させるデュアルストリームアーキテクチャを使用し、グローバルレベルでのみ整列し、より微細な意味論を抽出できない。 対照的に,複数のレベルでのモダリティを整列する単一ストリームモデルを提案する。 i) インスタンスレベル ii) きめ細かいパッチレベル iii)概念意味レベル。 対称クロスモダリティ再構築と疑似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。 前者では、モダリティの1つから入力トークンをマスキングし、クロスモーダル情報を用いてマスクトークンを再構築し、2つのモダリティ間の微粒化アライメントを改善する。 後段では、キャプションを解析していくつかのキーワードを選択し、モーメントエンコーダ擬似信号と共に入力し、視覚エンコーダを自己監督し、テキストトークンを画像領域に基底付けるのに不可欠な、リッチなセマンティックな概念を学習させる。 我々は,ゼロショット/微調整画像/テキスト検索,参照表現,vqaなどの視覚言語下流タスクにおいて,トップパフォーマンスを示す。 また、提案したモデルが複数のレベルでモダリティを整列させる方法を示す。

Recent progress in large-scale vision-language pre-training has shown the importance of aligning the visual and text modalities for downstream vision-language tasks. Many methods use a dual-stream architecture that fuses visual tokens and language tokens after representation learning, which aligns only at a global level and cannot extract finer-scale semantics. In contrast, we propose a single stream model that aligns the modalities at multiple levels: i) instance level, ii) fine-grained patch level, iii) conceptual semantic level. We achieve this using two novel tasks: symmetric cross-modality reconstruction and a pseudo-labeled key word prediction. In the former part, we mask the input tokens from one of the modalities and use the cross-modal information to reconstruct the masked token, thus improving fine-grained alignment between the two modalities. In the latter part, we parse the caption to select a few key words and feed it together with the momentum encoder pseudo signal to self-supervise the visual encoder, enforcing it to learn rich semantic concepts that are essential for grounding a textual token to an image region. We demonstrate top performance on a set of Vision-Language downstream tasks such as zero-shot/fine-tuned image/text retrieval, referring expression, and VQA. We also demonstrate how the proposed models can align the modalities at multiple levels.
翻訳日:2022-03-31 11:43:45 公開日:2022-03-30
# 粗視トランスフォーマを用いたアフィン医用画像登録

Affine Medical Image Registration with Coarse-to-Fine Vision Transformer ( http://arxiv.org/abs/2203.15216v2 )

ライセンス: Link先を確認
Tony C. W. Mok, Albert C. S. Chung(参考訳) アフィンの登録は総合的な医用画像登録パイプラインで必須である。 しかし、高速かつ堅牢なアフィン登録アルゴリズムに焦点をあてる研究はほとんどない。 これらの研究の多くは、畳み込みニューラルネットワーク(CNN)を用いて、結合アフィンと非パラメトリック登録を学習する一方、アフィンサブネットのスタンドアロン性能は調査されていない。 さらに、既存のCNNベースのアフィン登録手法は、空間初期化に敏感なアフィン変換行列を予測し、トレーニングデータセットとは別に限定的な一般化性を示すために、入力の局所的ミスアライメントまたはグローバルな向きと位置にフォーカスする。 本稿では,3次元医用画像登録のための高速かつ堅牢な学習ベースアルゴリズムであるCoarse-to-Fine Vision Transformer(C2FViT)を提案する。 本手法は,畳み込み視覚トランスのグローバル接続性と局所性を自然に活用し,マルチレゾリューション戦略を用いてグローバルアフィン登録を学習する。 3次元脳アトラス登録法とテンプレートマッチング正規化法について検討した。 その結果,本手法は既存のcnnsベースのアフィン登録手法よりも,登録精度,ロバスト性,一般化性において優れており,学習に基づく手法のランタイム・アドバンテージは保たれている。 ソースコードはhttps://github.com/cwmok/c2fvitで入手できる。

Affine registration is indispensable in a comprehensive medical image registration pipeline. However, only a few studies focus on fast and robust affine registration algorithms. Most of these studies utilize convolutional neural networks (CNNs) to learn joint affine and non-parametric registration, while the standalone performance of the affine subnetwork is less explored. Moreover, existing CNN-based affine registration approaches focus either on the local misalignment or the global orientation and position of the input to predict the affine transformation matrix, which are sensitive to spatial initialization and exhibit limited generalizability apart from the training dataset. In this paper, we present a fast and robust learning-based algorithm, Coarse-to-Fine Vision Transformer (C2FViT), for 3D affine medical image registration. Our method naturally leverages the global connectivity and locality of the convolutional vision transformer and the multi-resolution strategy to learn the global affine registration. We evaluate our method on 3D brain atlas registration and template-matching normalization. Comprehensive results demonstrate that our method is superior to the existing CNNs-based affine registration methods in terms of registration accuracy, robustness and generalizability while preserving the runtime advantage of the learning-based methods. The source code is available at https://github.com/cwmok/C2FViT.
翻訳日:2022-03-31 11:41:35 公開日:2022-03-30
# シーンテキスト検出のための機能サンプリングとグループ化(動画あり)

Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detection ( http://arxiv.org/abs/2203.15221v2 )

ライセンス: Link先を確認
Jingqun Tang, Wenqing Zhang, Hongye Liu, MingKun Yang, Bo Jiang, Guanglong Hu, Xiang Bai(参考訳) 近年, トランスフォーマーに基づく手法は, NMSのような後処理を排除し, 深層表現を充実させることができるため, オブジェクト検出の進歩が期待できる。 しかし,これらの手法は,そのスケールとアスペクト比の極端にばらつきがあるため,シーンテキストにうまく対応できない。 本稿では,シーンテキスト検出のための簡易かつ効果的なトランスフォーマーアーキテクチャを提案する。 シーンテキストのロバストな深層表現を包括的に学習する従来のアプローチとは異なり,提案手法では,背景による乱れを回避し,計算コストを低減できる代表的特徴に基づくシーンテキスト検出を行う。 具体的には、まず、フォアグラウンドテキストに非常に関係のあるあらゆるスケールで、いくつかの代表的特徴を選択します。 そして、サンプル特徴の関係をモデル化するために変換器を採用し、効果的にそれらを合理的なグループに分割する。 各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。 特徴抽出のための基本的特徴ピラミッドネットワークを用いて,シーンテキスト検出のためのいくつかの一般的なデータセットの最先端の結果を一貫して達成する。

Recently, transformer-based methods have achieved promising progresses in object detection, as they can eliminate the post-processes like NMS and enrich the deep representations. However, these methods cannot well cope with scene text due to its extreme variance of scales and aspect ratios. In this paper, we present a simple yet effective transformer-based architecture for scene text detection. Different from previous approaches that learn robust deep representations of scene text in a holistic manner, our method performs scene text detection based on a few representative features, which avoids the disturbance by background and reduces the computational cost. Specifically, we first select a few representative features at all scales that are highly relevant to foreground text. Then, we adopt a transformer for modeling the relationship of the sampled features, which effectively divides them into reasonable groups. As each feature group corresponds to a text instance, its bounding box can be easily obtained without any post-processing operation. Using the basic feature pyramid network for feature extraction, our method consistently achieves state-of-the-art results on several popular datasets for scene text detection.
翻訳日:2022-03-31 11:41:10 公開日:2022-03-30
# 学習メモリを用いた微調整画像変換器

Fine-tuning Image Transformers using Learnable Memory ( http://arxiv.org/abs/2203.15243v2 )

ライセンス: Link先を確認
Mark Sandler, Andrey Zhmoginov, Max Vladymyrov, Andrew Jackson(参考訳) 本稿では,学習可能なメモリトークンを用いた視覚トランスフォーマーモデルの拡張を提案する。 我々のアプローチでは、モデルが新しいタスクに適応し、パラメータが少なく、オプションで以前に学習したタスクでその機能を保存することができる。 各レイヤに学習可能な埋め込みベクターセットを導入し、特定のデータセットに有用なコンテキスト情報を提供します。 これらを“メモリトークン”と呼びます。 従来の頭部のみの微調整に比べて, 層当たりのトークン数が少ないモデルでは精度が著しく向上し, より高価な完全微調整よりもわずかに低い性能を示した。 次に,計算の再利用により,新しいダウンストリームタスクへの拡張を可能にするアテンションマスキング手法を提案する。 この設定では、パラメータ効率に加えて、モデルは小さなインクリメンタルコストで単一推論の一部として古いタスクと新しいタスクの両方を実行することができる。

In this paper we propose augmenting Vision Transformer models with learnable memory tokens. Our approach allows the model to adapt to new tasks, using few parameters, while optionally preserving its capabilities on previously learned tasks. At each layer we introduce a set of learnable embedding vectors that provide contextual information useful for specific datasets. We call these "memory tokens". We show that augmenting a model with just a handful of such tokens per layer significantly improves accuracy when compared to conventional head-only fine-tuning, and performs only slightly below the significantly more expensive full fine-tuning. We then propose an attention-masking approach that enables extension to new downstream tasks, with a computation reuse. In this setup in addition to being parameters efficient, models can execute both old and new tasks as a part of single inference at a small incremental cost.
翻訳日:2022-03-31 11:40:52 公開日:2022-03-30
# MAT:大型ホール画像塗布用マスク対応変圧器

MAT: Mask-Aware Transformer for Large Hole Image Inpainting ( http://arxiv.org/abs/2203.15270v2 )

ライセンス: Link先を確認
Wenbo Li, Zhe Lin, Kun Zhou, Lu Qi, Yi Wang, Jiaya Jia(参考訳) 近年の研究では、塗装問題における長距離相互作用のモデル化の重要性が示されている。 この目的を達成するために、既存のアプローチはスタンドアロンの注意技法または変圧器を利用するが、計算コストを考慮すると通常は低解像度である。 本稿では,超高分解能画像を効率的に処理するための変圧器と畳み込みの利点を統一した,新しい大孔インペインティング用変圧器モデルを提案する。 我々は、回収された画像の忠実度と多様性を保証するために、フレームワークの各コンポーネントを慎重に設計する。 具体的にはインテンションモジュールが動的マスクで示される部分的有効トークンのみから非局所情報を集約するインパインティング指向トランスフォーマーブロックをカスタマイズする。 大規模な実験は、複数のベンチマークデータセット上で新しいモデルの最先端のパフォーマンスを示す。 コードはhttps://github.com/fenglinglwb/matでリリースされる。

Recent studies have shown the importance of modeling long-range interactions in the inpainting problem. To achieve this goal, existing approaches exploit either standalone attention techniques or transformers, but usually under a low resolution in consideration of computational cost. In this paper, we present a novel transformer-based model for large hole inpainting, which unifies the merits of transformers and convolutions to efficiently process high-resolution images. We carefully design each component of our framework to guarantee the high fidelity and diversity of recovered images. Specifically, we customize an inpainting-oriented transformer block, where the attention module aggregates non-local information only from partial valid tokens, indicated by a dynamic mask. Extensive experiments demonstrate the state-of-the-art performance of the new model on multiple benchmark datasets. Code is released at https://github.com/fenglinglwb/MAT.
翻訳日:2022-03-31 11:40:39 公開日:2022-03-30
# SIOD: オブジェクト検出のためのカテゴリ毎のイメージにアノテートされた単一インスタンス

SIOD: Single Instance Annotated Per Category Per Image for Object Detection ( http://arxiv.org/abs/2203.15353v2 )

ライセンス: Link先を確認
Hanjun Li, Xingjia Pan, Ke Yan, Fan Tang, Wei-Shi Zheng(参考訳) 不完全なデータによる物体検出は近年注目されている。 半教師付きオブジェクト検出 (SSOD) は, ラベル付きデータとラベルなしデータとの相互差が原因で困難でありながら, インスタンスレベルのアノテーションが欠如しているため, 厳密なローカライズ問題に悩まされている。 本研究では,画像内の既存カテゴリごとに1つのインスタンスアノテーションを必要とする単一インスタンスアノテートオブジェクト検出(SIOD)を提案する。 WSOD(Inter-task)やSSOD(Inter-image)の相違点からイメージ内の相違点まで、SIODは、未ラベルのインスタンスの残りをマイニングするための信頼性と豊富な事前知識を提供し、アノテーションのコストとパフォーマンスをトレードオフする。 SIOD設定では、類似性に基づくPseudo Label Generating Module (SPLG) と Pixel レベルの Group Contrastive Learning Module (PGCL) から構成される、シンプルで効果的なDual-Mining (DMiner) というフレームワークを提案する。 SPLGはまず、アノテーションの欠落の問題を軽減するために、潜在インスタンスを特徴表現空間から抽出する。 不正確な擬似ラベルによる誤解を避けるため,偽擬似ラベルに対する耐性を高めるためにPGCLを提案する。 MS COCOにおける広範囲な実験により,SIOD設定の有効性と提案手法の優位性が検証され,ベースライン法と比較して一貫した,有意な改善が得られ,40%のインスタンスにアノテートしたフル教師付きオブジェクト検出(FSOD)法と同等の結果が得られた。

Object detection under imperfect data receives great attention recently. Weakly supervised object detection (WSOD) suffers from severe localization issues due to the lack of instance-level annotation, while semi-supervised object detection (SSOD) remains challenging led by the inter-image discrepancy between labeled and unlabeled data. In this study, we propose the Single Instance annotated Object Detection (SIOD), requiring only one instance annotation for each existing category in an image. Degraded from inter-task (WSOD) or inter-image (SSOD) discrepancies to the intra-image discrepancy, SIOD provides more reliable and rich prior knowledge for mining the rest of unlabeled instances and trades off the annotation cost and performance. Under the SIOD setting, we propose a simple yet effective framework, termed Dual-Mining (DMiner), which consists of a Similarity-based Pseudo Label Generating module (SPLG) and a Pixel-level Group Contrastive Learning module (PGCL). SPLG firstly mines latent instances from feature representation space to alleviate the annotation missing problem. To avoid being misled by inaccurate pseudo labels, we propose PGCL to boost the tolerance to false pseudo labels. Extensive experiments on MS COCO verify the feasibility of the SIOD setting and the superiority of the proposed method, which obtains consistent and significant improvements compared to baseline methods and achieves comparable results with fully supervised object detection (FSOD) methods with only 40% instances annotated.
翻訳日:2022-03-31 11:40:25 公開日:2022-03-30
# 大規模モデルのロードマップ

A Roadmap for Big Model ( http://arxiv.org/abs/2203.14101v2 )

ライセンス: Link先を確認
Sha Yuan, Hanyu Zhao, Shuai Zhao, Jiahong Leng, Yangxiao Liang, Xiaozhi Wang, Jifan Yu, Xin Lv, Zhou Shao, Jiaao He, Yankai Lin, Xu Han, Zhenghao Liu, Ning Ding, Yongming Rao, Yizhao Gao, Liang Zhang, Ming Ding, Cong Fang, Yisen Wang, Mingsheng Long, Jing Zhang, Yinpeng Dong, Tianyu Pang, Peng Cui, Lingxiao Huang, Zheng Liang, Huawei Shen, Hui Zhang, Quanshi Zhang, Qingxiu Dong, Zhixing Tan, Mingxuan Wang, Shuo Wang, Long Zhou, Haoran Li, Junwei Bao, Yingwei Pan, Weinan Zhang, Zhou Yu, Rui Yan, Chence Shi, Minghao Xu, Zuobai Zhang, Guoqiang Wang, Xiang Pan, Mengjie Li, Xiaoyu Chu, Zijun Yao, Fangwei Zhu, Shulin Cao, Weicheng Xue, Zixuan Ma, Zhengyan Zhang, Shengding Hu, Yujia Qin, Chaojun Xiao, Zheni Zeng, Ganqu Cui, Weize Chen, Weilin Zhao, Yuan Yao, Peng Li, Wenzhao Zheng, Wenliang Zhao, Ziyi Wang, Borui Zhang, Nanyi Fei, Anwen Hu, Zenan Ling, Haoyang Li, Boxi Cao, Xianpei Han, Weidong Zhan, Baobao Chang, Hao Sun, Jiawen Deng, Juanzi Li, Lei Hou, Xigang Cao, Jidong Zhai, Zhiyuan Liu, Maosong Sun, Jiwen Lu, Zhiwu Lu, Qin Jin, Ruihua Song, Ji-Rong Wen, Zhouchen Lin, Liwei Wang, Hang Su, Jun Zhu, Zhifang Sui, Jiajun Zhang, Yang Liu, Xiaodong He, Minlie Huang, Jian Tang and Jie Tang(参考訳) ディープラーニングの急速な発展により、複数のダウンストリームタスクに対する大規模モデル(bms)のトレーニングがポピュラーなパラダイムになりつつある。 研究者は、多くの分野でBMとBMアプリケーションの構築において様々な成果を上げてきた。 現在、bmsの全体的な進歩を整理し、後続の研究を導く研究作業が不足している。 本稿では,bm技術自体だけでなく,bmによるbmトレーニングやアプリケーションに必要な前提条件についても取り上げ,bmレビューをリソース,モデル,キー技術,アプリケーションという4つの部分に分割する。 データ,知識,コンピュータシステム,並列学習システム,言語モデル,ビジョンモデル,マルチモーダルモデル,理論と解釈可能性,常識推論,信頼性とセキュリティ,ガバナンス,評価,機械翻訳,テキスト生成,対話,タンパク質研究の4分野に16のBM関連トピックを紹介する。 それぞれのトピックにおいて、現在の研究を明確に要約し、今後の研究方向性を提案する。 本稿の最後には,BMのさらなる開発について,より一般的な視点でまとめる。

With the rapid development of deep learning, training Big Models (BMs) for multiple downstream tasks becomes a popular paradigm. Researchers have achieved various outcomes in the construction of BMs and the BM application in many fields. At present, there is a lack of research work that sorts out the overall progress of BMs and guides the follow-up research. In this paper, we cover not only the BM technologies themselves but also the prerequisites for BM training and applications with BMs, dividing the BM review into four parts: Resource, Models, Key Technologies and Application. We introduce 16 specific BM-related topics in those four parts, they are Data, Knowledge, Computing System, Parallel Training System, Language Model, Vision Model, Multi-modal Model, Theory&Interpretability, Commonsense Reasoning, Reliability&Security, Governance, Evaluation, Machine Translation, Text Generation, Dialogue and Protein Research. In each topic, we summarize clearly the current studies and propose some future research directions. At the end of this paper, we conclude the further development of BMs in a more general view.
翻訳日:2022-03-31 11:39:51 公開日:2022-03-30
# 木探索とグラフニューラルネットワークを用いた時間制御性制限下での不確実性を持つ分断時間ネットワークの解法

Solving Disjunctive Temporal Networks with Uncertainty under Restricted Time-Based Controllability using Tree Search and Graph Neural Networks ( http://arxiv.org/abs/2203.15030v2 )

ライセンス: Link先を確認
Kevin Osanlou, Jeremy Frank, Andrei Bursuc, Tristan Cazenave, Eric Jacopin, Christophe Guettier and J. Benton(参考訳) 不確実性の下での計画は人工知能への関心の領域である。 本研究では,不確実性のある時間ネットワーク(DTNU)と呼ばれるスケジューリング問題に対して,木探索とグラフ機械学習に基づく新しい手法を提案する。 DTNUの動的制御可能性(DC)は、制御不能な動作時間に対する時間的制約を満たすために、リアクティブなスケジューリング戦略を求める。 本稿では、時間に基づく動的制御可能性(TDC)とTDCの制限されたサブセットであるR-TDCを紹介する。 DTNUがR-TDCであるか否かを判定する木探索アルゴリズムを設計する。 さらに,木探索誘導のヒューリスティックとしてグラフニューラルネットワークを利用する。 最後に、R-TDCがDCに関して顕著な完全性を維持しつつ、証明が高速であることを示す既知のベンチマーク実験を行う。 その結果,直流の直流分解器が同じ時間予算で行うよりも,R-TDCのDTNU問題の方が50%多いことがわかった。 また,グラフニューラルネットワークの探索誘導は,より複雑なDTNUのベンチマークにおいて,ベースライン木探索の最大11倍の問題を解き、大幅な性能向上をもたらすことも確認した。

Planning under uncertainty is an area of interest in artificial intelligence. We present a novel approach based on tree search and graph machine learning for the scheduling problem known as Disjunctive Temporal Networks with Uncertainty (DTNU). Dynamic Controllability (DC) of DTNUs seeks a reactive scheduling strategy to satisfy temporal constraints in response to uncontrollable action durations. We introduce new semantics for reactive scheduling: Time-based Dynamic Controllability (TDC) and a restricted subset of TDC, R-TDC. We design a tree search algorithm to determine whether or not a DTNU is R-TDC. Moreover, we leverage a graph neural network as a heuristic for tree search guidance. Finally, we conduct experiments on a known benchmark on which we show R-TDC to retain significant completeness with regard to DC, while being faster to prove. This results in the tree search processing fifty percent more DTNU problems in R-TDC than the state-of-the-art DC solver does in DC with the same time budget. We also observe that graph neural network search guidance leads to substantial performance gains on benchmarks of more complex DTNUs, with up to eleven times more problems solved than the baseline tree search.
翻訳日:2022-03-31 11:39:35 公開日:2022-03-30
# マルチパースペクティブ・ダイアログ要約を改善するヒューリスティック・インタートレーニング

Heuristic-based Inter-training to Improve Few-shot Multi-perspective Dialog Summarization ( http://arxiv.org/abs/2203.15590v2 )

ライセンス: Link先を確認
Benjamin Sznajder, Chulaka Gunasekara, Guy Lev, Sachin Joshi, Eyal Shnarch, Noam Slonim(参考訳) 多くの組織は、顧客との会話を手作業で要約する必要がある。 これらの要約は組織の意思決定に不可欠である。 作成するために必要な要約の観点は、要約の応用に依存する。 本研究では,サポートエージェントと顧客とのカスタマケア会話のマルチパースペクティブな要約について検討する。 我々は、異なる視点の要約に関連付けられた異なるヒューリスティックが存在することを観察し、これらのヒューリスティックスを探索して、少ない人間の注釈付き要約と微調整する前にモデルの中間トレーニングのための弱いラベルデータを作成する。 最も重要なことは,本手法がアノテートデータの少ないマルチパースペクティブ・サマリーを生成するモデルをサポートすることである。 例えば、本手法では、元のデータでトレーニングされたモデルのパフォーマンス(ルージュ-2)の94\%を、元のデータの7\%でトレーニングすることで達成する。

Many organizations require their customer-care agents to manually summarize their conversations with customers. These summaries are vital for decision making purposes of the organizations. The perspective of the summary that is required to be created depends on the application of the summaries. With this work, we study the multi-perspective summarization of customer-care conversations between support agents and customers. We observe that there are different heuristics that are associated with summaries of different perspectives, and explore these heuristics to create weak-labeled data for intermediate training of the models before fine-tuning with scarce human annotated summaries. Most importantly, we show that our approach supports models to generate multi-perspective summaries with a very small amount of annotated data. For example, our approach achieves 94\% of the performance (Rouge-2) of a model trained with the original data, by training only with 7\% of the original data.
翻訳日:2022-03-31 11:38:17 公開日:2022-03-30