このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211201となっている論文です。

PDF登録状況(公開日: 20211201)

TitleAuthorsAbstract論文公表日・翻訳日
# 適応リスク最小化: ドメインシフトに対応するための学習

Adaptive Risk Minimization: Learning to Adapt to Domain Shift ( http://arxiv.org/abs/2007.02931v4 )

ライセンス: Link先を確認
Marvin Zhang, Henrik Marklund, Nikita Dhawan, Abhishek Gupta, Sergey Levine, Chelsea Finn(参考訳) ほとんどの機械学習アルゴリズムの基本的な前提は、トレーニングとテストデータが同じ基礎となる分布から引き出されることである。 機械学習システムは、時間的相関の変化、非典型的エンドユーザー、その他の要因により、分散シフトの下で定期的にテストされる。 本研究では、トレーニングデータをドメインに構造化し、新しいドメインやドメイン分布に対応する複数のテストタイムシフトが存在する場合のドメイン一般化の問題点について考察する。 ほとんどの以前の手法は、すべての領域でうまく機能する単一のロバストモデルや不変特徴空間を学習することを目的としている。 対照的に、未ラベルのテストポイントを使用して、テスト時にドメインシフトに適応するモデルを学習することを目指している。 我々の主な貢献は適応的リスク最小化(ARM)の枠組みを導入することであり、モデルがトレーニング領域に適応することを学ぶことで、効果的な適応のために直接最適化される。 従来のロバスト性、不変性、適応性の手法と比較して、ARM法はドメインシフトを示す多くの画像分類問題に対して1-4%の性能向上を提供する。

A fundamental assumption of most machine learning algorithms is that the training and test data are drawn from the same underlying distribution. However, this assumption is violated in almost all practical applications: machine learning systems are regularly tested under distribution shift, due to changing temporal correlations, atypical end users, or other factors. In this work, we consider the problem setting of domain generalization, where the training data are structured into domains and there may be multiple test time shifts, corresponding to new domains or domain distributions. Most prior methods aim to learn a single robust model or invariant feature space that performs well on all domains. In contrast, we aim to learn models that adapt at test time to domain shift using unlabeled test points. Our primary contribution is to introduce the framework of adaptive risk minimization (ARM), in which models are directly optimized for effective adaptation to shift by learning to adapt on the training domains. Compared to prior methods for robustness, invariance, and adaptation, ARM methods provide performance gains of 1-4% test accuracy on a number of image classification problems exhibiting domain shift.
翻訳日:2022-11-13 01:42:00 公開日:2021-12-01
# 効率的並列分離型辞書学習

Efficient and Parallel Separable Dictionary Learning ( http://arxiv.org/abs/2007.03800v4 )

ライセンス: Link先を確認
Cristian Rusu and Paul Irofti(参考訳) 分離可能な、またはクロネッカー積の辞書は、画像のような2D信号に対して自然な分解を提供する。 本稿では,美術辞書学習アルゴリズムのこれまでの状況に匹敵する難解な表現に到達した辞書を,文献からより少ない計算コストで学習する高並列化可能なアルゴリズムについて述べる。 提案手法は,画像とハイパースペクトルデータを疎結合に表現し,画像のデノイジングを行う。

Separable, or Kronecker product, dictionaries provide natural decompositions for 2D signals, such as images. In this paper, we describe a highly parallelizable algorithm that learns such dictionaries which reaches sparse representations competitive with the previous state of the art dictionary learning algorithms from the literature but at a lower computational cost. We highlight the performance of the proposed method to sparsely represent image and hyperspectral data, and for image denoising.
翻訳日:2022-11-12 19:43:00 公開日:2021-12-01
# リカレントニューラルネットワークにおけるゲーティングの理論

Theory of gating in recurrent neural networks ( http://arxiv.org/abs/2007.14823v5 )

ライセンス: Link先を確認
Kamesh Krishnamurthy, Tankut Can and David J. Schwab(参考訳) リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、機械学習(ML)や神経科学で広く使われている強力な動的モデルである。 以前の理論的研究は加法相互作用を持つRNNに焦点を当てていた。 しかし、ゲーティング、すなわち乗法的相互作用は実際のニューロンにおいてユビキタスであり、MLにおいて最高のパフォーマンスを持つRNNの中心的な特徴でもある。 ここで、ゲーティングは集団ダイナミクスの2つの顕著な特徴を柔軟に制御できることを示します。 一 タイムスケール及び ii)次元性。 ゲート制御の時間スケールは、ネットワークがフレキシブルインテグレータとして機能する、新しい、極端に安定な状態につながる。 従来のアプローチとは異なり、ゲーティングはパラメータの微調整や特別な対称性なしでこの重要な関数を許す。 ゲートはまた、メモリトレースをリセットするフレキシブルでコンテキスト依存のメカニズムを提供し、メモリ機能を補完する。 次元を変調するゲートは、入力の典型的な安定化効果とは対照的に、安定した系を強いカオス活性にプッシュする、新しい不連続なカオス遷移を誘導することができる。 この遷移において、加法的なrnnとは異なり、臨界点(トポロジカル複雑性)の増殖はカオス力学(動的複雑性)の出現から切り離される。 リッチダイナミクスはフェーズ図にまとめられており、ml実践者に原則付きパラメータ初期化選択のマップを提供する。

Recurrent neural networks (RNNs) are powerful dynamical models, widely used in machine learning (ML) and neuroscience. Prior theoretical work has focused on RNNs with additive interactions. However, gating - i.e. multiplicative - interactions are ubiquitous in real neurons and also the central feature of the best-performing RNNs in ML. Here, we show that gating offers flexible control of two salient features of the collective dynamics: i) timescales and ii) dimensionality. The gate controlling timescales leads to a novel, marginally stable state, where the network functions as a flexible integrator. Unlike previous approaches, gating permits this important function without parameter fine-tuning or special symmetries. Gates also provide a flexible, context-dependent mechanism to reset the memory trace, thus complementing the memory function. The gate modulating the dimensionality can induce a novel, discontinuous chaotic transition, where inputs push a stable system to strong chaotic activity, in contrast to the typically stabilizing effect of inputs. At this transition, unlike additive RNNs, the proliferation of critical points (topological complexity) is decoupled from the appearance of chaotic dynamics (dynamical complexity). The rich dynamics are summarized in phase diagrams, thus providing a map for principled parameter initialization choices to ML practitioners.
翻訳日:2022-11-05 21:07:47 公開日:2021-12-01
# ジャングルにおける協調学習(分散・ビザンチン・ヘテロジニアス・非同期・非凸学習)

Collaborative Learning in the Jungle (Decentralized, Byzantine, Heterogeneous, Asynchronous and Nonconvex Learning) ( http://arxiv.org/abs/2008.00742v5 )

ライセンス: Link先を確認
El-Mahdi El-Mhamdi, Sadegh Farhadkhani, Rachid Guerraoui, Arsany Guirguis, L\^e Nguy\^en Hoang, S\'ebastien Rouault(参考訳) 我々はByzantineコラボレーティブラーニングを研究し、そこでは$n$ノードが互いのローカルデータから集合的に学習する。 データ分布は、あるノードから別のノードへ変化する可能性がある。 ノードは信頼されておらず、$f < n$ノードは任意に振る舞うことができる。 共同学習は、平均化合意(averaging agreement)と呼ばれる新しい形態の合意に相当することを証明します。 この問題において、ノードは、それぞれを初期ベクトルで開始し、正直なノードの初期ベクトルの平均に近い共通ベクトルについて概ね合意を求める。 平均化合意に対する2つの非同期解を示し、それぞれが何らかの次元で最適であることを証明した。 1つ目は最小径平均化に基づくもので、n \geq 6f+1$ を必要とするが、漸近的に乗算定数までの最大可算平均化定数を達成する。 2つめは、信頼できるブロードキャストと座標的なトリミング平均に基づいて、最適なビザンチン弾性(すなわち$n \geq 3f+1$)を達成する。 これらのアルゴリズムは最適なビザンチン協調学習プロトコルを誘導する。 特に、我々の同値性は、敵対的および異質な環境においてどのような協調学習アルゴリズムが達成できるかに関する新しい不可能定理をもたらす。

We study Byzantine collaborative learning, where $n$ nodes seek to collectively learn from each others' local data. The data distribution may vary from one node to another. No node is trusted, and $f < n$ nodes can behave arbitrarily. We prove that collaborative learning is equivalent to a new form of agreement, which we call averaging agreement. In this problem, nodes start each with an initial vector and seek to approximately agree on a common vector, which is close to the average of honest nodes' initial vectors. We present two asynchronous solutions to averaging agreement, each we prove optimal according to some dimension. The first, based on the minimum-diameter averaging, requires $ n \geq 6f+1$, but achieves asymptotically the best-possible averaging constant up to a multiplicative constant. The second, based on reliable broadcast and coordinate-wise trimmed mean, achieves optimal Byzantine resilience, i.e., $n \geq 3f+1$. Each of these algorithms induces an optimal Byzantine collaborative learning protocol. In particular, our equivalence yields new impossibility theorems on what any collaborative learning algorithm can achieve in adversarial and heterogeneous environments.
翻訳日:2022-11-03 06:04:53 公開日:2021-12-01
# 畳み込みニューラルネットワークを用いた音楽境界検出:複合入力特徴の比較分析

Music Boundary Detection using Convolutional Neural Networks: A comparative analysis of combined input features ( http://arxiv.org/abs/2008.07527v2 )

ライセンス: Link先を確認
Carlos Hernandez-Olivan, Jose R. Beltran, David Diaz-Guerra(参考訳) 楽曲の構造の分析は、人工知能、特にディープラーニングの分野では依然として課題となっている課題である。 楽曲の構造的境界を事前に識別する必要がある。 この構造境界解析は,Mel-Scaled Log-magnitude Spectograms features (MLS), Self-Similarity Matrices (SSM) あるいは Self-Similarity Lag Matrices (SSLM) を入力として,人間のアノテーションで訓練した Convolutional Neural Networks (CNN) のような,教師なしの手法と \textit{end-to-end} 手法で最近研究されている。 いくつかの研究は、異なる距離メトリクスとオーディオ特性を用いて、異なる方法で前処理を行う教師なしおよび\textit{end-to-end}メソッドに分割されているため、モデル入力を計算するための一般的な前処理方法が欠落している。 本研究の目的は、様々なプール戦略、距離メトリクス、音響特性から算出した入力を比較し、計算時間を考慮して、これらの入力を前処理する一般的な方法を確立することである。 また、楽曲の構造の限界を抽出する最も効率的な方法を確立するために、cnnに配信される入力の最も効果的な組み合わせを確立する。 入力行列とプーリング戦略を適切に組み合わせることで、同じ条件下で得られた現在の値を上回る精度のF_1$0.411を得る。

The analysis of the structure of musical pieces is a task that remains a challenge for Artificial Intelligence, especially in the field of Deep Learning. It requires prior identification of structural boundaries of the music pieces. This structural boundary analysis has recently been studied with unsupervised methods and \textit{end-to-end} techniques such as Convolutional Neural Networks (CNN) using Mel-Scaled Log-magnitude Spectograms features (MLS), Self-Similarity Matrices (SSM) or Self-Similarity Lag Matrices (SSLM) as inputs and trained with human annotations. Several studies have been published divided into unsupervised and \textit{end-to-end} methods in which pre-processing is done in different ways, using different distance metrics and audio characteristics, so a generalized pre-processing method to compute model inputs is missing. The objective of this work is to establish a general method of pre-processing these inputs by comparing the inputs calculated from different pooling strategies, distance metrics and audio characteristics, also taking into account the computing time to obtain them. We also establish the most effective combination of inputs to be delivered to the CNN in order to establish the most efficient way to extract the limits of the structure of the music pieces. With an adequate combination of input matrices and pooling strategies we obtain a measurement accuracy $F_1$ of 0.411 that outperforms the current one obtained under the same conditions.
翻訳日:2022-10-28 04:37:04 公開日:2021-12-01
# 新型コロナウイルスの肺がんのクラスター化

Clustering COVID-19 Lung Scans ( http://arxiv.org/abs/2009.09899v2 )

ライセンス: Link先を確認
Jacob Householder, Andrew Householder, John Paul Gomez-Reed, Fredrick Park, Shuai Zhang(参考訳) 新型コロナウイルス(covid-19)のパンデミックが続く中、ウイルスの特徴を理解することは科学界で重要かつ困難な課題となっている。 新型コロナウイルス(covid-19)の検査は存在するが、この研究の目的は感染した人を特定する他の方法を探ることだ。 ウイルス感染、ウイルス性肺炎、健康な人の肺がんのデータセットの探索には、教師なしクラスタリング手法を適用しました。 新型コロナウイルス(COVID-19)は、現在詳しく研究されている新しい病気である。 本手法は,非監視クラスタリングアルゴリズムが,新型コロナウイルスと他の呼吸器疾患との重要な違いを明らかにする必要がある可能性を考察する。 我々の実験では、主成分分析(PCA)、K-Means++(KM++)、最近開発されたロバスト連続クラスタリングアルゴリズム(RCC)が使用されている。 また, AMIスコアを用いて, KM++ と RCC のクラスタリングによる肺シンチグラフィーの性能評価を行った。

With the ongoing COVID-19 pandemic, understanding the characteristics of the virus has become an important and challenging task in the scientific community. While tests do exist for COVID-19, the goal of our research is to explore other methods of identifying infected individuals. Our group applied unsupervised clustering techniques to explore a dataset of lungscans of COVID-19 infected, Viral Pneumonia infected, and healthy individuals. This is an important area to explore as COVID-19 is a novel disease that is currently being studied in detail. Our methodology explores the potential that unsupervised clustering algorithms have to reveal important hidden differences between COVID-19 and other respiratory illnesses. Our experiments use: Principal Component Analysis (PCA), K-Means++ (KM++) and the recently developed Robust Continuous Clustering algorithm (RCC). We evaluate the performance of KM++ and RCC in clustering COVID-19 lung scans using the Adjusted Mutual Information (AMI) score.
翻訳日:2022-10-21 20:34:46 公開日:2021-12-01
# 深層学習に基づくマルチクラス音源分離の高精度推定

Fast accuracy estimation of deep learning based multi-class musical source separation ( http://arxiv.org/abs/2010.09453v3 )

ライセンス: Link先を確認
Alexandru Mocanu, Benjamin Ricaud, Milos Cernak(参考訳) 音源分離は、与えられた曲からすべての楽器を抽出する作業を表す。 この課題に関する最近のブレークスルーは、単一のデータセットであるMUSDBを中心に、わずか4つの計器クラスに限られている。 より大きなデータセットとより多くの機器は、データ収集とディープニューラルネットワーク(DNN)のトレーニングに費用と時間を要する。 本研究では,DNNを訓練・調整することなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。 この分離性尺度は、ニューラルネットワークの効率的なトレーニングのための適切なサンプルを選択するのに役立つ。 理想的な比マスクを持つオラクルの原理に基づいて,TasNetやOpen-Unmixのような最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。 我々の結果は、音源分離に不可欠な2つの点を明らかにすることに寄与している。 1) 理想比マスクは, 軽さと単純さはあるものの, 最近のニューラルネットの音響分離性能を正確に測定する。 2) 波形を直接操作するTasnetのような新しいエンドツーエンド学習手法は、実際、TF平面に重なり合う音声パターンを分離する際に、TFベースメソッドと同じ制限に直面するように、時間周波数(TF)表現を内部的に構築する。

Music source separation represents the task of extracting all the instruments from a given song. Recent breakthroughs on this challenge have gravitated around a single dataset, MUSDB, only limited to four instrument classes. Larger datasets and more instruments are costly and time-consuming in collecting data and training deep neural networks (DNNs). In this work, we propose a fast method to evaluate the separability of instruments in any dataset without training and tuning a DNN. This separability measure helps to select appropriate samples for the efficient training of neural networks. Based on the oracle principle with an ideal ratio mask, our approach is an excellent proxy to estimate the separation performances of state-of-the-art deep learning approaches such as TasNet or Open-Unmix. Our results contribute to revealing two essential points for audio source separation: 1) the ideal ratio mask, although light and straightforward, provides an accurate measure of the audio separability performance of recent neural nets, and 2) new end-to-end learning methods such as Tasnet, that operate directly on waveforms, are, in fact, internally building a Time-Frequency (TF) representation, so that they encounter the same limitations as the TF based-methods when separating audio pattern overlapping in the TF plane.
翻訳日:2022-10-05 23:27:57 公開日:2021-12-01
# 構文の教師なし検索のためのテキスト表現の深いクラスタリング

Deep Clustering of Text Representations for Supervision-free Probing of Syntax ( http://arxiv.org/abs/2010.12784v2 )

ライセンス: Link先を確認
Vikram Gupta, Haoyue Shi, Kevin Gimpel, Mrinmaya Sachan(参考訳) 教師なしモデル解釈のためのテキスト表現の深いクラスタリングと構文の誘導について検討する。 これらの表現は高次元であるため、kmeansのような既定の手法はうまく機能しない。 従って、このアプローチは、表現を低次元のクラスタフレンドリな空間に変換し、それらをクラスタ化する。 本研究では,音声誘導(POSI)と補聴器ラベリング(CoLab)という2つの構文概念について考察する。 興味深いことに、Multilingual BERT (mBERT) には驚くほど多くの英語の構文知識が含まれている。 我々のモデルは監視不要なプローブとして利用することができる。 教師なしプローブは教師なしプローブに比べて上位層の利点を示す。 さらに、我々の教師なしプローブは ebert と mbert の表現、特に posi の表現が異なることに注意する。 我々は,教師なし構文誘導手法としての有効性を示すことにより,プローブの有効性を検証する。 我々のプローブは、入力表現を単純に適応させることによって、両方の構文形式にうまく機能する。 本稿では,45 タグの英語 POSI の競争性能,12 タグの英語 POSI の10言語間における最先端性能,CoLab の競争結果について報告する。 また,資源不足言語に対してゼロショット構文インダクションを行い,強い結果を報告する。

We explore deep clustering of text representations for unsupervised model interpretation and induction of syntax. As these representations are high-dimensional, out-of-the-box methods like KMeans do not work well. Thus, our approach jointly transforms the representations into a lower-dimensional cluster-friendly space and clusters them. We consider two notions of syntax: Part of speech Induction (POSI) and constituency labelling (CoLab) in this work. Interestingly, we find that Multilingual BERT (mBERT) contains surprising amount of syntactic knowledge of English; possibly even as much as English BERT (EBERT). Our model can be used as a supervision-free probe which is arguably a less-biased way of probing. We find that unsupervised probes show benefits from higher layers as compared to supervised probes. We further note that our unsupervised probe utilizes EBERT and mBERT representations differently, especially for POSI. We validate the efficacy of our probe by demonstrating its capabilities as an unsupervised syntax induction technique. Our probe works well for both syntactic formalisms by simply adapting the input representations. We report competitive performance of our probe on 45-tag English POSI, state-of-the-art performance on 12-tag POSI across 10 languages, and competitive results on CoLab. We also perform zero-shot syntax induction on resource impoverished languages and report strong results.
翻訳日:2022-10-03 12:53:10 公開日:2021-12-01
# 広角画像の再現性:サーベイ

Wide-angle Image Rectification: A Survey ( http://arxiv.org/abs/2011.12108v2 )

ライセンス: Link先を確認
Jinlong Fan and Jing Zhang and Stephen J. Maybank and Dacheng Tao(参考訳) 狭いFOVカメラよりも広いシーン領域を撮影する広視野視野カメラは、3D再構成、自動運転、ビデオ監視など多くのアプリケーションで使用されている。 しかし、広角画像には、基礎となるピンホールカメラモデルに反する歪みが含まれており、オブジェクトの歪み、シーン距離、面積、方向の推定の困難、下流コンピュータビジョンタスクのための歪みのない画像に基づいてトレーニングされた既成の深度モデルの使用を防止する。 これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。 本稿では,変換モデルから修正手法への広角画像修正の進展を包括的に調査する。 具体的には、まず、異なるアプローチで使用されるカメラモデルの詳細な説明と議論を行う。 次に、放射歪や投影歪を含む複数の歪みモデルを要約する。 次に,従来の幾何学に基づく画像整流法と,前者が歪みパラメータ推定を最適化問題として扱う深層学習法の両方について検討し,後者は深層ニューラルネットワークのパワーを利用して回帰問題として扱う。 公開データセットにおける最先端手法の性能を評価し,どちらの手法も良好な結果が得られるが,特定のカメラモデルや歪みタイプに対してのみ有効であることを示す。 また,強いベースラインモデルを提供し,合成データセットと実世界の広角画像の異なる歪みモデルについて経験的研究を行った。 最後に,今後,この分野をさらに前進させるであろう研究の方向性について検討する。

Wide field-of-view (FOV) cameras, which capture a larger scene area than narrow FOV cameras, are used in many applications including 3D reconstruction, autonomous driving, and video surveillance. However, wide-angle images contain distortions that violate the assumptions underlying pinhole camera models, resulting in object distortion, difficulties in estimating scene distance, area, and direction, and preventing the use of off-the-shelf deep models trained on undistorted images for downstream computer vision tasks. Image rectification, which aims to correct these distortions, can solve these problems. In this paper, we comprehensively survey progress in wide-angle image rectification from transformation models to rectification methods. Specifically, we first present a detailed description and discussion of the camera models used in different approaches. Then, we summarize several distortion models including radial distortion and projection distortion. Next, we review both traditional geometry-based image rectification methods and deep learning-based methods, where the former formulate distortion parameter estimation as an optimization problem and the latter treat it as a regression problem by leveraging the power of deep neural networks. We evaluate the performance of state-of-the-art methods on public datasets and show that although both kinds of methods can achieve good results, these methods only work well for specific camera models and distortion types. We also provide a strong baseline model and carry out an empirical study of different distortion models on synthetic datasets and real-world wide-angle images. Finally, we discuss several potential research directions that are expected to further advance this area in the future.
翻訳日:2022-10-01 17:30:44 公開日:2021-12-01
# BERTにおける情報の流れ説明における影響パターン

Influence Patterns for Explaining Information Flow in BERT ( http://arxiv.org/abs/2011.00740v3 )

ライセンス: Link先を確認
Kaiji Lu, Zifan Wang, Piotr Mardziel, Anupam Datta(参考訳) BERTのような注意ベースのトランスフォーマーモデルは優れているが、入力トークンから出力予測への情報の流れは不明確である。 トランスフォーマーモデルを通じて,影響パターン,パス集合の抽象化を導入する。 パターンは、モデルノードのシーケンスを通過するパスへの情報の流れを定量化し、局所化する。 実験により,BERTにおける情報フローのかなりの部分は,注意頭の代わりにスキップ接続を通していることがわかった。 さらに、インスタンス間のパターンの一貫性がBERTのパフォーマンスの指標であることを示す。 最後に,パターンが従来のアテンションベースおよびレイヤベースメソッドよりもはるかに多くのモデルパフォーマンスを担っていることを示す。

While attention is all you need may be proving true, we do not know why: attention-based transformer models such as BERT are superior but how information flows from input tokens to output predictions are unclear. We introduce influence patterns, abstractions of sets of paths through a transformer model. Patterns quantify and localize the flow of information to paths passing through a sequence of model nodes. Experimentally, we find that significant portion of information flow in BERT goes through skip connections instead of attention heads. We further show that consistency of patterns across instances is an indicator of BERT's performance. Finally, We demonstrate that patterns account for far more model performance than previous attention-based and layer-based methods.
翻訳日:2022-09-30 11:47:45 公開日:2021-12-01
# ロバストショット学習のためのネステッド二段階最適化フレームワーク

A Nested Bi-level Optimization Framework for Robust Few Shot Learning ( http://arxiv.org/abs/2011.06782v2 )

ライセンス: Link先を確認
Krishnateja Killamsetty, Changbin Li, Chen Zhao, Rishabh Iyer, Feng Chen(参考訳) 一般的な勾配ベースのメタ学習フレームワークであるモデル非依存メタ学習(maml)は、各タスクやインスタンスのメタ学習への貢献が等しいと仮定している。 したがって、少人数学習では、基本クラスと新しいクラス間のドメインシフトに対処できない。 本研究では,トレーニングタスクやインスタンスに重みを割り当てることを学ぶ,新しい頑健なメタ学習アルゴリズムNestedMAMLを提案する。 我々は重みをハイパーパラメータとみなし、(MAMLの標準的な二段階最適化とは対照的に)ネストされた二段階最適化アプローチで設定された小さな検証タスクを用いて繰り返し最適化する。 次に,NestedMAMLをメタトレーニング段階に適用し,(1)メタテストのタスク分布とは異なる分布からサンプリングされた複数のタスク,(2)ノイズのあるラベルを持つデータサンプルに適用する。 合成および実世界のデータセットに関する大規模な実験は、NestedMAMLが"不要"なタスクやインスタンスの影響を効果的に緩和し、最先端の堅牢なメタ学習方法よりも大幅に改善したことを示している。

Model-Agnostic Meta-Learning (MAML), a popular gradient-based meta-learning framework, assumes that the contribution of each task or instance to the meta-learner is equal. Hence, it fails to address the domain shift between base and novel classes in few-shot learning. In this work, we propose a novel robust meta-learning algorithm, NestedMAML, which learns to assign weights to training tasks or instances. We consider weights as hyper-parameters and iteratively optimize them using a small set of validation tasks set in a nested bi-level optimization approach (in contrast to the standard bi-level optimization in MAML). We then apply NestedMAML in the meta-training stage, which involves (1) several tasks sampled from a distribution different from the meta-test task distribution, or (2) some data samples with noisy labels. Extensive experiments on synthetic and real-world datasets demonstrate that NestedMAML efficiently mitigates the effects of "unwanted" tasks or instances, leading to significant improvement over the state-of-the-art robust meta-learning methods.
翻訳日:2022-09-26 00:19:41 公開日:2021-12-01
# 非自己回帰復号によるストリーミングRNN変換器の検討

Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding ( http://arxiv.org/abs/2112.11442v1 )

ライセンス: Link先を確認
Weiran Wang, Ke Hu, Tara Sainath(参考訳) 本稿では,ストリーミングrnn-tモデルの仮説アラインメントを,先行提案する非自己回帰復号法と改良版とで検討する。 この方法はいくつかの改良ステップを実行し、各ステップはテキスト機能(アライメントから抽出された)とオーディオ機能の両方に対応するトランスフォーマーデコーダを共有し、完全なアライメントを出力する。 トランスデコーダは、並列グリーディ復号を容易にするCTC損失を訓練し、ラベル依存をキャプチャするために全コンテキストアテンションを実行する。 我々は、改良前のより多くのオーディオコンテキストをキャプチャするカスケードエンコーダを導入し、学習ラベル依存を強制するアライメント強化により、Align-Refineを改善する。 本稿では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,モデルパラメータの少ない第1パスRNN-Tよりもはるかに正確な認識結果が得られることを示す。

We propose to deliberate the hypothesis alignment of a streaming RNN-T model with the previously proposed Align-Refine non-autoregressive decoding method and its improved versions. The method performs a few refinement steps, where each step shares a transformer decoder that attends to both text features (extracted from alignments) and audio features, and outputs complete updated alignments. The transformer decoder is trained with the CTC loss which facilitates parallel greedy decoding, and performs full-context attention to capture label dependencies. We improve Align-Refine by introducing cascaded encoder that captures more audio context before refinement, and alignment augmentation which enforces learning label dependency. We show that, conditioned on hypothesis alignments of a streaming RNN-T model, our method obtains significantly more accurate recognition results than the first-pass RNN-T, with only small amount of model parameters.
翻訳日:2021-12-26 13:17:57 公開日:2021-12-01
# (参考訳) NEORL:強化学習による神経進化最適化

NEORL: NeuroEvolution Optimization with Reinforcement Learning ( http://arxiv.org/abs/2112.07057v1 )

ライセンス: CC BY 4.0
Majdi I. Radaideh, Katelin Du, Paul Seurin, Devin Seyler, Xubo Gu, Haijia Wang, Koroush Shirvan(参考訳) マサチューセッツ工科大学で開発された強化学習(NEORL)を用いたオープンソースのNeuroEvolution OptimizationのためのPythonフレームワークを提案する。 NEORLは進化計算、強化学習によるニューラルネットワーク、ハイブリッド神経進化アルゴリズムといった分野における最先端アルゴリズムのグローバルな最適化インターフェースを提供する。 neorlは、様々なアルゴリズムセット、ユーザフレンドリーなインターフェース、並列コンピューティングサポート、自動ハイパーパラメータチューニング、詳細なドキュメント、数学的および実世界のエンジニアリング最適化におけるアプリケーションのデモンストレーションを備えている。 NEORLは、組合せ、連続、混合離散/連続、高次元、高価、制約付きエンジニアリング最適化など、様々な最適化問題を含んでいる。 NEORLは、気候変動対策における低炭素エネルギー研究に関連する様々な工学的応用で試験されている。 例えば、原子炉の制御や燃料電池の発電などである。 この結果は,他のアルゴリズムや最適化フレームワークに対するneorlの競争力を示し,大規模最適化問題を解決する潜在的なツールである。 NEORLのさらなる例とベンチマークは以下の通りである。

We present an open-source Python framework for NeuroEvolution Optimization with Reinforcement Learning (NEORL) developed at the Massachusetts Institute of Technology. NEORL offers a global optimization interface of state-of-the-art algorithms in the field of evolutionary computation, neural networks through reinforcement learning, and hybrid neuroevolution algorithms. NEORL features diverse set of algorithms, user-friendly interface, parallel computing support, automatic hyperparameter tuning, detailed documentation, and demonstration of applications in mathematical and real-world engineering optimization. NEORL encompasses various optimization problems from combinatorial, continuous, mixed discrete/continuous, to high-dimensional, expensive, and constrained engineering optimization. NEORL is tested in variety of engineering applications relevant to low carbon energy research in addressing solutions to climate change. The examples include nuclear reactor control and fuel cell power production. The results demonstrate NEORL competitiveness against other algorithms and optimization frameworks in the literature, and a potential tool to solve large-scale optimization problems. More examples and benchmarking of NEORL can be found here: https://neorl.readthedocs.io/en/latest/index.html
翻訳日:2021-12-19 16:01:58 公開日:2021-12-01
# 局所滑らか度推定を用いたガウス過程に基づく新しいグラウンドセグメンテーションアルゴリズム

A Novel Gaussian Process Based Ground Segmentation Algorithm with Local-Smoothness Estimation ( http://arxiv.org/abs/2112.05847v1 )

ライセンス: Link先を確認
Pouria Mehrabi, Hamid D. Taghirad(参考訳) 自律型陸上車両(ALV)は、未知の環境において、土地を効率的に認識する。 粗運転シナリオにおけるグラウンドセグメンテーションタスクに対して,新しい$\mathcal{GP}$-based法を提案する。 非定常共分散関数は$\mathcal{GP}$のカーネルとして利用される。 地表面の挙動は局所スムースネスのみを示すと仮定される。 これにより、カーネルの長さスケールのポイント推定が得られる。 したがって、2つのガウス過程を導入し、データの観測と局所特性を別々にモデル化する。 基底のモデル化には \textit{observation process} が用いられるが、各入力位置における長さスケールの点値を推定するために長さスケールの値に \textit{latent process} が用いられる。 この潜伏過程の入力位置は、基底状態に関する直観を表す物理的動機付けされた手順で選択される。 さらに、この表面の測定から全てのデータポイントが生じると仮定される環境における仮説曲面の存在を仮定することで、長さスケールの直感的な推定が表現される。 ベイズ推論は \textit{maximum a Posteriori} 基準を用いて実装される。 log-marginal likelihood関数はマルチタスクの目的関数であると仮定され、各フレームのグランドの全体フレームの偏りのないビューを表す。 シミュレーションの結果, 提案手法の有効性は, 類似のガウス過程に基づく地盤分断法より優れる不均一で粗い場面においても示される。 隣接するセグメントは、不均一なシーンでは類似した地上構造を持たないが、提案手法は、セグメントワイズ可能な地上面を単に推定するのではなく、フレーム全体の視点に基づいて効率的な地盤推定を行う。

Autonomous Land Vehicles (ALV) shall efficiently recognize the ground in unknown environments. A novel $\mathcal{GP}$-based method is proposed for the ground segmentation task in rough driving scenarios. A non-stationary covariance function is utilized as the kernel for the $\mathcal{GP}$. The ground surface behavior is assumed to only demonstrate local-smoothness. Thus, point estimates of the kernel's length-scales are obtained. Thus, two Gaussian processes are introduced to separately model the observation and local characteristics of the data. While, the \textit{observation process} is used to model the ground, the \textit{latent process} is put on length-scale values to estimate point values of length-scales at each input location. Input locations for this latent process are chosen in a physically-motivated procedure to represent an intuition about ground condition. Furthermore, an intuitive guess of length-scale value is represented by assuming the existence of hypothetical surfaces in the environment that every bunch of data points may be assumed to be resulted from measurements from this surfaces. Bayesian inference is implemented using \textit{maximum a Posteriori} criterion. The log-marginal likelihood function is assumed to be a multi-task objective function, to represent a whole-frame unbiased view of the ground at each frame. Simulation results shows the effectiveness of the proposed method even in an uneven, rough scene which outperforms similar Gaussian process based ground segmentation methods. While adjacent segments do not have similar ground structure in an uneven scene, the proposed method gives an efficient ground estimation based on a whole-frame viewpoint instead of just estimating segment-wise probable ground surfaces.
翻訳日:2021-12-19 12:58:28 公開日:2021-12-01
# (参考訳) 区間値直観的ファジィ数の空間の代数的構造について

On the algebraic structures of the space of interval-valued intuitionistic fuzzy numbers ( http://arxiv.org/abs/2112.03026v1 )

ライセンス: CC BY 4.0
Xinxing Wu, Chaoyue Tan, Gul Deniz Cayli, Peide Liu(参考訳) この研究はHuang et al. (Soft Comput. 2513-2520, 2021)とWang et al. (Inf. Sci. 179, 3026-3040, 2009)に触発され、間隔値の直観的ファジィ数(IVIFN)のランク付け手法が導入された。 本研究では、スコア関数と3種類のエントロピー関数による任意の2つのivifnを比較する方法におけるすべてのivifnの空間が完全連鎖であることを証明し、この関係が許容可能な順序であることを示す。 さらに,ivifnは,スコア,正確性,会員不確実性指数,および迷入不確実性指数関数に基づいてivifnの比較法において,完全連鎖であることを示す。

This study is inspired by those of Huang et al. (Soft Comput. 25, 2513--2520, 2021) and Wang et al. (Inf. Sci. 179, 3026--3040, 2009) in which some ranking techniques for interval-valued intuitionistic fuzzy numbers (IVIFNs) were introduced. In this study, we prove that the space of all IVIFNs with the relation in the method for comparing any two IVIFNs based on a score function and three types of entropy functions is a complete chain and obtain that this relation is an admissible order. Moreover, we demonstrate that IVIFNs are complete chains to the relation in the comparison method for IVIFNs on the basis of score, accuracy, membership uncertainty index, and hesitation uncertainty index functions.
翻訳日:2021-12-12 15:41:12 公開日:2021-12-01
# D-Grasp:手動物体相互作用のための物理的にプラズブルな動的グラフ合成

D-Grasp: Physically Plausible Dynamic Grasp Synthesis for Hand-Object Interactions ( http://arxiv.org/abs/2112.03028v1 )

ライセンス: Link先を確認
Sammy Christen, Muhammed Kocabas, Emre Aksan, Jemin Hwangbo, Jie Song, Otmar Hilliges(参考訳) 動的グリップ合成タスクを導入する:既知の6Dポーズとグリップ参照を持つオブジェクトが与えられた場合、そのオブジェクトをターゲット6Dポーズに移動させる動作を生成する。 これは、人間の手の複雑な関節と、物体との複雑な物理的相互作用について推論する必要があるため、難しい。 本稿では,強化学習フレームワークでこの問題をフレーム化し,物理シミュレーションを活用し,動的相互作用の学習と評価を行う新しい手法を提案する。 階層的アプローチはタスクを低レベル把握と高レベルモーション合成に分解する。 これは、人間の類似性を保ちながら、オブジェクトを望ましい場所に近づき、つかみ、移動させる新しいハンドシーケンスを生成するために使用できる。 我々のアプローチは、安定した把握につながり、幅広い動きを生み出すことを示します。 さらに, 動的相互作用列を生成する手法により, 不完全ラベルの修正も可能である。 ビデオはhttps://eth-ait.github.io/d-grasp/で公開されている。

We introduce the dynamic grasp synthesis task: given an object with a known 6D pose and a grasp reference, our goal is to generate motions that move the object to a target 6D pose. This is challenging, because it requires reasoning about the complex articulation of the human hand and the intricate physical interaction with the object. We propose a novel method that frames this problem in the reinforcement learning framework and leverages a physics simulation, both to learn and to evaluate such dynamic interactions. A hierarchical approach decomposes the task into low-level grasping and high-level motion synthesis. It can be used to generate novel hand sequences that approach, grasp, and move an object to a desired location, while retaining human-likeness. We show that our approach leads to stable grasps and generates a wide range of motions. Furthermore, even imperfect labels can be corrected by our method to generate dynamic interaction sequences. Video is available at https://eth-ait.github.io/d-grasp/ .
翻訳日:2021-12-12 15:20:35 公開日:2021-12-01
# 材料特性の変動を考慮したモデル還元によるインターコネクトの熱シミュレーション手法

A Methodology for Thermal Simulation of Interconnects Enabled by Model Reduction with Material Property Variation ( http://arxiv.org/abs/2112.03023v1 )

ライセンス: Link先を確認
Wangkun Jia and Ming-C. Cheng(参考訳) 材料特性, 熱源および境界条件(BCs)の変動を考慮したデータ駆動学習アルゴリズムにより, 相互接続を実現するための熱シミュレーション手法を開発した。 この手法は、モデル順序の減少とドメイン分解の概念に基づいて、マルチブロックアプローチを構築する。 汎用ブロックモデルは、集積回路(ic)の標準セルを配線するために使用される相互接続ブロックのグループを表すために構築される。 この群のブロックは、様々な金属/移動経路と同一の幾何学を持っている。 そこで, 熱源とbcsの変動に加えて, ブロック内の異なる金属/ビア経路によって引き起こされる材料特性の変動を学習するために, データ駆動モデル還元法を適用した。 アプローチは2つの非常に異なる設定で調査される。 これは最初に、一般的なブロックの訓練に類似したBCを持つ1つの相互接続ブロックの熱シミュレーションに適用される。 その後、FinFET ICのマルチブロック熱シミュレーションで実装され、相互接続構造を汎用ブロックモデルによってモデル化された複数のブロックに分割する。 汎用ブロックモデルの精度は、金属/ビアルーティング、bcsおよびブロック界面の熱的不連続性の観点から検討される。

A thermal simulation methodology is developed for interconnects enabled by a data-driven learning algorithm accounting for variations of material properties, heat sources and boundary conditions (BCs). The methodology is based on the concepts of model order reduction and domain decomposition to construct a multi-block approach. A generic block model is built to represent a group of interconnect blocks that are used to wire standard cells in the integrated circuits (ICs). The blocks in this group possess identical geometry with various metal/via routings. The data-driven model reduction method is thus applied to learn material property variations induced by different metal/via routings in the blocks, in addition to the variations of heat sources and BCs. The approach is investigated in two very different settings. It is first applied to thermal simulation of a single interconnect block with similar BCs to those in the training of the generic block. It is then implemented in multi-block thermal simulation of a FinFET IC, where the interconnect structure is partitioned into several blocks each modeled by the generic block model. Accuracy of the generic block model is examined in terms of the metal/via routings, BCs and thermal discontinuities at the block interfaces.
翻訳日:2021-12-12 15:20:07 公開日:2021-12-01
# より堅牢な自然言語理解に向けて

Towards More Robust Natural Language Understanding ( http://arxiv.org/abs/2112.02992v1 )

ライセンス: Link先を確認
Xinliang Frederick Zhang(参考訳) 自然言語理解 (natural language understanding, nlu) は自然言語処理 (nlp) の一分野であり、知的コンピュータソフトウェアを用いて人間の知識をエンコードするテキストを理解する。 近年、ディープラーニング技術、特に事前訓練された言語モデルを用いた様々なNLUタスクにおいて顕著な進歩が見られた。 より高度なモデルアーキテクチャの提案に加えて、信頼性が高く信頼性の高いデータセットの構築は、適切なNLUモデルをトレーニングすることが不可能なNLUシステムを改善する上でも大きな役割を果たす。 自然言語を理解する人間の能力は柔軟で堅牢です。 それとは対照的に、既存のnluシステムのほとんどは、ドメイン外データで望ましいパフォーマンスを達成できなかったり、実世界で困難な項目(本質的にあいまいな項目、敵対的な項目)を扱うのに苦労している。 したがって、NLUモデルをより効果的に人間の言語を理解するために、堅牢な自然言語理解の研究を優先することが期待される。 この論文では、NLUシステムは、NLUモデルとNLUデータセットの2つのコンポーネントから構成されていると仮定する。 したがって、ロバストなNLUを達成するために、モデルアーキテクチャ/トレーニングとデータセットは等しく重要であると論じる。 具体的には、3つのNLUタスクに注目し、異なるNLUタスクの堅牢性問題と我々の貢献(新しいモデルと新しいデータセット)を説明し、より堅牢な自然言語理解を実現する。 今後、堅牢な自然言語理解の最終的な目標は、人間の振る舞いが可能なNLUモデルを構築することです。 つまり、堅牢なnluシステムは、システムがユーザの入力の優先順位を知らない場合でも、トレーニングコーパスからの知識を、より信頼できないドキュメントに転送し、困難な項目に遭遇しても生き残ることが期待されている。

Natural Language Understanding (NLU) is a branch of Natural Language Processing (NLP) that uses intelligent computer software to understand texts that encode human knowledge. Recent years have witnessed notable progress across various NLU tasks with deep learning techniques, especially with pretrained language models. Besides proposing more advanced model architectures, constructing more reliable and trustworthy datasets also plays a huge role in improving NLU systems, without which it would be impossible to train a decent NLU model. It's worth noting that the human ability of understanding natural language is flexible and robust. On the contrary, most of existing NLU systems fail to achieve desirable performance on out-of-domain data or struggle on handling challenging items (e.g., inherently ambiguous items, adversarial items) in the real world. Therefore, in order to have NLU models understand human language more effectively, it is expected to prioritize the study on robust natural language understanding. In this thesis, we deem that NLU systems are consisting of two components: NLU models and NLU datasets. As such, we argue that, to achieve robust NLU, the model architecture/training and the dataset are equally important. Specifically, we will focus on three NLU tasks to illustrate the robustness problem in different NLU tasks and our contributions (i.e., novel models and new datasets) to help achieve more robust natural language understanding. Moving forward, the ultimate goal for robust natural language understanding is to build NLU models which can behave humanly. That is, it's expected that robust NLU systems are capable to transfer the knowledge from training corpus to unseen documents more reliably and survive when encountering challenging items even if the system doesn't know a priori of users' inputs.
翻訳日:2021-12-12 14:55:25 公開日:2021-12-01
# 適応型ハイブリッドマスキングと最適輸送アライメントを用いたドメイン指向言語事前学習

Domain-oriented Language Pre-training with Adaptive Hybrid Masking and Optimal Transport Alignment ( http://arxiv.org/abs/2112.03024v1 )

ライセンス: Link先を確認
Denghui Zhang, Zixuan Yuan, Yanchi Liu, Hao Liu, Fuzhen Zhuang, Hui Xiong, Haifeng Chen(参考訳) 様々な自然言語処理(NLP)タスクにおけるBERTのような事前学習言語モデルの成功により、近年、これらのモデルを異なるアプリケーション領域に適用するための研究が進められている。 この線に沿って、既存のドメイン指向モデルは主にvanilla bertアーキテクチャに従っており、ドメインコーパスを直接使用しています。 しかし、ドメイン指向タスクは通常、ドメイン句の正確な理解が必要であり、そのようなきめ細かいフレーズレベルの知識は、既存の事前学習スキームでは把握しづらい。 また、事前学習モデルにおける協調学習という単語は、エンティティレベルの関連知識によって大きく拡張することができる。 しかし、それを行うことで、単語レベルのアライメントが不十分なため、ノイズを発生させるリスクがある。 上記の問題に対処するために、補助的なドメイン知識を活用し、既存の事前学習フレームワークを2つの側面から改善する、一般化されたドメイン指向アプローチを提供する。 まず、フレーズ知識を効果的に保存するために、補助訓練ツールとしてドメインフレーズプールを構築し、その一方でAdaptive Hybrid Masked Modelを導入する。 単語学習とフレーズ学習という2つの学習モードを統合し、相互に切り替えることができる。 第2に,エンティティアライメントを弱い監督として活用し,事前学習モデルのセマンティクス学習を促進するために,クロスエンティティアライメントを導入する。 この過程における潜在的なノイズを軽減するために,アライメント学習を導くために,解釈可能な最適トランスポートベースアプローチを提案する。 4つのドメイン指向タスクの実験は、我々のフレームワークの優位性を示しています。

Motivated by the success of pre-trained language models such as BERT in a broad range of natural language processing (NLP) tasks, recent research efforts have been made for adapting these models for different application domains. Along this line, existing domain-oriented models have primarily followed the vanilla BERT architecture and have a straightforward use of the domain corpus. However, domain-oriented tasks usually require accurate understanding of domain phrases, and such fine-grained phrase-level knowledge is hard to be captured by existing pre-training scheme. Also, the word co-occurrences guided semantic learning of pre-training models can be largely augmented by entity-level association knowledge. But meanwhile, by doing so there is a risk of introducing noise due to the lack of groundtruth word-level alignment. To address the above issues, we provide a generalized domain-oriented approach, which leverages auxiliary domain knowledge to improve the existing pre-training framework from two aspects. First, to preserve phrase knowledge effectively, we build a domain phrase pool as auxiliary training tool, meanwhile we introduce Adaptive Hybrid Masked Model to incorporate such knowledge. It integrates two learning modes, word learning and phrase learning, and allows them to switch between each other. Second, we introduce Cross Entity Alignment to leverage entity association as weak supervision to augment the semantic learning of pre-trained models. To alleviate the potential noise in this process, we introduce an interpretable Optimal Transport based approach to guide alignment learning. Experiments on four domain-oriented tasks demonstrate the superiority of our framework.
翻訳日:2021-12-12 14:53:41 公開日:2021-12-01
# Pose2Room:人間の活動から3Dシーンを理解する

Pose2Room: Understanding 3D Scenes from Human Activities ( http://arxiv.org/abs/2112.03030v1 )

ライセンス: Link先を確認
Yinyu Nie, Angela Dai, Xiaoguang Han, Matthias Nie{\ss}ner(参考訳) ウェアラブルIMUセンサーを使えば、視覚入力を必要とせずにウェアラブルデバイスから人間のポーズを推定することができる。 この研究で我々は、人間の軌道情報のみから、現実世界の環境におけるオブジェクト構造を推論できるだろうか? 重要なことに、人間の動きや相互作用はシーン内の物体についての強い情報を与える傾向がある。 そこで本研究では,P2R-Netを用いて,環境中の人間軌道の入力に基づいて,それらのクラスカテゴリと向き付けられた3次元境界ボックスを特徴とする物体の確率的3次元モデルを学習する。 P2R-Netは、オブジェクトクラスの確率分布と、オブジェクトボックスの深いガウス混合モデルをモデル化し、観察された人間の軌道から、複数の、多種多様な、おそらく可能なオブジェクト構成のサンプリングを可能にする。 我々の実験では、P2R-Netは、人間の動きの可能性のあるオブジェクトのマルチモーダル分布を効果的に学習し、視覚情報なしでも、環境の様々な可視性オブジェクト構造を生成できることを実証した。

With wearable IMU sensors, one can estimate human poses from wearable devices without requiring visual input \cite{von2017sparse}. In this work, we pose the question: Can we reason about object structure in real-world environments solely from human trajectory information? Crucially, we observe that human motion and interactions tend to give strong information about the objects in a scene -- for instance a person sitting indicates the likely presence of a chair or sofa. To this end, we propose P2R-Net to learn a probabilistic 3D model of the objects in a scene characterized by their class categories and oriented 3D bounding boxes, based on an input observed human trajectory in the environment. P2R-Net models the probability distribution of object class as well as a deep Gaussian mixture model for object boxes, enabling sampling of multiple, diverse, likely modes of object configurations from an observed human trajectory. In our experiments we demonstrate that P2R-Net can effectively learn multi-modal distributions of likely objects for human motions, and produce a variety of plausible object structures of the environment, even without any visual information.
翻訳日:2021-12-12 14:53:15 公開日:2021-12-01
# (参考訳) H&E染色膵全スライディング画像における腫瘍部分の自動抽出

Automatic tumour segmentation in H&E-stained whole-slide images of the pancreas ( http://arxiv.org/abs/2112.01533v1 )

ライセンス: CC BY 4.0
Pierpaolo Vendittelli and Esther M.M. Smeets and Geert Litjens(参考訳) 膵臓がんは、間もなく西欧社会で2番目のがん関連死因となる。 ct, mri, 超音波などの画像診断技術は初期診断の助けとなるが, 病理組織学的診断は疾患の存在と予後を最終確認するための標準である。 近年では、乳がんや前立腺がんなどの他のがん組織における診断と予後の改善に機械学習アプローチと病理パイプラインが有用である可能性が示されている。 これらのパイプラインにおける重要な第一歩は、通常、腫瘍領域の識別とセグメンテーションである。 理想的には、このステップは手動アノテーションの時間を消費しないよう自動的に実行される。 病気の検出とセグメンテーションの精度のバランスをとるために,マルチタスク畳み込みニューラルネットワークを提案する。 29名の患者(合計58名のスライド)のデータセットを異なる解像度で検証した。 最良タスクセグメンテーションネットワークは、中央値の0.885 (0.122) iqrを15.56$\mu$mで達成した。 マルチタスクネットワークは,0.934 (0.077) iqrの中央値で改善した。

Pancreatic cancer will soon be the second leading cause of cancer-related death in Western society. Imaging techniques such as CT, MRI and ultrasound typically help providing the initial diagnosis, but histopathological assessment is still the gold standard for final confirmation of disease presence and prognosis. In recent years machine learning approaches and pathomics pipelines have shown potential in improving diagnostics and prognostics in other cancerous entities, such as breast and prostate cancer. A crucial first step in these pipelines is typically identification and segmentation of the tumour area. Ideally this step is done automatically to prevent time consuming manual annotation. We propose a multi-task convolutional neural network to balance disease detection and segmentation accuracy. We validated our approach on a dataset of 29 patients (for a total of 58 slides) at different resolutions. The best single task segmentation network achieved a median Dice of 0.885 (0.122) IQR at a resolution of 15.56 $\mu$m. Our multi-task network improved on that with a median Dice score of 0.934 (0.077) IQR.
翻訳日:2021-12-07 08:45:16 公開日:2021-12-01
# (参考訳) Ptolemyによる低温電子顕微鏡データ収集の自動化

Learning to automate cryo-electron microscopy data collection with Ptolemy ( http://arxiv.org/abs/2112.01534v1 )

ライセンス: CC BY 4.0
Paul T. Kim, Alex J. Noble, Anchi Cheng, Tristan Bepler(参考訳) 過去10年にわたり、極低温電子顕微鏡(cryo-em)は、生体高分子のネイティブに近い近原子分解能3d構造を決定する主要な方法として登場してきた。 低温EMの需要の増加に対応するため,コスト削減を図りながらスループットと効率を向上する自動化手法が必要である。 現在、高精細度EMマイクログラフの収集プロセスであるデータ収集は、人間の入力とパラメータのマニュアルチューニングを必要としており、専門家は、優れた高精細度収集場所を見つけるためには、低精細度と中精細度の画像をナビゲートする必要がある。 画像は信号とノイズの比率が低く、収集セッション毎に異なる可能性のある実験パラメータによって影響を受ける。 ここでは、混合モデル、畳み込みニューラルネットワーク(CNN)、U-Netsなど、様々なコンピュータビジョンアルゴリズムを用いて、目的のアルゴリズムを用いた低・中規模のターゲットをターゲットとする最初のパイプラインを開発する。 このパイプラインで学習されたモデルは、実際のcryo-emデータ収集セッションのイメージの大規模な内部データセットでトレーニングされ、オペレータによって選択されたロケーションでラベル付けされる。 これらのモデルを用いて、低級・中級画像の関心領域(ROI)を効果的に検出・分類し、未知のセッションや外部施設から異なる顕微鏡を用いて撮像した画像に一般化できることを示す。 私たちは、当社のパイプラインであるptolemyが、cryo-emデータ収集の自動化ツールとしてすぐに役立ち、効率的かつ自動化されたcryo-em顕微鏡のための将来の先進的手法の基礎となることを期待しています。

Over the past decade, cryogenic electron microscopy (cryo-EM) has emerged as a primary method for determining near-native, near-atomic resolution 3D structures of biological macromolecules. In order to meet increasing demand for cryo-EM, automated methods to improve throughput and efficiency while lowering costs are needed. Currently, the process of collecting high-magnification cryo-EM micrographs, data collection, requires human input and manual tuning of parameters, as expert operators must navigate low- and medium-magnification images to find good high-magnification collection locations. Automating this is non-trivial: the images suffer from low signal-to-noise ratio and are affected by a range of experimental parameters that can differ for each collection session. Here, we use various computer vision algorithms, including mixture models, convolutional neural networks (CNNs), and U-Nets to develop the first pipeline to automate low- and medium-magnification targeting with purpose-built algorithms. Learned models in this pipeline are trained on a large internal dataset of images from real world cryo-EM data collection sessions, labeled with locations that were selected by operators. Using these models, we show that we can effectively detect and classify regions of interest (ROIs) in low- and medium-magnification images, and can generalize to unseen sessions, as well as to images captured using different microscopes from external facilities. We expect our pipeline, Ptolemy, will be both immediately useful as a tool for automation of cryo-EM data collection, and serve as a foundation for future advanced methods for efficient and automated cryo-EM microscopy.
翻訳日:2021-12-07 08:38:20 公開日:2021-12-01
# 広範なトレーサビリティを有する分散資産管理のためのサイバーフィジカルシーケンシング

Cyberphysical Sequencing for Distributed Asset Management with Broad Traceability ( http://arxiv.org/abs/2112.02079v1 )

ライセンス: Link先を確認
Joshua Siegel and Gregory Falco(参考訳) サイバー物理システム(CPS)は、複数の利害関係者を含む複雑なライフサイクルを持ち、ハードウェアとソフトウェアコンポーネントのサプライチェーンの透明性は、せいぜい不透明である。 これにより、受け取ったものが要求されたものであることを信頼できないステークホルダーへの懸念が高まる。 普遍的なトレーサビリティと、プロヴァンスに基づいてシステムを区別する能力を提供する、サイバーフィジカルなタイトリングプロセスを構築する機会がある。 現在、RFIDタグとバーコードはこれらのニーズのいくつかに対処しているが、それらはオブジェクトやシステム固有の特性との非リンクのために容易に操作できる。 我々は,システムの物理的アイデンティティとユニークで不変なデジタル識別子を関連付ける任意の資産にトラック・アンド・トレース機能を追加する,低コストで軽量で広く普及する手法としてサイバーフィジカルシーケンシングを提案する。 CPSシークエンシングは、Digital Twinsと同様の利点を提供し、計算やその他のリソースをはるかに少なくして、その生涯を通じて資産の出現とアイデンティティを特定し管理する。

Cyber-Physical systems (CPS) have complex lifecycles involving multiple stakeholders, and the transparency of both hardware and software components' supply chain is opaque at best. This raises concerns for stakeholders who may not trust that what they receive is what was requested. There is an opportunity to build a cyberphysical titling process offering universal traceability and the ability to differentiate systems based on provenance. Today, RFID tags and barcodes address some of these needs, though they are easily manipulated due to non-linkage with an object or system's intrinsic characteristics. We propose cyberphysical sequencing as a low-cost, light-weight and pervasive means of adding track-and-trace capabilities to any asset that ties a system's physical identity to a unique and invariant digital identifier. CPS sequencing offers benefits similar Digital Twins' for identifying and managing the provenance and identity of an asset throughout its life with far fewer computational and other resources.
翻訳日:2021-12-06 16:19:39 公開日:2021-12-01
# (参考訳) 高スペクトル効率プリコーディング行列のマニフォールド解析のための変分オートエンコーダ

Variational Autoencoders for Studying the Manifold of Precoding Matrices with High Spectral Efficiency ( http://arxiv.org/abs/2111.15626v2 )

ライセンス: CC BY 4.0
Evgeny Bobrov (1 and 2), Alexander Markov (3), Dmitry Vetrov (3) ((1) Moscow Research Center, Huawei Technologies, Russia, (2) M. V. Lomonosov Moscow State University, Russia, (3) National Research University Higher School of Economics, Russia)(参考訳) マルチインプット多重出力(MIMO)無線通信システムでは、チャネル復号、検出、チャネル推定、リソース管理にニューラルネットワークが使用されている。 本稿では,スペクトル効率 (se) の高いプリコーディング行列を求めるために,変分オートエンコーダをどのように利用するかを検討する。 最適プリコーディング行列の収集には最適化手法を用いる。 私たちの目標は、最小品質の劣化を伴う、より時間を要するアルゴリズムを作ることです。 プリコーディング行列を構築するために,従来の変分オートエンコーダ (vae) と条件付き変分オートエンコーダ (cvae) の2種類の変分オートエンコーダを用いた。 どちらの手法も、幅広い最適プリコーディング行列の研究に使用できる。 我々の知る限り、VAE法とCVAE法を利用したスペクトル効率客観的関数(SE)のためのプリコーディング行列の開発が、初めて発表されている。

In multiple-input multiple-output (MIMO) wireless communications systems, neural networks have been employed for channel decoding, detection, channel estimation, and resource management. In this paper, we look at how to use a variational autoencoder to find a precoding matrix with a high Spectral Efficiency (SE). To collect optimal precoding matrices, an optimization approach is used. Our objective is to create a less time-consuming algorithm with minimum quality degradation. To build precoding matrices, we employed two forms of variational autoencoders: conventional variational autoencoders (VAE) and conditional variational autoencoders (CVAE). Both methods may be used to study a wide range of optimal precoding matrices. To the best of our knowledge, the development of precoding matrices for the spectral efficiency objective function (SE) utilising VAE and CVAE methods is being published for the first time.
翻訳日:2021-12-06 02:31:03 公開日:2021-12-01
# 金融予測のためのエキスパートアグリゲーション

Expert Aggregation for Financial Forecasting ( http://arxiv.org/abs/2111.15365v2 )

ライセンス: Link先を確認
Carl Remlinger, Bri\`ere Marie, Alasseur Cl\'emence, Joseph Mikael(参考訳) 金融時系列予測に特化した機械学習アルゴリズムは、ここ数年で大きな関心を集めている。 一つの難点は、複数のアルゴリズムの選択であり、その推定精度は時間とともに不安定である。 本稿では,複数の機械学習技術を組み合わせて,市場条件に動的に適応するポートフォリオを構築するオンライン集約型予測モデルを提案する。 この集約手法を,財務特性にランク付けされた個人株の長期的ポートフォリオ構築に適用し,パフォーマンスと安定性の両面において,集約がシングルアルゴリズムより優れていることを示す。

Machine learning algorithms dedicated to financial time series forecasting have gained a lot of interest over the last few years. One difficulty lies in the choice between several algorithms, as their estimation accuracy may be unstable through time. In this paper, we propose to apply an online aggregation-based forecasting model combining several machine learning techniques to build a portfolio which dynamically adapts itself to market conditions. We apply this aggregation technique to the construction of a long-short-portfolio of individual stocks ranked on their financial characteristics and we demonstrate how aggregation outperforms single algorithms both in terms of performances and of stability.
翻訳日:2021-12-06 01:23:23 公開日:2021-12-01
# (参考訳) マルチチャネルVAEを用いた高分解能雲と対流の解析

Analyzing High-Resolution Clouds and Convection using Multi-Channel VAEs ( http://arxiv.org/abs/2112.01221v1 )

ライセンス: CC BY 4.0
Harshini Mangipudi, Griffin Mooers, Mike Pritchard, Tom Beucler, Stephan Mandt(参考訳) 小型対流とストーム形成の詳細を理解することは、惑星の大規模ダイナミクスを正確に表現するために重要である。 現在、大気科学者は高分解能で嵐を解消するシミュレーションを行い、これらのkm規模の気象情報を捉えている。 しかし、これらのシミュレーションには豊富な情報が含まれているため、従来の手法を用いて解析することは圧倒的である。 本稿では,データ駆動型手法を用いて,垂直風速,温度,水蒸気情報の空間配列をvaeアーキテクチャの3つの"チャネル"として組み込む。 私たちの"マルチチャネルvae"は、分離した垂直速度を分析する以前の研究よりも、解釈可能で堅牢な潜在構造をもたらします。 VAEの潜伏空間の分析とクラスタリングは、気象パターンとその地理的表示を完全に教師なしの方法で識別する。 本研究は,vaesが高次元シミュレーションデータの解析や気象・気候特性の抽出において重要な役割を担っていることを示す。

Understanding the details of small-scale convection and storm formation is crucial to accurately represent the larger-scale planetary dynamics. Presently, atmospheric scientists run high-resolution, storm-resolving simulations to capture these kilometer-scale weather details. However, because they contain abundant information, these simulations can be overwhelming to analyze using conventional approaches. This paper takes a data-driven approach and jointly embeds spatial arrays of vertical wind velocities, temperatures, and water vapor information as three "channels" of a VAE architecture. Our "multi-channel VAE" results in more interpretable and robust latent structures than earlier work analyzing vertical velocities in isolation. Analyzing and clustering the VAE's latent space identifies weather patterns and their geographical manifestations in a fully unsupervised fashion. Our approach shows that VAEs can play essential roles in analyzing high-dimensional simulation data and extracting critical weather and climate characteristics.
翻訳日:2021-12-04 13:48:40 公開日:2021-12-01
# (参考訳) メモリ変更によるNesterov'sAccelerated quasi-Newton

A modified limited memory Nesterov's accelerated quasi-Newton ( http://arxiv.org/abs/2112.01327v1 )

ライセンス: CC BY 4.0
S. Indrapriyadarsini, Shahrzad Mahboubi, Hiroshi Ninomiya, Takeshi Kamio, Hideki Asai(参考訳) Nesterov's accelerated quasi-Newton (L)NAQ法は、いくつかのニューラルネットワーク(NN)アプリケーションにおいて、Nesterov's accelerated gradientを用いた従来の(L)BFGS quasi-Newton法を加速することを示した。 しかし、反復毎の2つの勾配の計算は計算コストを増大させる。 Momentum accelerated Quasi-Newton (MoQ) 法は,Nesterov の加速勾配を過去の勾配の線形結合として近似できることを示した。 この抽象化は、MoQ近似を限られたメモリNAQに拡張し、関数近似問題の性能を評価する。

The Nesterov's accelerated quasi-Newton (L)NAQ method has shown to accelerate the conventional (L)BFGS quasi-Newton method using the Nesterov's accelerated gradient in several neural network (NN) applications. However, the calculation of two gradients per iteration increases the computational cost. The Momentum accelerated Quasi-Newton (MoQ) method showed that the Nesterov's accelerated gradient can be approximated as a linear combination of past gradients. This abstract extends the MoQ approximation to limited memory NAQ and evaluates the performance on a function approximation problem.
翻訳日:2021-12-04 13:42:45 公開日:2021-12-01
# (参考訳) k空間アンダーサンプリングによるMRパラメトリックマッピングの高速化と深層学習によるコントラスト数低減

Highly accelerated MR parametric mapping by undersampling the k-space and reducing the contrast number simultaneously with deep learning ( http://arxiv.org/abs/2112.00730v1 )

ライセンス: CC BY 4.0
Yanjie Zhu, Haoxiang Li, Yuanyuan Liu, Muzi Guo, Guanxun Cheng, Gang Yang, Haifeng Wang and Dong Liang(参考訳) 目的:k空間のアンサンプリングと取得したコントラスト数を同時に削減することにより,mrパラメトリックマッピングを高度に高速化する,rg-net(reconstruction and generation network)と呼ばれる新しい深層学習ベース手法を提案する。 方法:提案するフレームワークは,再構成モジュールと生成モジュールから構成される。 再構成モジュールは、取得した数少ないアンサンプされたk空間データから、予めデータの助けを借りてMR画像を再構成する。 生成モジュールは、残りの多重コントラスト画像を再構成された画像から合成し、指数モデルを全サンプルラベルの監督により画像生成に暗黙的に組み込む。 RG-Netは膝と脳のT1\r{ho}マッピングデータを異なる加速度速度で評価した。 軟骨と脳の局所的T1\r{ho}解析を行い,RG-Netの性能について検討した。 結果: RG-Netは17の加速速度で高品質なT1\r{ho}写像を得る。 k-空間をアンサンプする競合する手法と比較して、我々のフレームワークはT1\r{ho}値解析においてより良い性能を達成する。 また, グリオーマ患者のT1\r{ho}マップの品質も改善した。 結論: k空間をアンサンプリングし,高速なmrパラメトリックマッピングのためのコントラスト数を同時に削減する新しい戦略を採用したrg-netは,良好な再構成品質を維持しつつ高い加速率を達成できる。 我々のフレームワークの生成モジュールは、他の高速MRパラメトリックマッピング手法の挿入モジュールとしても使用できる。 キーワード:ディープラーニング、畳み込みニューラルネットワーク、高速なmrパラメトリックマッピング

Purpose: To propose a novel deep learning-based method called RG-Net (reconstruction and generation network) for highly accelerated MR parametric mapping by undersampling k-space and reducing the acquired contrast number simultaneously. Methods: The proposed framework consists of a reconstruction module and a generative module. The reconstruction module reconstructs MR images from the acquired few undersampled k-space data with the help of a data prior. The generative module then synthesizes the remaining multi-contrast images from the reconstructed images, where the exponential model is implicitly incorporated into the image generation through the supervision of fully sampled labels. The RG-Net was evaluated on the T1\r{ho} mapping data of knee and brain at different acceleration rates. Regional T1\r{ho} analysis for cartilage and the brain was performed to access the performance of RG-Net. Results: RG-Net yields a high-quality T1\r{ho} map at a high acceleration rate of 17. Compared with the competing methods that only undersample k-space, our framework achieves better performance in T1\r{ho} value analysis. Our method also improves quality of T1\r{ho} maps on patient with glioma. Conclusion: The proposed RG-Net that adopted a new strategy by undersampling k-space and reducing the contrast number simultaneously for fast MR parametric mapping, can achieve a high acceleration rate while maintaining good reconstruction quality. The generative module of our framework can also be used as an insert module in other fast MR parametric mapping methods. Keywords: Deep learning, convolutional neural network, fast MR parametric mapping
翻訳日:2021-12-04 13:40:31 公開日:2021-12-01
# (参考訳) 適応型バッチノルムによる連合学習によるパーソナライズ医療

Federated Learning with Adaptive Batchnorm for Personalized Healthcare ( http://arxiv.org/abs/2112.00734v1 )

ライセンス: CC BY 4.0
Yiqiang Chen, Wang Lu, Jindong Wang, Xin Qin, Tao Qin(参考訳) 医療に機械学習技術を適用することへの関心が高まっている。 近年,データプライバシやセキュリティを損なうことなく,強力なモデルをトレーニングすることが可能な統合機械学習(FL)が普及している。 しかし、既存のflアプローチの性能は、クライアント間の分配ギャップがある非iid状況に遭遇した場合に低下することが多く、医療におけるパーソナライゼーションに焦点を当てた以前の取り組みはほとんどない。 本稿では、ドメインシフトに取り組み、ローカルクライアント向けにパーソナライズされたモデルを得るadafedを提案する。 AdaFedは、各クライアントの特異性を異なるローカルバッチ正規化で保存しながら、バッチ正規化層の統計を通してクライアント間の類似性を学ぶ。 5つの医療ベンチマークに関する総合的な実験は、AdaFedがより高速な収束速度で最先端の手法(例えば、PAMAP2)よりも精度が高いことを実証している。

There is a growing interest in applying machine learning techniques for healthcare. Recently, federated machine learning (FL) is gaining popularity since it allows researchers to train powerful models without compromising data privacy and security. However, the performance of existing FL approaches often deteriorates when encountering non-iid situations where there exist distribution gaps among clients, and few previous efforts focus on personalization in healthcare. In this article, we propose AdaFed to tackle domain shifts and obtain personalized models for local clients. AdaFed learns the similarity between clients via the statistics of the batch normalization layers while preserving the specificity of each client with different local batch normalization. Comprehensive experiments on five healthcare benchmarks demonstrate that AdaFed achieves better accuracy compared to state-of-the-art methods (e.g., \textbf{10}\%+ accuracy improvement for PAMAP2) with faster convergence speed.
翻訳日:2021-12-04 13:25:50 公開日:2021-12-01
# (参考訳) 医用セマンティクスセグメンテーションのための参照誘導擬似ラベル生成

Reference-guided Pseudo-Label Generation for Medical Semantic Segmentation ( http://arxiv.org/abs/2112.00735v1 )

ライセンス: CC BY 4.0
Constantin Seibold, Simon Rei{\ss}, Jens Kleesiek, Rainer Stiefelhagen(参考訳) 濃密な注釈付きデータを作成することは、医療画像の応用にとって困難で面倒な作業である。 そこで本研究では,半教師付きセマンティックセグメンテーションのための監視手法を提案する。 ラベル付き画像とラベルなし画像の間の視覚的に類似した領域は、おそらく同じ意味を持ち、従ってラベルを共有するべきである。 この考えに従い、少数のラベル付き画像を参照材料として使用し、未ラベル画像中の画素と参照集合内の最適な画素のセマンティクスを一致させる。 このように、純粋に予測に基づく擬似ラベルではよく見られる確認バイアスのような落とし穴を避ける。 本手法はアーキテクチャの変更やネットワークの対応を必要としないため,既存のフレームワークに容易に挿入することができる。 我々は,X線解剖学的セグメンテーションの標準教師付きモデルと同じ性能を達成するが,ラベル付き画像は95%少ない。 提案手法の様々な側面の詳細な分析とは別に, 既存の網膜液分画法に対するアプローチと, 競争性能を比較検討することにより, 基準誘導学習パラダイムの有効性をさらに実証する。

Producing densely annotated data is a difficult and tedious task for medical imaging applications. To address this problem, we propose a novel approach to generate supervision for semi-supervised semantic segmentation. We argue that visually similar regions between labeled and unlabeled images likely contain the same semantics and therefore should share their label. Following this thought, we use a small number of labeled images as reference material and match pixels in an unlabeled image to the semantics of the best fitting pixel in a reference set. This way, we avoid pitfalls such as confirmation bias, common in purely prediction-based pseudo-labeling. Since our method does not require any architectural changes or accompanying networks, one can easily insert it into existing frameworks. We achieve the same performance as a standard fully supervised model on X-ray anatomy segmentation, albeit 95% fewer labeled images. Aside from an in-depth analysis of different aspects of our proposed method, we further demonstrate the effectiveness of our reference-guided learning paradigm by comparing our approach against existing methods for retinal fluid segmentation with competitive performance as we improve upon recent work by up to 15% mean IoU.
翻訳日:2021-12-04 13:12:13 公開日:2021-12-01
# (参考訳) 機能的mriスキャンへのグラフニューラルネットワークの適用による医療診断支援

Aiding Medical Diagnosis Through the Application of Graph Neural Networks to Functional MRI Scans ( http://arxiv.org/abs/2112.00738v1 )

ライセンス: CC BY 4.0
Katharina Z\"uhlsdorff and Clayton M. Rabideau(参考訳) グラフニューラルネットワーク(GNN)は、生物学的データから予測を生成する強力なツールであることが示されている。 機能的磁気共鳴イメージング(fMRI)スキャンなどの神経画像データへの応用は限られている。 しかし、fMRIスキャンへのGNNの適用は予測精度を大幅に向上させる可能性があり、将来臨床診断に役立てることができる。 本稿では,ノードやエッジを含むグラフとして静止状態fMRIデータを表現するための新しい手法を提案する。 複数のGNNアーキテクチャを比較し,疾患や性別の予測に成功していることを示す。 脳画像データにgnnのパワーを利用するための将来の研究の基盤を提供したいと考えています。

Graph Neural Networks (GNNs) have been shown to be a powerful tool for generating predictions from biological data. Their application to neuroimaging data such as functional magnetic resonance imaging (fMRI) scans has been limited. However, applying GNNs to fMRI scans may substantially improve predictive accuracy and could be used to inform clinical diagnosis in the future. In this paper, we present a novel approach to representing resting-state fMRI data as a graph containing nodes and edges without omitting any of the voxels and thus reducing information loss. We compare multiple GNN architectures and show that they can successfully predict the disease and sex of a person. We hope to provide a basis for future work to exploit the power of GNNs when applied to brain imaging data.
翻訳日:2021-12-04 12:58:07 公開日:2021-12-01
# (参考訳) クロスビュー関係転送による不完全マルチビュークラスタリング

Incomplete Multi-view Clustering via Cross-view Relation Transfer ( http://arxiv.org/abs/2112.00739v1 )

ライセンス: CC BY-SA 4.0
Yiming Wang, Dongxia Chang, Zhiqiang Fu, Yao Zhao(参考訳) 本稿では,不完全ビューにおけるマルチビュークラスタリングの問題について考察する。 完全なマルチビュークラスタリングと比較して、ビューミス問題は、異なるビューから共通の表現を学ぶことの難しさを増大させる。 そこで本研究では,クロスビュー関係伝達とマルチビュー融合学習を組み合わせた,新しい不完全マルチビュークラスタリングフレームワークを提案する。 具体的には、マルチビューデータに存在する一貫性に基づいて、類似のインスタンス間関係を欠落ビューに転送し、転送された関係グラフに基づいたグラフネットワークを介して欠落データを復元するクロスビュー関係転送ベース補完モジュールを考案する。 次に、検索したマルチビューデータを抽出するビュー固有エンコーダを設計し、その共通表現を得るために、注目ベースの融合層を導入する。 さらに、ビュー間の不整合によるエラーの影響を低減し、より優れたクラスタリング構造を得るために、回復とクラスタリングを同時に最適化する共同クラスタリング層を導入する。 実データを用いた大規模実験により,提案手法の有効性が実証された。

In this paper, we consider the problem of multi-view clustering on incomplete views. Compared with complete multi-view clustering, the view-missing problem increases the difficulty of learning common representations from different views. To address the challenge, we propose a novel incomplete multi-view clustering framework, which incorporates cross-view relation transfer and multi-view fusion learning. Specifically, based on the consistency existing in multi-view data, we devise a cross-view relation transfer-based completion module, which transfers known similar inter-instance relationships to the missing view and recovers the missing data via graph networks based on the transferred relationship graph. Then the view-specific encoders are designed to extract the recovered multi-view data, and an attention-based fusion layer is introduced to obtain the common representation. Moreover, to reduce the impact of the error caused by the inconsistency between views and obtain a better clustering structure, a joint clustering layer is introduced to optimize recovery and clustering simultaneously. Extensive experiments conducted on several real datasets demonstrate the effectiveness of the proposed method.
翻訳日:2021-12-04 12:51:43 公開日:2021-12-01
# (参考訳) モノリスからマイクロサービスへ - 異種GNNによるアプリケーションソフトウェア表現

Monolith to Microservices: Representing Application Software through Heterogeneous GNN ( http://arxiv.org/abs/2112.01317v1 )

ライセンス: CC BY 4.0
Alex Mathai, Sambaran Bandyopadhyay, Utkarsh Desai, Srikanth Tamilselvam(参考訳) モノリスソフトウェアアプリケーションは、すべての機能を単一のデプロイ可能なユニットにカプセル化する。 モノリス内でも機能のクリーンな分離を維持するという意図はあるが、新たな機能に対する需要の増加、チームメンバの変更、厳しいタイムライン、スキルセットの非使用性といった問題に陥りがちである。 このようなアプリケーションの老朽化に伴って,理解や維持が困難になるのです。 そのため、マイクロサービスアーキテクチャは、複数の小さな疎結合な機能サービスを通じてアプリケーションを構築することを提唱するにつれて、ますます使われています。 このアプローチは、マイクロサービスアーキテクチャをクラウドベースのアプリケーションにとって自然な選択にしました。 しかし、すでに記述されたモノリスコードの機能モジュールの自動分離における課題は、マイグレーションタスクを遅くする。 グラフはソフトウェアアプリケーションを表現するための自然な選択です。 プログラム、テーブル、ファイルといった様々なソフトウェアアーティファクトがグラフのノードとなり、関数呼び出し、継承、リソース(テーブル、ファイル)アクセスタイプ(生成、読み取り、更新、削除)はグラフのリンクとして表現できる。 したがって、この従来のアプリケーション分解問題をヘテロジニアスグラフに基づくクラスタリングタスクに導出する。 私たちのソリューションは、異種グラフニューラルネットワークを活用して、そのような多様なソフトウェアエンティティの表現とクラスタリングタスクとの関係を学習する最初の方法です。 本研究は,ソフトウェア工学と既存グラフ表現に基づく手法の両分野の成果とを比較して有効性を検討した。 我々は、Javaのようなオブジェクト指向言語やCOBOLのような手続き型言語で書かれたアプリケーションを実験し、我々の作業が異なるプログラミングパラダイムにまたがって適用可能であることを示す。

Monolith software applications encapsulate all functional capabilities into a single deployable unit. While there is an intention to maintain clean separation of functionalities even within the monolith, they tend to get compromised with the growing demand for new functionalities, changing team members, tough timelines, non-availability of skill sets, etc. As such applications age, they become hard to understand and maintain. Therefore, microservice architectures are increasingly used as they advocate building an application through multiple smaller sized, loosely coupled functional services, wherein each service owns a single functional responsibility. This approach has made microservices architecture as the natural choice for cloud based applications. But the challenges in the automated separation of functional modules for the already written monolith code slows down their migration task. Graphs are a natural choice to represent software applications. Various software artifacts like programs, tables and files become nodes in the graph and the different relationships they share, such as function calls, inheritance, resource(tables, files) access types (Create, Read, Update, Delete) can be represented as links in the graph. We therefore deduce this traditional application decomposition problem to a heterogeneous graph based clustering task. Our solution is the first of its kind to leverage heterogeneous graph neural network to learn representations of such diverse software entities and their relationships for the clustering task. We study the effectiveness by comparing with works from both software engineering and existing graph representation based techniques. We experiment with applications written in an object oriented language like Java and a procedural language like COBOL and show that our work is applicable across different programming paradigms.
翻訳日:2021-12-04 12:40:45 公開日:2021-12-01
# (参考訳) 12誘導心電図の多クラス分類のための適応鉛重み付きResNetの解析

Analysis of an adaptive lead weighted ResNet for multiclass classification of 12-lead ECGs ( http://arxiv.org/abs/2112.01496v1 )

ライセンス: CC BY 4.0
Zhibin Zhao, Darcy Murphy, Hugh Gifford, Stefan Williams, Annie Darlington, Samuel D. Relton, Hui Fang, David C. Wong(参考訳) 背景:12個の心電図は心血管疾患の診断ツールである。 本稿では,24個の心疾患を12誘導心電図から分類するために,アンサンブルディープニューラルネットワークアーキテクチャを記述・解析する。 方法:12誘導心電図から心電図の奥行きを自動学習し,24の心疾患を同定するためのスイーズ・エキサイティング・レネットを提案する。 深い特徴は、最後の完全に接続された層に年齢と性別の特徴が加えられた。 各クラスの出力しきい値は制約付きグリッド検索を使用して設定された。 モデルが誤った予測をした理由を判断するために、2人の専門医は、左軸偏差に関する100の誤分類ECGのランダムなセットを独立に解釈した。 結果: 有意な重み付け精度指標を用いて, 5倍クロス検証スコア0.684, 感度, 特異度0.758, 0.969をそれぞれ達成した。 全テストデータで0.520点を獲得し、公式チャレンジランキングで41点中2位にランクした。 ランダムに分類された心電図では,2つの臨床医とトレーニングラベルの一致が低かった(臨床医1:kaappa = -0.057,臨床医2:kaappa = -0.159)。 対照的に臨床医間の合意は極めて高かった(kappa = 0.92)。 考察:提案した予測モデルは,同一データ上でトレーニングされたモデルと比較して,検証と隠れテストデータに対して良好に動作した。 また、トレーニングラベルにかなりの一貫性がないことも分かり、より正確なモデルの開発に支障をきたす可能性がある。

Background: Twelve lead ECGs are a core diagnostic tool for cardiovascular diseases. Here, we describe and analyse an ensemble deep neural network architecture to classify 24 cardiac abnormalities from 12-lead ECGs. Method: We proposed a squeeze and excite ResNet to automatically learn deep features from 12-lead ECGs, in order to identify 24 cardiac conditions. The deep features were augmented with age and gender features in the final fully connected layers. Output thresholds for each class were set using a constrained grid search. To determine why the model made incorrect predictions, two expert clinicians independently interpreted a random set of 100 misclassified ECGs concerning Left Axis Deviation. Results: Using the bespoke weighted accuracy metric, we achieved a 5-fold cross validation score of 0.684, and sensitivity and specificity of 0.758 and 0.969, respectively. We scored 0.520 on the full test data, and ranked 2nd out of 41 in the official challenge rankings. On a random set of misclassified ECGs, agreement between two clinicians and training labels was poor (clinician 1: kappa = -0.057, clinician 2: kappa = -0.159). In contrast, agreement between the clinicians was very high (kappa = 0.92). Discussion: The proposed prediction model performed well on the validation and hidden test data in comparison to models trained on the same data. We also discovered considerable inconsistency in training labels, which is likely to hinder development of more accurate models.
翻訳日:2021-12-04 12:24:43 公開日:2021-12-01
# (参考訳) 実験からの学習における量子アドバンテージ

Quantum advantage in learning from experiments ( http://arxiv.org/abs/2112.00778v1 )

ライセンス: CC BY 4.0
Hsin-Yuan Huang, Michael Broughton, Jordan Cotler, Sitan Chen, Jerry Li, Masoud Mohseni, Hartmut Neven, Ryan Babbush, Richard Kueng, John Preskill, Jarrod R. McClean(参考訳) 量子技術は、物理的世界を学ぶために実験データを取得し、処理する方法に革命をもたらす可能性がある。 物理システムから安定した量子メモリへデータを転送し、量子コンピュータを使ってそのデータを処理する実験的なセットアップは、物理システムが測定され、結果が古典的コンピュータで処理される従来の実験よりも大きな利点がある。 様々なタスクにおいて、量子マシンは従来の実験よりも指数関数的に少ない実験から学べることを証明する。 指数関数的な利点は、物理系の特性の予測、ノイズ状態の量子主成分分析、物理力学の近似モデルを学ぶことである。 例えば、システムの2つのコピーのみを処理することで、多くの非可換可観測物について同時に学ぶことができる。 最大40個の超伝導量子ビットと1300個の量子ゲートを用いた実験を行い、今日の比較的ノイズの多い量子プロセッサを用いて大きな量子優位性を実現することを実証した。 我々の結果は、量子技術がいかにして強力な新しい戦略を自然について学べるかを強調している。

Quantum technology has the potential to revolutionize how we acquire and process experimental data to learn about the physical world. An experimental setup that transduces data from a physical system to a stable quantum memory, and processes that data using a quantum computer, could have significant advantages over conventional experiments in which the physical system is measured and the outcomes are processed using a classical computer. We prove that, in various tasks, quantum machines can learn from exponentially fewer experiments than those required in conventional experiments. The exponential advantage holds in predicting properties of physical systems, performing quantum principal component analysis on noisy states, and learning approximate models of physical dynamics. In some tasks, the quantum processing needed to achieve the exponential advantage can be modest; for example, one can simultaneously learn about many noncommuting observables by processing only two copies of the system. Conducting experiments with up to 40 superconducting qubits and 1300 quantum gates, we demonstrate that a substantial quantum advantage can be realized using today's relatively noisy quantum processors. Our results highlight how quantum technology can enable powerful new strategies to learn about nature.
翻訳日:2021-12-04 12:14:29 公開日:2021-12-01
# (参考訳) 分散政策勾配を用いた条件言語モデルの制御

Controlling Conditional Language Models with Distributional Policy Gradients ( http://arxiv.org/abs/2112.00791v1 )

ライセンス: CC BY 4.0
Tomasz Korbak and Hady Elsahar and German Kruszewski and Marc Dymetman(参考訳) 機械学習は汎用的な事前学習型生成モデルへとシフトし、大量のデータに基づいて自己教師付きで訓練され、大量のタスクを解決できるようになっている。 しかし、一般的なトレーニング方法論のため、これらのモデルは下流の要件(例えば、抽象的な要約の幻覚や自動コード生成の間違ったフォーマット)を満たさないことが多い。 このことは、事前訓練された生成モデルをその能力を破壊することなく新しいタスクに適応させる方法について重要な疑問を提起する。 最近の研究は、エネルギーベースモデル(EBM)を通してタスク固有の要求を表現し、分散政策勾配(DPG)を用いてこれらのEMMを近似することでこの問題を解決することを示唆している。 残念ながら、このアプローチは無条件の EBM で表される非条件分布に限られている。 本稿では,条件付きdpg (cdpg) の提案により,条件付きタスクに適用する。 我々は,T5による要約とGPT-Neoによるコード生成の3つのタスクに対してCDPGを評価した。 以上の結果から,CDPGを用いた微調整は,これらの事前学習されたモデルを制御対象に近づけるとともに,ベースラインのアプローチとは対照的に,破滅的な忘れを生じさせるものではないことがわかった。

Machine learning is shifting towards general-purpose pretrained generative models, trained in a self-supervised manner on large amounts of data, which can then be applied to solve a large number of tasks. However, due to their generic training methodology, these models often fail to meet some of the downstream requirements (e.g. hallucination in abstractive summarization or wrong format in automatic code generation). This raises an important question on how to adapt pre-trained generative models to a new task without destroying its capabilities. Recent work has suggested to solve this problem by representing task-specific requirements through energy-based models (EBMs) and approximating these EBMs using distributional policy gradients (DPG). Unfortunately, this approach is limited to unconditional distributions, represented by unconditional EBMs. In this paper, we extend this approach to conditional tasks by proposing Conditional DPG (CDPG). We evaluate CDPG on three different control objectives across two tasks: summarization with T5 and code generation with GPT-Neo. Our results show that fine-tuning using CDPG robustly moves these pretrained models closer towards meeting control objectives and -- in contrast with baseline approaches -- does not result in catastrophic forgetting.
翻訳日:2021-12-04 12:13:05 公開日:2021-12-01
# (参考訳) 変分選択分割深層学習アルゴリズムに先立って深部画像を利用する

Using Deep Image Prior to Assist Variational Selective Segmentation Deep Learning Algorithms ( http://arxiv.org/abs/2112.00793v1 )

ライセンス: CC BY 4.0
Liam Burrows, Ke Chen, Francesco Torella(参考訳) 変分セグメンテーションアルゴリズムは、解の滑らかさを強制するために、正規化項の形で前もって課す必要がある。 近年、ディープイメージの先行研究で、モデル内の明示的な正規化を取り除き、ニューラルネットワークのアーキテクチャによってキャプチャされた暗黙の正規化に置き換えることが示されている。 ディープイメージの事前アプローチは競争力がありますが、特定のイメージにのみ対応しており、将来のイメージを予測できません。 我々は、Deep Image Priorのアイデアをより伝統的な学習アルゴリズムに組み込むことを提案し、Deep Image Priorが提供する暗黙の正規化を利用できるが、将来的なイメージを予測できる。

Variational segmentation algorithms require a prior imposed in the form of a regularisation term to enforce smoothness of the solution. Recently, it was shown in the Deep Image Prior work that the explicit regularisation in a model can be removed and replaced by the implicit regularisation captured by the architecture of a neural network. The Deep Image Prior approach is competitive, but is only tailored to one specific image and does not allow us to predict future images. We propose to incorporate the ideas from Deep Image Prior into a more traditional learning algorithm to allow us to use the implicit regularisation offered by the Deep Image Prior, but still be able to predict future images.
翻訳日:2021-12-04 11:11:28 公開日:2021-12-01
# (参考訳) DFTS2: パケット損失チャネル上での深い特徴伝達のシミュレーション

DFTS2: Simulating Deep Feature Transmission Over Packet Loss Channels ( http://arxiv.org/abs/2112.00794v1 )

ライセンス: CC BY 4.0
Ashiv Dhondea, Robert A. Cohen, Ivan V. Baji\'c(参考訳) エッジクラウドコラボレーティブインテリジェンス(CI)では、推論を行うAIモデルの情報パスに信頼できない送信チャネルが存在する。 システム動作を理解し,適切なエラー制御戦略を開発するためには,不完全なチャネルを越えたciシステムのパフォーマンスをシミュレートすることが重要である。 本稿では、DFTS2と呼ばれるシミュレーションフレームワークについて、研究者がTensorFlow~2でCIシステムのコンポーネントを定義し、様々なパラメータを持つパケットベースのチャネルモデルを選択し、様々なチャネル条件下でのシステムの挙動をシミュレートする。 また,dfts2を用いて,協調画像分類モデルにおけるパケット損失隠蔽法について,これまで最も包括的に検討した。

In edge-cloud collaborative intelligence (CI), an unreliable transmission channel exists in the information path of the AI model performing the inference. It is important to be able to simulate the performance of the CI system across an imperfect channel in order to understand system behavior and develop appropriate error control strategies. In this paper we present a simulation framework called DFTS2, which enables researchers to define the components of the CI system in TensorFlow~2, select a packet-based channel model with various parameters, and simulate system behavior under various channel conditions and error/loss control strategies. Using DFTS2, we also present the most comprehensive study to date of the packet loss concealment methods for collaborative image classification models.
翻訳日:2021-12-04 10:58:43 公開日:2021-12-01
# (参考訳) Iconary: 描画とテキストによるマルチモーダルコミュニケーションをテストするピクショナリーベースのゲーム

Iconary: A Pictionary-Based Game for Testing Multimodal Communication with Drawings and Text ( http://arxiv.org/abs/2112.00800v1 )

ライセンス: CC BY 4.0
Christopher Clark, Jordi Salvador, Dustin Schwenk, Derrick Bonafilia, Mark Yatskar, Eric Kolve, Alvaro Herrasti, Jonghyun Choi, Sachin Mehta, Sam Skjonsberg, Carissa Schoenick, Aaron Sarnat, Hannaneh Hajishirzi, Aniruddha Kembhavi, Oren Etzioni, Ali Farhadi(参考訳) 人間とのコミュニケーションは、世界、複雑な意味論(例:メタファやアナロジー)、時にはマルチモーダルなジェスチャー(例:指で指を向けたり、図中の矢印を指したりする)の共通理解を必要とするため、aiにとって難しい。 我々は,これらの課題を,Pirctionaryに基づく図面と推測の協調ゲームであるIconaryの文脈で検討し,研究コミュニティに新たな課題をもたらす。 図式化において、投機家は、図面を構成することによって、引き出しが描いているフレーズを識別し、図面を反復的に修正して、投機者が反応するのを助ける。 このバック・アンド・フォースは、しばしば、難解な単語を表現するために、標準的なシーン、視覚的な比喩、またはアイコンの合成を使用する。 我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでトレーニングするモデルを提案する。 私たちのモデルは熟練した選手であり、トレーニング中に見当たらない言葉で遊ぶために、言語モデルに世界の知識を活用できます。 人間のプレイヤーは、特に描画タスクにおいて我々のモデルよりも優れており、将来の研究に対処するための重要なギャップを残している。 私たちはデータセット、コード、評価設定をhttp://www.github.com/allenai/iconary.comでコミュニティへの挑戦としてリリースしています。

Communicating with humans is challenging for AIs because it requires a shared understanding of the world, complex semantics (e.g., metaphors or analogies), and at times multi-modal gestures (e.g., pointing with a finger, or an arrow in a diagram). We investigate these challenges in the context of Iconary, a collaborative game of drawing and guessing based on Pictionary, that poses a novel challenge for the research community. In Iconary, a Guesser tries to identify a phrase that a Drawer is drawing by composing icons, and the Drawer iteratively revises the drawing to help the Guesser in response. This back-and-forth often uses canonical scenes, visual metaphor, or icon compositions to express challenging words, making it an ideal test for mixing language and visual/symbolic communication in AI. We propose models to play Iconary and train them on over 55,000 games between human players. Our models are skillful players and are able to employ world knowledge in language models to play with words unseen during training. Elite human players outperform our models, particularly at the drawing task, leaving an important gap for future research to address. We release our dataset, code, and evaluation setup as a challenge to the community at http://www.github.com/allenai/iconary.
翻訳日:2021-12-04 10:48:38 公開日:2021-12-01
# (参考訳) 学習課題における復調と量子優位性の再考

Revisiting dequantization and quantum advantage in learning tasks ( http://arxiv.org/abs/2112.00811v1 )

ライセンス: CC BY 4.0
Jordan Cotler, Hsin-Yuan Huang, Jarrod R. McClean(参考訳) いくつかの量子機械学習アルゴリズムの明らかな利点は、適切なデータアクセスを持つ古典的アルゴリズムを使って効率的に複製されることが示されている。 量子化に関する既存の研究は、n-量子ビット量子状態 $|x\rangle = \sum_{i} x_i |i\rangle$ をベクトル $x$ へのサンプルおよびクエリ (SQ) アクセスを持つ古典的アルゴリズムへの入力として取る量子アルゴリズムを比較する。 本稿では、SQアクセスを持つ古典的アルゴリズムが量子状態入力を持つ量子アルゴリズムよりも指数関数的に高速に学習タスクを達成できることを証明する。 古典的アルゴリズムは量子アルゴリズムのサブセットであるため、これはSQアクセスが量子状態入力よりもはるかに強力であることを示す。 本研究は,sqアクセスが量子状態入力に対して強力すぎることによる学習タスクにおける指数関数的量子優位性の欠如を示唆する。 量子アルゴリズムと量子状態入力を、量子状態の測定データにアクセスする古典的なアルゴリズムと比較すると、量子優位の状況は劇的に異なる可能性がある。

It has been shown that the apparent advantage of some quantum machine learning algorithms may be efficiently replicated using classical algorithms with suitable data access -- a process known as dequantization. Existing works on dequantization compare quantum algorithms which take copies of an n-qubit quantum state $|x\rangle = \sum_{i} x_i |i\rangle$ as input to classical algorithms which have sample and query (SQ) access to the vector $x$. In this note, we prove that classical algorithms with SQ access can accomplish some learning tasks exponentially faster than quantum algorithms with quantum state inputs. Because classical algorithms are a subset of quantum algorithms, this demonstrates that SQ access can sometimes be significantly more powerful than quantum state inputs. Our findings suggest that the absence of exponential quantum advantage in some learning tasks may be due to SQ access being too powerful relative to quantum state inputs. If we compare quantum algorithms with quantum state inputs to classical algorithms with access to measurement data on quantum states, the landscape of quantum advantage can be dramatically different.
翻訳日:2021-12-04 10:23:28 公開日:2021-12-01
# (参考訳) フェデレーション学習における公平性モデル

Models of fairness in federated learning ( http://arxiv.org/abs/2112.00818v1 )

ライセンス: CC BY 4.0
Kate Donahue and Jon Kleinberg(参考訳) 多くの現実の状況では、データは複数の場所に分散し、トレーニングのために組み合わせることはできない。 フェデレーション学習は、複数のフェデレーションエージェントが共同でモデルを学ぶことができる、新しい分散学習アプローチである。 このアプローチは、各エージェントが経験するエラーを減少させるかもしれないが、公平性の問題も提起する: あるエージェントが経験するエラーが、他のエージェントが経験するエラーよりもどの程度低いのか? 本研究では,異なる状況においてそれぞれが適切であると考えられる公平性の概念について考察する。「平等的公平性(egalitarian fairness)」と「均質的公平性(proportional fairness)」の2つである。 平等主義的公正性については, エージェント間での誤り率のばらつきについて, 厳密な乗法的境界を求める。 比例的公平性については、個々の有理連立連合に対して(寄与するデータ点の数に比例して)サブプロポーション的誤差が保証されることを示す。

In many real-world situations, data is distributed across multiple locations and can't be combined for training. Federated learning is a novel distributed learning approach that allows multiple federating agents to jointly learn a model. While this approach might reduce the error each agent experiences, it also raises questions of fairness: to what extent can the error experienced by one agent be significantly lower than the error experienced by another agent? In this work, we consider two notions of fairness that each may be appropriate in different circumstances: "egalitarian fairness" (which aims to bound how dissimilar error rates can be) and "proportional fairness" (which aims to reward players for contributing more data). For egalitarian fairness, we obtain a tight multiplicative bound on how widely error rates can diverge between agents federating together. For proportional fairness, we show that sub-proportional error (relative to the number of data points contributed) is guaranteed for any individually rational federating coalition.
翻訳日:2021-12-04 10:12:19 公開日:2021-12-01
# (参考訳) FaSS-MVS --UAV搭載単眼画像からの表面認識半球マッチングによる高速マルチビューステレオ

FaSS-MVS -- Fast Multi-View Stereo with Surface-Aware Semi-Global Matching from UAV-borne Monocular Imagery ( http://arxiv.org/abs/2112.00821v1 )

ライセンス: CC BY 4.0
Boitumelo Ruf, Martin Weinmann, Stefan Hinz(参考訳) FaSS-MVSでは,UAVが捉えた単眼の空中映像データから高速な深度と正常な地図推定を可能にする表面認識型セミ・グロバルマッチングを用いた高速多視点ステレオのアプローチを提案する。 FaSS-MVSが推定したデータは、オンライン3Dマッピングを容易にし、画像データが取得または受信されている間、シーンの3Dマップを即時かつ漸進的に生成する。 FaSS-MVSは、深度と正常値、およびそれに対応する信頼度を粗い方法で推定し、低空UAVが捉えた斜め画像に固有の大きなシーン深度を効率的に処理できる階層的な処理方式で構成されている。 実深度推定は, 表面認識半大域最適化により実深度マップを抽出し, sgmの前面-平行バイアスを低減した, 密集多眼画像マッチングのための平面スウィープアルゴリズムを用いる。 推定深度マップが与えられると、深度マップを点クラウドに再投影し、閉じ込められた局所近傍における正規ベクトルを計算することにより、画素毎の表面正規情報を算出する。 fass-mvsが計算した3d情報の精度はオフラインのマルチビューステレオに対する最先端のアプローチに近いことを示し,誤差はcolmapのそれよりも1桁高いことさえないことを示した。 しかし同時に、単一深度と正規マップを推定するFaSS-MVSの平均実行時間はCOLMAPの14%以下であり、フルHD画像のオンラインおよびインクリメンタル処理を1-2Hzで行うことができる。

With FaSS-MVS, we present an approach for fast multi-view stereo with surface-aware Semi-Global Matching that allows for rapid depth and normal map estimation from monocular aerial video data captured by UAVs. The data estimated by FaSS-MVS, in turn, facilitates online 3D mapping, meaning that a 3D map of the scene is immediately and incrementally generated while the image data is acquired or being received. FaSS-MVS is comprised of a hierarchical processing scheme in which depth and normal data, as well as corresponding confidence scores, are estimated in a coarse-to-fine manner, allowing to efficiently process large scene depths which are inherent to oblique imagery captured by low-flying UAVs. The actual depth estimation employs a plane-sweep algorithm for dense multi-image matching to produce depth hypotheses from which the actual depth map is extracted by means of a surface-aware semi-global optimization, reducing the fronto-parallel bias of SGM. Given the estimated depth map, the pixel-wise surface normal information is then computed by reprojecting the depth map into a point cloud and calculating the normal vectors within a confined local neighborhood. In a thorough quantitative and ablative study we show that the accuracies of the 3D information calculated by FaSS-MVS is close to that of state-of-the-art approaches for offline multi-view stereo, with the error not even being one magnitude higher than that of COLMAP. At the same time, however, the average run-time of FaSS-MVS to estimate a single depth and normal map is less than 14 % of that of COLMAP, allowing to perform an online and incremental processing of Full-HD imagery at 1-2 Hz.
翻訳日:2021-12-04 09:52:36 公開日:2021-12-01
# (参考訳) 極端事象の深層学習前駆体に対する出力重み付き相対エントロピー損失関数

Output-weighted and relative entropy loss functions for deep learning precursors of extreme events ( http://arxiv.org/abs/2112.00825v1 )

ライセンス: CC BY 4.0
Samuel Rudy and Themistoklis Sapsis(参考訳) 多くの科学的・工学的な問題は、稀かつ極端な事象を伴う力学系の正確なモデルを必要とする。 このような問題は、データ駆動モデリングにとって困難なタスクであり、多くのナイーブな機械学習手法は、そのようなイベントの予測や正確な定量化に失敗している。 この難しさの1つの原因は、定義上、極端なイベントを持つシステムが不均衡なデータセットを出力し、標準損失関数が稀なイベントを無視することである。 つまり、モデルのトレーニングに使用する適合度指標は、まれなイベントの正確性を保証するように設計されていない。 この研究は、異常な事象に対する回帰モデルの性能を改善するために、異常値の強調を目的とした損失関数を検討する。 本稿では,新しい損失関数,調整出力重み付き損失,および相対エントロピーに基づく損失関数の低次元出力系への適用性について述べる。 提案関数は, 極端な事象を示す力学系のいくつかの事例を用いて検証し, 極端な事象の予測精度を著しく向上させることを示した。

Many scientific and engineering problems require accurate models of dynamical systems with rare and extreme events. Such problems present a challenging task for data-driven modelling, with many naive machine learning methods failing to predict or accurately quantify such events. One cause for this difficulty is that systems with extreme events, by definition, yield imbalanced datasets and that standard loss functions easily ignore rare events. That is, metrics for goodness of fit used to train models are not designed to ensure accuracy on rare events. This work seeks to improve the performance of regression models for extreme events by considering loss functions designed to highlight outliers. We propose a novel loss function, the adjusted output weighted loss, and extend the applicability of relative entropy based loss functions to systems with low dimensional output. The proposed functions are tested using several cases of dynamical systems exhibiting extreme events and shown to significantly improve accuracy in predictions of extreme events.
翻訳日:2021-12-04 09:50:47 公開日:2021-12-01
# (参考訳) 解釈可能なニューラルネットワークの因果構造誘導

Inducing Causal Structure for Interpretable Neural Networks ( http://arxiv.org/abs/2112.00826v1 )

ライセンス: CC BY 4.0
Atticus Geiger, Zhengxuan Wu, Hanson Lu, Josh Rozner, Elisa Kreiss, Thomas Icard, Noah D. Goodman, Christopher Potts(参考訳) 多くの分野において、トレーニングされたモデルに持ち込みながら、データ駆動の方法で学習できるような因果構造についての十分な洞察が得られています。 そこで,本稿では,交流介入訓練(iit)の新たな方法を提案する。 iitでは、(1)因果モデルにおける変数とニューラルネットワークの表現を区別し、(2)二つのモデルのアラインメント表現が第2のソース入力の値となるように設定された場合、ベース入力における因果モデルの反事実的振舞いにマッチするようにニューラルネットワークを訓練する。 IITは完全に微分可能で、他の目的と柔軟に結合し、目標因果モデルが損失を最小限に抑えた場合、ニューラルネットワークの因果抽象化であることを保証します。 構造化視覚タスク(MNIST-PVR)とナビゲーション命令タスク(ReaSCAN)に基づいてIITを評価する。 IITとマルチタスクトレーニングの目標とデータ拡張を比較した。 全ての実験において、IITは最良の結果を得て、ターゲット因果モデルを実現するという意味でより解釈可能なニューラルモデルを生成する。

In many areas, we have well-founded insights about causal structure that would be useful to bring into our trained models while still allowing them to learn in a data-driven fashion. To achieve this, we present the new method of interchange intervention training(IIT). In IIT, we (1)align variables in the causal model with representations in the neural model and (2) train a neural model to match the counterfactual behavior of the causal model on a base input when aligned representations in both models are set to be the value they would be for a second source input. IIT is fully differentiable, flexibly combines with other objectives, and guarantees that the target causal model is acausal abstraction of the neural model when its loss is minimized. We evaluate IIT on a structured vision task (MNIST-PVR) and a navigational instruction task (ReaSCAN). We compare IIT against multi-task training objectives and data augmentation. In all our experiments, IIT achieves the best results and produces neural models that are more interpretable in the sense that they realize the target causal model.
翻訳日:2021-12-04 09:32:45 公開日:2021-12-01
# (参考訳) 正規化マルチマルジナル最適輸送のためのバッチグリーンホーンの収束性

Convergence of batch Greenkhorn for Regularized Multimarginal Optimal Transport ( http://arxiv.org/abs/2112.00838v1 )

ライセンス: CC BY 4.0
Vladimir Kostic and Saverio Salzo and Massimilano Pontil(参考訳) 本研究では,マルチマージ正規化最適輸送問題に対するGreenkhornアルゴリズムのバッチバージョンを提案する。 私たちのフレームワークは、特に、二辺数設定のためのsinkhornアルゴリズムやgreenkhornアルゴリズムや、多辺数最適輸送のための(太い)multisinkhornアルゴリズムなど、既存のアルゴリズムをカバーするのに十分一般的です。 欲求制御を伴う反復的ブレグマン射影法(IBP)の特性に基づく完全収束解析を行う。 反復複雑性に対する大域的な収束率と明示的な境界を求める。 上記のアルゴリズムに特化すれば,新たな洞察や既存アルゴリズムの改善が期待できる。

In this work we propose a batch version of the Greenkhorn algorithm for multimarginal regularized optimal transport problems. Our framework is general enough to cover, as particular cases, some existing algorithms like Sinkhorn and Greenkhorn algorithm for the bi-marginal setting, and (greedy) MultiSinkhorn for multimarginal optimal transport. We provide a complete converge analysis, which is based on the properties of the iterative Bregman projections (IBP) method with greedy control. Global linear rate of convergence and explicit bound on the iteration complexity are obtained. When specialized to above mentioned algorithms, our results give new insights and/or improve existing ones.
翻訳日:2021-12-04 09:10:36 公開日:2021-12-01
# (参考訳) GANORCON: 生成モデルはショットセグメンテーションに有効か?

GANORCON: Are Generative Models Useful for Few-shot Segmentation? ( http://arxiv.org/abs/2112.00854v1 )

ライセンス: CC BY 4.0
Oindrila Saha, Zezhou Cheng and Subhransu Maji(参考訳) GANに基づくジェネレーティブモデリングの進歩は、画像生成や編集タスクを超えて、コミュニティの活用を動機付けている。 特に近年の研究では、特に訓練データに制限がある場合、部分分割などの識別タスクにGAN表現を再利用できることが示されている。 しかし、これらの改善は、近年の自己教師型学習の進歩に対して、どのように積み重ねられるのだろうか? そこで本研究では, コントラスト学習に基づく代替手法を提案し, 標準部分セグメンテーションベンチマークによる性能比較を行った。 私たちの実験では、ganベースのアプローチはパフォーマンス面で大きな利点をもたらさないだけでなく、多段階トレーニングが複雑で、桁違いに遅くなり、さらなるバイアスをもたらす可能性があることが分かりました。 これらの実験は、形状やテクスチャを歪める能力などの生成モデルの帰納バイアスが、コントラスト学習を用いて訓練された標準フィードフォワードネットワークによってよく捉えられていることを示唆している。 これらの実験は、形やテクスチャを歪める能力など、現在の生成モデルに存在する誘導バイアスが、コントラスト学習を用いて訓練された標準フィードフォワードネットワークによってよく捉えられていることを示唆している。

Advances in generative modeling based on GANs has motivated the community to find their use beyond image generation and editing tasks. In particular, several recent works have shown that GAN representations can be re-purposed for discriminative tasks such as part segmentation, especially when training data is limited. But how do these improvements stack-up against recent advances in self-supervised learning? Motivated by this we present an alternative approach based on contrastive learning and compare their performance on standard few-shot part segmentation benchmarks. Our experiments reveal that not only do the GAN-based approach offer no significant performance advantage, their multi-step training is complex, nearly an order-of-magnitude slower, and can introduce additional bias. These experiments suggest that the inductive biases of generative models, such as their ability to disentangle shape and texture, are well captured by standard feed-forward networks trained using contrastive learning. These experiments suggest that the inductive biases present in current generative models, such as their ability to disentangle shape and texture, are well captured by standard feed-forward networks trained using contrastive learning.
翻訳日:2021-12-04 08:21:34 公開日:2021-12-01
# (参考訳) 決定論的不確実性推定のための分解表現

Decomposing Representations for Deterministic Uncertainty Estimation ( http://arxiv.org/abs/2112.00856v1 )

ライセンス: CC BY 4.0
Haiwen Huang, Joost van Amersfoort, Yarin Gal(参考訳) 不確実性推定は、デプロイされた機械学習システムにおいて重要なコンポーネントである。 不確実性推定を評価する一つの方法は、不確実性を用いたトレーニングデータ分布と認識されていない異なるデータ分布を区別する"out-of-distribution"(ood)検出を使用することである。 本研究では,現在の特徴密度に基づく不確実性推定器では,異なるood検出設定において一貫した動作ができないことを示す。 そこで本研究では,学習表現を分解し,それに基づいて推定される不確かさを別々に統合することを提案する。 実験により,不確実性推定の性能と解釈性を大幅に向上できることを実証する。

Uncertainty estimation is a key component in any deployed machine learning system. One way to evaluate uncertainty estimation is using "out-of-distribution" (OoD) detection, that is, distinguishing between the training data distribution and an unseen different data distribution using uncertainty. In this work, we show that current feature density based uncertainty estimators cannot perform well consistently across different OoD detection settings. To solve this, we propose to decompose the learned representations and integrate the uncertainties estimated on them separately. Through experiments, we demonstrate that we can greatly improve the performance and the interpretability of the uncertainty estimation.
翻訳日:2021-12-04 08:01:54 公開日:2021-12-01
# (参考訳) 欠落データを用いた不変表現の学習

Learning Invariant Representations with Missing Data ( http://arxiv.org/abs/2112.00881v1 )

ライセンス: CC BY 4.0
Mark Goldstein, J\"orn-Henrik Jacobsen, Olina Chau, Adriel Saporta, Aahlad Puli, Rajesh Ranganath, Andrew C. Miller(参考訳) 鮮やかな相関により、フレキシブルなモデルはトレーニング中にうまく予測できるが、関連するテスト人口では不十分である。 最近の研究によると、相関誘導型 \textit{nuisance} 変数を含む特定の依存性を満たすモデルは、テスト性能を保証している。 このような無依存を強制するには、訓練中に迷惑を観察する必要がある。 しかし、人口統計や画像の背景ラベルのようなニュアンスはしばしば欠落している。 観測されたデータのみに独立を強制することは、人口全体の独立を意味するものではない。 ここでは、未知のニュアンスの下での不変目的に使用される<acrshort{mmd} 推定器を導出する。 シミュレーションおよび臨床データにおいて、これらの推定値の最適化は、全データを利用する推定器の使用と同様のテスト性能を達成する。

Spurious correlations allow flexible models to predict well during training but poorly on related test populations. Recent work has shown that models that satisfy particular independencies involving correlation-inducing \textit{nuisance} variables have guarantees on their test performance. Enforcing such independencies requires nuisances to be observed during training. However, nuisances, such as demographics or image background labels, are often missing. Enforcing independence on just the observed data does not imply independence on the entire population. Here we derive \acrshort{mmd} estimators used for invariance objectives under missing nuisances. On simulations and clinical data, optimizing through these estimates achieves test performance similar to using estimators that make use of the full data.
翻訳日:2021-12-04 07:50:39 公開日:2021-12-01
# (参考訳) ガウス過程のアンサンブルを用いたロバストかつ適応的な時間差学習

Robust and Adaptive Temporal-Difference Learning Using An Ensemble of Gaussian Processes ( http://arxiv.org/abs/2112.00882v1 )

ライセンス: CC BY 4.0
Qin Lu and Georgios B. Giannakis(参考訳) 値関数近似は、状態空間が大きいか連続的である場合の強化学習におけるポリシー評価の重要なモジュールである。 本稿では,ガウス過程 (GP) を探索値関数に基づいて推定し, 2つの連続状態における値関数評価に基づいて即時報酬を確率的に生成する,時間差学習(TD)による政策評価の生成的視点を考察する。 gp pre のランダム特徴量に基づく近似値に乗じて,os-gptd と呼ばれるオンラインスケーラブルな (os) 手法を開発し,状態反転ペアのシーケンスを観察することにより,与えられたポリシーの価値関数を推定する。 OS-GPTDの性能を、モデリング前提に反する対向的な設定でもベンチマークするため、累積ベルマン誤差と長期報酬予測誤差とを、固定値関数推定器と、後向きのステートリワード軌道全体とから上界させて相補的な最悪の解析を行う。 さらに、単一の固定カーネルに関連する限定的な表現性を緩和するために、GP前の重み付きアンサンブル(E)を用いて、値関数を共同で推論し、EGPカーネルをオンザフライでインタラクティブに選択できるOS-EGPTDと呼ばれる代替スキームを生成する。 最後に,2つのベンチマーク問題に対して,os-(e)gptd方式の性能評価を行った。

Value function approximation is a crucial module for policy evaluation in reinforcement learning when the state space is large or continuous. The present paper takes a generative perspective on policy evaluation via temporal-difference (TD) learning, where a Gaussian process (GP) prior is presumed on the sought value function, and instantaneous rewards are probabilistically generated based on value function evaluations at two consecutive states. Capitalizing on a random feature-based approximant of the GP prior, an online scalable (OS) approach, termed {OS-GPTD}, is developed to estimate the value function for a given policy by observing a sequence of state-reward pairs. To benchmark the performance of OS-GPTD even in an adversarial setting, where the modeling assumptions are violated, complementary worst-case analyses are performed by upper-bounding the cumulative Bellman error as well as the long-term reward prediction error, relative to their counterparts from a fixed value function estimator with the entire state-reward trajectory in hindsight. Moreover, to alleviate the limited expressiveness associated with a single fixed kernel, a weighted ensemble (E) of GP priors is employed to yield an alternative scheme, termed OS-EGPTD, that can jointly infer the value function, and select interactively the EGP kernel on-the-fly. Finally, performances of the novel OS-(E)GPTD schemes are evaluated on two benchmark problems.
翻訳日:2021-12-04 07:07:08 公開日:2021-12-01
# (参考訳) 証明可能な保証による制約付き強化学習のための安全な探索

Safe Exploration for Constrained Reinforcement Learning with Provable Guarantees ( http://arxiv.org/abs/2112.00885v1 )

ライセンス: CC BY 4.0
Archana Bura, Aria HasanzadeZonuzy, Dileep Kalathil, Srinivas Shakkottai, and Jean-Francois Chamberland(参考訳) 我々は,目標機能を最小限に抑えつつ,必要な安全性制約を満たしながら,学習と展開の両方において,エピソディックセーフコントロールポリシを学習する問題を考える。 我々は,未知遷移確率関数を持つ有限ホライゾン制約マルコフ決定過程(cmdp)の枠組みを用いて,この安全性制約強化学習(rl)問題を定式化する。 ここでは,学習のすべてのエピソードにおいて満たさなければならない累積コストに対する制約として,安全要件をモデル化する。 We propose a model-based safe RL algorithm that we call the Optimistic-Pessimistic Safe Reinforcement Learning (OPSRL) algorithm, and show that it achieves an $\tilde{\mathcal{O}}(S^{2}\sqrt{A H^{7}K}/ (\bar{C}\bar{C}_{b}))$ cumulative regret without violating the safety constraints during learning, where $S$ is the number of states, $A$ is the number of actions, $H$ is the horizon length, $K$ is the number of learning episodes, and $(\bar{C} - \bar{C}_{b})$ is the safety gap, i.e., the difference between the constraint value and the cost of a known safe baseline policy. $\tilde{\mathcal{o}}(\sqrt{k})$のスケーリングは、学習中に制約が破られる可能性がある従来のアプローチと同じです。 私たちのキーとなる考え方は、政策を学ぶために悲観的な制約執行を伴う楽観的な探索アプローチを使用することです。 このアプローチは、安全制約に違反する可能性のある訪問状態に対する罰を課しながら、未知の状態の探索をインセンティブ化する。 従来の手法に対するベンチマーク問題に対する性能評価を行い,アルゴリズムの有効性を検証する。

We consider the problem of learning an episodic safe control policy that minimizes an objective function, while satisfying necessary safety constraints -- both during learning and deployment. We formulate this safety constrained reinforcement learning (RL) problem using the framework of a finite-horizon Constrained Markov Decision Process (CMDP) with an unknown transition probability function. Here, we model the safety requirements as constraints on the expected cumulative costs that must be satisfied during all episodes of learning. We propose a model-based safe RL algorithm that we call the Optimistic-Pessimistic Safe Reinforcement Learning (OPSRL) algorithm, and show that it achieves an $\tilde{\mathcal{O}}(S^{2}\sqrt{A H^{7}K}/ (\bar{C} - \bar{C}_{b}))$ cumulative regret without violating the safety constraints during learning, where $S$ is the number of states, $A$ is the number of actions, $H$ is the horizon length, $K$ is the number of learning episodes, and $(\bar{C} - \bar{C}_{b})$ is the safety gap, i.e., the difference between the constraint value and the cost of a known safe baseline policy. The scaling as $\tilde{\mathcal{O}}(\sqrt{K})$ is the same as the traditional approach where constraints may be violated during learning, which means that our algorithm suffers no additional regret in spite of providing a safety guarantee. Our key idea is to use an optimistic exploration approach with pessimistic constraint enforcement for learning the policy. This approach simultaneously incentivizes the exploration of unknown states while imposing a penalty for visiting states that are likely to cause violation of safety constraints. We validate our algorithm by evaluating its performance on benchmark problems against conventional approaches.
翻訳日:2021-12-04 06:46:29 公開日:2021-12-01
# コントラスト正規化機構を用いた事前知識伝達技術を用いた全身低線量ct画像の雑音化

Total-Body Low-Dose CT Image Denoising using Prior Knowledge Transfer Technique with Contrastive Regularization Mechanism ( http://arxiv.org/abs/2112.00729v1 )

ライセンス: Link先を確認
Minghan Fu, Yanhua Duan, Zhaoping Cheng, Wenjian Qin, Ying Wang, Dong Liang, Zhanli Hu(参考訳) 全身CTにおける放射線被曝率の低下は, 医用画像群で広く注目されている。 放射線線量が少ないとノイズやアーティファクトが増加し、臨床診断に大きな影響を及ぼす可能性がある。 高品質な全体低線量CT(LDCT)画像を得るため,従来のディープラーニング研究は様々なネットワークアーキテクチャを導入している。 しかし,これらの手法の多くは,正規線CT(NDCT)画像のみを根本真実として用いて,認知ネットワークのトレーニングを指導している。 このような単純な制限により、モデルの有効性は低下し、再構成された画像は過度なスムース効果に悩まされる。 本稿では,NDCT画像から抽出した知識を利用してLDCT画像のトレーニングプロセスを支援する新しいタスク内知識伝達手法を提案する。 派生したアーキテクチャはTeacher-Student Consistency Network (TSC-Net)と呼ばれ、同じアーキテクチャを持つ教師ネットワークと学生ネットワークで構成されている。 中間的特徴間の監督を通じて、学生ネットワークは教師ネットワークを模倣し、豊富なテクスチャの詳細を得るよう奨励される。 さらに、CTスキャンに含まれる情報をさらに活用するために、コントラスト学習に基づくコントラスト正規化機構(CRM)を導入し、復元されたCT画像をNDCTサンプルに近づけ、潜在空間内のLDCTサンプルから遠くへ押し出す。 さらに,注意と変形可能な畳み込み機構に基づき,ネットワーク変換能力を向上させるための動的拡張モジュール(dem)を設計する。

Reducing the radiation exposure for patients in Total-body CT scans has attracted extensive attention in the medical imaging community. Given the fact that low radiation dose may result in increased noise and artifacts, which greatly affected the clinical diagnosis. To obtain high-quality Total-body Low-dose CT (LDCT) images, previous deep-learning-based research work has introduced various network architectures. However, most of these methods only adopt Normal-dose CT (NDCT) images as ground truths to guide the training of the denoising network. Such simple restriction leads the model to less effectiveness and makes the reconstructed images suffer from over-smoothing effects. In this paper, we propose a novel intra-task knowledge transfer method that leverages the distilled knowledge from NDCT images to assist the training process on LDCT images. The derived architecture is referred to as the Teacher-Student Consistency Network (TSC-Net), which consists of the teacher network and the student network with identical architecture. Through the supervision between intermediate features, the student network is encouraged to imitate the teacher network and gain abundant texture details. Moreover, to further exploit the information contained in CT scans, a contrastive regularization mechanism (CRM) built upon contrastive learning is introduced.CRM performs to pull the restored CT images closer to the NDCT samples and push far away from the LDCT samples in the latent space. In addition, based on the attention and deformable convolution mechanism, we design a Dynamic Enhancement Module (DEM) to improve the network transformation capability.
翻訳日:2021-12-03 17:32:46 公開日:2021-12-01
# ネットワーク量子化とバイナリ化によるハードウェアフレンドリーなディープラーニング

Hardware-friendly Deep Learning by Network Quantization and Binarization ( http://arxiv.org/abs/2112.00737v1 )

ライセンス: Link先を確認
Haotong Qin(参考訳) 量子化は、ハードウェアフレンドリーなディープラーニングを促進し、リソース制限されたハードウェア上でディープニューラルネットワークを実行するための効率的なアプローチとして現れている。 しかし、それでもネットワークの精度は大幅に低下している。 量子化の課題を,多様なアーキテクチャの量子化と複雑なシーンの量子化の2つのカテゴリにまとめる。 本研究は主に,様々なアーキテクチャやシーンに量子化を適用し,量子化の限界を極端に圧縮・加速する。 量子化に関する包括的な研究は、より強力で効率的で、より柔軟なハードウェアフレンドリーなディープラーニングを実現し、より現実世界のアプリケーションに適している。

Quantization is emerging as an efficient approach to promote hardware-friendly deep learning and run deep neural networks on resource-limited hardware. However, it still causes a significant decrease to the network in accuracy. We summarize challenges of quantization into two categories: Quantization for Diverse Architectures and Quantization on Complex Scenes. Our studies focus mainly on applying quantization on various architectures and scenes and pushing the limit of quantization to extremely compress and accelerate networks. The comprehensive research on quantization will achieve more powerful, more efficient, and more flexible hardware-friendly deep learning, and make it better suited to more real-world applications.
翻訳日:2021-12-03 16:59:29 公開日:2021-12-01
# 分布外検出を理解するための証明可能な保証

Provable Guarantees for Understanding Out-of-distribution Detection ( http://arxiv.org/abs/2112.00787v1 )

ライセンス: Link先を確認
Peyman Morteza and Yixuan Li(参考訳) out-of-distribution(ood)検出は、シフトした分散からのテストデータが自然に発生する現実世界における機械学習モデルのデプロイにおいて重要である。 ood検出のためのアルゴリズム的アプローチが最近多数登場しているが、理論的理解には重要なギャップが残っている。 本研究では,OOD検出の理論的理解を特徴付ける分析フレームワークを開発する。 我々の分析フレームワークは、ニューラルネットワークの新たなOOD検出手法であるGEMを動機付け、理論的および経験的優位性を実証する。 特に,CIFAR-100を非分配データとして,本手法は16.57%(FPR95。 最後に,データ分布の様々な特性がOOD検出の性能に与える影響を基盤として,証明可能な保証と包括的解析を行う。

Out-of-distribution (OOD) detection is important for deploying machine learning models in the real world, where test data from shifted distributions can naturally arise. While a plethora of algorithmic approaches have recently emerged for OOD detection, a critical gap remains in theoretical understanding. In this work, we develop an analytical framework that characterizes and unifies the theoretical understanding for OOD detection. Our analytical framework motivates a novel OOD detection method for neural networks, GEM, which demonstrates both theoretical and empirical superiority. In particular, on CIFAR-100 as in-distribution data, our method outperforms a competitive baseline by 16.57% (FPR95). Lastly, we formally provide provable guarantees and comprehensive analysis of our method, underpinning how various properties of data distribution affect the performance of OOD detection.
翻訳日:2021-12-03 16:59:18 公開日:2021-12-01
# マンモグラフィスクリーニングデータ分類改善のためのマルチタスク融合

Multi-task fusion for improving mammography screening data classification ( http://arxiv.org/abs/2112.01320v1 )

ライセンス: Link先を確認
Maria Wimmer, Gert Sluiter, David Major, Dimitrios Lenis, Astrid Berg, Theresa Neubauer, Katja B\"uhler(参考訳) 機械学習とディープラーニングの手法は、医学におけるコンピュータ支援の予測に欠かせないものとなり、マンモグラフィの分野でも応用が増えている。 通常、これらのアルゴリズムは特定のタスク、例えば病変の分類やマンモグラムの病理状態の予測のために訓練される。 患者の総合的なビューを得るには、同一タスクのために訓練されたモデルが後に組み合わされるか、組み合わせられる。 本研究では,まず個別のタスク固有モデルの集合を訓練し,その後にそれらの融合について検討するパイプラインアプローチを提案する。 ハイブリッド患者モデルを用いた深層学習モデルからモデル予測とハイレベル特徴を融合させ,患者レベルでより強力な予測器を構築する。 そこで本研究では,複数のタスクやマンモグラフィーにまたがる特徴を効率的に融合し,包括的患者レベルの予測を行うマルチブランチ深層学習モデルを提案する。 当科では,公的マンモグラフィーデータ,すなわち DDSM および CBIS-DDSM の完全パイプラインのトレーニングと評価を行い,AUC スコア0.962 ,悪性病変の有無を患者レベルで予測するための 0.791 を報告した。 総じて、我々の融合アプローチは標準モデルのアンサンブルに比べてAUCのスコアを0.04まで改善した。 さらに,全身的な患者レベルの予測だけでなく,放射線学的特徴に関連するタスク固有のモデル結果も提供することで,放射線科医の読書ワークフローを緊密に支援することを目指している。

Machine learning and deep learning methods have become essential for computer-assisted prediction in medicine, with a growing number of applications also in the field of mammography. Typically these algorithms are trained for a specific task, e.g., the classification of lesions or the prediction of a mammogram's pathology status. To obtain a comprehensive view of a patient, models which were all trained for the same task(s) are subsequently ensembled or combined. In this work, we propose a pipeline approach, where we first train a set of individual, task-specific models and subsequently investigate the fusion thereof, which is in contrast to the standard model ensembling strategy. We fuse model predictions and high-level features from deep learning models with hybrid patient models to build stronger predictors on patient level. To this end, we propose a multi-branch deep learning model which efficiently fuses features across different tasks and mammograms to obtain a comprehensive patient-level prediction. We train and evaluate our full pipeline on public mammography data, i.e., DDSM and its curated version CBIS-DDSM, and report an AUC score of 0.962 for predicting the presence of any lesion and 0.791 for predicting the presence of malignant lesions on patient level. Overall, our fusion approaches improve AUC scores significantly by up to 0.04 compared to standard model ensembling. Moreover, by providing not only global patient-level predictions but also task-specific model results that are related to radiological features, our pipeline aims to closely support the reading workflow of radiologists.
翻訳日:2021-12-03 16:45:31 公開日:2021-12-01
# コラボレーションAIはリスクによって駆動されるより強い保証を必要とする

Collaborative AI Needs Stronger Assurances Driven by Risks ( http://arxiv.org/abs/2112.00740v1 )

ライセンス: Link先を確認
Jubril Gbolahan Adigun, Matteo Camilli, Michael Felderer, Andrea Giusti, Dominik T Matt, Anna Perini, Barbara Russo, Angelo Susi(参考訳) 共同AIシステム(CAIS)は、共通の目標を達成するために、共有空間で人間と協力することを目的としている。 この決定的な設定は、人間に危害を与える可能性のある危険な状況をもたらす。 したがって、要件、ドメイン固有の標準、規制に強く準拠したシステムを構築することが、最も重要である。 リスク管理に多くの作業が残っているため、このようなシステムに対する大規模な影響は報告されていない。 この文脈における新興問題を特定し、CAISのリスク駆動保証プロセスを開発するために、ソフトウェア/システムとメカトロニクスエンジニアで構成される多分野の研究チームの進捗を報告します。

Collaborative AI systems (CAISs) aim at working together with humans in a shared space to achieve a common goal. This critical setting yields hazardous circumstances that could harm human beings. Thus, building such systems with strong assurances of compliance with requirements, domain-specific standards and regulations is of greatest importance. Only few scale impact has been reported so far for such systems since much work remains to manage possible risks. We identify emerging problems in this context and then we report our vision, as well as the progress of our multidisciplinary research team composed of software/systems, and mechatronics engineers to develop a risk-driven assurance process for CAISs.
翻訳日:2021-12-03 16:45:04 公開日:2021-12-01
# オープン複雑性の進化

Evolving Open Complexity ( http://arxiv.org/abs/2112.00812v1 )

ライセンス: Link先を確認
W. B. Langdon(参考訳) 最大100万世代にわたる遺伝的プログラムの実行によって生成された大規模プログラムの情報理論解析は、浮動小数点加算や乗算ゆるいエントロピーのように滑らかでうまく振る舞う機能を示しており、その結果、その出力の破壊を伝播することができない。 これは、フィットネステストに依存するが、木々の奥深くにある多くの遺伝的変化は静かであることを意味する。 進化が妥当な速度で進行するには、ほとんどのコード変更の影響を測定する必要があるが、大きな木では、ほとんどのクロスオーバーサイトはルートノードから遠く離れている。 我々は、非常に大規模で複雑なプログラムを進化させることを提案し、ほとんどの変異部位が生物の環境の10レベルから100レベル以内にあるオープンアーキテクチャを採用する必要がある。

Information theoretic analysis of large evolved programs produced by running genetic programming for up to a million generations has shown even functions as smooth and well behaved as floating point addition and multiplication loose entropy and consequently are robust and fail to propagate disruption to their outputs. This means, while dependent upon fitness tests, many genetic changes deep within trees are silent. For evolution to proceed at reasonable rate it must be possible to measure the impact of most code changes, yet in large trees most crossover sites are distant from the root node. We suggest to evolve very large very complex programs, it will be necessary to adopt an open architecture where most mutation sites are within 10 to 100 levels of the organism's environment.
翻訳日:2021-12-03 16:44:54 公開日:2021-12-01
# スパース接続を有する一層人工ニューラルネットワークの漸近特性

Asymptotic properties of one-layer artificial neural networks with sparse connectivity ( http://arxiv.org/abs/2112.00732v1 )

ライセンス: Link先を確認
Christian Hirsch, Matthias Neumann, Volker Schmidt(参考訳) 疎結合を有する一層ニューラルネットワークのパラメータ分布を経験的に分布させるための大数の法則は、両ニューロン数の増加と確率的勾配降下の訓練反復を同時に導出する。

A law of large numbers for the empirical distribution of parameters of a one-layer artificial neural networks with sparse connectivity is derived for a simultaneously increasing number of both, neurons and training iterations of the stochastic gradient descent.
翻訳日:2021-12-03 16:44:15 公開日:2021-12-01
# ReIGNN: 回路リバースエンジニアリングのためのグラフニューラルネットワークを用いた状態レジスタ同定

ReIGNN: State Register Identification Using Graph Neural Networks for Circuit Reverse Engineering ( http://arxiv.org/abs/2112.00806v1 )

ライセンス: Link先を確認
Subhajit Dutta Chowdhury, Kaixin Yang, Pierluigi Nuzzo(参考訳) リバースエンジニアリング 集積回路ネットリストは、悪意のあるロジックを検出し、設計海賊行為に対処する強力なツールである。 この領域における重要な課題は、設計におけるデータパスと制御論理レジスタの正しい分類である。 本稿では,グラフニューラルネットワーク(gnns)と構造解析を組み合わせて,回路内のレジスタを高精度に分類し,異なる設計でうまく一般化する,新しい学習に基づくレジスタ分類手法 epn を提案する。 GNNは、グラフの観点から回路網リストを処理するのに特に効果的であり、ノードとその近傍の特性を活用して、異なるタイプのノードを効率的に区別することを学ぶ。 構造解析は、netlistグラフの強連結成分を分析することによって、gnnによってステートレジスタとして誤分類されたレジスタをさらに修正することができる。 一連のベンチマークの数値結果は、ReIGNNが平均96.5%の精度と97.7%の感度を異なる設計で達成できることを示している。

Reverse engineering an integrated circuit netlist is a powerful tool to help detect malicious logic and counteract design piracy. A critical challenge in this domain is the correct classification of data-path and control-logic registers in a design. We present ReIGNN, a novel learning-based register classification methodology that combines graph neural networks (GNNs) with structural analysis to classify the registers in a circuit with high accuracy and generalize well across different designs. GNNs are particularly effective in processing circuit netlists in terms of graphs and leveraging properties of the nodes and their neighborhoods to learn to efficiently discriminate between different types of nodes. Structural analysis can further rectify any registers misclassified as state registers by the GNN by analyzing strongly connected components in the netlist graph. Numerical results on a set of benchmarks show that ReIGNN can achieve, on average, 96.5% balanced accuracy and 97.7% sensitivity across different designs.
翻訳日:2021-12-03 16:43:16 公開日:2021-12-01
# スパース勾配を有する微分プライベートSGD

Differentially Private SGD with Sparse Gradients ( http://arxiv.org/abs/2112.00845v1 )

ライセンス: Link先を確認
Junyi Zhu, Matthew Blaschko(参考訳) センシティブなトレーニングデータを保護するため、深層学習において、厳密に定義されたプライバシーを提供するために、微分プライベート確率勾配降下(DP-SGD)が採用されている。 しかし、dp-sgdでは、勾配次元の数でスケールするノイズ量の注入が必要となり、非プライベートトレーニングに比べて大きなパフォーマンス低下が生じる。 本研究では,パラメータの漸進的に増加する部分集合をランダムに凍結し,精度を維持したり向上させたりしながら緩やかな勾配更新を行うランダム凍結を提案する。 理論的にはランダム凍結の収束を証明し、DP-SGDにおいてランダム凍結は信号損失と摂動変調のトレードオフを示す。 様々なDP-SGDフレームワークにランダム凍結を適用し、同じ回数で精度を維持しながら、最大70%の表現幅を実現し、様々なDP-SGD手法にトレードオフが存在することを示す。 さらに、大規模なネットワークにおいて、ランダム凍結は精度を著しく向上させる。 さらに、ランダム凍結によって引き起こされる軸方向の間隔は、計算コスト、メモリフットプリント、通信オーバーヘッドの点で、プロジェクションされたDP-SGDやフェデレーション学習に様々な利点をもたらす。

To protect sensitive training data, differentially private stochastic gradient descent (DP-SGD) has been adopted in deep learning to provide rigorously defined privacy. However, DP-SGD requires the injection of an amount of noise that scales with the number of gradient dimensions, resulting in large performance drops compared to non-private training. In this work, we propose random freeze which randomly freezes a progressively increasing subset of parameters and results in sparse gradient updates while maintaining or increasing accuracy. We theoretically prove the convergence of random freeze and find that random freeze exhibits a signal loss and perturbation moderation trade-off in DP-SGD. Applying random freeze across various DP-SGD frameworks, we maintain accuracy within the same number of iterations while achieving up to 70% representation sparsity, which demonstrates that the trade-off exists in a variety of DP-SGD methods. We further note that random freeze significantly improves accuracy, in particular for large networks. Additionally, axis-aligned sparsity induced by random freeze leads to various advantages for projected DP-SGD or federated learning in terms of computational cost, memory footprint and communication overhead.
翻訳日:2021-12-03 16:43:00 公開日:2021-12-01
# 記述的グリッドモデルと最小記述長原理に基づくアークチャレンジへのアプローチの最初のステップ

First Steps of an Approach to the ARC Challenge based on Descriptive Grid Models and the Minimum Description Length Principle ( http://arxiv.org/abs/2112.00848v1 )

ライセンス: Link先を確認
S\'ebastien Ferr\'e (Univ Rennes, CNRS, IRISA)(参考訳) Abstraction and Reasoning Corpus (ARC)はFran\c{c}ois Cholletによって人間と機械の両方の幅広い知性を測定するツールとして最近導入された。 これは非常に困難であり、カグル競争における最善のアプローチは、手作り変換の連鎖をブルートフォースで検索することで、タスクの20%しか解決できなかった。 本稿では,記述型グリッドモデルと最小記述長(mdl)原理に基づくアプローチを探求する最初のステップを提案する。 グリッドモデルはグリッドの内容を記述し、グリッドのパースとグリッドの生成の両方をサポートする。 mdlの原理は、グリッドを最も圧縮するモデルのような良いモデルの探索を導くために使われる。 我々は1年間の進歩を報告し、一般的なアプローチとモデルを改善した。 400のトレーニングタスクのうち,1タスクあたり30秒の計算時間のみを使用して,解決したタスクは5から29に向上した。 私たちのアプローチは、出力グリッドを予測するだけでなく、理解可能なモデルとモデルがどのようにインクリメンタルに構築されたかの説明も出力します。

The Abstraction and Reasoning Corpus (ARC) was recently introduced by Fran\c{c}ois Chollet as a tool to measure broad intelligence in both humans and machines. It is very challenging, and the best approach in a Kaggle competition could only solve 20% of the tasks, relying on brute-force search for chains of hand-crafted transformations. In this paper, we present the first steps exploring an approach based on descriptive grid models and the Minimum Description Length (MDL) principle. The grid models describe the contents of a grid, and support both parsing grids and generating grids. The MDL principle is used to guide the search for good models, i.e. models that compress the grids the most. We report on our progress over a year, improving on the general approach and the models. Out of the 400 training tasks, our performance increased from 5 to 29 solved tasks, only using 30s computation time per task. Our approach not only predicts the output grids, but also outputs an intelligible model and explanations for how the model was incrementally built.
翻訳日:2021-12-03 15:37:48 公開日:2021-12-01
# 自己注意型マルチモーダルカプセルネットワークのルーティング

Routing with Self-Attention for Multimodal Capsule Networks ( http://arxiv.org/abs/2112.00775v1 )

ライセンス: Link先を確認
Kevin Duarte, Brian Chen, Nina Shvetsova, Andrew Rouditchenko, Samuel Thomas, Alexander Liu, David Harwath, James Glass, Hilde Kuehne, Mubarak Shah(参考訳) マルチモーダル学習のタスクは、視覚、テキスト、音声といった異なるモダリティに基づいたニューラルネットワークアーキテクチャのトレーニングを可能にするため、近年関心が高まっている。 このようなモデルをトレーニングする上での課題のひとつは、さまざまな入力表現にまたがる意味概念とその関係を、共同で学ぶ必要があることだ。 カプセルネットワークは、低レベルの入力特徴と高レベルの概念の関係を捉えるという文脈でうまく機能することが示されている。 しかしながら、カプセルは従来のルーティングアルゴリズムのリソース需要のため、主に小規模で完全に制御された設定でしか使われていない。 我々は,大量のビデオデータを用いたマルチモーダル学習フレームワークにおいて,カプセルの強度を活用できる新しいマルチモーダルカプセルネットワークを提案する。 本研究では, カプセルを大規模入力データに適応させるために, 関連カプセルを選択する自己保持機構による新たなルーティングを提案する。 これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズをスケールアップすることが可能になる。 提案アーキテクチャは,大規模マルチモーダルビデオデータセット上で事前学習し,4つのデータセットに2つの課題のあるダウンストリームタスクを適用して評価する。 その結果,提案するマルチモーダルカプセルネットワークは,他のルーティング手法に比べて結果が向上するだけでなく,マルチモーダル学習における競合性能も向上することがわかった。

The task of multimodal learning has seen a growing interest recently as it allows for training neural architectures based on different modalities such as vision, text, and audio. One challenge in training such models is that they need to jointly learn semantic concepts and their relationships across different input representations. Capsule networks have been shown to perform well in context of capturing the relation between low-level input features and higher-level concepts. However, capsules have so far mainly been used only in small-scale fully supervised settings due to the resource demand of conventional routing algorithms. We present a new multimodal capsule network that allows us to leverage the strength of capsules in the context of a multimodal learning framework on large amounts of video data. To adapt the capsules to large-scale input data, we propose a novel routing by self-attention mechanism that selects relevant capsules which are then used to generate a final joint multimodal feature representation. This allows not only for robust training with noisy video data, but also to scale up the size of the capsule network compared to traditional routing methods while still being computationally efficient. We evaluate the proposed architecture by pretraining it on a large-scale multimodal video dataset and applying it on four datasets in two challenging downstream tasks. Results show that the proposed multimodal capsule network is not only able to improve results compared to other routing techniques, but also achieves competitive performance on the task of multimodal learning.
翻訳日:2021-12-03 15:37:31 公開日:2021-12-01
# previts:ビデオトラッキングによるコントラストプレトレーニング

PreViTS: Contrastive Pretraining with Video Tracking Supervision ( http://arxiv.org/abs/2112.00804v1 )

ライセンス: Link先を確認
Brian Chen, Ramprasaath R. Selvaraju, Shih-Fu Chang, Juan Carlos Niebles, and Nikhil Naik(参考訳) ビデオは、オブジェクトの自然な時間変換の存在による視覚表現の自己教師型学習(SSL)のためのリッチな情報源である。 しかし、現在の方法は通常ランダムにビデオクリップをサンプリングして学習し、結果として監視信号が不十分になる。 本研究では、同じオブジェクトを含むクリップを選択するために教師なし追跡信号を利用するSSLフレームワークであるPreViTSを提案する。 PreViTSはさらに、追跡信号を使用してフレーム領域を空間的に制約して学習し、Grad-CAMアテンションマップの監視を提供することで、意味のあるオブジェクトを見つけるようモデルを訓練する。 提案手法を評価するために,VGG-Sound と Kinetics-400 のデータセットを PreViTS でトレーニングする。 PreViTSによるトレーニングは、画像認識と映像分類の両方の下流タスクでMoCoが学習した表現よりも優れており、アクション分類における最先端のパフォーマンスが得られる。 PreViTSは、背景変更を伴う画像やビデオデータセットの実験で見られるように、バックグラウンドやコンテキストの変更に対して堅牢な機能表現の学習を支援する。 PreViTSを使った大規模な未処理ビデオからの学習は、より正確で堅牢な視覚的特徴表現につながる可能性がある。

Videos are a rich source for self-supervised learning (SSL) of visual representations due to the presence of natural temporal transformations of objects. However, current methods typically randomly sample video clips for learning, which results in a poor supervisory signal. In this work, we propose PreViTS, an SSL framework that utilizes an unsupervised tracking signal for selecting clips containing the same object, which helps better utilize temporal transformations of objects. PreViTS further uses the tracking signal to spatially constrain the frame regions to learn from and trains the model to locate meaningful objects by providing supervision on Grad-CAM attention maps. To evaluate our approach, we train a momentum contrastive (MoCo) encoder on VGG-Sound and Kinetics-400 datasets with PreViTS. Training with PreViTS outperforms representations learnt by MoCo alone on both image recognition and video classification downstream tasks, obtaining state-of-the-art performance on action classification. PreViTS helps learn feature representations that are more robust to changes in background and context, as seen by experiments on image and video datasets with background changes. Learning from large-scale uncurated videos with PreViTS could lead to more accurate and robust visual feature representations.
翻訳日:2021-12-03 15:37:09 公開日:2021-12-01
# 解釈可能な深層学習に基づく法医学的虹彩分節と認識

Interpretable Deep Learning-Based Forensic Iris Segmentation and Recognition ( http://arxiv.org/abs/2112.00849v1 )

ライセンス: Link先を確認
Andrey Kuehlkamp, Aidan Boyd, Adam Czajka, Kevin Bowyer, Patrick Flynn, Dennis Chute, Eric Benjamin(参考訳) 生物のアイリス認識は、政府IDプログラム、国境横断、投票者登録、非複製から携帯電話のアンロックまで、世界中で採用されている、成熟したバイオメトリック・モダリティである。 一方,近年,虹彩パターンで死亡者を認識できる可能性が浮上している。 本稿では,法医学的人間検査者を支援するための可視化技術を用いて,死後虹彩分節と認識のためのエンド・ツー・エンドのディープラーニング手法を提案する。 従来の虹彩分画法では, 乾燥やしわに現れる毛穴や不規則な斑点などの眼の分解過程によって生じる異常領域を検出するため, 従来の虹彩分画法と同様に, 虹彩分画法では, 術式や虹彩分画法よりも優れていた。 本手法は, 遺骸171頭から得られたデータを用いて訓練, 検証し, 遺骸229頭から採取した被検体分離データを用いて検討した。 我々の知る限り、これは現在まで死後虹彩認識研究で使われている最大のデータコーパスである。 本論文では,提案手法のソースコードについて述べる。 テストデータは、National Archive of Criminal Justice Data (NACJD)アーカイブを通じて提供される。

Iris recognition of living individuals is a mature biometric modality that has been adopted globally from governmental ID programs, border crossing, voter registration and de-duplication, to unlocking mobile phones. On the other hand, the possibility of recognizing deceased subjects with their iris patterns has emerged recently. In this paper, we present an end-to-end deep learning-based method for postmortem iris segmentation and recognition with a special visualization technique intended to support forensic human examiners in their efforts. The proposed postmortem iris segmentation approach outperforms the state of the art and in addition to iris annulus, as in case of classical iris segmentation methods - detects abnormal regions caused by eye decomposition processes, such as furrows or irregular specular highlights present on the drying and wrinkling cornea. The method was trained and validated with data acquired from 171 cadavers, kept in mortuary conditions, and tested on subject-disjoint data acquired from 259 deceased subjects. To our knowledge, this is the largest corpus of data used in postmortem iris recognition research to date. The source code of the proposed method are offered with the paper. The test data will be available through the National Archive of Criminal Justice Data (NACJD) archives.
翻訳日:2021-12-03 15:36:47 公開日:2021-12-01
# 単一付加顔画像からの逆3次元再構成の生成

Generating Diverse 3D Reconstructions from a Single Occluded Face Image ( http://arxiv.org/abs/2112.00879v1 )

ライセンス: Link先を確認
Rahul Dey and Vishnu Naresh Boddeti(参考訳) 咬合は、制約のない顔画像でよく見られる現象である。 このような顔画像からの単一画像3D再構成は、咬合の有無によってしばしば腐敗に悩まされる。 さらに、閉鎖領域では複数の3次元再構成が可能であるのに対して、既存のアプローチは単一の解しか生成できない。 両課題に対処するために,1つの隠蔽顔画像から多種多様なリアルな3D再構成セットを同時に生成するDiverse3DFaceを提案する。 グローバル/ローカルなシェイプフィッティングプロセス、グラフニューラルネットワークベースのメッシュvae、反復最適化手順を促進する決定的ポイントプロセスに基づく多様性の3つのコンポーネントで構成されている。 occluded faceにおける3次元再構成の定量的・定性的比較により,3dfaceは対象画像の可視領域と整合する3次元形状を推定できる一方で,occluded領域において高い,かつ現実的な多様性を示すことが示された。 Diverse3DFaceは、マスク、メガネ、その他のランダムな物体によって隠蔽された顔画像に対して、ベースラインに比べて閉塞された領域に約50%の多様性を有する3D形状の分布を生成する。 さらに, 基底真理に最も近いサンプルは, 既存手法による特異な再構成よりも約40%低値である。

Occlusions are a common occurrence in unconstrained face images. Single image 3D reconstruction from such face images often suffers from corruption due to the presence of occlusions. Furthermore, while a plurality of 3D reconstructions is plausible in the occluded regions, existing approaches are limited to generating only a single solution. To address both of these challenges, we present Diverse3DFace, which is specifically designed to simultaneously generate a diverse and realistic set of 3D reconstructions from a single occluded face image. It consists of three components: a global+local shape fitting process, a graph neural network-based mesh VAE, and a Determinantal Point Process based diversity promoting iterative optimization procedure. Quantitative and qualitative comparisons of 3D reconstruction on occluded faces show that Diverse3DFace can estimate 3D shapes that are consistent with the visible regions in the target image while exhibiting high, yet realistic, levels of diversity on the occluded regions. On face images occluded by masks, glasses, and other random objects, Diverse3DFace generates a distribution of 3D shapes having ~50% higher diversity on the occluded regions compared to the baselines. Moreover, our closest sample to the ground truth has ~40% lower MSE than the singular reconstructions by existing approaches.
翻訳日:2021-12-03 15:36:27 公開日:2021-12-01
# CLAWS: ハードアテンションと弱視による対照的な学習

CLAWS: Contrastive Learning with hard Attention and Weak Supervision ( http://arxiv.org/abs/2112.00847v1 )

ライセンス: Link先を確認
Jansel Herrera-Gerena, Ramakrishnan Sundareswaran, John Just, Matthew Darr, Ali Jannesari(参考訳) 人間の監督なしに効果的な視覚表現を学ぶことは、コンピュータビジョンにおける長年の問題である。 自己教師付き学習アルゴリズムの最近の進歩は、画像に拡張の合成を適用するsimclrのような手法を用いて、コントラスト学習を利用し、2つの拡張画像間のコントラスト損失を最小化している。 本稿では,大規模農業データセットを手作業でラベル付けする問題に対して,異常検出や植物成長分析といった潜在的な応用の可能性に対処する,アノテーション効率の高い学習フレームワークであるclawsを提案する。 CLAWSは、SimCLRにインスパイアされたネットワークバックボーンを使用して、クラスクラスタ内のコントラスト学習の影響を調べる。 また、コントラスト損失関数を用いて画像対間の一致を最大化する前に、切り抜いた入力画像にハードアテンションマスクを注入する。 このマスクは、ネットワークを関連するオブジェクト機能に集中させ、バックグラウンド機能を無視します。 本研究は,11種類の作物群からなる227,060検体を用いて,教師付きSimCLRとCLAWSの比較を行った。 実験および広範囲な評価の結果,CLAWS のNMI スコアは 0.7325 であることがわかった。 さらに、CLAWSは、パラメータチューニングを最小限にし、明確に定義されたクラスタを形成する、非常に大きなデータセットの低次元表現を作成することを可能にし、ガウス混合モデルのような効率的で透明で、高度に解釈可能なクラスタリング手法を使用する。

Learning effective visual representations without human supervision is a long-standing problem in computer vision. Recent advances in self-supervised learning algorithms have utilized contrastive learning, with methods such as SimCLR, which applies a composition of augmentations to an image, and minimizes a contrastive loss between the two augmented images. In this paper, we present CLAWS, an annotation-efficient learning framework, addressing the problem of manually labeling large-scale agricultural datasets along with potential applications such as anomaly detection and plant growth analytics. CLAWS uses a network backbone inspired by SimCLR and weak supervision to investigate the effect of contrastive learning within class clusters. In addition, we inject a hard attention mask to the cropped input image before maximizing agreement between the image pairs using a contrastive loss function. This mask forces the network to focus on pertinent object features and ignore background features. We compare results between a supervised SimCLR and CLAWS using an agricultural dataset with 227,060 samples consisting of 11 different crop classes. Our experiments and extensive evaluations show that CLAWS achieves a competitive NMI score of 0.7325. Furthermore, CLAWS engenders the creation of low dimensional representations of very large datasets with minimal parameter tuning and forming well-defined clusters, which lends themselves to using efficient, transparent, and highly interpretable clustering methods such as Gaussian Mixture Models.
翻訳日:2021-12-03 15:10:44 公開日:2021-12-01
# 構造シーブ

Structural Sieves ( http://arxiv.org/abs/2112.01377v1 )

ライセンス: Link先を確認
Konrad Menzel(参考訳) 本稿では,生産における行動最大化や離散的選択の経済モデルの半パラメトリック推定におけるディープニューラルネットワークの利用について検討する。 我々は、ある種のディープネットワークは、連続あるいは離散最適化の非線形潜在変数モデルから生じる近似回帰関数に対する非パラメトリックシーブとして特に適していると主張する。 このタイプの多段階モデルは通常、回帰関数におけるレグレッセプタ("inputs")間のリッチな相互作用効果を生じさせ、次元の呪いを和らげるために入力から出力への"reduced-form" マッピングに可能な分離可能性の制限がなくなるかもしれない。 むしろ、グローバルレベルまたは中間段階における経済的形状、スパーシティまたは分離可能性の制限は、通常、潜在変数モデルによって記述される。 このような制約は、潜在変数モデルの十分に柔軟なバージョンが実際に未知の回帰関数を近似するために使われる場合、より簡単な方法で課される。

This paper explores the use of deep neural networks for semiparametric estimation of economic models of maximizing behavior in production or discrete choice. We argue that certain deep networks are particularly well suited as a nonparametric sieve to approximate regression functions that result from nonlinear latent variable models of continuous or discrete optimization. Multi-stage models of this type will typically generate rich interaction effects between regressors ("inputs") in the regression function so that there may be no plausible separability restrictions on the "reduced-form" mapping form inputs to outputs to alleviate the curse of dimensionality. Rather, economic shape, sparsity, or separability restrictions either at a global level or intermediate stages are usually stated in terms of the latent variable model. We show that restrictions of this kind are imposed in a more straightforward manner if a sufficiently flexible version of the latent variable model is in fact used to approximate the unknown regression function.
翻訳日:2021-12-03 15:02:40 公開日:2021-12-01
# 単一ショット検出器による北半球の熱帯外サイクロンの検出

Detecting Extratropical Cyclones of the Northern Hemisphere with Single Shot Detector ( http://arxiv.org/abs/2112.01283v1 )

ライセンス: Link先を確認
Minjing Shi, Pengfei He, Yuli Shi(参考訳) 本論文では,北半球の熱帯圏外サイクロン(ETC)を検出するための深層学習モデルを提案する。 最初に、Bonfantiらによるアプローチを適用することで、サイクロン中心にラベルを付ける。 [1], 発達段階, 成熟段階, 衰退段階の3つのカテゴリーのETCのラベル付け基準を設定した。 次に,データセット内の画像のラベル付けと前処理のフレームワークを提案する。 イメージとラベルが入力として機能する準備ができたら、データセットのフォーマットに適合するように、Single Shot Detector(SSD)というオブジェクト検出モデルを作成します。 結果の記録を維持しつつ、2つの設定(バイナリとマルチクラス)でラベル付きデータセットでモデルをトレーニングし、評価します。 最後に, 成熟段階のetesの検出(平均精度86.64%)と3つのカテゴリのetesの検出(平均精度79.34%)において, 比較的高い性能を達成した。 単発検出モデルは異なる段階のETCの検出に成功し、他の関連する環境におけるETC検出の将来の応用に大きな可能性を示した。

In this paper, we propose a deep learning-based model to detect extratropical cyclones (ETCs) of northern hemisphere, while developing a novel workflow of processing images and generating labels for ETCs. We first label the cyclone center by adapting an approach from Bonfanti et.al. [1] and set up criteria of labeling ETCs of three categories: developing, mature, and declining stages. We then propose a framework of labeling and preprocessing the images in our dataset. Once the images and labels are ready to serve as inputs, we create our object detection model named Single Shot Detector (SSD) to fit the format of our dataset. We train and evaluate our model with our labeled dataset on two settings (binary and multiclass classifications), while keeping a record of the results. Finally, we achieved relatively high performance with detecting ETCs of mature stage (mean Average Precision is 86.64%), and an acceptable result for detecting ETCs of all three categories (mean Average Precision 79.34%). We conclude that the single-shot detector model can succeed in detecting ETCs of different stages, and it has demonstrated great potential in the future applications of ETC detection in other relevant settings.
翻訳日:2021-12-03 15:00:42 公開日:2021-12-01
# CO-STAR:解析と推論のためのステレオタイプの概念化

CO-STAR: Conceptualisation of Stereotypes for Analysis and Reasoning ( http://arxiv.org/abs/2112.00819v1 )

ライセンス: Link先を確認
Teyun Kwon, Anandha Gopalan(参考訳) 警告: 本論文は攻撃的あるいは不安定な材料を含む。 最近の研究の多くはヘイトスピーチの検出と過度に不快な内容に重点を置いているが、暗黙のステレオタイプという形で、より微妙だが等しく有害な言語を探求する研究はほとんどない。 これは、人間がしばしばステレオタイプを理解し、推論するのに苦労するという事実によって、さらに難しいドメインです。 我々は既存の文献とCO-STAR(Conceptualization of STereotypes for Analysis and Reasoning)に基づいて,インプリッドステレオタイプの基礎概念を符号化する新しいフレームワークを構築した。 また,インプリッドステレオタイプおよびステレオタイプ概念化のアノテーションが12Kを超えるCO-STARトレーニングデータセットを導入し,トレーニングおよび手作業による評価の結果を得た。 しかし、CO-STARモデルは、より複雑で言葉の少ないステレオタイプを理解する能力に限られており、我々の研究は、より洗練された常識知識を符号化する手法を用いたモデル開発における将来の取り組みを動機付けている。

Warning: this paper contains material which may be offensive or upsetting. While much of recent work has focused on the detection of hate speech and overtly offensive content, very little research has explored the more subtle but equally harmful language in the form of implied stereotypes. This is a challenging domain, made even more so by the fact that humans often struggle to understand and reason about stereotypes. We build on existing literature and present CO-STAR (COnceptualisation of STereotypes for Analysis and Reasoning), a novel framework which encodes the underlying concepts of implied stereotypes. We also introduce the CO-STAR training data set, which contains just over 12K structured annotations of implied stereotypes and stereotype conceptualisations, and achieve state-of-the-art results after training and manual evaluation. The CO-STAR models are, however, limited in their ability to understand more complex and subtly worded stereotypes, and our research motivates future work in developing models with more sophisticated methods for encoding common-sense knowledge.
翻訳日:2021-12-03 14:59:57 公開日:2021-12-01
# アライメントの研究室としての一般言語アシスタント

A General Language Assistant as a Laboratory for Alignment ( http://arxiv.org/abs/2112.00861v1 )

ライセンス: Link先を確認
Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Jackson Kernion, Kamal Ndousse, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris Olah, Jared Kaplan(参考訳) 大規模言語モデルの幅広い能力を考えると、人間の価値に合わせた汎用的なテキストベースのアシスタントに向けて作業することは可能であり、有用で、正直で、無害である。 この方向への最初の一歩として、プロンプトのような単純なベースライン技術と評価を研究します。 モデルサイズにより, 緩やかな介入による利点が増大し, 様々なアライメント評価に一般化され, 大規模モデルの性能を損なわないことがわかった。 次に,アライメント,模倣学習,バイナリ識別,ランク付け選好モデルなどに関連するトレーニング対象のスケーリング傾向について検討する。 ランク付けされた選好モデリングは模倣学習よりもはるかに優れており、しばしばモデルサイズに好適にスケールする。 対照的に、二項判別は典型的には模倣学習と非常によく似ている。 最後に,人間の好みを微調整する際のサンプル効率を向上させることを目的として,トレーニングの'preference model pre-training'段階について検討した。

Given the broad capabilities of large language models, it should be possible to work towards a general-purpose, text-based assistant that is aligned with human values, meaning that it is helpful, honest, and harmless. As an initial foray in this direction we study simple baseline techniques and evaluations, such as prompting. We find that the benefits from modest interventions increase with model size, generalize to a variety of alignment evaluations, and do not compromise the performance of large models. Next we investigate scaling trends for several training objectives relevant to alignment, comparing imitation learning, binary discrimination, and ranked preference modeling. We find that ranked preference modeling performs much better than imitation learning, and often scales more favorably with model size. In contrast, binary discrimination typically performs and scales very similarly to imitation learning. Finally we study a `preference model pre-training' stage of training, with the goal of improving sample efficiency when finetuning on human preferences.
翻訳日:2021-12-03 14:40:36 公開日:2021-12-01
# 強化学習と分類の適応的アライメントによる効率的な症状問合せと診断

Efficient Symptom Inquiring and Diagnosis via Adaptive Alignment of Reinforcement Learning and Classification ( http://arxiv.org/abs/2112.00733v1 )

ライセンス: Link先を確認
Hongyi Yuan and Sheng Yu(参考訳) 医療自動診断システムは、実際の診断過程において、ヒトの医師を模倣することを目的としている。 本課題は症状検索および疾患診断を伴う逐次的意思決定問題として定式化される。 近年,多くの研究者が強化学習手法を用いて作業を行っている。 しかし、ほとんどの最近の作品は、症状の問合せと疾患の診断行動の区別を怠り、それらを一つの行動空間に混合した。 これにより、この課題に対する強化学習手法の不満足な性能が得られる。 さらに、様々な疾患と対応する情報を含む公的評価データセットが欠如している。 これらの課題に対処するため、我々は、それぞれ強化学習課題と分類課題として定式化された症状検索と疾患診断を用いた医学的自動診断法を提案する。 また,メディアとして分布エントロピーを用いて2つのタスクを整列するロバストで適応的な手法を提案する。 次に,MedlinePlus知識ベースから抽出した新しいデータセットを作成する。 データセットには、より多くの疾患とより完全な症状情報が含まれている。 実験のためのシミュレーションされた患者はもっとリアルです。 実験結果から,本手法は転倒の少ない高次診断精度を達成し,最新の3つの手法よりも優れていることが示された。

The medical automatic diagnosis system aims to imitate human doctors in the real diagnostic process. This task is formulated as a sequential decision-making problem with symptom inquiring and disease diagnosis. In recent years, many researchers have used reinforcement learning methods to handle this task. However, most recent works neglected to distinguish the symptom inquiring and disease diagnosing actions and mixed them into one action space. This results in the unsatisfactory performance of reinforcement learning methods on this task. Moreover, there is a lack of a public evaluation dataset that contains various diseases and corresponding information. To address these issues, we first propose a novel method for medical automatic diagnosis with symptom inquiring and disease diagnosing formulated as a reinforcement learning task and a classification task, respectively. We also propose a robust and adaptive method to align the two tasks using distribution entropies as media. Then, we create a new dataset extracted from the MedlinePlus knowledge base. The dataset contains more diseases and more complete symptom information. The simulated patients for experiments are more realistic. Experimental evaluation results show that our method outperforms three recent state-of-the-art methods on different datasets by achieving higher medical diagnosis accuracies with few inquiring turns.
翻訳日:2021-12-03 14:40:22 公開日:2021-12-01
# スマートガイダンス戦略がスパース決定木最適化のための大規模スケーラビリティ向上を実現するには

How Smart Guessing Strategies Can Yield Massive Scalability Improvements for Sparse Decision Tree Optimization ( http://arxiv.org/abs/2112.00798v1 )

ライセンス: Link先を確認
Hayden McTavish, Chudi Zhong, Reto Achermann, Ilias Karimalis, Jacques Chen, Cynthia Rudin, Margo Seltzer(参考訳) スパース決定ツリーの最適化は、AIの誕生以来、最も根本的な問題の1つであり、解釈可能な機械学習のコアにおける課題である。 スパース決定木最適化は計算的に困難であり、1960年代以降の着実な努力にもかかわらず、この問題に対するブレークスルーは、主に最適なスパース決定木を見つけることの課題である。 しかし、現在の最先端のアルゴリズムは、現実のデータセット、特にいくつかの連続的な値を持つデータセットの最適あるいは至近のツリーを見つけるために、実用的でない量の計算時間とメモリを必要とすることが多い。 これらの決定木最適化問題の探索空間が巨大であることを踏まえると、ブラックボックス機械学習モデルと精度で競合するスパース決定木を実際に見つけることができるだろうか? 本稿では,任意の分岐・境界決定木アルゴリズムに適用可能なスマート推測手法を用いてこの問題に対処する。 これらの推定値を用いることで,生成した木がブラックボックスの精度と表現力からどの程度逸脱するかのバウンダリを提供しながら,実行時間を桁違いに削減できることを示す。 提案手法では, 連続的特徴量, 木の大きさ, 最適決定木に対する誤差の下位境界を推定できる。 実験結果から,ブラックボックスモデルの精度に合致したスパース決定木を,多くの場合,迅速に構築できることがわかった。 まとめると:最適化に苦労しているとき、推測するだけです。

Sparse decision tree optimization has been one of the most fundamental problems in AI since its inception and is a challenge at the core of interpretable machine learning. Sparse decision tree optimization is computationally hard, and despite steady effort since the 1960's, breakthroughs have only been made on the problem within the past few years, primarily on the problem of finding optimal sparse decision trees. However, current state-of-the-art algorithms often require impractical amounts of computation time and memory to find optimal or near-optimal trees for some real-world datasets, particularly those having several continuous-valued features. Given that the search spaces of these decision tree optimization problems are massive, can we practically hope to find a sparse decision tree that competes in accuracy with a black box machine learning model? We address this problem via smart guessing strategies that can be applied to any optimal branch-and-bound-based decision tree algorithm. We show that by using these guesses, we can reduce the run time by multiple orders of magnitude, while providing bounds on how far the resulting trees can deviate from the black box's accuracy and expressive power. Our approach enables guesses about how to bin continuous features, the size of the tree, and lower bounds on the error for the optimal decision tree. Our experiments show that in many cases we can rapidly construct sparse decision trees that match the accuracy of black box models. To summarize: when you are having trouble optimizing, just guess.
翻訳日:2021-12-03 14:39:58 公開日:2021-12-01
# 自律空戦のための最大エントロピーを用いたホモトピーに基づく強化学習

Homotopy Based Reinforcement Learning with Maximum Entropy for Autonomous Air Combat ( http://arxiv.org/abs/2112.01328v1 )

ライセンス: Link先を確認
Yiwen Zhu, Zhou Fang, Yuan Zheng, Wenya Wei(参考訳) 無人戦闘航空機(UCAV)のインテリジェントな決定は、長い間難しい問題であった。 従来の探索手法では,高ダイナミックス空戦シナリオにおけるリアルタイムの要求をほとんど満たさない。 強化学習(RL)法はニューラルネットワークを用いて決定時間を著しく短縮することができる。 しかし、スパース報酬問題は収束速度を制限し、人工事前経験報酬は元のタスクの最適収束方向を容易に逸脱することができ、rl航空戦闘アプリケーションにとって大きな困難を生じさせる。 本稿では,本研究で提案するhsac(homotopy-based soft actor-critic method)を提案する。 この手法の収束性や実現可能性も本論文で証明する。 本手法を実証するために,まずRL法を訓練するための詳細な3次元空中戦闘シミュレーション環境を構築し,攻撃水平飛行UCAVタスクと自走対決タスクの両方に本手法を実装した。 実験の結果,提案手法はスパース報酬や人工事前経験報酬のみを利用する方法よりも優れていた。 本手法により訓練されたエージェントは、攻撃水平飛行UCAVタスクにおいて98.3%以上の勝利率と、他の2つの方法により訓練されたエージェントと対決した場合の平均67.4%の勝利率に達することができる。

The Intelligent decision of the unmanned combat aerial vehicle (UCAV) has long been a challenging problem. The conventional search method can hardly satisfy the real-time demand during high dynamics air combat scenarios. The reinforcement learning (RL) method can significantly shorten the decision time via using neural networks. However, the sparse reward problem limits its convergence speed and the artificial prior experience reward can easily deviate its optimal convergent direction of the original task, which raises great difficulties for the RL air combat application. In this paper, we propose a homotopy-based soft actor-critic method (HSAC) which focuses on addressing these problems via following the homotopy path between the original task with sparse reward and the auxiliary task with artificial prior experience reward. The convergence and the feasibility of this method are also proved in this paper. To confirm our method feasibly, we construct a detailed 3D air combat simulation environment for the RL-based methods training firstly, and we implement our method in both the attack horizontal flight UCAV task and the self-play confrontation task. Experimental results show that our method performs better than the methods only utilizing the sparse reward or the artificial prior experience reward. The agent trained by our method can reach more than 98.3% win rate in the attack horizontal flight UCAV task and average 67.4% win rate when confronted with the agents trained by the other two methods.
翻訳日:2021-12-03 14:34:21 公開日:2021-12-01
# ニューラル確率デュアル動的プログラミング

Neural Stochastic Dual Dynamic Programming ( http://arxiv.org/abs/2112.00874v1 )

ライセンス: Link先を確認
Hanjun Dai, Yuan Xue, Zia Syed, Dale Schuurmans, Bo Dai(参考訳) 確率的双対動的プログラミング(sddp)は、実世界のプロセス最適化タスクのモデリングに広く用いられる多段階確率的最適化を解くための最先端の手法である。 残念なことに、SDDPは決定変数の数で指数関数的にスケールする最悪の複雑性を持ち、低次元問題のみの適用性を著しく制限する。 この制限を克服するために,本研究では,問題インスタンスを本質的な低次元空間内のピースワイド線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入して,SDDPを拡張した。 提案したNeural Stochastic Dual Dynamic Programming($\nu$-SDDP)は、連続した問題を解くことで継続的に自己改善する。 実験的な調査によると、$\nu$-SDDPは、SDDPや強化学習アルゴリズムといった競合製品よりも、様々な合成および実世界のプロセス最適化問題を犠牲にすることなく、問題解決コストを大幅に削減できる。

Stochastic dual dynamic programming (SDDP) is a state-of-the-art method for solving multi-stage stochastic optimization, widely used for modeling real-world process optimization tasks. Unfortunately, SDDP has a worst-case complexity that scales exponentially in the number of decision variables, which severely limits applicability to only low dimensional problems. To overcome this limitation, we extend SDDP by introducing a trainable neural model that learns to map problem instances to a piece-wise linear value function within intrinsic low-dimension space, which is architected specifically to interact with a base SDDP solver, so that can accelerate optimization performance on new instances. The proposed Neural Stochastic Dual Dynamic Programming ($\nu$-SDDP) continually self-improves by solving successive problems. An empirical investigation demonstrates that $\nu$-SDDP can significantly reduce problem solving cost without sacrificing solution quality over competitors such as SDDP and reinforcement learning algorithms, across a range of synthetic and real-world process optimization problems.
翻訳日:2021-12-03 14:33:50 公開日:2021-12-01
# (参考訳) データの構造を包括的に可視化する

Towards a comprehensive visualization of structure in data ( http://arxiv.org/abs/2111.15506v2 )

ライセンス: CC BY 4.0
Joan Garriga and Frederic Bartumeus(参考訳) 次元データ削減法は,大規模データセットの探索と可視化に不可欠である。 教師なしデータ探索の基本的な要件は、単純さ、柔軟性、スケーラビリティである。 しかし、現在の手法では、大規模データ構造を探索する際に複雑なパラメータ化と強い計算限界を示す。 本稿では,t-sneアルゴリズムに着目し,単一の制御パラメータ,すなわちパープレキシティを用いた簡易パラメータ設定により,局所的および大域的なデータ構造の可視化を効果的にバランスできることを示す。 また、t-SNEを効率的に並列化し、データ構造を現在よりも広い範囲にわたって探索するチャンク&ミックスプロトコルを設計した。 我々の並列バージョンのBH-tSNE、すなわちpt-SNEは、最先端のソリューションに匹敵する優れたグローバルな埋め込みに収束する。 それにもかかわらず、簡単な後処理により、グローバルスケールでの精度を失うことなく、ローカルスケールの可視化を効率的に復元できることを示す。 我々は、FIT-SNEやUMAPのようなBH-tSNE以外の高速な埋め込みアルゴリズムに適用するために、同じアプローチを期待している。

Dimensional data reduction methods are fundamental to explore and visualize large data sets. Basic requirements for unsupervised data exploration are simplicity, flexibility and scalability. However, current methods show complex parameterizations and strong computational limitations when exploring large data structures across scales. Here, we focus on the t-SNE algorithm and show that a simplified parameter setup with a single control parameter, namely the perplexity, can effectively balance local and global data structure visualization. We also designed a chunk\&mix protocol to efficiently parallelize t-SNE and explore data structure across a much wide range of scales than currently available. Our parallel version of the BH-tSNE, namely pt-SNE, converges to good global embedding, comparable to state-of-the-art solutions, though the chunk\&mix protocol adds little noise and decreases the accuracy at the local scale. Nonetheless, we show that simple post-processing can efficiently restore local scale visualization, without any loss of precision at the global scales. We expect the same approach to apply to faster embedding algorithms other than BH-tSNE, like FIt-SNE or UMAP, thus, extending the state-of-the-art and leading to more comprehensive data structure visualization and analysis.
翻訳日:2021-12-03 12:20:00 公開日:2021-12-01
# (参考訳) AugLiChem: 機械学習のための化学構造データ拡張ライブラリ

AugLiChem: Data Augmentation Library of Chemical Structures for Machine Learning ( http://arxiv.org/abs/2111.15112v2 )

ライセンス: CC BY 4.0
Rishikesh Magar, Yuyang Wang, Cooper Lorsung, Chen Liang, Hariharan Ramasubramanian, Peiyuan Li and Amir Barati Farimani(参考訳) 機械学習(ML)は、分子や結晶材料の正確かつ効率的な特性予測の可能性を実証している。 化学構造特性予測のための高精度なMLモデルを開発するには,十分なサンプルを持つデータセットが必要である。 しかし、化学特性のクリーンで十分なデータを得ることは高価で時間がかかるため、mlモデルの性能は大幅に制限される。 コンピュータビジョンと自然言語処理におけるデータ拡張の成功に触発されて, auglichem: the data augmentation library for chemical structuresを開発した。 指紋ベースのMLモデルやグラフニューラルネットワーク(GNN)に使用できる結晶系と分子の増強手法が導入された。 拡張戦略を用いることで、特にGNNを使用する場合、MLモデルの性能が大幅に向上することを示す。 さらに,我々が開発した拡張は,トレーニング中に直接プラグインモジュールとして使用することができ, auglichemライブラリを通じて異なるgnnモデルで実装した場合の有効性を実証した。 化学構造のためのデータ拡張ライブラリであるAuglichemの実装のためのPythonベースのパッケージは、https://github.com/BaratiLab/AugLiChem.comで公開されている。

Machine learning (ML) has demonstrated the promise for accurate and efficient property prediction of molecules and crystalline materials. To develop highly accurate ML models for chemical structure property prediction, datasets with sufficient samples are required. However, obtaining clean and sufficient data of chemical properties can be expensive and time-consuming, which greatly limits the performance of ML models. Inspired by the success of data augmentations in computer vision and natural language processing, we developed AugLiChem: the data augmentation library for chemical structures. Augmentation methods for both crystalline systems and molecules are introduced, which can be utilized for fingerprint-based ML models and Graph Neural Networks(GNNs). We show that using our augmentation strategies significantly improves the performance of ML models, especially when using GNNs. In addition, the augmentations that we developed can be used as a direct plug-in module during training and have demonstrated the effectiveness when implemented with different GNN models through the AugliChem library. The Python-based package for our implementation of Auglichem: Data augmentation library for chemical structures, is publicly available at: https://github.com/BaratiLab/AugLiChem.
翻訳日:2021-12-03 10:24:22 公開日:2021-12-01
# (参考訳) MIST-net:スパークビューCT再構成のためのマルチドメイン統合スウィントランスネットワーク

MIST-net: Multi-domain Integrative Swin Transformer network for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2111.14831v2 )

ライセンス: CC BY 4.0
Jiayi Pan, Weiwen Wu, Zhifan Gao and Heye Zhang(参考訳) 近年,深層学習に基づく断層画像再構成手法が注目されている。 スパースビューデータ再構成は典型的な逆問題の一つであり、数十の投影から高品質なCT画像を再構成する方法は、実際は難しい課題である。 この課題に対処するため,本稿ではマルチドメイン統合スウィントランスネットワーク(MIST-net)を提案する。 まず,提案するmist-netには,フレキシブルネットワークアーキテクチャを用いたデータ,残差データ,画像,残差画像からの豪華なドメイン特徴が組み込まれている。 ここでは、残差データと残差画像ドメインのネットワークコンポーネントをデータ一貫性モジュールとみなし、残差データと画像ドメインの両方の補間エラーを排除し、さらに画像の詳細を保持する。 第2に、画像特徴を検出し、さらに画像エッジを保護するため、トレーニング可能なsobelフィルタがネットワークに組み込まれ、エンコード復号能力が向上した。 第3に,従来のスウィン変換器を用いて,復元性能を向上させるために,高品質な再構成変換器(Recformer)をさらに設計した。 RecformerはSwin変換器のパワーを継承し、再構成された画像のグローバルな特徴とローカルな特徴を捉えた。 48ビューの数値データセットを用いた実験により,提案するmist-netは,高度な未ロールネットワークを含む他の競合製品に比べて,機能回復とエッジ保護の少ない高い再構成画像品質を提供することを示した。 その結果,MIST-netも最高の性能を示した。 トレーニングしたネットワークを48ビューで心肺CTデータセットに転送し,MIST-netの有用性を検証し,臨床応用におけるMIST-netの有用性を実証した。

The deep learning-based tomographic image reconstruction methods have been attracting much attention among these years. The sparse-view data reconstruction is one of typical underdetermined inverse problems, how to reconstruct high-quality CT images from dozens of projections is still a challenge in practice. To address this challenge, in this article we proposed a Multi-domain Integrative Swin Transformer network (MIST-net). First, the proposed MIST-net incorporated lavish domain features from data, residual-data, image, and residual-image using flexible network architectures. Here, the residual-data and residual-image domains network components can be considered as the data consistency module to eliminate interpolation errors in both residual data and image domains, and then further retain image details. Second, to detect the image features and further protect image edge, the trainable Sobel Filter was incorporated into the network to improve the encode-decode ability. Third, with the classical Swin Transformer, we further designed the high-quality reconstruction transformer (i.e., Recformer) to improve the reconstruction performance. The Recformer inherited the power of Swin transformer to capture the global and local features of the reconstructed image. The experiments on the numerical datasets with 48 views demonstrated our proposed MIST-net provided higher reconstructed image quality with small feature recovery and edge protection than other competitors including the advanced unrolled networks. The quantitative results show that our MIST-net also obtained the best performance. The trained network was transferred to the real cardiac CT dataset with 48 views, the reconstruction results further validated the advantages of our MIST-net, which demonstrated the good robustness of our MIST-net in clinical applications.
翻訳日:2021-12-03 08:08:41 公開日:2021-12-01
# (参考訳) AVA-AVD:野生におけるオーディオ・ビジュアル話者ダイアリゼーション

AVA-AVD: Audio-visual Speaker Diarization in the Wild ( http://arxiv.org/abs/2111.14448v2 )

ライセンス: CC BY 4.0
Eric Zhongcong Xu, Zeyang Song, Chao Feng, Mang Ye, Mike Zheng Shou(参考訳) 音声-視覚的話者ダイアリゼーションは,聴覚信号と視覚信号の両方を用いて発話した音を検出することを目的としている。 既存の音声-視覚のダイアリゼーションデータセットは、主に会議室やニューススタジオのような屋内環境に焦点を当てており、映画、ドキュメンタリー、オーディエンスシットコムといった多くのシナリオにおける、現在進行中のビデオとはかなり異なる。 野生の動画のダイアリゼーション手法を効果的に比較できるテストベッドを作成するために、AVA映画データセット上の話者ダイアリゼーションラベルに注釈を付け、AVA-AVDと呼ばれる新しいベンチマークを作成する。 このベンチマークは、さまざまなシーン、複雑な音響条件、完全にスクリーン外のスピーカーのために難しい。 しかし、オフスクリーンとオンスクリーンのスピーカーを一緒に扱う方法はまだ重要な課題だ。 そこで本研究では,視認性に基づいて識別情報をキャプチャする効果的なモダリティマスクを導入する新しい音声・視覚関連ネットワーク(avr-net)を提案する。 実験により,本手法は最先端の手法に勝るだけでなく,オフスクリーン話者の比率が変化するほど頑健であることがわかった。 アブレーション研究は、提案されたavr-net、特にダイアリゼーションにおけるモダリティマスクの利点を示している。 我々のデータとコードはhttps://github.com/zcxu-eric/AVA-AVD.comで公開されます。

Audio-visual speaker diarization aims at detecting ``who spoken when`` using both auditory and visual signals. Existing audio-visual diarization datasets are mainly focused on indoor environments like meeting rooms or news studios, which are quite different from in-the-wild videos in many scenarios such as movies, documentaries, and audience sitcoms. To create a testbed that can effectively compare diarization methods on videos in the wild, we annotate the speaker diarization labels on the AVA movie dataset and create a new benchmark called AVA-AVD. This benchmark is challenging due to the diverse scenes, complicated acoustic conditions, and completely off-screen speakers. Yet, how to deal with off-screen and on-screen speakers together still remains a critical challenge. To overcome it, we propose a novel Audio-Visual Relation Network (AVR-Net) which introduces an effective modality mask to capture discriminative information based on visibility. Experiments have shown that our method not only can outperform state-of-the-art methods but also is more robust as varying the ratio of off-screen speakers. Ablation studies demonstrate the advantages of the proposed AVR-Net and especially the modality mask on diarization. Our data and code will be made publicly available at https://github.com/zcxu-eric/AVA-AVD.
翻訳日:2021-12-03 07:47:44 公開日:2021-12-01
# (参考訳) galaxy: 半教師付き学習と明示的なポリシーインジェクションを伴うタスク指向ダイアログ生成型事前学習モデル

GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection ( http://arxiv.org/abs/2111.14592v2 )

ライセンス: CC BY 4.0
Wanwei He, Yinpei Dai, Yinhe Zheng, Yuchuan Wu, Zheng Cao, Dermot Liu, Peng Jiang, Min Yang, Fei Huang, Luo Si, Jian Sun, Yongbin Li(参考訳) 事前学習されたモデルはタスク指向のダイアログシステムを強化するのに強力であることが証明された。 しかし,現在の事前学習方法は,対話政策の活用を怠りながら,対話理解と生成タスクの強化に重点を置いている。 本稿では,限定ラベル付きダイアログと,半教師付き学習による大規模ラベルなしダイアログコーパスからダイアログポリシを明示的に学習する,新しい事前学習ダイアログモデルgalaxyを提案する。 具体的には,事前学習中の政策最適化のためのダイアログ行動予測タスクを導入し,ラベルなしダイアログを用いて学習表現を洗練するために一貫性正規化用語を用いる。 また,ラベルなしのダイアログサンプルの重み付けを行うゲーティング機構を実装した。 In-Car,MultiWOZ2.0,MultiWOZ2.1というベンチマークデータセット上で,GALAXYはタスク指向ダイアログシステムの性能を著しく改善し,それぞれ2.5,5.3,5.5ポイント向上した。 また,GALAXYは,各種低リソース環境下での既存モデルよりも高機能であることを示す。

Pre-trained models have proved to be powerful in enhancing task-oriented dialog systems. However, current pre-training methods mainly focus on enhancing dialog understanding and generation tasks while neglecting the exploitation of dialog policy. In this paper, we propose GALAXY, a novel pre-trained dialog model that explicitly learns dialog policy from limited labeled dialogs and large-scale unlabeled dialog corpora via semi-supervised learning. Specifically, we introduce a dialog act prediction task for policy optimization during pre-training and employ a consistency regularization term to refine the learned representation with the help of unlabeled dialogs. We also implement a gating mechanism to weigh suitable unlabeled dialog samples. Empirical results show that GALAXY substantially improves the performance of task-oriented dialog systems, and achieves new state-of-the-art results on benchmark datasets: In-Car, MultiWOZ2.0 and MultiWOZ2.1, improving their end-to-end combined scores by 2.5, 5.3 and 5.5 points, respectively. We also show that GALAXY has a stronger few-shot ability than existing models under various low-resource settings.
翻訳日:2021-12-03 07:27:51 公開日:2021-12-01
# (参考訳) 深層学習における幾何学的occamのカミソリ

The Geometric Occam's Razor Implicit in Deep Learning ( http://arxiv.org/abs/2111.15090v2 )

ライセンス: CC BY 4.0
Benoit Dherin, Michael Munn, and David G.T. Barrett(参考訳) 過パラメータ化されたディープニューラルネットワークでは、トレーニングデータに正確に適合する多くのパラメータ構成が可能である。 しかし、これらの補間解の性質はよく分かっていない。 我々は、確率勾配降下で訓練された過パラメータニューラルネットワークは幾何オッカムのラザーの対象であり、このネットワークは幾何学モデルの複雑さによって暗黙的に正規化されると主張している。 一次元回帰の場合、幾何学モデルの複雑性は関数の弧長によって簡単に与えられる。 高次元設定では、幾何学モデルの複雑性は函数のディリクレエネルギーに依存する。 この幾何学オッカムのラゾール、ディリクレエネルギー、および他の既知の暗黙正則化形式との関係を探求する。 最後に、CIFAR-10で訓練されたResNetに対して、ディリクレエネルギーの測定は、この暗黙の幾何学的オッカムのラザーの作用と一致している。

In over-parameterized deep neural networks there can be many possible parameter configurations that fit the training data exactly. However, the properties of these interpolating solutions are poorly understood. We argue that over-parameterized neural networks trained with stochastic gradient descent are subject to a Geometric Occam's Razor; that is, these networks are implicitly regularized by the geometric model complexity. For one-dimensional regression, the geometric model complexity is simply given by the arc length of the function. For higher-dimensional settings, the geometric model complexity depends on the Dirichlet energy of the function. We explore the relationship between this Geometric Occam's Razor, the Dirichlet energy and other known forms of implicit regularization. Finally, for ResNets trained on CIFAR-10, we observe that Dirichlet energy measurements are consistent with the action of this implicit Geometric Occam's Razor.
翻訳日:2021-12-03 07:08:45 公開日:2021-12-01
# (参考訳) 対向オピニオン成形における反復性の影響

The Effect of Iterativity on Adversarial Opinion Forming ( http://arxiv.org/abs/2111.15445v2 )

ライセンス: CC BY 4.0
Konstantinos Panagiotou and Simon Reisser(参考訳) 意見形成に対する敵対的影響を研究するための以下のモデルを考える。 当初選ばれた専門家の集まりは、敵対者の影響を受けながら二項意見を形成する。 ネットワークの他のすべての参加者は、近隣の専門家の大多数の意見を受け取る。 敵は、ネットワークの大多数が虚偽を信じるような方法で専門家に影響を与えるだろうか? アロンなど。 [1] この文脈では、反復的な散布過程は常に敵にとって有益である。 この研究は、その予想に反例を与える。 [1] N. Alon, M. Feldman, O. Lev, M. Tennenholtz。 群衆の知恵はどんなにロバストか? 第24回人工知能国際合同会議(ijcai 2015)第2055-2061頁。

Consider the following model to study adversarial effects on opinion forming. A set of initially selected experts form their binary opinion while being influenced by an adversary, who may convince some of them of the falsehood. All other participants in the network then take the opinion of the majority of their neighbouring experts. Can the adversary influence the experts in such a way that the majority of the network believes the falsehood? Alon et al. [1] conjectured that in this context an iterative dissemination process will always be beneficial to the adversary. This work provides a counterexample to that conjecture. [1] N. Alon, M. Feldman, O. Lev, and M. Tennenholtz. How Robust Is the Wisdom of the Crowds? In Proceedings of the 24th International Joint Conference on Artificial Intelligence (IJCAI 2015), pages 2055-2061, 2015.
翻訳日:2021-12-03 06:49:51 公開日:2021-12-01
# (参考訳) 深層学習と人工知能は、水生生物を傷つけることなく海洋の破片を見つけるための適切な手段か?

Is the use of Deep Learning and Artificial Intelligence an appropriate means to locate debris in the ocean without harming aquatic wildlife? ( http://arxiv.org/abs/2112.00190v1 )

ライセンス: CC BY 4.0
Zoe Moorton, Zeyneb Kurt, Wai Lok Woo(参考訳) プラスチックの破片が世界規模で拡大する中で、テクノロジー業界が参入する時が来た。 本研究の目的は,深層学習が海洋生物と人工破片の水中での識別に有効かどうかを評価することである。 目的は、水生生態系の微妙なバランスを損なうことなく、人工知能で安全に海洋を浄化できるかどうかを見つけることである。 この研究は、主にゴミを集めるのではなく、生態系を保護する観点から、畳み込みニューラルネットワークの使用を探求している。 我々は,水生生物から合成物質を分類するために,1,644個の水中画像を含む独自のデータベースを用いて,カスタマイズされた深層学習モデルを構築した。 我々は、破片と生命を安全に区別することは可能だが、より大きなデータベースと強いcnn構造によるさらなる探索は、より有望な結果をもたらす可能性があると結論付けた。

With the global issue of plastic debris ever expanding, it is about time that the technology industry stepped in. This study aims to assess whether deep learning can successfully distinguish between marine life and man-made debris underwater. The aim is to find if we are safely able to clean up our oceans with Artificial Intelligence without disrupting the delicate balance of the aquatic ecosystems. The research explores the use of Convolutional Neural Networks from the perspective of protecting the ecosystem, rather than primarily collecting rubbish. We did this by building a custom-built, deep learning model, with an original database including 1,644 underwater images and used a binary classification to sort synthesised material from aquatic life. We concluded that although it is possible to safely distinguish between debris and life, further exploration with a larger database and stronger CNN structure has the potential for much more promising results.
翻訳日:2021-12-03 03:43:58 公開日:2021-12-01
# (参考訳) ニューラルバンドに対する効率的なオンラインベイズ推論

Efficient Online Bayesian Inference for Neural Bandits ( http://arxiv.org/abs/2112.00195v1 )

ライセンス: CC BY 4.0
Gerardo Duran-Martin and Aleyna Kara and Kevin Murphy(参考訳) 本稿では,ベイズ型ニューラルネットワークにおけるオンライン(系列)推論のための新しいアルゴリズムを提案する。 重要なアイデアは、拡張kalmanフィルタ(各時間ステップで度数関数を局所的に線形化する)とパラメータのための(学習またはランダムな)低次元アフィン部分空間を組み合わせることである。 他のほとんどのニューラルバンディット手法は「破滅的忘れ」の問題を避けるために過去のデータセット全体を保存する必要があるが、我々のアプローチは定数メモリを使用する。 これは、最終線形層だけでなく、モデル内のすべてのパラメータに対する不確実性を表すため、可能である。 我々は,mnist やレコメンデーションシステムと同様に "deep bayesian bandit showdown" ベンチマークで良好な結果を示した。

In this paper we present a new algorithm for online (sequential) inference in Bayesian neural networks, and show its suitability for tackling contextual bandit problems. The key idea is to combine the extended Kalman filter (which locally linearizes the likelihood function at each time step) with a (learned or random) low-dimensional affine subspace for the parameters; the use of a subspace enables us to scale our algorithm to models with $\sim 1M$ parameters. While most other neural bandit methods need to store the entire past dataset in order to avoid the problem of "catastrophic forgetting", our approach uses constant memory. This is possible because we represent uncertainty about all the parameters in the model, not just the final linear layer. We show good results on the "Deep Bayesian Bandit Showdown" benchmark, as well as MNIST and a recommender system.
翻訳日:2021-12-03 03:36:24 公開日:2021-12-01
# (参考訳) 3DVNet:マルチビュー深度予測とボリュームリファインメント

3DVNet: Multi-View Depth Prediction and Volumetric Refinement ( http://arxiv.org/abs/2112.00202v1 )

ライセンス: CC BY 4.0
Alexander Rich, Noah Stier, Pradeep Sen, Tobias H\"ollerer(参考訳) 本稿では,従来の深度ベースと体積型mvsアプローチの利点を組み合わせた,新しいマルチビューステレオ(mvs)深度推定手法である3dvnetを提案する。 私たちの重要なアイデアは、3dシーンモデリングネットワークを使用することで、粗い深度の予測セットを反復的に更新することで、基礎となるシーンの形状に合致する高精度な予測が可能になります。 既存の深度予測手法とは異なり,本手法では,全深度マップ上で世界空間で動作する3次元畳み込みニューラルネットワーク(CNN)を併用する。 したがって、ネットワークは意味のあるシーンレベルの事前学習ができる。 さらに,既存のボリュームMVS技術とは異なり,我々の3D CNNは,多視点情報の効果的な集約と深度マップのフレキシブルな反復改善を実現するために,機能拡張点クラウド上で動作している。 実験の結果,scannetデータセットの深さ予測と3次元再構成指標,およびtum-rgbdおよびicl-nuimデータセットからのシーン選択において,最先端の精度を上回った。 これは,本手法が有効であり,新しい設定に一般化可能であることを示している。

We present 3DVNet, a novel multi-view stereo (MVS) depth-prediction method that combines the advantages of previous depth-based and volumetric MVS approaches. Our key idea is the use of a 3D scene-modeling network that iteratively updates a set of coarse depth predictions, resulting in highly accurate predictions which agree on the underlying scene geometry. Unlike existing depth-prediction techniques, our method uses a volumetric 3D convolutional neural network (CNN) that operates in world space on all depth maps jointly. The network can therefore learn meaningful scene-level priors. Furthermore, unlike existing volumetric MVS techniques, our 3D CNN operates on a feature-augmented point cloud, allowing for effective aggregation of multi-view information and flexible iterative refinement of depth maps. Experimental results show our method exceeds state-of-the-art accuracy in both depth prediction and 3D reconstruction metrics on the ScanNet dataset, as well as a selection of scenes from the TUM-RGBD and ICL-NUIM datasets. This shows that our method is both effective and generalizes to new settings.
翻訳日:2021-12-03 03:35:29 公開日:2021-12-01
# (参考訳) Sim-to-Real Validationのためのシナリオプログラムによる遅延データ検索

Querying Labelled Data with Scenario Programs for Sim-to-Real Validation ( http://arxiv.org/abs/2112.00206v1 )

ライセンス: CC BY 4.0
Edward Kim, Jay Shenoy, Sebastian Junges, Daniel Fremont, Alberto Sangiovanni-Vincentelli, Sanjit Seshia(参考訳) 自動運転車(AV)のシミュレーションに基づくテストは、安全性を確保するための道路試験にとって不可欠な補完となっている。 その結果、シミュレーションにおける障害シナリオの探索に重点を置いている。 しかし、基本的な疑問は残る: avの障害シナリオは現実において有意義なシミュレーションで特定されているか、すなわち、実際のシステムで再現可能か? シミュレーションデータと実センサデータの相違から生じるシミュレート・トゥ・リアルのギャップのため、シミュレーションで特定される障害シナリオは、合成センサーデータの突発的なアーティファクトか、実際のセンサデータで持続する実際の障害のいずれかである。 シミュレーションされた障害シナリオを検証するアプローチは、実際のデータのコーパス内のシナリオのインスタンスを特定し、障害が実際のデータに持続するかどうかをチェックすることである。 そこで本研究では,SCENIC確率型言語を用いたシナリオプログラムとして符号化された,抽象シナリオに適合するラベル付きデータ項目の意味を形式的に定義する。 この定義を用いて,シナリオプログラムとラベル付きデータセットが与えられた場合,シナリオにマッチするデータのサブセットを求めるクエリアルゴリズムを開発した。 実験により,本アルゴリズムは様々な現実的なトラヒックシナリオにおいて正確かつ効率的であることを示し,合理的なエージェント数に拡張できることを示した。

Simulation-based testing of autonomous vehicles (AVs) has become an essential complement to road testing to ensure safety. Consequently, substantial research has focused on searching for failure scenarios in simulation. However, a fundamental question remains: are AV failure scenarios identified in simulation meaningful in reality, i.e., are they reproducible on the real system? Due to the sim-to-real gap arising from discrepancies between simulated and real sensor data, a failure scenario identified in simulation can be either a spurious artifact of the synthetic sensor data or an actual failure that persists with real sensor data. An approach to validate simulated failure scenarios is to identify instances of the scenario in a corpus of real data, and check if the failure persists on the real data. To this end, we propose a formal definition of what it means for a labelled data item to match an abstract scenario, encoded as a scenario program using the SCENIC probabilistic programming language. Using this definition, we develop a querying algorithm which, given a scenario program and a labelled dataset, finds the subset of data matching the scenario. Experiments demonstrate that our algorithm is accurate and efficient on a variety of realistic traffic scenarios, and scales to a reasonable number of agents.
翻訳日:2021-12-03 03:22:05 公開日:2021-12-01
# (参考訳) 顔・画像認識のためのスパースPCA法の改良

Improved sparse PCA method for face and image recognition ( http://arxiv.org/abs/2112.00207v1 )

ライセンス: CC0 1.0
Loc Hoang Tran, Tuan Tran, An Mai(参考訳) 顔認識は、パターン認識領域において非常に重要な分野である。 いくつかは軍事や金融に応用されている。 本稿では,スパースPCAと最寄りの手法(およびカーネルリッジ回帰法)の組み合わせを提案し,顔認識問題に応用する。 実験結果から,スパースPCA法(近位勾配法とFISTA法)と1つの特定分類系(近位勾配法とFISTA法)の組み合わせの精度は,PCA法と1つの特定分類系の組み合わせの精度よりも低いが,スパースPCA法(近位勾配法とFISTA法)と1つの特定分類系の組み合わせにより精度が向上することが示唆された。 さらに、FISTA法を用いてスパースPCAアルゴリズムを演算するプロセスは、近勾配法を用いてスパースPCAアルゴリズムを演算するプロセスよりも常に高速であることを示す。

Face recognition is the very significant field in pattern recognition area. It has multiple applications in military and finance, to name a few. In this paper, the combination of the sparse PCA with the nearest-neighbor method (and with the kernel ridge regression method) will be proposed and will be applied to solve the face recognition problem. Experimental results illustrate that the accuracy of the combination of the sparse PCA method (using the proximal gradient method and the FISTA method) and one specific classification system may be lower than the accuracy of the combination of the PCA method and one specific classification system but sometimes the combination of the sparse PCA method (using the proximal gradient method or the FISTA method) and one specific classification system leads to better accuracy. Moreover, we recognize that the process computing the sparse PCA algorithm using the FISTA method is always faster than the process computing the sparse PCA algorithm using the proximal gradient method.
翻訳日:2021-12-03 02:53:27 公開日:2021-12-01
# (参考訳) 自動運転車における汎用センサ融合のためのスケーラブルプリミティブ

Scalable Primitives for Generalized Sensor Fusion in Autonomous Vehicles ( http://arxiv.org/abs/2112.00219v1 )

ライセンス: CC BY 4.0
Sammy Sidhu, Linda Wang, Tayyab Naseer, Ashish Malhotra, Jay Chia, Aayush Ahuja, Ella Rasmussen, Qiangui Huang, and Ray Gao(参考訳) 自動運転では、知覚、予測、計画タスクのためのディープニューラルネットワークの使用が爆発的に増加した。 自動運転車(AV)の生産が近づくにつれ、さまざまなセンサープラットフォームを備えたマルチモーダルセンサー入力や異種車両群が業界でますます一般的になりつつある。 しかし、ニューラルネットワークアーキテクチャは通常、特定のセンサープラットフォームをターゲットにしており、入力の変化に対して堅牢ではないため、スケーリングやモデルデプロイメントの問題は特に困難である。 さらに、ほとんどのプレイヤーはソフトウェアとハードウェアを最適化する問題を全く独立した問題として扱う。 センサ入力と目標タスクの両方がモジュラーで変更可能な方法で設計された,新たなエンドツーエンドアーキテクチャであるGeneralized Sensor Fusion (GSF)を提案する。 これにより、avシステム設計者は、異なるセンサー構成や方法を簡単に試すことができ、大規模なエンジニアリング組織で共有される同じモデルを使用して異種艦隊にデプロイする機能を開くことができる。 本システムを用いて,高密度(HD)LiDARセンサと低密度(LD)LiDARと3Dオブジェクト検出タスクのカメラ設定との相似性を実証する実験結果について報告する。 これにより、業界はハードウェアとソフトウェアアーキテクチャを共同で設計し、異種構成の大型車両を設計する道を開いた。

In autonomous driving, there has been an explosion in the use of deep neural networks for perception, prediction and planning tasks. As autonomous vehicles (AVs) move closer to production, multi-modal sensor inputs and heterogeneous vehicle fleets with different sets of sensor platforms are becoming increasingly common in the industry. However, neural network architectures typically target specific sensor platforms and are not robust to changes in input, making the problem of scaling and model deployment particularly difficult. Furthermore, most players still treat the problem of optimizing software and hardware as entirely independent problems. We propose a new end to end architecture, Generalized Sensor Fusion (GSF), which is designed in such a way that both sensor inputs and target tasks are modular and modifiable. This enables AV system designers to easily experiment with different sensor configurations and methods and opens up the ability to deploy on heterogeneous fleets using the same models that are shared across a large engineering organization. Using this system, we report experimental results where we demonstrate near-parity of an expensive high-density (HD) LiDAR sensor with a cheap low-density (LD) LiDAR plus camera setup in the 3D object detection task. This paves the way for the industry to jointly design hardware and software architectures as well as large fleets with heterogeneous configurations.
翻訳日:2021-12-03 02:49:55 公開日:2021-12-01
# (参考訳) GANsトレーニングの収束性:ゲームと確率制御方法論

Convergence of GANs Training: A Game and Stochastic Control Methodology ( http://arxiv.org/abs/2112.00222v1 )

ライセンス: CC BY 4.0
Othmane Mounjid, Xin Guo(参考訳) generative adversarial networks(gans)のトレーニングは、収束が難しいことで知られている。 本稿ではまず,gansの目的関数における凸性の欠如,したがってgansモデルの適切性問題という,この収束問題の背後にある要因の1つを解析的に確認する。 そして,GAN訓練におけるハイパーパラメータチューニングのための確率的制御手法を提案する。 特に、目的関数の凸度に依存する適応学習率の最適解を示し、GAN訓練における学習率の不適切な選択と爆発の関係を正確に構築する。 最後に、実験的な研究により、この選択手法を取り入れたトレーニングアルゴリズムが標準手法より優れていることが示された。

Training of generative adversarial networks (GANs) is known for its difficulty to converge. This paper first confirms analytically one of the culprits behind this convergence issue: the lack of convexity in GANs objective functions, hence the well-posedness problem of GANs models. Then, it proposes a stochastic control approach for hyper-parameters tuning in GANs training. In particular, it presents an optimal solution for adaptive learning rate which depends on the convexity of the objective function, and builds a precise relation between improper choices of learning rate and explosion in GANs training. Finally, empirical studies demonstrate that training algorithms incorporating this selection methodology outperform standard ones.
翻訳日:2021-12-03 02:35:59 公開日:2021-12-01
# (参考訳) ハイパースペクトル画像分類のための奥行き過度畳み込みに基づく浅層ネットワーク

Shallow Network Based on Depthwise Over-Parameterized Convolution for Hyperspectral Image Classification ( http://arxiv.org/abs/2112.00250v1 )

ライセンス: CC BY 4.0
Hongmin Gao, Member, IEEE, Zhonghao Chen, Student Member, IEEE, and Chenming Li(参考訳) 近年,高スペクトル画像分類(HSIC)ツールとして,畳み込みニューラルネットワーク(CNN)技術が普及している。 限られたサンプル条件下でのhsicの特徴抽出効率を向上させるため, 従来の手法では, 層数が多い深層モデルが一般的である。 しかし, 深層ネットワークモデルでは, サンプルが限定された場合, 過度に適合し, 勾配が低下する傾向にある。 さらに,深部では空間分解能が著しく低下し,空間エッジ特徴抽出に非常に不利である。 そこで本稿では,深度過パラメータ畳み込みニューラルネットワーク(DOCNN)と呼ばれるHSICの浅層モデルを提案する。 浅層モデルの効率的な抽出を確保するため,深度過パラメータ化畳み込み(DO-Conv)カーネルを導入して識別特性を抽出する。 深さ方向の超パラメータ畳み込みカーネルは、標準畳み込みカーネルと深さ方向畳み込みカーネルで構成されており、異なるチャネルの空間的特徴を個別に抽出し、チャネル全体の空間的特徴を同時に融合することができる。 さらに、畳み込み動作による空間エッジ特性の損失を更に低減するために、ネットワーク全体の特徴抽出部に適用される高密度残差接続(drc)構造を提案する。 3つのベンチマークデータセットから得られた実験結果は,提案手法が分類精度と計算効率の点で他の最先端手法よりも優れていることを示している。

Recently, convolutional neural network (CNN) techniques have gained popularity as a tool for hyperspectral image classification (HSIC). To improve the feature extraction efficiency of HSIC under the condition of limited samples, the current methods generally use deep models with plenty of layers. However, deep network models are prone to overfitting and gradient vanishing problems when samples are limited. In addition, the spatial resolution decreases severely with deeper depth, which is very detrimental to spatial edge feature extraction. Therefore, this letter proposes a shallow model for HSIC, which is called depthwise over-parameterized convolutional neural network (DOCNN). To ensure the effective extraction of the shallow model, the depthwise over-parameterized convolution (DO-Conv) kernel is introduced to extract the discriminative features. The depthwise over-parameterized Convolution kernel is composed of a standard convolution kernel and a depthwise convolution kernel, which can extract the spatial feature of the different channels individually and fuse the spatial features of the whole channels simultaneously. Moreover, to further reduce the loss of spatial edge features due to the convolution operation, a dense residual connection (DRC) structure is proposed to apply to the feature extraction part of the whole network. Experimental results obtained from three benchmark data sets show that the proposed method outperforms other state-of-the-art methods in terms of classification accuracy and computational efficiency.
翻訳日:2021-12-03 02:18:13 公開日:2021-12-01
# (参考訳) BatchNormのトレーニングはニューラルネットワーク検索とそれ以上のもの

Training BatchNorm Only in Neural Architecture Search and Beyond ( http://arxiv.org/abs/2112.00265v1 )

ライセンス: CC BY 4.0
Yichen Zhu, Jie Du, Yuqin Zhu, Yi Wang, Zhicai Ou, Feifei Feng and Jian Tang(参考訳) 本研究では,ニューラルアーキテクチャサーチ(NAS)におけるバッチ正規化の利用について検討する。 特にFrankle氏らは、BatchNormのトレーニングは非自明なパフォーマンスしか達成できないと考えている。 さらにChenらは、BatchNormのトレーニングは1発のNASスーパーネットのトレーニングを10回以上スピードアップできると主張している。 批判的に 理解するための努力はありません 1) なぜBatchNormはスーパーネットトレーニング時間を短縮したパフォーマンスウェルアーキテクチャしか見つからないのか。 2) 列車BN専用スーパーネットと標準列車用スーパーネットの違いは何か。 まず、トレインBNのみのネットワークがニューラルネットワークカーネル体制に収束し、理論的に全てのパラメータをトレーニングするのと同じトレーニングダイナミクスを得ることを示す。 我々の証明は、トレーニング時間の少ないスーパーネットでのみBatchNormをトレーニングするという主張を支持します。 そして、列車BNのみのスーパーネットが他の演算子に対する畳み込みに有利であり、アーキテクチャ間の不公平な競合を引き起こすことを実証的に明らかにする。 これは、BatchNormにアタッチされている畳み込み演算子のみのためである。 実験により,このような不公平さにより,探索アルゴリズムが畳み込みのあるモデルを選択する傾向が示された。 この問題を解決するために,各演算子にBatchNorm層を配置することにより,探索空間の公平性を導入する。 しかし, chen等における性能予測は, 新たな検索領域では適用不可能である。 そこで本研究では,バッチノルムの理論的性質から,表現性,訓練性,不確実性という3つの視点からネットワークを評価する新しい複合性能指標を提案する。 本研究では,複数のNASベンチマーク(NAS-Bench101,NAS-Bench-201)と検索空間(DARTS検索空間とMobileNet検索空間)に対するアプローチの有効性を示す。

This work investigates the usage of batch normalization in neural architecture search (NAS). Specifically, Frankle et al. find that training BatchNorm only can achieve nontrivial performance. Furthermore, Chen et al. claim that training BatchNorm only can speed up the training of the one-shot NAS supernet over ten times. Critically, there is no effort to understand 1) why training BatchNorm only can find the perform-well architectures with the reduced supernet-training time, and 2) what is the difference between the train-BN-only supernet and the standard-train supernet. We begin by showing that the train-BN-only networks converge to the neural tangent kernel regime, obtain the same training dynamics as train all parameters theoretically. Our proof supports the claim to train BatchNorm only on supernet with less training time. Then, we empirically disclose that train-BN-only supernet provides an advantage on convolutions over other operators, cause unfair competition between architectures. This is due to only the convolution operator being attached with BatchNorm. Through experiments, we show that such unfairness makes the search algorithm prone to select models with convolutions. To solve this issue, we introduce fairness in the search space by placing a BatchNorm layer on every operator. However, we observe that the performance predictor in Chen et al. is inapplicable on the new search space. To this end, we propose a novel composite performance indicator to evaluate networks from three perspectives: expressivity, trainability, and uncertainty, derived from the theoretical property of BatchNorm. We demonstrate the effectiveness of our approach on multiple NAS-benchmarks (NAS-Bench101, NAS-Bench-201) and search spaces (DARTS search space and MobileNet search space).
翻訳日:2021-12-03 02:08:36 公開日:2021-12-01
# (参考訳) 合成設計: 合成制御による実験設計への最適化アプローチ

Synthetic Design: An Optimization Approach to Experimental Design with Synthetic Controls ( http://arxiv.org/abs/2112.00278v1 )

ライセンス: CC BY 4.0
Nick Doudchenko, Khashayar Khosravi, Jean Pouget-Abadie, Sebastien Lahaie, Miles Lubin, Vahab Mirrokni, Jann Spiess, Guido Imbens(参考訳) 本稿では,前処理結果データが得られる実験研究の最適設計について検討する。 平均処理効果は、処理単位の重み付き平均結果と制御単位との差として推定される。 この定式化によく用いられる手法には、差分推定法や様々な合成制御法などがある。 重みと合わせて処理単位の集合を選択する方法をいくつか提案する。 問題のnp難易度を観察し,処理と制御セットと単位重み付けの両方を選択する混合整数計画法を提案する。 これらのアプローチにより, 定性的に異なる実験単位が選択されることが証明された。 我々は、米国労働統計局の公開データに基づくシミュレーションを用いて、ランダム化試行のような単純で一般的な代替手段と比較して平均二乗誤差と統計力の改善を示す。

We investigate the optimal design of experimental studies that have pre-treatment outcome data available. The average treatment effect is estimated as the difference between the weighted average outcomes of the treated and control units. A number of commonly used approaches fit this formulation, including the difference-in-means estimator and a variety of synthetic-control techniques. We propose several methods for choosing the set of treated units in conjunction with the weights. Observing the NP-hardness of the problem, we introduce a mixed-integer programming formulation which selects both the treatment and control sets and unit weightings. We prove that these proposed approaches lead to qualitatively different experimental units being selected for treatment. We use simulations based on publicly available data from the US Bureau of Labor Statistics that show improvements in terms of mean squared error and statistical power when compared to simple and commonly used alternatives such as randomized trials.
翻訳日:2021-12-03 01:52:12 公開日:2021-12-01
# (参考訳) wiki to automotive: 分布シフトとその名前付きエンティティ認識への影響を理解する

Wiki to Automotive: Understanding the Distribution Shift and its impact on Named Entity Recognition ( http://arxiv.org/abs/2112.00283v1 )

ライセンス: CC BY 4.0
Anmol Nayak, Hari Prasad Timmapathini(参考訳) トランスファーラーニングは自然言語処理(NLP)タスクにまたがるユビキタスなテクニックとなっているが、Automotiveのようなニッチドメインのテキスト上で事前訓練されたモデルのパフォーマンスを再現することができないことが多い。 本稿では,自動車用ドメインテキスト(Cruise Controlなどの技術的機能を記述する)による分散シフトの主な特徴を理解し,性能差の潜在的な理由を説明することを目的とする。 我々は、モデルによる強力な語彙、構文、意味的理解を必要とするため、名前付きエンティティ認識(NER)タスクの実行に注力する。 BERT-Base-Uncased と SciBERT-Base-Scivocab-Uncased の2つの異なるエンコーダを用いた実験により,興味深い結果が得られた。 1)SciBERTの性能は自動車ドメインで使用する場合のBERTよりも優れている。 2) 言語モデルを自動車用ドメインテキストで微調整しても, NERの性能は向上しなかった。 3) 分布シフトは, 反復する文脈の欠如, 実体のばらつき, 語彙外(oov) 単語の多さ, ドメイン固有ニュアンスによるクラス重なりによって特徴付けられるため, 困難である。

While transfer learning has become a ubiquitous technique used across Natural Language Processing (NLP) tasks, it is often unable to replicate the performance of pre-trained models on text of niche domains like Automotive. In this paper we aim to understand the main characteristics of the distribution shift with automotive domain text (describing technical functionalities such as Cruise Control) and attempt to explain the potential reasons for the gap in performance. We focus on performing the Named Entity Recognition (NER) task as it requires strong lexical, syntactic and semantic understanding by the model. Our experiments with 2 different encoders, namely BERT-Base-Uncased and SciBERT-Base-Scivocab-Uncased have lead to interesting findings that showed: 1) The performance of SciBERT is better than BERT when used for automotive domain, 2) Fine-tuning the language models with automotive domain text did not make significant improvements to the NER performance, 3) The distribution shift is challenging as it is characterized by lack of repeating contexts, sparseness of entities, large number of Out-Of-Vocabulary (OOV) words and class overlap due to domain specific nuances.
翻訳日:2021-12-03 01:50:38 公開日:2021-12-01
# (参考訳) 古代ヌミスマティクスにおけるダイ分析のための教師なし統計学習

Unsupervised Statistical Learning for Die Analysis in Ancient Numismatics ( http://arxiv.org/abs/2112.00290v1 )

ライセンス: CC BY 4.0
Andreas Heinecke, Emanuel Mayer, Abhinav Natarajan, Yoonju Jung(参考訳) ダイ分析は重要な数値計算法であり、古代経済史の重要な道具である。 しかし、手作業によるダイスタディは、ローマ帝国のような大規模な硬貨を包括的に研究するには、あまりに労力を要する。 我々は,大規模ダイス研究に必要な時間投資を数年から数週間にわたって数桁削減できる非教師なし計算型解析モデルを提案することで,この問題に対処した。 コンピュータビジョンの観点からは、ダイスタディは不均衡サイズの未知で多くの類似したセマンティクスクラスを含むため、教師なしクラスタリングの問題に挑戦している。 ベイズ距離クラスタリングフレームワークにおいて、特に考案されたガウス過程に基づくキーポイント特徴から導かれるコイン面の相違を判定することで、これらの問題に対処する。 この方法の有効性は,64-66C.E.で打たれたローマ銀貨1135枚の分析によって実証された。

Die analysis is an essential numismatic method, and an important tool of ancient economic history. Yet, manual die studies are too labor-intensive to comprehensively study large coinages such as those of the Roman Empire. We address this problem by proposing a model for unsupervised computational die analysis, which can reduce the time investment necessary for large-scale die studies by several orders of magnitude, in many cases from years to weeks. From a computer vision viewpoint, die studies present a challenging unsupervised clustering problem, because they involve an unknown and large number of highly similar semantic classes of imbalanced sizes. We address these issues through determining dissimilarities between coin faces derived from specifically devised Gaussian process-based keypoint features in a Bayesian distance clustering framework. The efficacy of our method is demonstrated through an analysis of 1135 Roman silver coins struck between 64-66 C.E..
翻訳日:2021-12-03 01:42:33 公開日:2021-12-01
# (参考訳) 相互作用モデリングのための変分オートエンコーダにおける社会的後方崩壊の探索

Exploring Social Posterior Collapse in Variational Autoencoder for Interaction Modeling ( http://arxiv.org/abs/2112.00298v1 )

ライセンス: CC BY 4.0
Chen Tang, Wei Zhan, Masayoshi Tomizuka(参考訳) 対話型シナリオにおける自律エージェントの安全なナビゲーションには,マルチエージェント行動モデリングと軌道予測が不可欠である。 変分オートエンコーダ (VAE) は多エージェント相互作用モデリングにおいて多様な振る舞いを生成し、相互作用するシステムの低次元表現を学習するために広く応用されている。 しかし、既存の文献では、vaeベースのモデルがその潜在空間に適切に相互作用をエンコードできるかどうかを正式には議論していない。 本研究では,マルチエージェントモデリングにおけるVAEの典型的な定式化の1つとして,エージェントの将来の軌道を予測する際に,歴史的社会的文脈を無視しやすいという社会的後進崩壊という問題がある。 これは重大な予測誤差と一般化性能の低下を引き起こす可能性がある。 我々は,この未熟な現象の背後にある理由を分析し,それに取り組むためのいくつかの対策を提案する。 その後,提案フレームワークを実装し,マルチエージェント軌道予測のための実世界のデータセットを実験する。 特に,sparse graph attention message-passing (sparse-gamp)層を提案する。 実験では,社会的な後部崩壊が実際に起こることを検証した。 また,提案手法は課題の緩和に有効である。 その結果, 歴史的社会的文脈が予測に有益である場合の一般化性能が向上した。

Multi-agent behavior modeling and trajectory forecasting are crucial for the safe navigation of autonomous agents in interactive scenarios. Variational Autoencoder (VAE) has been widely applied in multi-agent interaction modeling to generate diverse behavior and learn a low-dimensional representation for interacting systems. However, existing literature did not formally discuss if a VAE-based model can properly encode interaction into its latent space. In this work, we argue that one of the typical formulations of VAEs in multi-agent modeling suffers from an issue we refer to as social posterior collapse, i.e., the model is prone to ignoring historical social context when predicting the future trajectory of an agent. It could cause significant prediction errors and poor generalization performance. We analyze the reason behind this under-explored phenomenon and propose several measures to tackle it. Afterward, we implement the proposed framework and experiment on real-world datasets for multi-agent trajectory prediction. In particular, we propose a novel sparse graph attention message-passing (sparse-GAMP) layer, which helps us detect social posterior collapse in our experiments. In the experiments, we verify that social posterior collapse indeed occurs. Also, the proposed measures are effective in alleviating the issue. As a result, the model attains better generalization performance when historical social context is informative for prediction.
翻訳日:2021-12-03 01:13:54 公開日:2021-12-01
# (参考訳) ビデオにおける時間的行動定位のためのグラフ畳み込みモジュール

Graph Convolutional Module for Temporal Action Localization in Videos ( http://arxiv.org/abs/2112.00302v1 )

ライセンス: CC0 1.0
Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan(参考訳) 時間的行動ローカライゼーションはコンピュータビジョンにおいて長年研究されてきた。 既存の最先端のアクションローカライゼーション手法は、各動画を複数のアクション単位(すなわち、2段階のメソッドと1段階のメソッドのセグメント)に分割し、学習中の関係を明示的に活用することなく、それぞれのアクション認識/回帰を実行する。 本稿では,アクション・ユニット間の関係がアクション・ローカライゼーションにおいて重要な役割を担い,より強力なアクション・ディテクターが各アクション・ユニットの局所的内容をキャプチャするだけでなく,関連するコンテキストに対する広い視野を許容するべきだと主張する。 この目的のために,2段階および1段階のパラダイムを含む既存のアクションローカライゼーション手法に容易にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。 具体的には、まず、各アクションユニットをノードとして表現し、2つのアクションユニット間の関係をエッジとして表現するグラフを構築する。 ここでは,異なる行動単位間の時間的接続を捉えるための関係と,その意味的関係を特徴付ける関係の2つの関係を用いる。 特に二段法における時間的接続について, 重なり合う動作ユニットと, 周囲を連結するが結合しない2つの異なるエッジについて検討する。 構築したグラフでは、さまざまなアクションユニット間の関係をモデル化するために、グラフ畳み込みネットワーク(gcns)を適用します。 実験の結果、GCMは2段階法(CBRやR-C3Dなど)や1段階法(D-SSADなど)を含む既存の動作ローカライゼーション法の性能を一貫して改善し、GCMの汎用性と有効性を検証した。

Temporal action localization has long been researched in computer vision. Existing state-of-the-art action localization methods divide each video into multiple action units (i.e., proposals in two-stage methods and segments in one-stage methods) and then perform action recognition/regression on each of them individually, without explicitly exploiting their relations during learning. In this paper, we claim that the relations between action units play an important role in action localization, and a more powerful action detector should not only capture the local content of each action unit but also allow a wider field of view on the context related to it. To this end, we propose a general graph convolutional module (GCM) that can be easily plugged into existing action localization methods, including two-stage and one-stage paradigms. To be specific, we first construct a graph, where each action unit is represented as a node and their relations between two action units as an edge. Here, we use two types of relations, one for capturing the temporal connections between different action units, and the other one for characterizing their semantic relationship. Particularly for the temporal connections in two-stage methods, we further explore two different kinds of edges, one connecting the overlapping action units and the other one connecting surrounding but disjointed units. Upon the graph we built, we then apply graph convolutional networks (GCNs) to model the relations among different action units, which is able to learn more informative representations to enhance action localization. Experimental results show that our GCM consistently improves the performance of existing action localization methods, including two-stage methods (e.g., CBR and R-C3D) and one-stage methods (e.g., D-SSAD), verifying the generality and effectiveness of our GCM.
翻訳日:2021-12-03 00:44:02 公開日:2021-12-01
# (参考訳) カーネル転送演算子を用いた生成モデルのフォワード演算子推定

Forward Operator Estimation in Generative Models with Kernel Transfer Operators ( http://arxiv.org/abs/2112.00305v1 )

ライセンス: CC BY 4.0
Zhichun Huang and Rudrasis Chakraborty and Vikas Singh(参考訳) 明示的な密度モデル(例えば変分オートエンコーダ、フローベースの生成モデル)を使用する生成モデルは、既知の分布、例えばガウス分布から未知の入力分布へのマッピングを見つけることを含む。 これはしばしば非線形関数のクラスを探索する必要がある(例えば、ディープニューラルネットワークで表現できる)。 実際には有効だが、関連するランタイム/メモリコストは、通常、アプリケーションで望まれるパフォーマンスの関数として、急速に増加する可能性がある。 我々は、カーネル転送演算子における既知の結果の適応に基づいて、このマッピングを推定するために、はるかに安価(かつより単純な)戦略を提案する。 我々の定式化は,高効率な分布近似とサンプリングを可能にし,強力なベースラインに比較して驚くほど優れた実験性能を提供するが,実行時の大幅な節約が期待できることを示す。 このアルゴリズムは、小さなサンプルサイズ設定(脳画像)でも良好に動作することを示す。

Generative models which use explicit density modeling (e.g., variational autoencoders, flow-based generative models) involve finding a mapping from a known distribution, e.g. Gaussian, to the unknown input distribution. This often requires searching over a class of non-linear functions (e.g., representable by a deep neural network). While effective in practice, the associated runtime/memory costs can increase rapidly, usually as a function of the performance desired in an application. We propose a much cheaper (and simpler) strategy to estimate this mapping based on adapting known results in kernel transfer operators. We show that our formulation enables highly efficient distribution approximation and sampling, and offers surprisingly good empirical performance that compares favorably with powerful baselines, but with significant runtime savings. We show that the algorithm also performs well in small sample size settings (in brain imaging).
翻訳日:2021-12-03 00:18:53 公開日:2021-12-01
# (参考訳) 人体再同定における非教師なし事前訓練の可能性

Unleashing the Potential of Unsupervised Pre-Training with Intra-Identity Regularization for Person Re-Identification ( http://arxiv.org/abs/2112.00317v1 )

ライセンス: CC BY 4.0
Zizheng Yang, Xin Jin, Kecheng Zheng, Feng Zhao(参考訳) 既存の人物再識別(ReID)メソッドは通常、初期化のためにトレーニング済みのImageNet重みを直接ロードする。 しかし、粒度の細かい分類タスクとして、ReIDはより困難であり、ImageNet分類の間に大きな領域ギャップが存在する。 本稿では,コントラスト学習(cl)パイプラインに基づくreidのための教師なし事前学習フレームワークであるup-reidを設計した。 事前学習中に,細粒度のreid特徴を学習するための2つの重要な課題に対処しようとする。(1)clパイプラインの強化は,人物画像の識別手がかりを歪めてしまう可能性がある。 2) 人物像のきめ細かい局所的特徴は完全には探索されていない。 そこで, UP-ReIDでは, 大域的な画像的側面と局所的なパッチ的側面から生じる2つの制約として, 自己同一性(I$^2$-)の規則化を導入する。 PersonX, Market1501, CUHK03, MSMT17などの一般的なRe-IDデータセットに対する大規模な実験により、私たちのUP-ReID事前訓練モデルは、下流のReID微調整に大きな恩恵をもたらし、最先端のパフォーマンスを達成することができることを示した。 コードとモデルはhttps://github.com/Frost-Yang-99/UP-ReIDにリリースされる。

Existing person re-identification (ReID) methods typically directly load the pre-trained ImageNet weights for initialization. However, as a fine-grained classification task, ReID is more challenging and exists a large domain gap between ImageNet classification. Inspired by the great success of self-supervised representation learning with contrastive objectives, in this paper, we design an Unsupervised Pre-training framework for ReID based on the contrastive learning (CL) pipeline, dubbed UP-ReID. During the pre-training, we attempt to address two critical issues for learning fine-grained ReID features: (1) the augmentations in CL pipeline may distort the discriminative clues in person images. (2) the fine-grained local features of person images are not fully-explored. Therefore, we introduce an intra-identity (I$^2$-)regularization in the UP-ReID, which is instantiated as two constraints coming from global image aspect and local patch aspect: a global consistency is enforced between augmented and original person images to increase robustness to augmentation, while an intrinsic contrastive constraint among local patches of each image is employed to fully explore the local discriminative clues. Extensive experiments on multiple popular Re-ID datasets, including PersonX, Market1501, CUHK03, and MSMT17, demonstrate that our UP-ReID pre-trained model can significantly benefit the downstream ReID fine-tuning and achieve state-of-the-art performance. Codes and models will be released to https://github.com/Frost-Yang-99/UP-ReID.
翻訳日:2021-12-02 23:48:44 公開日:2021-12-01
# (参考訳) 自己教師付き学習のためのオブジェクトアウェア・クロッピング

Object-Aware Cropping for Self-Supervised Learning ( http://arxiv.org/abs/2112.00319v1 )

ライセンス: CC0 1.0
Shlok Mishra, Anshul Shah, Ankan Bansal, Abhyuday Jagannatha, Abhishek Sharma, David Jacobs, Dilip Krishnan(参考訳) 近年の自己教師付き学習の成功の核となる要素は、自己教師付き学習におけるポジティブな視点として使用される画像のサブリージョンを選択するクロップデータ拡張である。 基礎となる前提は、与えられた画像のランダムに切り取られた領域が、学習された表現がキャプチャする対象に関する情報を共有することである。 この仮定は、主に大きな中心オブジェクトがあるimagenetのようなデータセットで満たされており、これはフルイメージのランダムな作物に存在する可能性が高い。 しかし、OpenImagesやCOCOなどの他のデータセットでは、実際の未処理データの表現がより多いため、画像内には通常、複数の小さなオブジェクトが存在する。 本研究では,通常のランダムトリミングに基づく自己教師型学習が,そのようなデータセット上では不十分であることを示す。 対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。 これにより、モデルはオブジェクトとシーンレベルのセマンティック表現の両方を学ぶことができる。 オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。 例えば、OpenImagesでは、MoCo-v2ベースの事前学習によるランダムなシーンレベルの作付けよりも8.8%mAPの改善を実現している。 また,COCOとPASCAL-VOCのオブジェクト検出とセグメンテーションタスクにおいて,最先端の自己教師型学習手法よりも大幅な改善が見られた。 私たちのアプローチは効率的でシンプルで汎用的で、既存のコントラストと非一貫性の学習フレームワークで使用できます。

A core component of the recent success of self-supervised learning is cropping data augmentation, which selects sub-regions of an image to be used as positive views in the self-supervised loss. The underlying assumption is that randomly cropped and resized regions of a given image share information about the objects of interest, which the learned representation will capture. This assumption is mostly satisfied in datasets such as ImageNet where there is a large, centered object, which is highly likely to be present in random crops of the full image. However, in other datasets such as OpenImages or COCO, which are more representative of real world uncurated data, there are typically multiple small objects in an image. In this work, we show that self-supervised learning based on the usual random cropping performs poorly on such datasets. We propose replacing one or both of the random crops with crops obtained from an object proposal algorithm. This encourages the model to learn both object and scene level semantic representations. Using this approach, which we call object-aware cropping, results in significant improvements over scene cropping on classification and object detection benchmarks. For example, on OpenImages, our approach achieves an improvement of 8.8% mAP over random scene-level cropping using MoCo-v2 based pre-training. We also show significant improvements on COCO and PASCAL-VOC object detection and segmentation tasks over the state-of-the-art self-supervised learning approaches. Our approach is efficient, simple and general, and can be used in most existing contrastive and non-contrastive self-supervised learning frameworks.
翻訳日:2021-12-02 23:26:28 公開日:2021-12-01
# (参考訳) CLIPstyler: 単一テキスト条件によるイメージスタイルの転送

CLIPstyler: Image Style Transfer with a Single Text Condition ( http://arxiv.org/abs/2112.00374v1 )

ライセンス: CC BY 4.0
Gihyun Kwon, Jong Chul Ye(参考訳) 既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。 しかし、多くの現実的な状況において、ユーザーは参照スタイルのイメージを持たず、単に想像するだけでスタイルを転送することに関心がある。 このようなアプリケーションに対処するために,スタイルイメージを「なし」で転送するが,所望のスタイルをテキストで記述できる新しいフレームワークを提案する。 クリップの事前学習されたテキスト画像埋め込みモデルを用いて,単一のテキスト条件でのみコンテンツ画像のスタイルを変調できることを実証する。 具体的には、現実的なテクスチャ転送のためのマルチビュー拡張によるパッチワイズテキスト画像の損失を提案する。 大規模な実験結果から,セマンティッククエリテキストを反映した現実的なテクスチャを用いた画像スタイルの転送に成功した。

Existing neural style transfer methods require reference style images to transfer texture information of style images to content images. However, in many practical situations, users may not have reference style images but still be interested in transferring styles by just imagining them. In order to deal with such applications, we propose a new framework that enables a style transfer `without' a style image, but only with a text description of the desired style. Using the pre-trained text-image embedding model of CLIP, we demonstrate the modulation of the style of content images only with a single text condition. Specifically, we propose a patch-wise text-image matching loss with multiview augmentations for realistic texture transfer. Extensive experimental results confirmed the successful image style transfer with realistic textures that reflect semantic query texts.
翻訳日:2021-12-02 23:01:35 公開日:2021-12-01
# (参考訳) SegDiff:拡散確率モデルによる画像分割

SegDiff: Image Segmentation with Diffusion Probabilistic Models ( http://arxiv.org/abs/2112.00390v1 )

ライセンス: CC BY 4.0
Tomer Amit, Eliya Nachmani, Tal Shaharbany, Lior Wolf(参考訳) 拡散確率法は最先端の画像生成に使用される。 本研究では,画像分割を行うためのモデルを拡張する手法を提案する。 このメソッドは、事前トレーニングされたバックボーンに頼ることなく、エンドツーエンドで学習する。 2つのエンコーダの出力を合計することにより、入力画像中の情報と分割マップの現在の推定とをマージする。 付加的な符号化層とデコーダを使用して拡散モデルを用いて分割写像を反復的に洗練する。 拡散モデルは確率的であるため、複数回適用され、結果が最終的なセグメンテーションマップにマージされる。 新しい手法は、Cityscapes検証セット、Vayhingenビルディングセグメンテーションベンチマーク、MoNuSegデータセットの最先端結果を取得する。

Diffusion Probabilistic Methods are employed for state-of-the-art image generation. In this work, we present a method for extending such models for performing image segmentation. The method learns end-to-end, without relying on a pre-trained backbone. The information in the input image and in the current estimation of the segmentation map is merged by summing the output of two encoders. Additional encoding layers and a decoder are then used to iteratively refine the segmentation map using a diffusion model. Since the diffusion model is probabilistic, it is applied multiple times and the results are merged into a final segmentation map. The new method obtains state-of-the-art results on the Cityscapes validation set, the Vaihingen building segmentation benchmark, and the MoNuSeg dataset.
翻訳日:2021-12-02 22:48:18 公開日:2021-12-01
# (参考訳) レイヤーワイズ規則化による不均一データにおけるフェデレーション学習の改善

Compare Where It Matters: Using Layer-Wise Regularization To Improve Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2112.00407v1 )

ライセンス: CC BY 4.0
Ha Min Son, Moon Hyun Kim, Tai-Myoung Chung(参考訳) フェデレートラーニング(Federated Learning)は、分散データ上でニューラルネットワークをトレーニングする方法として広く採用されている。 主な制限は、データが均一に分散されたときに発生するパフォーマンス劣化である。 多くの研究がこの問題に対処しようとしているが、これらの手法はニューラルネットワークの限られた理解に基づいて構築されているため、性能が低い。 本研究では,ニューラルネットワークの特定の重要なレイヤのみが,効果的なトレーニングのために正規化を必要とすることを検証する。 さらに、CKA(Centered Kernel Alignment)は、異なるデータでトレーニングされたニューラルネットワークの層間の類似性を最も正確に計算する。 トレーニング中に重要なレイヤにCKAベースの正規化を適用することで、異種設定におけるパフォーマンスを大幅に改善する。 fedcka: さまざまなディープラーニングタスクにおいて,従来の最先端手法よりも優れると同時に,効率とスケーラビリティも向上した,シンプルなフレームワークです。

Federated Learning is a widely adopted method to train neural networks over distributed data. One main limitation is the performance degradation that occurs when data is heterogeneously distributed. While many works have attempted to address this problem, these methods under-perform because they are founded on a limited understanding of neural networks. In this work, we verify that only certain important layers in a neural network require regularization for effective training. We additionally verify that Centered Kernel Alignment (CKA) most accurately calculates similarity between layers of neural networks trained on different data. By applying CKA-based regularization to important layers during training, we significantly improve performance in heterogeneous settings. We present FedCKA: a simple framework that out-performs previous state-of-the-art methods on various deep learning tasks while also improving efficiency and scalability.
翻訳日:2021-12-02 22:35:10 公開日:2021-12-01
# (参考訳) 強化学習に基づくライドシェアリングシステムにおけるマルチエージェントトランスファー学習

Multi-Agent Transfer Learning in Reinforcement Learning-Based Ride-Sharing Systems ( http://arxiv.org/abs/2112.00424v1 )

ライセンス: CC BY 4.0
Alberto Castagna and Ivana Dusparic(参考訳) 強化学習(rl)は、センサー調整、信号制御、オンデマンドモビリティサービスなど、現実世界のタスクをシミュレートするために使用されてきた。 しかし、RLは実際の環境の動的な性質に苦しむため、タスクを学習し、環境の変化に適応する時間を必要とするため、現実世界のデプロイメントはまれである。 トランスファーラーニング(TL)は、これらの適応時間の短縮に役立つ。 特に、マルチエージェントRLシステムにTLを適用する大きな可能性があり、複数のエージェントが相互に知識を共有し、システムに参加する新しいエージェントと共有することができる。 エージェント間転送、転送ロール(すなわち、どのエージェントがソースとして、どのエージェントがターゲットとして振る舞うかを決定する)、および関連する転送内容パラメータ(例えば、転送サイズ)を、それぞれの状況において動的に選択する。 本稿では,完全な動的転送への第一歩として,固定ソースとターゲットロールによるTL転送パラメータの影響について検討する。 具体的には, エージェント-環境相互作用とエージェントの認識信頼度をラベル付けし, 種々の閾値レベルとサンプルサイズを用いて共有例をフィルタリングする。 これらのパラメータが与える影響を,標準的なプレデター・プリー・rlベンチマークと,200台の車両エージェントと10,000台の乗車要求を備えたライドシェアリングシステムのシミュレーションの2つのシナリオで検討した。

Reinforcement learning (RL) has been used in a range of simulated real-world tasks, e.g., sensor coordination, traffic light control, and on-demand mobility services. However, real world deployments are rare, as RL struggles with dynamic nature of real world environments, requiring time for learning a task and adapting to changes in the environment. Transfer Learning (TL) can help lower these adaptation times. In particular, there is a significant potential of applying TL in multi-agent RL systems, where multiple agents can share knowledge with each other, as well as with new agents that join the system. To obtain the most from inter-agent transfer, transfer roles (i.e., determining which agents act as sources and which as targets), as well as relevant transfer content parameters (e.g., transfer size) should be selected dynamically in each particular situation. As a first step towards fully dynamic transfers, in this paper we investigate the impact of TL transfer parameters with fixed source and target roles. Specifically, we label every agent-environment interaction with agent's epistemic confidence, and we filter the shared examples using varying threshold levels and sample sizes. We investigate impact of these parameters in two scenarios, a standard predator-prey RL benchmark and a simulation of a ride-sharing system with 200 vehicle agents and 10,000 ride-requests.
翻訳日:2021-12-02 22:24:23 公開日:2021-12-01
# (参考訳) イベントベースslamのイベント蓄積器設定に関する研究

Research on Event Accumulator Settings for Event-Based SLAM ( http://arxiv.org/abs/2112.00427v1 )

ライセンス: CC0 1.0
Kun Xiao, Guohui Wang, Yi Chen, Yongfeng Xie, Hong Li(参考訳) イベントカメラは、従来のカメラとは異なる新しいタイプのセンサーである。 各ピクセルはイベントによって非同期に起動される。 トリガーイベントは、画素に照射された輝度の変化である。 輝度のインクリメントまたはデクリメントが一定の閾値よりも高い場合は、イベントが出力される。 従来のカメラと比較して、イベントカメラは高いダイナミックレンジの利点があり、動きのぼやけがない。 フレームへのイベントの蓄積と従来のSLAMアルゴリズムの使用は、イベントベースのSLAMの直接的で効率的な方法である。 イベントストリームのスライス法、ノンモーションの処理法、極性の有無、減衰関数とイベント貢献など、異なるイベントアキュムレータの設定は、全く異なるアキュムレーション結果を引き起こす可能性がある。 より優れたイベントベースのSLAMパフォーマンスを実現するために、イベントフレームの蓄積方法の研究を行った。 実験検証では,蓄積したイベントフレームを従来のSLAMシステムに供給し,イベントベースのSLAMシステムを構築する。 イベント蓄積器の設定戦略は,公開データセット上で評価されている。 実験の結果,提案手法は,最先端のイベントフレームベースのSLAMアルゴリズムと比較して,ほとんどのシーケンスで性能が向上することが示された。 さらに、提案手法は、実際のシナリオにおけるアプリケーションの可能性を示すために、クォーターUAVでテストされている。 コードと結果がオープンソース化され、イベントカメラの研究コミュニティに利益をもたらす

Event cameras are a new type of sensors that are different from traditional cameras. Each pixel is triggered asynchronously by event. The trigger event is the change of the brightness irradiated on the pixel. If the increment or decrement of brightness is higher than a certain threshold, an event is output. Compared with traditional cameras, event cameras have the advantages of high dynamic range and no motion blur. Accumulating events to frames and using traditional SLAM algorithm is a direct and efficient way for event-based SLAM. Different event accumulator settings, such as slice method of event stream, processing method for no motion, using polarity or not, decay function and event contribution, can cause quite different accumulating results. We conducted the research on how to accumulate event frames to achieve a better event-based SLAM performance. For experiment verification, accumulated event frames are fed to the traditional SLAM system to construct an event-based SLAM system. Our strategy of setting event accumulator has been evaluated on the public dataset. The experiment results show that our method can achieve better performance in most sequences compared with the state-of-the-art event frame based SLAM algorithm. In addition, the proposed approach has been tested on a quadrotor UAV to show the potential of applications in real scenario. Code and results are open sourced to benefit the research community of event cameras
翻訳日:2021-12-02 22:09:52 公開日:2021-12-01
# (参考訳) MAD:映画オーディオの解説ビデオにおける言語接地のためのスケーラブルなデータセット

MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions ( http://arxiv.org/abs/2112.00431v1 )

ライセンス: CC BY 4.0
Mattia Soldan, Alejandro Pardo, Juan Le\'on Alc\'azar, Fabian Caba Heilbron, Chen Zhao, Silvio Giancola, Bernard Ghanem(参考訳) 近年、ビデオ言語研究への関心が高まり、データ集約型機械学習技術を実現する大規模なデータセットの開発が進められている。 対照的に、ビデオ言語接地作業におけるこれらのデータセットの適合性を評価するための努力は限られている。 最近の研究は、これらのデータセットの重大な制限を発見し始めており、最新技術は一般的に隠れたデータセットバイアスに過度に適合していることを示唆している。 そこで本研究では,既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた新しいベンチマークであるMAD(Movie Audio Descriptions)を紹介する。 MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。 MADの収集戦略は、短い時間モーメント(典型的には数秒)を、最大3時間までの様々な長大なビデオで正確にグラウンド化しなければならない、新しい、より困難なビデオ言語グラウンド化を可能にする。

The recent and increasing interest in video-language research has driven the development of large-scale datasets that enable data-intensive machine learning techniques. In comparison, limited effort has been made at assessing the fitness of these datasets for the video-language grounding task. Recent works have begun to discover significant limitations in these datasets, suggesting that state-of-the-art techniques commonly overfit to hidden dataset biases. In this work, we present MAD (Movie Audio Descriptions), a novel benchmark that departs from the paradigm of augmenting existing video datasets with text annotations and focuses on crawling and aligning available audio descriptions of mainstream movies. MAD contains over 384,000 natural language sentences grounded in over 1,200 hours of video and exhibits a significant reduction in the currently diagnosed biases for video-language grounding datasets. MAD's collection strategy enables a novel and more challenging version of video-language grounding, where short temporal moments (typically seconds long) must be accurately grounded in diverse long-form videos that can last up to three hours.
翻訳日:2021-12-02 22:01:04 公開日:2021-12-01
# (参考訳) Mixed-Integer Programming を用いた実験的ロバストかつ解釈可能な2値回帰モデルの訓練

Training Experimentally Robust and Interpretable Binarized Regression Models Using Mixed-Integer Programming ( http://arxiv.org/abs/2112.00434v1 )

ライセンス: CC BY 4.0
Sanjana Tule, Nhi Ha Lan Le, Buser Say(参考訳) 本稿では,Mixed-Integer Programming (MIP) を用いたマルチクラス分類タスクに対して,頑健かつ解釈可能な二項化回帰モデルをトレーニングするためのモデルベースアプローチについて検討する。 MIPモデルは,誤った分類されたトレーニングインスタンスの総マージンを最小化し,正しく分類されたトレーニングインスタンスの総マージンを最大化し,モデル全体の正規化を最大化する重み付き目的を用いて,予測マージンとモデルサイズを最適化する。 複数の分類データセットの標準および破損したバージョンに対して,mipモデルの分類精度をテストする実験を2セット実施した。 最初の実験では,mipモデルが等価なpseudo-boolean optimization (pbo)モデルよりも優れており,標準データセットに対する分類精度の観点からロジスティック回帰 (lr) と勾配降下 (gd) との競合結果が得られることを示した。 第2の実験では,mipモデルが,破損したデータセットの大部分よりも分類精度において,他のモデル(gdおよびlr)よりも優れていることを示す。 最後に、MNISTデータセット上の学習パラメータの観点から、MIPモデルの解釈可能性を視覚的に示す。 MIPを用いた頑健かつ解釈可能な二項化回帰モデルのトレーニングの有効性を示す。

In this paper, we explore model-based approach to training robust and interpretable binarized regression models for multiclass classification tasks using Mixed-Integer Programming (MIP). Our MIP model balances the optimization of prediction margin and model size by using a weighted objective that: minimizes the total margin of incorrectly classified training instances, maximizes the total margin of correctly classified training instances, and maximizes the overall model regularization. We conduct two sets of experiments to test the classification accuracy of our MIP model over standard and corrupted versions of multiple classification datasets, respectively. In the first set of experiments, we show that our MIP model outperforms an equivalent Pseudo-Boolean Optimization (PBO) model and achieves competitive results to Logistic Regression (LR) and Gradient Descent (GD) in terms of classification accuracy over the standard datasets. In the second set of experiments, we show that our MIP model outperforms the other models (i.e., GD and LR) in terms of classification accuracy over majority of the corrupted datasets. Finally, we visually demonstrate the interpretability of our MIP model in terms of its learned parameters over the MNIST dataset. Overall, we show the effectiveness of training robust and interpretable binarized regression models using MIP.
翻訳日:2021-12-02 21:45:27 公開日:2021-12-01
# (参考訳) オンデバイス空間注意に基づくシーンテキストスクリプト識別のためのシーケンス学習手法

On-Device Spatial Attention based Sequence Learning Approach for Scene Text Script Identification ( http://arxiv.org/abs/2112.00448v1 )

ライセンス: CC BY 4.0
Rutika Moharir, Arun D Prabhu, Sukumar Moharana, Gopi Ramena, and Rachit S Munjal(参考訳) スクリプトの自動識別は多言語OCRエンジンの重要なコンポーネントである。 本稿では,シーンテキストの文字識別のための効率的,軽量,リアルタイム,オンデバイス空間注意型cnn-lstmネットワークを提案する。 我々のネットワークはCNNで構成されており、自然画像における空間歪みを低減するための空間アテンションモジュールを備えている。 これにより、特徴抽出器は変形を無視しつつリッチな画像表現を生成でき、これにより、このきめ細かい分類タスクの性能を高めることができる。 ネットワークはまた、残余の畳み込みブロックを使用して、スクリプトの識別機能にフォーカスするディープネットワークを構築する。 CNNは、特定のスクリプトに属する各文字を識別してテキスト特徴表現を学習し、LSTM層のシーケンス学習機能を用いて、テキスト内の長期空間依存をキャプチャする。 空間的注意機構と残差畳み込みブロックを組み合わせることで、ベースラインCNNの性能を高め、スクリプト識別のためのエンドツーエンドのトレーニング可能なネットワークを構築することができる。 いくつかの標準ベンチマーク実験の結果,提案手法の有効性が示された。 ネットワークは最先端の手法と競合する精度を達成し、ネットワークサイズは1100万のパラメータと2.7ミリ秒の推論時間で優れている。

Automatic identification of script is an essential component of a multilingual OCR engine. In this paper, we present an efficient, lightweight, real-time and on-device spatial attention based CNN-LSTM network for scene text script identification, feasible for deployment on resource constrained mobile devices. Our network consists of a CNN, equipped with a spatial attention module which helps reduce the spatial distortions present in natural images. This allows the feature extractor to generate rich image representations while ignoring the deformities and thereby, enhancing the performance of this fine grained classification task. The network also employs residue convolutional blocks to build a deep network to focus on the discriminative features of a script. The CNN learns the text feature representation by identifying each character as belonging to a particular script and the long term spatial dependencies within the text are captured using the sequence learning capabilities of the LSTM layers. Combining the spatial attention mechanism with the residue convolutional blocks, we are able to enhance the performance of the baseline CNN to build an end-to-end trainable network for script identification. The experimental results on several standard benchmarks demonstrate the effectiveness of our method. The network achieves competitive accuracy with state-of-the-art methods and is superior in terms of network size, with a total of just 1.1 million parameters and inference time of 2.7 milliseconds.
翻訳日:2021-12-02 21:30:43 公開日:2021-12-01
# (参考訳) Normが継続する: 正規化による動的非教師付きドメイン適応

The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization ( http://arxiv.org/abs/2112.00463v1 )

ライセンス: CC BY 4.0
M. Jehanzeb Mirza, Jakub Micorek, Horst Possegger, Horst Bischof(参考訳) ドメイン適応は、ドメインシフトやデータ分散の変更といった新しいシナリオに学習モデルを適用するために不可欠です。 現在のアプローチは通常、シフトしたドメインから大量のラベル付きまたはラベルなしのデータを必要とする。 これは、継続的な動的適応を必要とする分野や、挑戦的な気象条件下での自律運転のようなデータの不足に悩む分野においてハードルとなる。 分散シフトへの継続的適応というこの問題に対処するため,動的非教師付き適応(DUA)を提案する。 バッチ正規化層の統計を連続的に適応させることにより,モデルの特徴表現を改良する。 シフトした領域から少数の未ラベルデータのみにアクセスし、順次適応することにより、高い性能向上が達成できることを示す。 ターゲットドメインからのラベルなしデータの1%以下で、DUAはすでに強力なベースラインに競合する結果を達成している。 加えて、計算オーバーヘッドは従来の手法と比べ最小限である。 私たちのアプローチは単純だが効果的であり、バッチ正規化をコンポーネントの1つとして使用するアーキテクチャにも適用できます。 本稿では,様々な領域適応データセットとオブジェクト認識,数値認識,オブジェクト検出などのタスクを用いて,DUAの有効性を評価する。

Domain adaptation is crucial to adapt a learned model to new scenarios, such as domain shifts or changing data distributions. Current approaches usually require a large amount of labeled or unlabeled data from the shifted domain. This can be a hurdle in fields which require continuous dynamic adaptation or suffer from scarcity of data, e.g. autonomous driving in challenging weather conditions. To address this problem of continuous adaptation to distribution shifts, we propose Dynamic Unsupervised Adaptation (DUA). We modify the feature representations of the model by continuously adapting the statistics of the batch normalization layers. We show that by accessing only a tiny fraction of unlabeled data from the shifted domain and adapting sequentially, a strong performance gain can be achieved. With even less than 1% of unlabeled data from the target domain, DUA already achieves competitive results to strong baselines. In addition, the computational overhead is minimal in contrast to previous approaches. Our approach is simple, yet effective and can be applied to any architecture which uses batch normalization as one of its components. We show the utility of DUA by evaluating it on a variety of domain adaptation datasets and tasks including object recognition, digit recognition and object detection.
翻訳日:2021-12-02 21:03:57 公開日:2021-12-01
# (参考訳) 画像品質評価のための学習用トランスフォーマー

Learning Transformer Features for Image Quality Assessment ( http://arxiv.org/abs/2112.00485v1 )

ライセンス: CC BY 4.0
Chao Zeng and Sam Kwong(参考訳) 目的画像の品質評価は,画像の品質を自動的に測定することを目的とした課題である。 参照画像の可用性に応じて、Full-ReferenceとNo-Reference IQAタスクがある。 ほとんどのディープラーニングアプローチでは、畳み込みニューラルネットワークによって抽出された深い特徴からの回帰を用いる。 FRタスクの別の選択肢は、深い特徴に関する統計的比較を行うことである。 これらの手法では、非局所情報は無視されることが多い。 さらに、FRタスクとNRタスクの関係は明らかになっていない。 近年のコンテクスト情報モデリングにおけるトランスフォーマーの成功により,CNNバックボーンとトランスフォーマーエンコーダを利用した統合IQAフレームワークが提案されている。 提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。 LIVE,CSIQ,TID2013,KONIQ-10Kの3つの標準IQAデータセットの評価実験により,提案モデルが最先端FR性能を実現することを示す。 さらに,広範囲な実験で比較したNR性能を達成し,共同学習手法によりNR性能を活用できることが示唆された。

Objective image quality evaluation is a challenging task, which aims to measure the quality of a given image automatically. According to the availability of the reference images, there are Full-Reference and No-Reference IQA tasks, respectively. Most deep learning approaches use regression from deep features extracted by Convolutional Neural Networks. For the FR task, another option is conducting a statistical comparison on deep features. For all these methods, non-local information is usually neglected. In addition, the relationship between FR and NR tasks is less explored. Motivated by the recent success of transformers in modeling contextual information, we propose a unified IQA framework that utilizes CNN backbone and transformer encoder to extract features. The proposed framework is compatible with both FR and NR modes and allows for a joint training scheme. Evaluation experiments on three standard IQA datasets, i.e., LIVE, CSIQ and TID2013, and KONIQ-10K, show that our proposed model can achieve state-of-the-art FR performance. In addition, comparable NR performance is achieved in extensive experiments, and the results show that the NR performance can be leveraged by the joint training scheme.
翻訳日:2021-12-02 20:45:47 公開日:2021-12-01
# (参考訳) 弱視による物体間相互作用検出

Human-Object Interaction Detection via Weak Supervision ( http://arxiv.org/abs/2112.00492v1 )

ライセンス: CC BY 4.0
Mert Kilickaya and Arnold Smeulders(参考訳) 本研究の目的は,Human-Object Interaction (HO-I) 検出である。 HO-I検出は、相互作用する対象領域を見つけ、その相互作用を画像から分類することを目的としている。 近年の研究者は,[5]から強いHO-Iアライメントの監督を頼りに,大幅な改善を遂げている。 HO-Iのアライメントは、人間と対話したオブジェクトをペアにし、人間とオブジェクトのペアを相互作用カテゴリにアライメントする。 このようなアノテーションの収集は費用がかかるため,本稿ではアライメントの監督なしにho-iの検出を提案する。 代わりに、画像内の既存のインタラクションを列挙するだけであるイメージレベルの監視に頼っています。 論文には3つの貢献があります i)画像レベルの監視のみでHO-Iを検出できる視覚変換器ベースのCNNであるAlign-Formerを提案する。 二 アラインフォーマーは、HO-Iアライメント層を備えており、検出器の監視を可能にする適切な目標を選択することを学べる。 三 HICO-DET[5]およびV-COCO[13]上のAlign-Formerの評価を行い、既存の画像レベルのHO-I検出器を大きなマージン(HICO-DET[5]で16.14%から20.85%に改善した4.71%)で上回ったことを示す。

The goal of this paper is Human-object Interaction (HO-I) detection. HO-I detection aims to find interacting human-objects regions and classify their interaction from an image. Researchers obtain significant improvement in recent years by relying on strong HO-I alignment supervision from [5]. HO-I alignment supervision pairs humans with their interacted objects, and then aligns human-object pair(s) with their interaction categories. Since collecting such annotation is expensive, in this paper, we propose to detect HO-I without alignment supervision. We instead rely on image-level supervision that only enumerates existing interactions within the image without pointing where they happen. Our paper makes three contributions: i) We propose Align-Former, a visual-transformer based CNN that can detect HO-I with only image-level supervision. ii) Align-Former is equipped with HO-I align layer, that can learn to select appropriate targets to allow detector supervision. iii) We evaluate Align-Former on HICO-DET [5] and V-COCO [13], and show that Align-Former outperforms existing image-level supervised HO-I detectors by a large margin (4.71% mAP improvement from 16.14% to 20.85% on HICO-DET [5]).
翻訳日:2021-12-02 20:30:35 公開日:2021-12-01
# (参考訳) グラフニューラルネットワークのための構造認識ラベル平滑化

Structure-Aware Label Smoothing for Graph Neural Networks ( http://arxiv.org/abs/2112.00499v1 )

ライセンス: CC BY 4.0
Yiwei Wang, Yujun Cai, Yuxuan Liang, Wei Wang, Henghui Ding, Muhao Chen, Jing Tang, Bryan Hooi(参考訳) ラベル分布を1ホットベクトルとして表現することは、ノード分類モデルのトレーニングにおいて一般的な方法である。 しかし、一つのホットな表現は異なるクラス内のノードの意味的特性を十分に反映していないかもしれない。 モデルがすべてのノードを分類する際に完全な確率を割り当てることを奨励されるため、過信を引き起こす。 ラベルの平滑化によるトレーニングモデルはこの問題をある程度緩和することができるが、グラフ構造によってもたらされるノードのセマンティックな特徴を捉えられない。 本研究では,一般的なノード分類モデルに対する拡張成分として,新しいSALS(\textit{Structure-Aware Label Smoothing})法を提案する。 SALSはグラフ構造を利用して接続ノード間の意味的相関を捕捉し、構造対応ラベル分布を生成して元の1ホットラベルベクトルを置き換えることにより、推論コストなしでノード分類性能を向上させる。 7つのノード分類ベンチマークデータセットの大規模な実験により、帰納的ノード分類と帰納的ノード分類の改善におけるSALSの有効性が明らかとなった。 実験の結果,SALSはラベル平滑化法よりも優れており,ノード分類モデルがベースライン法より優れていることが示された。

Representing a label distribution as a one-hot vector is a common practice in training node classification models. However, the one-hot representation may not adequately reflect the semantic characteristics of a node in different classes, as some nodes may be semantically close to their neighbors in other classes. It would cause over-confidence since the models are encouraged to assign full probabilities when classifying every node. While training models with label smoothing can ease this problem to some degree, it still fails to capture the nodes' semantic characteristics implied by the graph structures. In this work, we propose a novel SALS (\textit{Structure-Aware Label Smoothing}) method as an enhancement component to popular node classification models. SALS leverages the graph structures to capture the semantic correlations between the connected nodes and generate the structure-aware label distribution to replace the original one-hot label vectors, thus improving the node classification performance without inference costs. Extensive experiments on seven node classification benchmark datasets reveal the effectiveness of our SALS on improving both transductive and inductive node classification. Empirical results show that SALS is superior to the label smoothing method and enhances the node classification models to outperform the baseline methods.
翻訳日:2021-12-02 20:18:20 公開日:2021-12-01
# (参考訳) 自然画像マッチングのためのトリマップ誘導機能マイニングと融合ネットワーク

Trimap-guided Feature Mining and Fusion Network for Natural Image Matting ( http://arxiv.org/abs/2112.00510v1 )

ライセンス: CC BY 4.0
Weihao Jiang, Dongdong Yu, Zhaozhi Xie, Yaoyi Li, Zehuan Yuan, Hongtao Lu(参考訳) 画素レベルの予測を伴うトリマップベースのマッティングにおいて,トリマップガイダンスの利用とマルチレベル特徴の融合が重要な問題である。 トリマップガイダンスを利用するために、既存のほとんどのアプローチは、単にトリマップとイメージを結合してディープネットワークをフィードしたり、さらにトリマップガイダンスを抽出するために余分なネットワークを適用し、効率と有効性の矛盾を満たす。 新たなコンテンツベースの機能融合では、ほとんどの既存のマッティングメソッドは、興味のあるオブジェクトに関連する強力な意味情報を持つグローバル機能のガイダンスが欠けているローカル機能のみに焦点を当てる。 本稿では,TMP(Trimap-guided non-background multi-scale pooling)モジュールとGLF(Global-local context-aware fusion)モジュールからなる,トリマップ誘導型機能マイニング・フュージョンネットワークを提案する。 トリマップが強力なセマンティックガイダンスを提供することを考慮し、我々のTMPモジュールは、余分なパラメータなしでトリマップのガイダンスの下で興味深いオブジェクトを効果的に特徴マイニングする。 さらに,我々のglfモジュールは,tmpモジュールによってマイニングされた興味深いオブジェクトのグローバルセマンティクス情報を用いて,効果的なグローバルローカルコンテキストアウェアマルチレベル機能融合を導出する。 さらに、高品質なイメージマット化を進めるために、共通の興味深いオブジェクトマットング(ciom)データセットを構築します。 composition-1kテストセット、Alphamattingベンチマーク、CIOMテストセットの実験結果は、我々のメソッドが最先端のアプローチよりも優れていることを示している。 コードとモデルは近々公開される予定だ。

Utilizing trimap guidance and fusing multi-level features are two important issues for trimap-based matting with pixel-level prediction. To utilize trimap guidance, most existing approaches simply concatenate trimaps and images together to feed a deep network or apply an extra network to extract more trimap guidance, which meets the conflict between efficiency and effectiveness. For emerging content-based feature fusion, most existing matting methods only focus on local features which lack the guidance of a global feature with strong semantic information related to the interesting object. In this paper, we propose a trimap-guided feature mining and fusion network consisting of our trimap-guided non-background multi-scale pooling (TMP) module and global-local context-aware fusion (GLF) modules. Considering that trimap provides strong semantic guidance, our TMP module focuses effective feature mining on interesting objects under the guidance of trimap without extra parameters. Furthermore, our GLF modules use global semantic information of interesting objects mined by our TMP module to guide an effective global-local context-aware multi-level feature fusion. In addition, we build a common interesting object matting (CIOM) dataset to advance high-quality image matting. Experimental results on the Composition-1k test set, Alphamatting benchmark, and our CIOM test set demonstrate that our method outperforms state-of-the-art approaches. Code and models will be publicly available soon.
翻訳日:2021-12-02 20:02:28 公開日:2021-12-01
# (参考訳) アラビア語感情分析のための浅層・深層学習分類器の実証評価

Empirical evaluation of shallow and deep learning classifiers for Arabic sentiment analysis ( http://arxiv.org/abs/2112.00534v1 )

ライセンス: CC BY 4.0
Ali Bou Nassif, Abdollah Masoud Darya, Ashraf Elnagar(参考訳) 本稿では,畳み込みニューラルネットワーク (cnn) ,long short-term memory (lstm), gated recurrent units (gru), their hybrids, and a selection of shallow learning classifiers for sentiment analysis of arabic reviewsなどのディープラーニングモデルの性能比較を行った。 さらに、この比較には、トランスフォーマーアーキテクチャやaraBERT事前訓練モデルのような最先端モデルが含まれている。 この研究で使用されたデータセットは、アラビア語のレビュー用に公開されている最大のデータセットの1つであるマルチダイアレクトアラビア語ホテルとブックレビューデータセットである。 その結果,二段分類と多段分類では深層学習が浅層学習よりも優れており,文献に類似した研究の結果とは対照的であった。 この結果の不一致はデータセットのサイズによるもので、ディープラーニングモデルのパフォーマンスに比例していることが分かりました。 深層学習法と浅層学習法の性能を, 精度とf1得点の観点から解析した。 最も優れた浅層学習技術はランダムフォレスト、次いで決定木、そしてAdaBoostである。 ディープラーニングモデルも同様にデフォルトの埋め込み層を使用して実行され、トランスフォーマーモデルは araBERT で拡張した場合に最もよく動作した。

This work presents a detailed comparison of the performance of deep learning models such as convolutional neural networks (CNN), long short-term memory (LSTM), gated recurrent units (GRU), their hybrids, and a selection of shallow learning classifiers for sentiment analysis of Arabic reviews. Additionally, the comparison includes state-of-the-art models such as the transformer architecture and the araBERT pre-trained model. The datasets used in this study are multi-dialect Arabic hotel and book review datasets, which are some of the largest publicly available datasets for Arabic reviews. Results showed deep learning outperforming shallow learning for binary and multi-label classification, in contrast with the results of similar work reported in the literature. This discrepancy in outcome was caused by dataset size as we found it to be proportional to the performance of deep learning models. The performance of deep and shallow learning techniques was analyzed in terms of accuracy and F1 score. The best performing shallow learning technique was Random Forest followed by Decision Tree, and AdaBoost. The deep learning models performed similarly using a default embedding layer, while the transformer model performed best when augmented with araBERT.
翻訳日:2021-12-02 19:48:21 公開日:2021-12-01
# (参考訳) SaDe: ドメイン制約を満足できるような学習モデル

SaDe: Learning Models that Provably Satisfy Domain Constraints ( http://arxiv.org/abs/2112.00552v1 )

ライセンス: CC BY 4.0
Kshitij Goyal, Sebastijan Dumancic, Hendrik Blockeel(参考訳) 機械学習の現実世界の応用が増えるにつれて、航空機システムにおける安全性保証、ローン承認モデルの法的制約など、特定のドメインベースの要件を満たすことがしばしば求められる。 これらの性質を表現する自然な方法は制約の形式である。 このような制約を含む機械学習は、通常、制約の満足度を保証しない正規化によって行われる。 本稿では,様々な制約を処理可能な機械学習手法を提案する。 機械学習を最大満足度問題とみなし,制約満足度と勾配降下度を組み合わせた新しいアルゴリズムSaDeを用いて解いた。 このアプローチが与えられた制約を確実に満たすモデルを学ぶという3つのユースケースを実証する。

With increasing real world applications of machine learning, models are often required to comply with certain domain based requirements, e.g., safety guarantees in aircraft systems, legal constraints in a loan approval model. A natural way to represent these properties is in the form of constraints. Including such constraints in machine learning is typically done by the means of regularization, which does not guarantee satisfaction of the constraints. In this paper, we present a machine learning approach that can handle a wide variety of constraints, and guarantee that these constraints will be satisfied by the model even on unseen data. We cast machine learning as a maximum satisfiability problem, and solve it using a novel algorithm SaDe which combines constraint satisfaction with gradient descent. We demonstrate on three use cases that this approach learns models that provably satisfy the given constraints.
翻訳日:2021-12-02 19:14:09 公開日:2021-12-01
# (参考訳) ドローン画像からの複合風車翼の半教師あり表面異常検出

Semi-Supervised Surface Anomaly Detection of Composite Wind Turbine Blades From Drone Imagery ( http://arxiv.org/abs/2112.00556v1 )

ライセンス: CC BY 4.0
Jack. W. Barker, Neelanjan Bhowmik, Toby. P. Breckon(参考訳) 商用風力発電では、無人航空機(uav)からの空中調査による遠隔監視が一般的であり、風力タービンブレードのその場での監視と予測の維持が重要な課題である。 タービンブレードは、運転時と天候時の双方の損傷を受けやすいため、タービンのエネルギー効率が低下する。 本研究では,UAV捕捉タービン羽根検査画像内の故障検出とともに,ブレード検出と抽出の両方の時間を要するタスクの自動化に取り組む。 我々は、非教師付きタービンブレードの検出と抽出の両方を行うアプリケーションベースで堅牢なデュアルアーキテクチャであるBladeNetを提案し、続いてSimple Linear Iterative Clustering (SLIC) 法を用いて局所クラスタを生成する。 これらのクラスタは、半教師付き検出手法によって処理される。 ガラス繊維複合材料ブレードの表面欠陥を高い適性で検出し, 必要最小限の手動画像アノテーションを要求できる。 BladeNetは、デンマーク工科大学(DTU)のNordTankタービンブレード検査データセットで、オフショア風力タービン用の平均精度(AP)が0.995、オフショア風力タービン用が0.223である。 BladeNetはまた、 {\O}rstedブレード検査データセット全体にわたる表面異常検出のためのAUC0.639も取得した。

Within commercial wind energy generation, the monitoring and predictive maintenance of wind turbine blades in-situ is a crucial task, for which remote monitoring via aerial survey from an Unmanned Aerial Vehicle (UAV) is commonplace. Turbine blades are susceptible to both operational and weather-based damage over time, reducing the energy efficiency output of turbines. In this study, we address automating the otherwise time-consuming task of both blade detection and extraction, together with fault detection within UAV-captured turbine blade inspection imagery. We propose BladeNet, an application-based, robust dual architecture to perform both unsupervised turbine blade detection and extraction, followed by super-pixel generation using the Simple Linear Iterative Clustering (SLIC) method to produce regional clusters. These clusters are then processed by a suite of semi-supervised detection methods. Our dual architecture detects surface faults of glass fibre composite material blades with high aptitude while requiring minimal prior manual image annotation. BladeNet produces an Average Precision (AP) of 0.995 across our {\O}rsted blade inspection dataset for offshore wind turbines and 0.223 across the Danish Technical University (DTU) NordTank turbine blade inspection dataset. BladeNet also obtains an AUC of 0.639 for surface anomaly detection across the {\O}rsted blade inspection dataset.
翻訳日:2021-12-02 18:56:35 公開日:2021-12-01
# (参考訳) リニアレーザースキャナとカメラを用いた3次元再構成

3D Reconstruction Using a Linear Laser Scanner and a Camera ( http://arxiv.org/abs/2112.00557v1 )

ライセンス: CC BY 4.0
Rui Wang(参考訳) コンピュータグラフィックスと視覚の急速な発展に伴い、ポイントクラウドモデル、メッシュモデル、幾何学モデルの形でオブジェクトの3次元表現を得るために、いくつかの3次元再構成技術が提案され、使用されている。 この技術の成熟により3D再構成のコストは低下しているが、市場にある安価な3D再構成スキャナーは期待通りに明確なクラウドモデルを生成することができないかもしれない。 本研究は,いくつかの基本的な3次元再構成技術を体系的に検討し,リニアレーザスキャナ,カメラ,ターンテーブルを用いた簡単な実装を提案する。 実装は laser による monovision をベースにしており、wiki や mug などいくつかのオブジェクトをテストしている。 点雲の結果の精度と解像度はかなり満足している。 誰もが適切な手順で3D再構築システムを構築することができる。

With the rapid development of computer graphics and vision, several three-dimensional (3D) reconstruction techniques have been proposed and used to obtain the 3D representation of objects in the form of point cloud models, mesh models, and geometric models. The cost of 3D reconstruction is declining due to the maturing of this technology, however, the inexpensive 3D reconstruction scanners on the market may not be able to generate a clear point cloud model as expected. This study systematically reviews some basic types of 3D reconstruction technology and introduces an easy implementation using a linear laser scanner, a camera, and a turntable. The implementation is based on the monovision with laser and has tested several objects like wiki and mug. The accuracy and resolution of the point cloud result are quite satisfying. It turns out everyone can build such a 3D reconstruction system with appropriate procedures.
翻訳日:2021-12-02 18:43:05 公開日:2021-12-01
# (参考訳) 最適化ステップ(mao)を用いたmetropolized algorithmの混合時間について : 新しい枠組み

On Mixing Times of Metropolized Algorithm With Optimization Step (MAO) : A New Framework ( http://arxiv.org/abs/2112.00565v1 )

ライセンス: CC BY 4.0
EL Mahdi Khribch, George Deligiannidis, Daniel Paulin(参考訳) 本稿では,$\mathbb{r}^d$ をサポートする薄いテールを持つ分布のクラスからのサンプリングを検討し,2つの主要な貢献を行う。 まず,このような対象に適した最適化ステップ(mao)を用いた新しいmetropolizedアルゴリズムを提案する。 我々のアルゴリズムは、メトロポリス調整ランゲヴィンアルゴリズム(MALA)が収束しない分布や理論的保証がない分布からサンプリングすることができる。 第2に、MAOの混合時間に関する上限を導出する。 この結果は、複数のターゲット分布のシミュレーションによって支援される。

In this paper, we consider sampling from a class of distributions with thin tails supported on $\mathbb{R}^d$ and make two primary contributions. First, we propose a new Metropolized Algorithm With Optimization Step (MAO), which is well suited for such targets. Our algorithm is capable of sampling from distributions where the Metropolis-adjusted Langevin algorithm (MALA) is not converging or lacking in theoretical guarantees. Second, we derive upper bounds on the mixing time of MAO. Our results are supported by simulations on multiple target distributions.
翻訳日:2021-12-02 18:10:38 公開日:2021-12-01
# (参考訳) DaSciM, Ecole PolytechniqueにおけるNLP研究と資源

NLP Research and Resources at DaSciM, Ecole Polytechnique ( http://arxiv.org/abs/2112.00566v1 )

ライセンス: CC BY 4.0
Hadi Abdine, Yanzhu Guo, Moussa Kamal Eddine, Giannis Nikolentzos, Stamatis Outsios, Guokan Shang, Christos Xypolopoulos, Michalis Vazirgiannis(参考訳) 2013年に設立されたEcole PolytechniqueのLIXの一部であるDaSciM(Data Science and Mining)は、機械学習とディープラーニングの手法による大規模データ分析の分野での研究結果を生み出した。 このグループは特にNLPやテキストマイニングの分野で活動しており、方法論や資源レベルで興味深い結果を得ている。 ここでは、AFIAコミュニティに対する関心の異なるコントリビューションに従います。

DaSciM (Data Science and Mining) part of LIX at Ecole Polytechnique, established in 2013 and since then producing research results in the area of large scale data analysis via methods of machine and deep learning. The group has been specifically active in the area of NLP and text mining with interesting results at methodological and resources level. Here follow our different contributions of interest to the AFIA community.
翻訳日:2021-12-02 17:38:01 公開日:2021-12-01
# (参考訳) DPRK-BERT: 最高言語モデル

DPRK-BERT: The Supreme Language Model ( http://arxiv.org/abs/2112.00567v1 )

ライセンス: CC BY 4.0
Arda Akdemir and Yeojoo Jeon(参考訳) ディープ言語モデルはNLPドメインで顕著な成功を収めた。 深層言語モデルをトレーニングする標準的な方法は、教師なし学習をスクラッチから大きなラベルなしコーパスに採用することである。 しかし、そのような大きなコーパスは広く採用され、高いリソースを持つ言語やドメインでしか利用できない。 本研究では、DPRK言語のための最初のディープ言語モデルであるDPRK-BERTを提案する。 我々は、dprk言語の最初のラベルなしコーパスをコンパイルし、既存のrok言語モデルを微調整することでこれを達成する。 提案モデルと既存手法を比較し,2つのDPRKデータセットの大幅な改善を示す。 また、このモデルの言語間バージョンを提示し、2つの韓国語に対してより良い一般化をもたらす。 最後に,今後の研究を促進するために,DPRK言語に関連するさまざまなNLPツールを提供する。

Deep language models have achieved remarkable success in the NLP domain. The standard way to train a deep language model is to employ unsupervised learning from scratch on a large unlabeled corpus. However, such large corpora are only available for widely-adopted and high-resource languages and domains. This study presents the first deep language model, DPRK-BERT, for the DPRK language. We achieve this by compiling the first unlabeled corpus for the DPRK language and fine-tuning a preexisting the ROK language model. We compare the proposed model with existing approaches and show significant improvements on two DPRK datasets. We also present a cross-lingual version of this model which yields better generalization across the two Korean languages. Finally, we provide various NLP tools related to the DPRK language that would foster future research.
翻訳日:2021-12-02 17:32:46 公開日:2021-12-01
# (参考訳) 地球モニタリングの基礎モデルに向けて:気候変動ベンチマークの提案

Toward Foundation Models for Earth Monitoring: Proposal for a Climate Change Benchmark ( http://arxiv.org/abs/2112.00570v1 )

ライセンス: CC BY 4.0
Alexandre Lacoste, Evan David Sherwin, Hannah Kerner, Hamed Alemohammad, Bj\"orn L\"utjens, Jeremy Irvin, David Dao, Alex Chang, Mehmet Gunturkun, Alexandre Drouin, Pau Rodriguez, David Vazquez(参考訳) 近年の自己スーパービジョンの進歩は、大量の教師なしデータ上で大規模なニューラルネットワークを事前訓練することで、下流タスクの一般化が著しく増加することを示している。 基礎モデルとして最近作られたそのようなモデルは、自然言語処理の分野に転換してきた。 同様のモデルは大規模な画像のコーパスでも訓練されているが、リモートセンシングデータには適していない。 本研究では,地球観測のための基盤モデルの開発を促進するため,気候変動に関連するさまざまな下流タスクからなる新しいベンチマークを開発することを提案する。 これは既存の多くのアプリケーションを大幅に改善し、新しいアプリケーションの開発を促進する可能性があると考えています。 この提案は、地球観測のための基礎モデルの潜在的な欠点を軽減するためのより良い評価プロセスを開発することを目的として、コラボレーションの呼びかけでもある。

Recent progress in self-supervision shows that pre-training large neural networks on vast amounts of unsupervised data can lead to impressive increases in generalisation for downstream tasks. Such models, recently coined as foundation models, have been transformational to the field of natural language processing. While similar models have also been trained on large corpuses of images, they are not well suited for remote sensing data. To stimulate the development of foundation models for Earth monitoring, we propose to develop a new benchmark comprised of a variety of downstream tasks related to climate change. We believe that this can lead to substantial improvements in many existing applications and facilitate the development of new applications. This proposal is also a call for collaboration with the aim of developing a better evaluation process to mitigate potential downsides of foundation models for Earth monitoring.
翻訳日:2021-12-02 17:18:35 公開日:2021-12-01
# (参考訳) スケーラブルなオンデマンドライドプールのための条件付き期待値分解

Conditional Expectation based Value Decomposition for Scalable On-Demand Ride Pooling ( http://arxiv.org/abs/2112.00579v1 )

ライセンス: CC BY 4.0
Avinandan Bose, Pradeep Varakantham(参考訳) 顧客(低価格)、ドライバー(高収入)、アグリゲーション会社(高収益)、環境(低収益)、オンデマンド配車(Uberプール、Grab Shareなど)の利点は、非常に人気がある。 車両と要求の組み合わせとをマッチングする計算の複雑さは、従来のライドプーリングアプローチが、現在のマッチングが車両/ドライバーの将来価値に与える影響を考慮しないという点において、妙に顕著であることを意味する。 近年、NeurADP(Neural Approximate Dynamic Programming)は、個々のエージェントの選択したアクションがエージェントの将来的な価値に与える影響を考慮し、ADP(Approximate Dynamic Programming)による価値分解を用いて、主要なアプローチを上回りつつある。 しかし、スケーラビリティを確保し、都市規模の配車を容易にするため、NeurADPは個々のエージェント/車両価値に対する他のエージェントアクションの影響を完全に無視する。 実験結果が示すように,車種間の競争が増加すると,他のエージェントの行動が個人価値に与える影響を無視することは,全体のパフォーマンスに大きな影響を与える可能性がある。 我々の重要な貢献は、トレーニングや意思決定の複雑さを増大させることなく、他のエージェントアクションへの依存性をキャプチャするジョイント条件付き確率による、計算条件期待に基づく新しいメカニズムである。 我々は,新たなアプローチである条件付き期待値分解(CEVD)がNeurADPを最大9.76%上回っていることを示す。

Owing to the benefits for customers (lower prices), drivers (higher revenues), aggregation companies (higher revenues) and the environment (fewer vehicles), on-demand ride pooling (e.g., Uber pool, Grab Share) has become quite popular. The significant computational complexity of matching vehicles to combinations of requests has meant that traditional ride pooling approaches are myopic in that they do not consider the impact of current matches on future value for vehicles/drivers. Recently, Neural Approximate Dynamic Programming (NeurADP) has employed value decomposition with Approximate Dynamic Programming (ADP) to outperform leading approaches by considering the impact of an individual agent's (vehicle) chosen actions on the future value of that agent. However, in order to ensure scalability and facilitate city-scale ride pooling, NeurADP completely ignores the impact of other agents actions on individual agent/vehicle value. As demonstrated in our experimental results, ignoring the impact of other agents actions on individual value can have a significant impact on the overall performance when there is increased competition among vehicles for demand. Our key contribution is a novel mechanism based on computing conditional expectations through joint conditional probabilities for capturing dependencies on other agents actions without increasing the complexity of training or decision making. We show that our new approach, Conditional Expectation based Value Decomposition (CEVD) outperforms NeurADP by up to 9.76% in terms of overall requests served, which is a significant improvement on a city wide benchmark taxi dataset.
翻訳日:2021-12-02 17:03:33 公開日:2021-12-01
# (参考訳) 因果推論を用いたAI保証:公共政策への応用

AI Assurance using Causal Inference: Application to Public Policy ( http://arxiv.org/abs/2112.00591v1 )

ライセンス: CC BY 4.0
Andrei Svetovidov, Abdul Rahman, Feras A. Batarseh(参考訳) AIベースのソリューションの開発と実装は、国家や連邦政府の機関、研究機関、商業企業が意思決定プロセスを強化し、チェーン操作を自動化し、自然と人的資源の消費を減らすのに役立つ。 同時に、ほとんどのaiアプローチは、"ブラックボックス"としてのみ表現することができ、透明性の欠如に苦しんでいる。 これは最終的に予期せぬ結果につながり、そのようなシステムに対する信頼を損なう可能性がある。 したがって、効果的で堅牢なAIシステムを開発するだけでなく、内部プロセスが説明可能で公平であることを確認することが重要である。 この章の目標は、米国経済のテクノロジー分野の例を用いて、aiシステムに対する高い影響のある意思決定のための保証方法の設計について紹介することである。 我々は,これらの分野が,技術経済学データセットにおける因果実験を提供することにより,データセット内の重要な指標間の因果関係を明らかにすることによって,どのようなメリットがあるかを説明する。 いくつかの因果推論手法とAI保証手法を概説し、グラフ構造化データセットへのデータの変換を示す。

Developing and implementing AI-based solutions help state and federal government agencies, research institutions, and commercial companies enhance decision-making processes, automate chain operations, and reduce the consumption of natural and human resources. At the same time, most AI approaches used in practice can only be represented as "black boxes" and suffer from the lack of transparency. This can eventually lead to unexpected outcomes and undermine trust in such systems. Therefore, it is crucial not only to develop effective and robust AI systems, but to make sure their internal processes are explainable and fair. Our goal in this chapter is to introduce the topic of designing assurance methods for AI systems with high-impact decisions using the example of the technology sector of the US economy. We explain how these fields would benefit from revealing cause-effect relationships between key metrics in the dataset by providing the causal experiment on technology economics dataset. Several causal inference approaches and AI assurance techniques are reviewed and the transformation of the data into a graph-structured dataset is demonstrated.
翻訳日:2021-12-02 16:48:47 公開日:2021-12-01
# (参考訳) TEDGE-Caching:6Gネットワークに向けたトランスフォーマーベースのエッジキャッシュ

TEDGE-Caching: Transformer-based Edge Caching Towards 6G Networks ( http://arxiv.org/abs/2112.00633v1 )

ライセンス: CC BY 4.0
Zohreh Hajiakhondi Meybodi, Arash Mohammadi, Elahe Rahimian, Shahin Heidarian, Jamshid Abouei, Konstantinos N. Plataniotis(参考訳) 新型コロナウイルス(covid-19)のパンデミックにより、遠隔学習や遠隔医療へのテレコミュニケーションの需要が大幅に増加した。 6Gネットワークにおけるモバイルエッジキャッシング(MEC)は、マルチメディアコンテンツをユーザに近づけることで、グローバルなモバイルデータトラフィックの驚くべき成長に対応するための効率的なソリューションとして進化してきた。 mecネットワークによる大規模接続により通信品質が大幅に向上するが,今後の課題はいくつかある。 エッジノードのストレージの制限、マルチメディアコンテンツの大規模化、ユーザの嗜好の変化により、要求される前に最も要求されるコンテンツを保存するために、コンテンツの人気を効率的かつ動的に予測することが重要となる。 近年のディープニューラルネットワーク(DNN)の進歩は、プロアクティブキャッシュ方式におけるコンテンツ人気を予測するために、多くの研究が注目されている。 しかし、この文脈における既存のDNNモデルは、長期の依存関係、計算複雑性、並列コンピューティングには不適当である。 これらの課題に対処するために,Transformer-based Edge (TEDGE) と呼ばれる注目に基づく視覚変換(ViT)ニューラルネットワークを組み込んだエッジキャッシュフレームワークを提案する。 さらに、TEDGEキャッシュフレームワークは、データ前処理や追加のコンテキスト情報を必要としない。 シミュレーションの結果は,提案したTEDGEキャッシュフレームワークの有効性を,それと比較した。

As a consequence of the COVID-19 pandemic, the demand for telecommunication for remote learning/working and telemedicine has significantly increased. Mobile Edge Caching (MEC) in the 6G networks has been evolved as an efficient solution to meet the phenomenal growth of the global mobile data traffic by bringing multimedia content closer to the users. Although massive connectivity enabled by MEC networks will significantly increase the quality of communications, there are several key challenges ahead. The limited storage of edge nodes, the large size of multimedia content, and the time-variant users' preferences make it critical to efficiently and dynamically predict the popularity of content to store the most upcoming requested ones before being requested. Recent advancements in Deep Neural Networks (DNNs) have drawn much research attention to predict the content popularity in proactive caching schemes. Existing DNN models in this context, however, suffer from longterm dependencies, computational complexity, and unsuitability for parallel computing. To tackle these challenges, we propose an edge caching framework incorporated with the attention-based Vision Transformer (ViT) neural network, referred to as the Transformer-based Edge (TEDGE) caching, which to the best of our knowledge, is being studied for the first time. Moreover, the TEDGE caching framework requires no data pre-processing and additional contextual information. Simulation results corroborate the effectiveness of the proposed TEDGE caching framework in comparison to its counterparts.
翻訳日:2021-12-02 16:34:38 公開日:2021-12-01
# (参考訳) ソースコード理解を改善するためのグラフ条件付きスパースアテンション

Graph Conditioned Sparse-Attention for Improved Source Code Understanding ( http://arxiv.org/abs/2112.00663v1 )

ライセンス: CC BY 4.0
Junyan Cheng, Iordanis Fostiropoulos and Barry Boehm(参考訳) トランスフォーマーアーキテクチャはソースコード表現の学習に成功している。 抽象構文木(AST)のようなグラフ表現とソースコードシーケンスとの融合により、大きな入力シーケンス長に対して計算的に抽出可能な現在のアプローチが用いられる。 ソースコードは、効果的にモデリングするためにより大きなシーケンス長を必要とする長距離依存関係を持つことができる。 現在のアプローチでは、シーケンス長に関する計算とメモリコストの2次的な成長がある。 このようなモデルを現実的なシナリオで使うのは難しい。 本研究では,疎自己注意機構の注意マスクとしてグラフ隣接行列を用いて,そのグラフモダリティを考慮したソースコードスニペットの条件付けと,長距離トークン依存性をモデル化するためのグラフ拡散機構の利用を提案する。 提案手法は,コード要約タスクにおけるBLEU, METEOR, ROUGE-Lの計測結果に到達し, 可変誤用タスクにおけるほぼ最先端の精度を示す。 本モデルでは, メモリ使用量と推定時間は, 入力シーケンス長に対して, 以前の2次成長と比較して線形成長する。

Transformer architectures have been successfully used in learning source code representations. The fusion between a graph representation like Abstract Syntax Tree (AST) and a source code sequence makes the use of current approaches computationally intractable for large input sequence lengths. Source code can have long-range dependencies that require larger sequence lengths to model effectively. Current approaches have a quadratic growth in computational and memory costs with respect to the sequence length. Using such models in practical scenarios is difficult. In this work, we propose the conditioning of a source code snippet with its graph modality by using the graph adjacency matrix as an attention mask for a sparse self-attention mechanism and the use of a graph diffusion mechanism to model longer-range token dependencies. Our model reaches state-of-the-art results in BLEU, METEOR, and ROUGE-L metrics for the code summarization task and near state-of-the-art accuracy in the variable misuse task. The memory use and inference time of our model have linear growth with respect to the input sequence length as compared to the quadratic growth of previous works.
翻訳日:2021-12-02 16:21:15 公開日:2021-12-01
# (参考訳) 雑音学習と高調波ピッチクラスプロファイルを用いた半教師付き音楽感情認識

Semi-supervised music emotion recognition using noisy student training and harmonic pitch class profiles ( http://arxiv.org/abs/2112.00702v1 )

ライセンス: CC BY 4.0
Hao Hao Tan(参考訳) 我々は、音楽チャレンジにおける2021年の感情とテーマへのmirableの投稿を紹介する。 本研究では,音楽感情認識に半教師付き学習技術を活用することができるか? これにより,画像分類領域におけるモデル性能が向上した,ノイズの多い学生学習を実験する。 ノイズの多い生徒法は強力な教師モデルを必要とするため、さらにその要因を掘り下げる。 (i)入力訓練期間、及び (II)教師モデルの性能をさらに向上させる補完的な音楽表現。 のために i) 短い入力長で訓練したモデルではPR-AUCが, 長い入力長で訓練したモデルではROC-AUCが改善した。 のために (ii)高調波ピッチクラスプロファイル(hpcp)を用いた場合,音楽感情のタグ付けに高調波表現が有効であることが示唆された。 最後に,雑音のある学生法は,長い訓練期間の場合にのみタグ付け結果を改善する。 さらに,異なるトレーニング長でトレーニングされた表現をエンセンブルすることでタグ付け結果を大幅に改善できることがわかり,今後の作業のためにネットワークアーキテクチャに複数の時間分解能を組み込むことを検討できる方向が示唆された。

We present Mirable's submission to the 2021 Emotions and Themes in Music challenge. In this work, we intend to address the question: can we leverage semi-supervised learning techniques on music emotion recognition? With that, we experiment with noisy student training, which has improved model performance in the image classification domain. As the noisy student method requires a strong teacher model, we further delve into the factors including (i) input training length and (ii) complementary music representations to further boost the performance of the teacher model. For (i), we find that models trained with short input length perform better in PR-AUC, whereas those trained with long input length perform better in ROC-AUC. For (ii), we find that using harmonic pitch class profiles (HPCP) consistently improve tagging performance, which suggests that harmonic representation is useful for music emotion tagging. Finally, we find that noisy student method only improves tagging results for the case of long training length. Additionally, we find that ensembling representations trained with different training lengths can improve tagging results significantly, which suggest a possible direction to explore incorporating multiple temporal resolutions in the network architecture for future work.
翻訳日:2021-12-02 16:08:45 公開日:2021-12-01
# ノルムに対するランダム射影の不分散原理

Invariance principle of random projection for the norm ( http://arxiv.org/abs/2112.00300v1 )

ライセンス: Link先を確認
JunTao Duan(参考訳) ジョンソン・リンデンシュトラウスは、高次元決定論的ベクトルを低次元ベクトルに埋め込むとき、ある位相構造がランダムな射影の下で保存されることを保証する。 本研究では,ランダム射影がランダムベクトルのノルムに与える影響を理解する。 特に、ランダムベクトルのノルムの分布を$X \in \mathbb{R}^n$で証明し、その成分は確率変数であり、ランダム射影$S:\mathbb{R}^n \to \mathbb{R}^m$で保存される。 より正確には、 \[ \frac{X^TS^TSX - mn}{\sqrt{\sigma^2 m^2n+2mn^2}} \xrightarrow[\quad m/n\to 0 \quad ]{ m,n\to \infty } \mathcal{N}(0,1) \]

Johnson-Lindenstrauss guarantees certain topological structure is preserved under random projections when embedding high dimensional deterministic vectors to low dimensional vectors. In this work, we try to understand how random projections affect norms of random vectors. In particular we prove the distribution of norm of random vectors $X \in \mathbb{R}^n$, whose entries are i.i.d. random variables, is preserved by random projection $S:\mathbb{R}^n \to \mathbb{R}^m$. More precisely, \[ \frac{X^TS^TSX - mn}{\sqrt{\sigma^2 m^2n+2mn^2}} \xrightarrow[\quad m/n\to 0 \quad ]{ m,n\to \infty } \mathcal{N}(0,1) \]
翻訳日:2021-12-02 16:04:22 公開日:2021-12-01
# プライベートモデルトレーニングのための公開データ支援ミラー降下

Public Data-Assisted Mirror Descent for Private Model Training ( http://arxiv.org/abs/2112.00193v1 )

ライセンス: Link先を確認
Ehsan Amid, Arun Ganesh, Rajiv Mathews, Swaroop Ramaswamy, Shuang Song, Thomas Steinke, Vinith M. Suriyakumar, Om Thakkar, Abhradeep Thakurta(参考訳) 差分プライベート(DP)モデルトレーニングにおけるプライバシ/ユーティリティトレードオフを改善するために,公開データを使用することの問題点を再考する。 ここでは、公開データはプライバシーの懸念のない補助データセットを指す。 我々は,プライベートトレーニングデータと同分布の公開データについて考察する。 凸損失の場合、ミラー降下の変種は、モデル(p$)の次元に依存しない人口のリスク保証を提供する。 具体的には,公開データから発生する損失をミラーマップとしてミラー降下を行い,プライベート(敏感)データから発生する損失のdp勾配を用いてミラー降下を行う。 次元独立性を得るためには、公開データサンプルである $g_q^2 \leq p$ が必要であり、ここでは$g_q$ は損失関数の等方性の測定値である。 さらに、我々のアルゴリズムは自然の「ノイズ安定性」の性質を持っていることを示している: 現在の損失の周囲が$\alpha_v$-strong convexityをある方向で満たすなら、正確な勾配の代わりにノイズ勾配を用いることで、次の繰り返しを1/\alpha_v$に比例して$v$にシフトする(DP-SGDとは対照的に、シフトは等方的である)。 先行研究における類似の結果は、前条件行列の形で公開データを用いて明示的に幾何学を学ぶ必要があった。 提案手法は,DP保証を保証するために凸性仮定に依存しないため,非凸性損失にも適用可能である。 線形回帰、ディープラーニングベンチマークデータセット(WikiText-2, CIFAR-10, EMNIST)、および連合学習(StackOverflow)におけるプライバシーとユーティリティのトレードオフを示すことによって、アルゴリズムの実証的有効性を示す。 提案手法は,公開データにアクセスできない従来のdp-sgdおよびdp-fedavgに対して大幅に改善するだけでなく,まずは公開データで事前学習したモデルに対してdp-sgdおよびdp-fedavgよりも改善することを示す。

We revisit the problem of using public data to improve the privacy/utility trade-offs for differentially private (DP) model training. Here, public data refers to auxiliary data sets that have no privacy concerns. We consider public data that is from the same distribution as the private training data. For convex losses, we show that a variant of Mirror Descent provides population risk guarantees which are independent of the dimension of the model ($p$). Specifically, we apply Mirror Descent with the loss generated by the public data as the mirror map, and using DP gradients of the loss generated by the private (sensitive) data. To obtain dimension independence, we require $G_Q^2 \leq p$ public data samples, where $G_Q$ is a measure of the isotropy of the loss function. We further show that our algorithm has a natural ``noise stability'' property: If around the current iterate the public loss satisfies $\alpha_v$-strong convexity in a direction $v$, then using noisy gradients instead of the exact gradients shifts our next iterate in the direction $v$ by an amount proportional to $1/\alpha_v$ (in contrast with DP-SGD, where the shift is isotropic). Analogous results in prior works had to explicitly learn the geometry using the public data in the form of preconditioner matrices. Our method is also applicable to non-convex losses, as it does not rely on convexity assumptions to ensure DP guarantees. We demonstrate the empirical efficacy of our algorithm by showing privacy/utility trade-offs on linear regression, deep learning benchmark datasets (WikiText-2, CIFAR-10, and EMNIST), and in federated learning (StackOverflow). We show that our algorithm not only significantly improves over traditional DP-SGD and DP-FedAvg, which do not have access to public data, but also improves over DP-SGD and DP-FedAvg on models that have been pre-trained with the public data to begin with.
翻訳日:2021-12-02 16:03:57 公開日:2021-12-01
# 新型コロナウイルスのメンタルヘルスデータの機械学習分析

A Machine Learning Analysis of COVID-19 Mental Health Data ( http://arxiv.org/abs/2112.00227v1 )

ライセンス: Link先を確認
Mostafa Rezapour, Lucas Hansen(参考訳) 2019年12月下旬、中国武漢で新型コロナウイルス(SARS-Cov-2)が最初に発見された。 この病気は、2020年1月20日に米国で発見された最初の症例として封じ込められた。 In this paper, we utilize survey data from the Inter-university Consortium for Political and Social Research and apply several statistical and machine learning models and techniques such as Decision Trees, Multinomial Logistic Regression, Naive Bayes, k-Nearest Neighbors, Support Vector Machines, Neural Networks, Random Forests, Gradient Tree Boosting, XGBoost, CatBoost, LightGBM, Synthetic Minority Oversampling, and Chi-Squared Test to analyze the impacts the COVID-19 pandemic has had on the mental health of frontline workers in the United States. Through the interpretation of the many models applied to the mental health survey data, we have concluded that the most important factor in predicting the mental health decline of a frontline worker is the healthcare role the individual is in (Nurse, Emergency Room Staff, Surgeon, etc.), followed by the amount of sleep the individual has had in the last week, the amount of COVID-19 related news an individual has consumed on average in a day, the age of the worker, and the usage of alcohol and cannabis.

In late December 2019, the novel coronavirus (Sars-Cov-2) and the resulting disease COVID-19 were first identified in Wuhan China. The disease slipped through containment measures, with the first known case in the United States being identified on January 20th, 2020. In this paper, we utilize survey data from the Inter-university Consortium for Political and Social Research and apply several statistical and machine learning models and techniques such as Decision Trees, Multinomial Logistic Regression, Naive Bayes, k-Nearest Neighbors, Support Vector Machines, Neural Networks, Random Forests, Gradient Tree Boosting, XGBoost, CatBoost, LightGBM, Synthetic Minority Oversampling, and Chi-Squared Test to analyze the impacts the COVID-19 pandemic has had on the mental health of frontline workers in the United States. Through the interpretation of the many models applied to the mental health survey data, we have concluded that the most important factor in predicting the mental health decline of a frontline worker is the healthcare role the individual is in (Nurse, Emergency Room Staff, Surgeon, etc.), followed by the amount of sleep the individual has had in the last week, the amount of COVID-19 related news an individual has consumed on average in a day, the age of the worker, and the usage of alcohol and cannabis.
翻訳日:2021-12-02 16:03:16 公開日:2021-12-01
# グラフ・オブ・グラフニューラルネットワークによる不均衡グラフ分類

Imbalanced Graph Classification via Graph-of-Graph Neural Networks ( http://arxiv.org/abs/2112.00238v1 )

ライセンス: Link先を確認
Yu Wang, Yuying Zhao, Neil Shah, Tyler Derr(参考訳) グラフニューラルネットワーク(GNN)はグラフの分類ラベルを識別するグラフ表現の学習において前例のない成功を収めている。 しかし、GNNの既存のグラフ分類問題はバランスの取れたデータ分割プロトコルに従っており、これはいくつかのクラスが他のクラスよりもはるかに少ないラベルを持つ多くの実世界のシナリオと不一致である。 この不均衡な状況下でのGNNの直接訓練は、マイノリティクラスにおけるグラフの非形式的表現をもたらし、不均衡なグラフ分類を扱うための効果的なGNNを開発することの重要性を示す下流分類の全体的な性能を損なう可能性がある。 既存の手法は非グラフ構造データ向けに調整されているか、不均衡ノード分類のために特別に設計されている。 この目的のために,グラフネットワーク(G$^2$GNN, Graph-of-Graph Neural Networks)という新しいフレームワークを導入する。 グローバルに,カーネル類似性に基づくグラフグラフ(gog)を構築し,gnnエンコーダを経由したノードレベルのパブリッシングによって最初に得られる隣接グラフ表現を集約するgog伝搬を行う。 局所的には、マスキングノードやエッジのドロップによるトポロジー拡張を用いて、見当たらないテストグラフのトポロジーを識別するモデルの一般化性を改善する。 7つのベンチマークデータセットを用いたグラフ分類実験により、提案したG$^2$GNNは、F1-macroとF1-microのスコアにおいて、多くのベースラインよりも約5倍高い性能を示した。 G$2$GNNの実装は \href{https://github.com/YuWVandy/G2GNN}{https://github.com/YuWVandy/G2GNN} で見ることができる。

Graph Neural Networks (GNNs) have achieved unprecedented success in learning graph representations to identify categorical labels of graphs. However, most existing graph classification problems with GNNs follow a balanced data splitting protocol, which is misaligned with many real-world scenarios in which some classes have much fewer labels than others. Directly training GNNs under this imbalanced situation may lead to uninformative representations of graphs in minority classes, and compromise the overall performance of downstream classification, which signifies the importance of developing effective GNNs for handling imbalanced graph classification. Existing methods are either tailored for non-graph structured data or designed specifically for imbalance node classification while few focus on imbalance graph classification. To this end, we introduce a novel framework, Graph-of-Graph Neural Networks (G$^2$GNN), which alleviates the graph imbalance issue by deriving extra supervision globally from neighboring graphs and locally from graphs themselves. Globally, we construct a graph of graphs (GoG) based on kernel similarity and perform GoG propagation to aggregate neighboring graph representations, which are initially obtained by node-level propagation with pooling via a GNN encoder. Locally, we employ topological augmentation via masking nodes or dropping edges to improve the model generalizability in discerning topology of unseen testing graphs. Extensive graph classification experiments conducted on seven benchmark datasets demonstrate our proposed G$^2$GNN outperforms numerous baselines by roughly 5\% in both F1-macro and F1-micro scores. The implementation of G$^2$GNN is available at \href{https://github.com/YuWVandy/G2GNN}{https://github.com/YuWVandy/G2GNN}.
翻訳日:2021-12-02 16:03:00 公開日:2021-12-01
# 量子機械学習による量子状態の識別

Discriminating Quantum States with Quantum Machine Learning ( http://arxiv.org/abs/2112.00313v1 )

ライセンス: Link先を確認
David Quiroga, Prasanna Date, Raphael C. Pooser(参考訳) 量子機械学習(QML)アルゴリズムは、ほとんどのMLアルゴリズムの基本要素である基本線形代数サブルーチン(BLAS)を実行する際に、量子スピードアップの約束により、機械学習(ML)分野において大きな関連性を得た。 BLAS演算を用いることで、読み出し時の量子状態を識別する根本的な問題に適用するために、$\mathcal{O}(NKlog(D)I/C)$という低時間複雑さの量子k平均(qk-means)アルゴリズムを提案し、実装し、分析する。 量子状態の識別は、低レベルな in-phase および quadrature signal (iq) データから $|0\rangle$ と $|1\rangle$ の量子状態の識別を可能にする。 古典的コンピュータへの依存を減らすため、我々はqk-meansを使用してIBMQ Bogotaデバイス上で状態判別を行い、k-meansアルゴリズムよりもわずかに低い98.7%の割り当てフィデリティを見つけることができた。 量子状態の組合せに2つのアルゴリズムを適用することによって得られた割当忠実度スコアの検査は、ピアソン相関係数を用いた相関解析と一致した。 2)及び(2) 3) 解析装置の隣接する量子ビット結合。

Quantum machine learning (QML) algorithms have obtained great relevance in the machine learning (ML) field due to the promise of quantum speedups when performing basic linear algebra subroutines (BLAS), a fundamental element in most ML algorithms. By making use of BLAS operations, we propose, implement and analyze a quantum k-means (qk-means) algorithm with a low time complexity of $\mathcal{O}(NKlog(D)I/C)$ to apply it to the fundamental problem of discriminating quantum states at readout. Discriminating quantum states allows the identification of quantum states $|0\rangle$ and $|1\rangle$ from low-level in-phase and quadrature signal (IQ) data, and can be done using custom ML models. In order to reduce dependency on a classical computer, we use the qk-means to perform state discrimination on the IBMQ Bogota device and managed to find assignment fidelities of up to 98.7% that were only marginally lower than that of the k-means algorithm. Inspection of assignment fidelity scores resulting from applying both algorithms to a combination of quantum states showed concordance to our correlation analysis using Pearson Correlation coefficients, where evidence shows cross-talk in the (1, 2) and (2, 3) neighboring qubit couples for the analyzed device.
翻訳日:2021-12-02 16:00:32 公開日:2021-12-01
# 機能的傾斜構造のリミックス:多種形状ブレンディングを用いたデータ駆動トポロジー最適化

Remixing Functionally Graded Structures: Data-Driven Topology Optimization with Multiclass Shape Blending ( http://arxiv.org/abs/2112.00648v1 )

ライセンス: Link先を確認
Yu-Chin Chan, Daicong Da, Liwei Wang, Wei Chen(参考訳) 前例のない機能を持つ異質なマルチスケール構造を作成するために、近年のトポロジー最適化アプローチは、設計の自由度と効率の面で競合する完全非周期システムまたは機能的にグレードされた構造を設計する。 本稿では,複数系統,すなわち構造トポロジを混在させた多クラス機能構造のためのデータ駆動型フレームワークにより,両者の利点を継承し,実現可能性の保証された空間変動設計を作成することを提案する。 鍵となるのは、互換性のあるクラスや接続性、実現可能性の制約を必要とせずに、スムーズなグレードドの微構造を生成する、新しいマルチクラスシェイプブレンディングスキームである。 さらに、マイクロスケールの問題を設計を事前定義された形状に詰め込むことなく、効率的で低次元のものに変換する。 共通トラス測地と多様性に基づく自由形式トポロジーを用いたコンプライアンスと形状整合の例は、我々のフレームワークの汎用性を示し、クラスの数と多様性の影響について研究した。 提案手法の一般性は、提示される線形アプリケーションを超えた将来の拡張をサポートする。

To create heterogeneous, multiscale structures with unprecedented functionalities, recent topology optimization approaches design either fully aperiodic systems or functionally graded structures, which compete in terms of design freedom and efficiency. We propose to inherit the advantages of both through a data-driven framework for multiclass functionally graded structures that mixes several families, i.e., classes, of microstructure topologies to create spatially-varying designs with guaranteed feasibility. The key is a new multiclass shape blending scheme that generates smoothly graded microstructures without requiring compatible classes or connectivity and feasibility constraints. Moreover, it transforms the microscale problem into an efficient, low-dimensional one without confining the design to predefined shapes. Compliance and shape matching examples using common truss geometries and diversity-based freeform topologies demonstrate the versatility of our framework, while studies on the effect of the number and diversity of classes illustrate the effectiveness. The generality of the proposed methods supports future extensions beyond the linear applications presented.
翻訳日:2021-12-02 16:00:05 公開日:2021-12-01
# PoseKernelLifter:音を利用した3次元人間の空間リフティング

PoseKernelLifter: Metric Lifting of 3D Human Pose using Sound ( http://arxiv.org/abs/2112.00216v1 )

ライセンス: Link先を確認
Zhijian Yang, xiaoran Fan, Volkan Isler, Hyun Soo Park(参考訳) 単一視点画像から計量スケールの人物の3次元ポーズを再構築することは幾何学的に不適切な問題である。 例えば、ある人物とカメラの正確な距離を、追加のシーン仮定(例えば、既知の高さ)なしでは、単一のビューイメージから測定することはできない。 既存の学習ベースのアプローチは、3Dのポーズを大規模に再構築することでこの問題を回避する。 しかし、仮想テレプレゼンス、ロボティクス、拡張現実など、計量スケールの再構築を必要とする多くの応用がある。 本稿では,画像とともに記録された音声信号を用いて,人物の3Dポーズを再現するための補完情報を提供する。 重要な洞察は、音声信号が3d空間を横切ると、身体との相互作用が身体のポーズに関するメトリック情報を提供するということである。 この知見に基づいて,身体ポーズによって誘発される音声信号のインパルス応答であるポーズカーネルと呼ばれる時間不変な伝達関数を導入する。 ポーズカーネルの主な特性は、(1)エンベロープが3Dポーズと高度に相関し、(2)時刻応答が到着時刻に対応し、マイクへの距離を示すこと、(3)シーンの幾何学的構成の変化に不変であることである。 そのため、見当たらない場面に容易に一般化できる。 音声と視覚信号を融合して3dポーズをメートル法スケールで再構築する多段3d cnnを設計した。 我々は,パラメトリックメッシュ回帰や深度回帰といった最先端のリフト手法では不可能な,実世界のシーンで正確なメートル法再構成が可能であることを示す。

Reconstructing the 3D pose of a person in metric scale from a single view image is a geometrically ill-posed problem. For example, we can not measure the exact distance of a person to the camera from a single view image without additional scene assumptions (e.g., known height). Existing learning based approaches circumvent this issue by reconstructing the 3D pose up to scale. However, there are many applications such as virtual telepresence, robotics, and augmented reality that require metric scale reconstruction. In this paper, we show that audio signals recorded along with an image, provide complementary information to reconstruct the metric 3D pose of the person. The key insight is that as the audio signals traverse across the 3D space, their interactions with the body provide metric information about the body's pose. Based on this insight, we introduce a time-invariant transfer function called pose kernel -- the impulse response of audio signals induced by the body pose. The main properties of the pose kernel are that (1) its envelope highly correlates with 3D pose, (2) the time response corresponds to arrival time, indicating the metric distance to the microphone, and (3) it is invariant to changes in the scene geometry configurations. Therefore, it is readily generalizable to unseen scenes. We design a multi-stage 3D CNN that fuses audio and visual signals and learns to reconstruct 3D pose in a metric scale. We show that our multi-modal method produces accurate metric reconstruction in real world scenes, which is not possible with state-of-the-art lifting approaches including parametric mesh regression and depth regression.
翻訳日:2021-12-02 15:59:44 公開日:2021-12-01
# オノマトペを用いた環境音抽出

Environmental Sound Extraction Using Onomatopoeia ( http://arxiv.org/abs/2112.00209v1 )

ライセンス: Link先を確認
Yuki Okamoto, Shota Horiguchi, Masaaki Yamamoto, Keisuke Imoto, Yohei Kawaguchi(参考訳) 音を音響的に模倣する文字列であるオノマトペは、持続時間、ピッチ、音色などの音の特徴を表現するのに有効である。 本研究では,オノマトペを用いた環境音抽出手法を提案する。 本手法では,U-Netアーキテクチャを用いて入力混合分光図とオノマトペから時間周波数マスクを推定し,そのマスクにより対応するターゲット音を抽出する。 実験の結果,提案手法はオノマトペに対応する目標音のみを抽出でき,目標音の特定に音響イベントクラスを用いる従来の手法よりも優れた性能を示すことがわかった。

Onomatopoeia, which is a character sequence that phonetically imitates a sound, is effective in expressing characteristics of sound such as duration, pitch, and timbre. We propose an environmental-sound-extraction method using onomatopoeia to specify the target sound to be extracted. With this method, we estimate a time-frequency mask from an input mixture spectrogram and onomatopoeia by using U-Net architecture then extract the corresponding target sound by masking the spectrogram. Experimental results indicate that the proposed method can extract only the target sound corresponding to onomatopoeia and performs better than conventional methods that use sound-event classes to specify the target sound.
翻訳日:2021-12-02 15:58:26 公開日:2021-12-01
# 系列モデルを用いた強化学習によるUAV支援IoTネットワークのクラスタヘッド選択と軌道計画

Joint Cluster Head Selection and Trajectory Planning in UAV-Aided IoT Networks by Reinforcement Learning with Sequential Model ( http://arxiv.org/abs/2112.00333v1 )

ライセンス: Link先を確認
Botao Zhu, Ebrahim Bedeer, Ha H. Nguyen, Robert Barton, Jerome Henry(参考訳) 無人航空機(UAV)の採用は関心を集め、IoT(Internet-of-Things)ネットワークにおけるデータ収集の最先端技術として登場した。 本稿では,UAV-IoTシステムの総エネルギー消費を最小化することを目的として,UAVの軌道設計とIoTネットワークにおけるクラスタヘッドの選択をNP-hardに分類される制約付き組合せ最適化問題として定式化する。 本稿では,UAVの軌道設計のためのシーケンス・ツー・シーケンス・ニューラルネットワークで表されるポリシーを,教師なしで効果的に学習できるシーケンシャルモデル戦略を備えた新しい深層強化学習(DRL)を提案する。 シミュレーションにより,提案手法は,他のベースラインアルゴリズムと比較してはるかに少ないエネルギー消費を必要とするUAVの軌道を見つけ,最適に近い性能が得られることを示した。 さらに,提案手法による学習モデルは,モデルの再トレーニングを必要とせず,より大きな問題サイズに対して優れた一般化能力を有することを示す。

Employing unmanned aerial vehicles (UAVs) has attracted growing interests and emerged as the state-of-the-art technology for data collection in Internet-of-Things (IoT) networks. In this paper, with the objective of minimizing the total energy consumption of the UAV-IoT system, we formulate the problem of jointly designing the UAV's trajectory and selecting cluster heads in the IoT network as a constrained combinatorial optimization problem which is classified as NP-hard and challenging to solve. We propose a novel deep reinforcement learning (DRL) with a sequential model strategy that can effectively learn the policy represented by a sequence-to-sequence neural network for the UAV's trajectory design in an unsupervised manner. Through extensive simulations, the obtained results show that the proposed DRL method can find the UAV's trajectory that requires much less energy consumption when compared to other baseline algorithms and achieves close-to-optimal performance. In addition, simulation results show that the trained model by our proposed DRL algorithm has an excellent generalization ability to larger problem sizes without the need to retrain the model.
翻訳日:2021-12-02 15:58:03 公開日:2021-12-01
# スコア変換器:ノートレベルの表現から楽譜を生成する

Score Transformer: Generating Musical Score from Note-level Representation ( http://arxiv.org/abs/2112.00355v1 )

ライセンス: Link先を確認
Masahiro Suzuki(参考訳) 本稿では,楽譜の自動生成にトランスフォーマーモデルを用いて,楽譜のトークン化表現について検討する。 これまでのところ、シーケンスモデルは音楽の音階(MIDIと同値)の記号表現による実りある結果をもたらしている。 音階表現は、聴覚的に音楽の再生に十分な情報を構成することができるが、表記の観点からは、音楽の視覚的表現に十分な情報を含まない。 楽譜には、様々な音楽記号(例えば、クレフ、キーシグネチャ、音符)と、視覚的に音楽内容を理解することができる属性(例えば、茎方向、ビーム、ネクタイ)が含まれている。 しかし、これらの要素の自動推定はまだ包括的に対処されていない。 本稿では,様々な音楽要素に対応するスコアトークン表現を最初に設計する。 次に、トランスフォーマーモデルを訓練し、音符レベルの表現を適切な音楽記法に書き込む。 ポピュラーピアノの楽譜評価の結果,提案手法は,12曲の楽譜面において,既存手法よりも有意に優れていた。 また、モデルと連携するための効果的な表記レベルのトークン表現を探索し、提案する表現が最も安定した結果を生み出すかどうかを判断する。

In this paper, we explore the tokenized representation of musical scores using the Transformer model to automatically generate musical scores. Thus far, sequence models have yielded fruitful results with note-level (MIDI-equivalent) symbolic representations of music. Although the note-level representations can comprise sufficient information to reproduce music aurally, they cannot contain adequate information to represent music visually in terms of notation. Musical scores contain various musical symbols (e.g., clef, key signature, and notes) and attributes (e.g., stem direction, beam, and tie) that enable us to visually comprehend musical content. However, automated estimation of these elements has yet to be comprehensively addressed. In this paper, we first design score token representation corresponding to the various musical elements. We then train the Transformer model to transcribe note-level representation into appropriate music notation. Evaluations of popular piano scores show that the proposed method significantly outperforms existing methods on all 12 musical aspects that were investigated. We also explore an effective notation-level token representation to work with the model and determine that our proposed representation produces the steadiest results.
翻訳日:2021-12-02 15:56:59 公開日:2021-12-01
# 効率的かつ局所的なランダムウォーク

Efficient and Local Parallel Random Walks ( http://arxiv.org/abs/2112.00655v1 )

ライセンス: Link先を確認
Michael Kapralov, Silvio Lattanzi, Navid Nouri, Jakab Tardos(参考訳) ランダムウォークは、クラスタリングと半教師付き学習にいくつかの応用がある多くの機械学習アルゴリズムで使用される基本的なプリミティブである。 その関連性にもかかわらず、ランダムウォークを計算するための最初の効率的な並列アルゴリズムが最近導入された(Lacki et al.)。 彼らのアルゴリズムは、多くの実用的なアプリケーションにおいて、グラフの小さなサブセットからのみランダムウォークを計算することに関心があるにもかかわらず、入力グラフのすべてのノードからランダムウォークの計算に大きく依存しているため、非ローカルである。 本稿では,ランダムウォークを効率的かつ局所的に構築することにより,この制限を克服する新しいアルゴリズムを提案する。 提案手法はメモリ効率とラウンド効率の両方であり,特に効率的な並列局所クラスタリングアルゴリズムを実現する。 最後に,提案アルゴリズムが従来の手法よりもはるかにスケーラブルであることを示す実験結果と理論解析を補完する。

Random walks are a fundamental primitive used in many machine learning algorithms with several applications in clustering and semi-supervised learning. Despite their relevance, the first efficient parallel algorithm to compute random walks has been introduced very recently (Lacki et al.). Unfortunately their method has a fundamental shortcoming: their algorithm is non-local in that it heavily relies on computing random walks out of all nodes in the input graph, even though in many practical applications one is interested in computing random walks only from a small subset of nodes in the graph. In this paper, we present a new algorithm that overcomes this limitation by building random walk efficiently and locally at the same time. We show that our technique is both memory and round efficient, and in particular yields an efficient parallel local clustering algorithm. Finally, we complement our theoretical analysis with experimental results showing that our algorithm is significantly more scalable than previous approaches.
翻訳日:2021-12-02 15:56:40 公開日:2021-12-01
# DeepAoANet: ディープニューラルネットワークを用いたソフトウェア定義ラジオから到着角を学習する

DeepAoANet: Learning Angle of Arrival from Software Defined Radios with Deep Neural Networks ( http://arxiv.org/abs/2112.00695v1 )

ライセンス: Link先を確認
Zhuangzhuang Dai, Yuhang He, Tran Vu and Niki Trigoni and Andrew Markham(参考訳) RF信号に基づく方向検出・位置決めシステムは,特に屋内環境において多経路伝搬の影響が大きい。 既存のアルゴリズム(例えばMUSIC)は、マルチパスや弱い信号系で動作している場合、AoA(Angle of Arrival)の解決にはあまり役に立たない。 デジタルサンプリングされたRFフロントエンドは、信号とその遅延成分の簡易解析を可能にする。 低コストのSoftware-Defined Radio (SDR)モジュールは、チャネル状態情報(CSI)を広い範囲にわたって抽出し、拡張されたアングル・オブ・アーリバル(AoA)ソリューションの設計を動機付ける。 本稿では,SDRマルチチャネルデータの単一スナップショットからAoAを抽出するディープラーニング手法を提案する。 深層学習に基づく角度分類と回帰モデルを比較し,最大2つのAoAsを正確に推定する。 我々は,AoAsをリアルタイムで抽出するために,異なるプラットフォーム上で推論エンジンを実装し,その計算的トラクタビリティを実証した。 提案手法の有用性を実証するために,LOSおよびNLOS環境における4要素ユニバーサルリニアアレイ(ULA)からIQ(In-phase and Quadrature components)サンプルを収集し,そのデータセットを公開した。 提案手法は衝突信号数の決定に優れた信頼性を示し,平均絶対AoA誤差が2^{\circ}$未満であることを示す。

Direction finding and positioning systems based on RF signals are significantly impacted by multipath propagation, particularly in indoor environments. Existing algorithms (e.g MUSIC) perform poorly in resolving Angle of Arrival (AoA) in the presence of multipath or when operating in a weak signal regime. We note that digitally sampled RF frontends allow for the easy analysis of signals, and their delayed components. Low-cost Software-Defined Radio (SDR) modules enable Channel State Information (CSI) extraction across a wide spectrum, motivating the design of an enhanced Angle-of-Arrival (AoA) solution. We propose a Deep Learning approach to deriving AoA from a single snapshot of the SDR multichannel data. We compare and contrast deep-learning based angle classification and regression models, to estimate up to two AoAs accurately. We have implemented the inference engines on different platforms to extract AoAs in real-time, demonstrating the computational tractability of our approach. To demonstrate the utility of our approach we have collected IQ (In-phase and Quadrature components) samples from a four-element Universal Linear Array (ULA) in various Light-of-Sight (LOS) and Non-Line-of-Sight (NLOS) environments, and published the dataset. Our proposed method demonstrates excellent reliability in determining number of impinging signals and realized mean absolute AoA errors less than $2^{\circ}$.
翻訳日:2021-12-02 15:56:28 公開日:2021-12-01
# 無限ニューラルネットワーク量子状態

Infinite Neural Network Quantum States ( http://arxiv.org/abs/2112.00723v1 )

ライセンス: Link先を確認
Di Luo and James Halverson(参考訳) 我々は,アンサンブル統計を通じて表現力を示すニューラルネットワーク量子状態の無限限界(約$-nnqs)と,扱いやすい勾配降下ダイナミクスについて検討する。 Renyiエントロピーのアンサンブル平均はニューラルネットワークのコレレーターで表現され、ボリューム・ローの絡み合いを示すアーキテクチャが提示される。 ニューラルネットワーク量子状態の勾配降下ダイナミクス(nnqs)を量子状態神経接核(qs-ntk)を用いて研究するための汎用フレームワークを開発した。 QS-NTK は決定論的かつ定数となるので、$\infty$-NNQS のトレーニングダイナミクスは単純化される。 解析解は量子状態教師付き学習のために導出され、$\infty$-NNQSは任意のターゲット波動関数を回復することができる。 横場イジングモデルとフェルミ・ハバードモデルにおける有限および無限NNQSに関する数値実験は理論との良好な一致を示す。 高い$-nnqsは、基底状態の発見など、他の物理学応用における絡み合いやトレーニングダイナミクスを研究する新しい機会を開く。

We study infinite limits of neural network quantum states ($\infty$-NNQS), which exhibit representation power through ensemble statistics, and also tractable gradient descent dynamics. Ensemble averages of Renyi entropies are expressed in terms of neural network correlators, and architectures that exhibit volume-law entanglement are presented. A general framework is developed for studying the gradient descent dynamics of neural network quantum states (NNQS), using a quantum state neural tangent kernel (QS-NTK). For $\infty$-NNQS the training dynamics is simplified, since the QS-NTK becomes deterministic and constant. An analytic solution is derived for quantum state supervised learning, which allows an $\infty$-NNQS to recover any target wavefunction. Numerical experiments on finite and infinite NNQS in the transverse field Ising model and Fermi Hubbard model demonstrate excellent agreement with theory. $\infty$-NNQS opens up new opportunities for studying entanglement and training dynamics in other physics applications, such as in finding ground states.
翻訳日:2021-12-02 15:55:58 公開日:2021-12-01
# 格子QCDにおける機械学習ハドロンスペクトル関数

Machine learning Hadron Spectral Functions in Lattice QCD ( http://arxiv.org/abs/2112.00460v1 )

ライセンス: Link先を確認
Shi-Yang Chen, Heng-Tong Ding, Fei-Yi Liu, Gabor Papp and Chun-Bin Yang(参考訳) ハドロンスペクトル関数はハドロンの全ての情報を持ち、ユークリッド二点相関関数に符号化される。 相関子からのハドロンスペクトル関数の抽出は典型的な逆問題であり、この問題に対する無限の解が存在する。 本稿では,変分オートエンコーダ(VAE)とベイズ定理に基づく新しいニューラルネットワーク(sVAE)を提案する。 最大エントロピー法 (maximum entropy method, mem) に触発されて, シャノン・ジェインズエントロピー項と確率項を含むように, 神経活動の損失関数を構築する。 sVAEは最も可能性の高いスペクトル関数を提供するように訓練される。 スペクトル関数のトレーニングサンプルには、ガウス混合モデルから生成された一般スペクトル関数を用いた。 トレーニング終了後,入力スペクトル関数を用いたモックデータテストを行った。 1) フリー連続体のみ。 2)共鳴ピークのみ。 3)共鳴ピーク+自由連続体、及び 4) NRQCDを動機とするスペクトル関数。 モックデータテストの結果,スペクトル関数の再構成品質においてsvaeは最大エントロピー法に匹敵するものがほとんどであり,スペクトル関数のピークが鋭く,コリレータ内のデータ点数が不十分である場合にはmemよりも優れていた。 By applying to temporal correlation functions of charmonium in the pseudoscalar channel obtained in the quenched lattice QCD at 0.75 $T_c$ on $128^3\times96$ lattices and $1.5$ $T_c$ on $128^3\times48$ lattices, we find that the resonance peak of $\eta_c$ extracted from both the sVAE and MEM has a substantial dependence on the number of points in the temporal direction ($N_\tau$) adopted in the lattice simulation and $N_\tau$ larger than 48 is needed to resolve the fate of $\eta_c$ at 1.5 $T_c$.

Hadron spectral functions carry all the information of hadrons and are encoded in the Euclidean two-point correlation functions. The extraction of hadron spectral functions from the correlator is a typical ill-posed inverse problem and infinite number of solutions to this problem exists. We propose a novel neural network (sVAE) based on the Variation Auto-Encoder (VAE) and Bayesian theorem. Inspired by the maximum entropy method (MEM) we construct the loss function of the neural work such that it includes a Shannon-Jaynes entropy term and a likelihood term. The sVAE is then trained to provide the most probable spectral functions. For the training samples of spectral function we used general spectral functions produced from the Gaussian Mixture Model. After the training is done we performed the mock data tests with input spectral functions consisting 1) only a free continuum, 2) only a resonance peak, 3) a resonance peak plus a free continuum and 4) a NRQCD motivated spectral function. From the mock data test we find that the sVAE in most cases is comparable to the maximum entropy method in the quality of reconstructing spectral functions and even outperforms the MEM in the case where the spectral function has sharp peaks with insufficient number of data points in the correlator. By applying to temporal correlation functions of charmonium in the pseudoscalar channel obtained in the quenched lattice QCD at 0.75 $T_c$ on $128^3\times96$ lattices and $1.5$ $T_c$ on $128^3\times48$ lattices, we find that the resonance peak of $\eta_c$ extracted from both the sVAE and MEM has a substantial dependence on the number of points in the temporal direction ($N_\tau$) adopted in the lattice simulation and $N_\tau$ larger than 48 is needed to resolve the fate of $\eta_c$ at 1.5 $T_c$.
翻訳日:2021-12-02 15:55:40 公開日:2021-12-01
# (参考訳) neural emotion director: "in-the-wild"ビデオにおける表情の音声保存意味制御

Neural Emotion Director: Speech-preserving semantic control of facial expressions in "in-the-wild" videos ( http://arxiv.org/abs/2112.00585v1 )

ライセンス: CC BY 4.0
Foivos Paraperas Papantoniou, Panagiotis P. Filntisis, Petros Maragos, Anastasios Roussos(参考訳) 本稿では,映画「イン・ザ・ワイルド」ビデオにおいて,俳優の感情状態のフォトリアリスティックな操作を行うための深層学習手法を提案する。 提案手法は,頭部のポーズや表情から顔のアイデンティティを確実に切り離すことのできる,入力シーンにおけるアクターのパラメトリックな3次元顔表現に基づく。 次に、新しいディープドメイン翻訳フレームワークを使用し、顔の表情を一貫した、そして妥当な方法で変更し、そのダイナミクスを考慮に入れます。 最後に、変化した表情を用いて、特に設計されたニューラルフェイスレンダラーに基づいて、入力シーンの顔領域をフォトリアリスティックに操作する。 本手法は, 操作された感情の意味的ラベルを単独で入力するだけでなく, 発話に関連した唇運動を保ちながら, 俳優の表情を制御できる最初の手法である。 我々は、我々のアプローチの有効性と得られた特に有望な結果を示す、広範囲な質的、定量的な評価と比較を行う。 本手法は,映画ポストプロダクションやビデオゲーム,フォトリアリスティックな情緒的アバターなど,ニューラルレンダリング技術の有用な応用への新たな可能性を開く。

In this paper, we introduce a novel deep learning method for photo-realistic manipulation of the emotional state of actors in "in-the-wild" videos. The proposed method is based on a parametric 3D face representation of the actor in the input scene that offers a reliable disentanglement of the facial identity from the head pose and facial expressions. It then uses a novel deep domain translation framework that alters the facial expressions in a consistent and plausible manner, taking into account their dynamics. Finally, the altered facial expressions are used to photo-realistically manipulate the facial region in the input scene based on an especially-designed neural face renderer. To the best of our knowledge, our method is the first to be capable of controlling the actor's facial expressions by even using as a sole input the semantic labels of the manipulated emotions, while at the same time preserving the speech-related lip movements. We conduct extensive qualitative and quantitative evaluations and comparisons, which demonstrate the effectiveness of our approach and the especially promising results that we obtain. Our method opens a plethora of new possibilities for useful applications of neural rendering technologies, ranging from movie post-production and video games to photo-realistic affective avatars.
翻訳日:2021-12-02 15:53:57 公開日:2021-12-01
# カテゴリーデータの次元性低減

Dimensionality Reduction for Categorical Data ( http://arxiv.org/abs/2112.00362v1 )

ライセンス: Link先を確認
Debajyoti Bera, Rameshwar Pratap, Bhisham Dev Verma(参考訳) カテゴリ属性は、例えば色など、個々の値の集合を取ることができる属性である。 この研究は、分類属性上のベクトルを低次元離散ベクトルに圧縮することである。 現在のハッシュベースの方法では、分類的属性よりも低次元離散ベクトルにベクトルを圧縮しても、圧縮された表現間のハミング距離の保証は得られない。 ここでは, fsketch を用いて, スパース分類データのためのスケッチを作成し, そのスケッチからのみ非圧縮データ間の対方向のハミング距離を推定する推定器を提案する。 これらのスケッチは、元のデータの代わりに通常のデータマイニングタスクで、タスクの品質を損なうことなく使用できると主張している。 そのため、スケッチもカテゴリー的であり、スパースであり、ハミング距離の推定が合理的に正確であることを保証する。 スケッチ構成とハミング距離推定アルゴリズムの両方が単一のパスを必要とするだけでなく、データポイントへの変更を効率的にスケッチに組み込むことができる。 圧縮性は、データがいかにスパースで、元の次元に依存しているかによって異なります。 我々の主張はFSketchの特性の厳密な理論的分析によって裏付けられ、いくつかの実世界のデータセットにおける関連するアルゴリズムとの広範な比較評価によって補完される。 FSketch はより高速であり,そのスケッチを用いて得られる精度は,RMSE やクラスタリング,類似性検索といった標準的な教師なしタスクの上位に位置する。

Categorical attributes are those that can take a discrete set of values, e.g., colours. This work is about compressing vectors over categorical attributes to low-dimension discrete vectors. The current hash-based methods compressing vectors over categorical attributes to low-dimension discrete vectors do not provide any guarantee on the Hamming distances between the compressed representations. Here we present FSketch to create sketches for sparse categorical data and an estimator to estimate the pairwise Hamming distances among the uncompressed data only from their sketches. We claim that these sketches can be used in the usual data mining tasks in place of the original data without compromising the quality of the task. For that, we ensure that the sketches also are categorical, sparse, and the Hamming distance estimates are reasonably precise. Both the sketch construction and the Hamming distance estimation algorithms require just a single-pass; furthermore, changes to a data point can be incorporated into its sketch in an efficient manner. The compressibility depends upon how sparse the data is and is independent of the original dimension -- making our algorithm attractive for many real-life scenarios. Our claims are backed by rigorous theoretical analysis of the properties of FSketch and supplemented by extensive comparative evaluations with related algorithms on some real-world datasets. We show that FSketch is significantly faster, and the accuracy obtained by using its sketches are among the top for the standard unsupervised tasks of RMSE, clustering and similarity search.
翻訳日:2021-12-02 15:31:32 公開日:2021-12-01
# 映画成功予測のための各種統計手法に関する総合的研究

A Comprehensive Study on Various Statistical Techniques for Prediction of Movie Success ( http://arxiv.org/abs/2112.00395v1 )

ライセンス: Link先を確認
Manav Agarwal, Shreya Venugopal, Rishab Kashyap, R Bharathi(参考訳) 映画産業は最も人気のあるエンターテイメント産業の1つであり、ビジネスの最大の市場の一つである。 この作品に寄与する要因の1つは、映画の人気と興行収入の面での成功である。 そこで我々は,映画の成功率を予測するために,さまざまな機械学習モデル間の包括的な比較を作成する。 これらのモデルの有効性と統計学的意義について検討し,どのモデルが最適予測因子であるかを考察した。 映画の成功に影響を及ぼす要因に関するいくつかの洞察も見いだされている。 研究されたモデルには、回帰モデル、機械学習モデル、時系列モデル、ニューラルネットワークが含まれており、ニューラルネットワークは、約86%の精度で最高のパフォーマンスモデルである。 さらに、2020年に公開された映画のテストデータも分析されている。

The film industry is one of the most popular entertainment industries and one of the biggest markets for business. Among the contributing factors to this would be the success of a movie in terms of its popularity as well as its box office performance. Hence, we create a comprehensive comparison between the various machine learning models to predict the rate of success of a movie. The effectiveness of these models along with their statistical significance is studied to conclude which of these models is the best predictor. Some insights regarding factors that affect the success of the movies are also found. The models studied include some Regression models, Machine Learning models, a Time Series model and a Neural Network with the Neural Network being the best performing model with an accuracy of about 86%. Additionally, as part of the testing data for the movies released in 2020 are analysed.
翻訳日:2021-12-02 15:31:11 公開日:2021-12-01
# Meta Arcade: メタ学習のための構成可能な環境スイート

Meta Arcade: A Configurable Environment Suite for Meta-Learning ( http://arxiv.org/abs/2112.00583v1 )

ライセンス: Link先を確認
Edward W. Staley, Chace Ashcraft, Benjamin Stoler, Jared Markowitz, Gautam Vallabha, Christopher Ratto, Kapil D. Katyal(参考訳) 深層強化学習(DRL)へのほとんどのアプローチは、一度に1つのタスクを解決しようとする。 その結果、既存の研究ベンチマークのほとんどは、共通のインターフェースを持つ個々のゲームまたはゲームスイートで構成され、知覚的特徴、目的、報酬構造にほとんど重複しない。 訓練されたエージェント(例えばマルチタスクやメタラーニング)間の知識伝達の研究を容易にするためには、構成可能なタスクを集合的に研究するのに十分な共通性を備えた環境スイートが必要である。 本稿では,共通の視覚,状態空間,アクションスペース,ゲームコンポーネント,スコアリング機構を共有するカスタム2dアーケードゲームを定義し,構成するツールであるmeta arcadeを提案する。 meta arcadeは、タスクの共通性と構成可能性の両方が優先されるという点で、以前の環境と異なる。 このフレームワークの可能性を総合的に説明し、研究アプリケーション向けにこれらのゲームをどのように構成できるかを議論する24の事前定義されたゲームスイートを含む。 本稿では,事前に定義されたゲームのシングルタスクベンチマーク,ゲームパラメータをセットスケジュールで変更するカリキュラムベースのアプローチ,ゲーム間の移動学習の探索など,Meta Arcadeの活用方法を示す実験をいくつか提供する。

Most approaches to deep reinforcement learning (DRL) attempt to solve a single task at a time. As a result, most existing research benchmarks consist of individual games or suites of games that have common interfaces but little overlap in their perceptual features, objectives, or reward structures. To facilitate research into knowledge transfer among trained agents (e.g. via multi-task and meta-learning), more environment suites that provide configurable tasks with enough commonality to be studied collectively are needed. In this paper we present Meta Arcade, a tool to easily define and configure custom 2D arcade games that share common visuals, state spaces, action spaces, game components, and scoring mechanisms. Meta Arcade differs from prior environments in that both task commonality and configurability are prioritized: entire sets of games can be constructed from common elements, and these elements are adjustable through exposed parameters. We include a suite of 24 predefined games that collectively illustrate the possibilities of this framework and discuss how these games can be configured for research applications. We provide several experiments that illustrate how Meta Arcade could be used, including single-task benchmarks of predefined games, sample curriculum-based approaches that change game parameters over a set schedule, and an exploration of transfer learning between games.
翻訳日:2021-12-02 15:31:00 公開日:2021-12-01
# 未来的自律実験に向けて-サプライズ・シークエンシャル実験政策

Towards Futuristic Autonomous Experimentation--A Surprise-Reacting Sequential Experiment Policy ( http://arxiv.org/abs/2112.00600v1 )

ライセンス: Link先を確認
Imtiaz Ahmed and Satish Bukkapatnam and Bhaskar Botcha and Yu Ding(参考訳) 製造における自律的な実験プラットフォームは、先進材料の適切な製造条件を自身で見つけることや、最小限の人間の介入で新しい材料を発見することの連続的な探索を行うことができると考えられている。 このようなプラットフォームのインテリジェントな制御の核心は、シーケンシャルな実験を指示する政策、すなわち、これまで何をしてきたかに基づいて次の実験の実施場所を決定する政策である。 このような政策は必然的に搾取と探索をトレードオフし、現在の慣行は期待された改善基準またはその変種を用いたベイズ最適化の枠組みの下に置かれている。 我々は,過去の観測と関連する要素と驚きの程度を測定することで,搾取と探査のトレードオフが有用かどうかを議論する。 シャノン・サプライズ(shannon surprise)とベイズ・サプライズ(baiesian surprise)という2つの既存のサプライズ指標を使用してサプライズ・リアクション・ポリシーを考案する。 我々の分析によると、サプライズ反応ポリシーは、応答面やリソース制約下での設計箇所の全体像を素早く特徴づけるのに適しているようだ。 未来的な自律的な実験プラットフォームには、このような能力が大いに必要だと主張する。 私たちは完全に自律的な実験プラットフォームを持っているとは主張していませんが、現在の取り組みが新たな光を放ち、研究者が様々な原始的な自律的な実験システムの自律性を高めるために競っているため、異なる視点を提供すると信じています。

An autonomous experimentation platform in manufacturing is supposedly capable of conducting a sequential search for finding suitable manufacturing conditions for advanced materials by itself or even for discovering new materials with minimal human intervention. The core of the intelligent control of such platforms is the policy directing sequential experiments, namely, to decide where to conduct the next experiment based on what has been done thus far. Such policy inevitably trades off exploitation versus exploration and the current practice is under the Bayesian optimization framework using the expected improvement criterion or its variants. We discuss whether it is beneficial to trade off exploitation versus exploration by measuring the element and degree of surprise associated with the immediate past observation. We devise a surprise-reacting policy using two existing surprise metrics, known as the Shannon surprise and Bayesian surprise. Our analysis shows that the surprise-reacting policy appears to be better suited for quickly characterizing the overall landscape of a response surface or a design place under resource constraints. We argue that such capability is much needed for futuristic autonomous experimentation platforms. We do not claim that we have a fully autonomous experimentation platform, but believe that our current effort sheds new lights or provides a different view angle as researchers are racing to elevate the autonomy of various primitive autonomous experimentation systems.
翻訳日:2021-12-02 15:30:36 公開日:2021-12-01
# コンドルチェット原理による閉度中心性

Closeness Centrality via the Condorcet Principle ( http://arxiv.org/abs/2112.00494v1 )

ライセンス: Link先を確認
Oskar Skibski(参考訳) 閉性中心性とコンドルチェット原理の新たな関係を明らかにする。 グラフでCondorcetの勝者を、他のどのノードよりも多くのノードに近いノードとして定義する。 言い換えれば、ノードが近い候補に投票すると、コンドルチェットの勝者は複数の投票で他のノードに対して2候補の選挙に勝つことになる。 閉度中心度とそのランダムウォーク版であるランダムウォーク閉度中心度は、コンドルセットが木に一貫した唯一の古典的中央度尺度である。 それらは一般グラフで整合性はないが、閉度中心性は隣接する2つのノードのうち、より多くのノードが好むものは高い中心性を持つというコンドルチェット比較特性を満たすことを示す。 閉度中心性はそのような性質を持つ唯一の正規距離ベース中心性であることを示す。

We uncover a new relation between Closeness centrality and the Condorcet principle. We define a Condorcet winner in a graph as a node that compared to any other node is closer to more nodes. In other words, if we assume that nodes vote on a closer candidate, a Condorcet winner would win a two-candidate election against any other node in a plurality vote. We show that Closeness centrality and its random-walk version, Random-Walk Closeness centrality, are the only classic centrality measures that are Condorcet consistent on trees, i.e., if a Condorcet winner exists, they rank it first. While they are not Condorcet consistent in general graphs, we show that Closeness centrality satisfies the Condorcet Comparison property that states that out of two adjacent nodes, the one preferred by more nodes has higher centrality. We show that Closeness centrality is the only regular distance-based centrality with such a property.
翻訳日:2021-12-02 15:29:25 公開日:2021-12-01
# 判断集約としての集団離散最適化

Collective discrete optimisation as judgment aggregation ( http://arxiv.org/abs/2112.00574v1 )

ライセンス: Link先を確認
Linus Boes and Rachael Colley and Umberto Grandi and Jerome Lang and Arianna Novaro(参考訳) 多くの重要な集団決定問題は、離散最適化問題のマルチエージェント版と見なすことができる。 参加型予算設定は、例えば、クナプサック問題の集合バージョンであり、その他の例として、集合的スケジューリングや集合的散在木がある。 これらの各問題に対して,特定のモデルやアルゴリズム手法を開発するのではなく,重み付き問題を伴う判断集約の統一的な枠組みでそれらを表現し,解決することを提案する。 我々は,集合的離散最適化(cdo)ルールのモジュラー定義を,集合スコアリング関数と演算子の結合に基づいて提供し,特定のcdo問題に対して開発された既存の手順を一般化する方法を示す。 また,整数線形計画法 (ilp) に基づく実装を提案し,集合的スパンディングツリーの問題について検証する。

Many important collective decision-making problems can be seen as multi-agent versions of discrete optimisation problems. Participatory budgeting, for instance, is the collective version of the knapsack problem; other examples include collective scheduling, and collective spanning trees. Rather than developing a specific model, as well as specific algorithmic techniques, for each of these problems, we propose to represent and solve them in the unifying framework of judgment aggregation with weighted issues. We provide a modular definition of collective discrete optimisation (CDO) rules based on coupling a set scoring function with an operator, and we show how they generalise several existing procedures developed for specific CDO problems. We also give an implementation based on integer linear programming (ILP) and test it on the problem of collective spanning trees.
翻訳日:2021-12-02 15:29:08 公開日:2021-12-01
# オンライン実践学習のためのデジタルツイニング遠隔研究室

Digital Twinning Remote Laboratories for Online Practical Learning ( http://arxiv.org/abs/2112.00649v1 )

ライセンス: Link先を確認
Claire Palmer, Ben Roullier, Mohammed Aamir, Frank McQuade, Leonardo Stella and Ashiq Anjum(参考訳) COVID19パンデミックは、バーチャルリアリティ(VR)やタブレットベースのソリューションのような、リモート学習と仮想学習アプリケーションの必要性を示している。 開発者による複雑な学習シナリオの作成には非常に時間がかかり、1年以上かかります。 また、システムアナリスト、開発者、そして3dアーティストのチームを採用するのもコストがかかる。 講師が研究室のチュートリアルのために独自のコンテンツを作成するための簡単な方法を提供する必要がある。 研究室のリソースと実用的なインタラクションを必要とする被験者向けのバーチャル学習ツールの半自動作成を可能にする汎用モデルの開発が研究されている。 デジタル双生児を作成するシステムに加えて、電気実験室チュートリアルのための仮想学習アプリケーションの作成を記述したケーススタディも紹介した。

The COVID19 pandemic has demonstrated a need for remote learning and virtual learning applications such as virtual reality (VR) and tablet-based solutions. Creating complex learning scenarios by developers is highly time-consuming and can take over a year. It is also costly to employ teams of system analysts, developers and 3D artists. There is a requirement to provide a simple method to enable lecturers to create their own content for their laboratory tutorials. Research has been undertaken into developing generic models to enable the semi-automatic creation of a virtual learning tools for subjects that require practical interactions with the lab resources. In addition to the system for creating digital twins, a case study describing the creation of a virtual learning application for an electrical laboratory tutorial has been presented.
翻訳日:2021-12-02 15:27:58 公開日:2021-12-01
# 近視のゴール選択で、長い水平な操作が可能に

Wish you were here: Hindsight Goal Selection for long-horizon dexterous manipulation ( http://arxiv.org/abs/2112.00597v1 )

ライセンス: Link先を確認
Todor Davchev, Oleg Sushkov, Jean-Baptiste Regli, Stefan Schaal, Yusuf Aytar, Markus Wulfmeier, Jon Scholz(参考訳) 連続制御設定における複雑なシーケンシャルタスクは、エージェントが状態空間内の「狭い通路」のセットをうまく通過させる必要があることが多い。 このような課題をサンプル効率のよい方法でスパース報酬で解決することは、問題の長期的性質と学習中に十分な正のシグナルが欠如していることから、現代の強化学習(RL)への挑戦となる。 この課題に対処するために様々なツールが適用されている。 利用可能な場合、大規模なデモセットはエージェント探索をガイドすることができる。 一方、後ろ向きのラベリングは追加の情報源を必要としない。 しかし、既存の戦略はタスクに依存しない目標分布に基づいて探索する。 本研究は,タスク固有の分布に沿って探索をガイドするための後視リラベリング機構を拡張し,少数の実演を成功させた。 提案手法は,4つの複雑な単腕と双腕のロボット操作タスクを,適切なベースラインに対して評価する。 この方法は全てのタスクを解決するためにはるかに少ないデモンストレーションを必要とし、タスクの複雑さが増すにつれて全体的なパフォーマンスが大幅に向上する。 最後に,提案する解のロバスト性について,入力表現の質と実演数について検討する。

Complex sequential tasks in continuous-control settings often require agents to successfully traverse a set of "narrow passages" in their state space. Solving such tasks with a sparse reward in a sample-efficient manner poses a challenge to modern reinforcement learning (RL) due to the associated long-horizon nature of the problem and the lack of sufficient positive signal during learning. Various tools have been applied to address this challenge. When available, large sets of demonstrations can guide agent exploration. Hindsight relabelling on the other hand does not require additional sources of information. However, existing strategies explore based on task-agnostic goal distributions, which can render the solution of long-horizon tasks impractical. In this work, we extend hindsight relabelling mechanisms to guide exploration along task-specific distributions implied by a small set of successful demonstrations. We evaluate the approach on four complex, single and dual arm, robotics manipulation tasks against strong suitable baselines. The method requires far fewer demonstrations to solve all tasks and achieves a significantly higher overall performance as task complexity increases. Finally, we investigate the robustness of the proposed solution with respect to the quality of input representations and the number of demonstrations.
翻訳日:2021-12-02 15:27:45 公開日:2021-12-01
# 分子、液体、固体の高速電子密度推定のためのグラフニューラルネットワーク

Graph neural networks for fast electron density estimation of molecules, liquids, and solids ( http://arxiv.org/abs/2112.00652v1 )

ライセンス: Link先を確認
Peter Bj{\o}rn J{\o}rgensen and Arghya Bhowmik(参考訳) 電子密度$\rho(\vec{r})$は密度汎関数理論(DFT)による基底状態エネルギーの計算の基本的な変数である。 総エネルギーを超えて、$\rho(\vec{r})$の分布と$\rho(\vec{r})$の修正は、電子規模で機能材料や分子における重要な物理化学的現象を捉えるためにしばしば用いられる。 計算コストの少ない複素乱数系の$\rho(\vec{r})$へのアクセスを提供する方法は、より機能的な新しい材料の逆設計に向けた物質相空間の迅速な探索におけるゲームチェンジャーとなる。 本稿では,$\rho(\vec{r})$を予測するための機械学習フレームワークを提案する。 このモデルは同変グラフニューラルネットワークに基づいており、電子密度はメッセージパッシンググラフの一部であるがメッセージのみを受信する特殊なクエリポイント頂点で予測される。 このモデルは、複数の分子(QM9)、液体エチレン炭酸塩電解質(EC)、LixNiyMnzCo(1-y-z)O2リチウムイオン電池陰極(NMC)で試験される。 QM9分子の場合、提案モデルの精度は、異なる交換相関関数で達成されたDFTから得られる$\rho(\vec{r})$の典型的な変動性を超え、芸術的精度を超えることを示す。 この精度は、混合酸化物(NMC)と電解質(EC)のデータセットよりも優れている。 何千もの点を同時に探索する線形スケーリングモデルの能力は、大きな複雑系に対して$\rho(\vec{r})$の計算を可能にし、DFTよりも桁違いに高速である。

Electron density $\rho(\vec{r})$ is the fundamental variable in the calculation of ground state energy with density functional theory (DFT). Beyond total energy, features in $\rho(\vec{r})$ distribution and modifications in $\rho(\vec{r})$ are often used to capture critical physicochemical phenomena in functional materials and molecules at the electronic scale. Methods providing access to $\rho(\vec{r})$ of complex disordered systems with little computational cost can be a game changer in the expedited exploration of materials phase space towards the inverse design of new materials with better functionalities. We present a machine learning framework for the prediction of $\rho(\vec{r})$. The model is based on equivariant graph neural networks and the electron density is predicted at special query point vertices that are part of the message passing graph, but only receive messages. The model is tested across multiple data sets of molecules (QM9), liquid ethylene carbonate electrolyte (EC) and LixNiyMnzCo(1-y-z)O2 lithium ion battery cathodes (NMC). For QM9 molecules, the accuracy of the proposed model exceeds typical variability in $\rho(\vec{r})$ obtained from DFT done with different exchange-correlation functional and show beyond the state of the art accuracy. The accuracy is even better for the mixed oxide (NMC) and electrolyte (EC) datasets. The linear scaling model's capacity to probe thousands of points simultaneously permits calculation of $\rho(\vec{r})$ for large complex systems many orders of magnitude faster than DFT allowing screening of disordered functional materials.
翻訳日:2021-12-02 15:27:25 公開日:2021-12-01
# adaafford: 少数ショットインタラクションによる3次元関節オブジェクトの操作能力適応のための学習

AdaAfford: Learning to Adapt Manipulation Affordance for 3D Articulated Objects via Few-shot Interactions ( http://arxiv.org/abs/2112.00246v1 )

ライセンス: Link先を確認
Yian Wang, Ruihai Wu, Kaichun Mo, Jiaqi Ke, Qingnan Fan, Leonidas Guibas, Hao Dong(参考訳) キャビネット、ドア、蛇口などの3次元関節オブジェクトを知覚し、相互作用させることは、人間の環境で日々の作業を行うホームアシスタントロボットに特別な課題をもたらす。 関節部分や関節パラメータを解析するだけでなく、最近の研究者は、よりタスクに敏感で幾何学的にきめ細かな入力形状に対する学習操作の余裕を提唱している。 しかし、受動的観察のみを入力とすると、これらの手法は多くの隠れて重要なキネマティックな制約(例えば、関節の位置と限界)と動的要因(例えば、関節摩擦と再構成)を無視して、そのような不確実性のあるテストケースでかなりの精度を失う。 本稿では,adaaffordという新しいフレームワークを提案する。adaaffordは,より正確なインスタンス固有の後方へのアプライアンスを迅速に適用するために,テスト時のインタラクションをほとんど行わないことを学ぶ。 我々はpartnet-mobilityデータセットを用いて大規模実験を行い,本システムはベースラインよりも優れた性能を示す。

Perceiving and interacting with 3D articulated objects, such as cabinets, doors, and faucets, pose particular challenges for future home-assistant robots performing daily tasks in human environments. Besides parsing the articulated parts and joint parameters, researchers recently advocate learning manipulation affordance over the input shape geometry which is more task-aware and geometrically fine-grained. However, taking only passive observations as inputs, these methods ignore many hidden but important kinematic constraints (e.g., joint location and limits) and dynamic factors (e.g., joint friction and restitution), therefore losing significant accuracy for test cases with such uncertainties. In this paper, we propose a novel framework, named AdaAfford, that learns to perform very few test-time interactions for quickly adapting the affordance priors to more accurate instance-specific posteriors. We conduct large-scale experiments using the PartNet-Mobility dataset and prove that our system performs better than baselines.
翻訳日:2021-12-02 15:25:16 公開日:2021-12-01
# FaceTuneGAN:ニューラルネットワークを用いた畳み込み表現変換のための顔オートエンコーダ

FaceTuneGAN: Face Autoencoder for Convolutional Expression Transfer Using Neural Generative Adversarial Networks ( http://arxiv.org/abs/2112.00532v1 )

ライセンス: Link先を確認
Nicolas Olivier, Kelian Baert, Fabien Danieau, Franck Multon, Quentin Avril(参考訳) 本稿では,顔の識別と表情を分離して符号化する新しい3次元顔モデル表現であるFaceTuneGANを提案する。 本稿では,2次元領域で使用されている画像間翻訳ネットワークを3次元顔形状に適応させる手法を提案する。 最近リリースされた大きな顔スキャンデータベースを活用して、ニューラルネットワークは、顔に関するより優れた知識で、変化の要因を分離するように訓練されている。 具体的には, funit の基本アーキテクチャを適応させ, 畳み込みおよびサンプリング操作に spiralnet++ を使用する敵アーキテクチャを設計する。 2つの公開データセット(FaceScapeとCoMA)を使用して、FaceTuneGANは、最先端技術よりも優れたアイデンティティ分解と顔中立化を実現している。 また、原点とターゲットの顔形態の相違が多すぎるため、地中構造データに近づき、望ましくないアーティファクトの少ないブレンドハップを予測することで、古典的な変形伝達手法よりも優れる。

In this paper, we present FaceTuneGAN, a new 3D face model representation decomposing and encoding separately facial identity and facial expression. We propose a first adaptation of image-to-image translation networks, that have successfully been used in the 2D domain, to 3D face geometry. Leveraging recently released large face scan databases, a neural network has been trained to decouple factors of variations with a better knowledge of the face, enabling facial expressions transfer and neutralization of expressive faces. Specifically, we design an adversarial architecture adapting the base architecture of FUNIT and using SpiralNet++ for our convolutional and sampling operations. Using two publicly available datasets (FaceScape and CoMA), FaceTuneGAN has a better identity decomposition and face neutralization than state-of-the-art techniques. It also outperforms classical deformation transfer approach by predicting blendshapes closer to ground-truth data and with less of undesired artifacts due to too different facial morphologies between source and target.
翻訳日:2021-12-02 15:24:56 公開日:2021-12-01
# 幾何学に基づく点雲圧縮のための属性アーティファクト除去

Attribute Artifacts Removal for Geometry-based Point Cloud Compression ( http://arxiv.org/abs/2112.00560v1 )

ライセンス: Link先を確認
Xihua Sheng, Li Li, Dong Liu, Zhiwei Xiong(参考訳) 幾何ベースの点雲圧縮(G-PCC)は点雲に対する顕著な圧縮効率を達成する。 しかしながら、特に低ビットレートシナリオ下では、重大な属性圧縮アーティファクトが発生する。 本稿では,G-PCCで圧縮された点雲属性のアーチファクトを除去するマルチスケールグラフ注意ネットワーク(MS-GAT)を提案する。 まず、ポイントクラウド幾何座標に基づくグラフを構築し、次にchebyshevグラフ畳み込みを使用してポイントクラウド属性の特徴を抽出する。 一つの点が近距離と遠距離の両方の点と相関する可能性があることを考慮し、現在点とその近傍点と遠距離点の間の短距離および長距離の相関を捉えるマルチスケールスキームを提案する。 適応量子化によって生じる様々な点のアーチファクトの度合いが異なる問題に対処するため,提案ネットワークへの追加入力として各点あたりの量子化ステップを導入する。 グラフの注意層をネットワークに組み込んで、より多くの属性アーティファクトを持つポイントに特に注意を払っています。 我々の知る限りでは、これがG-PCCの最初の属性アーチファクト除去方法である。 種々の点雲上での手法の有効性を検証する。 実験の結果,提案手法は平均9.28%のbdレート低減を達成した。 さらに,本手法は,下流クラウドセマンティックセグメンテーションタスクの性能改善を実現している。

Geometry-based point cloud compression (G-PCC) can achieve remarkable compression efficiency for point clouds. However, it still leads to serious attribute compression artifacts, especially under low bitrate scenarios. In this paper, we propose a Multi-Scale Graph Attention Network (MS-GAT) to remove the artifacts of point cloud attributes compressed by G-PCC. We first construct a graph based on point cloud geometry coordinates and then use the Chebyshev graph convolutions to extract features of point cloud attributes. Considering that one point may be correlated with points both near and far away from it, we propose a multi-scale scheme to capture the short and long range correlations between the current point and its neighboring and distant points. To address the problem that various points may have different degrees of artifacts caused by adaptive quantization, we introduce the quantization step per point as an extra input to the proposed network. We also incorporate a graph attentional layer into the network to pay special attention to the points with more attribute artifacts. To the best of our knowledge, this is the first attribute artifacts removal method for G-PCC. We validate the effectiveness of our method over various point clouds. Experimental results show that our proposed method achieves an average of 9.28% BD-rate reduction. In addition, our approach achieves some performance improvements for the downstream point cloud semantic segmentation task.
翻訳日:2021-12-02 15:24:38 公開日:2021-12-01
# 周波数適合度割り当て:良いソリューションのバイアスのない最適化は効率的である

Frequency Fitness Assignment: Optimization without a Bias for Good Solutions can be Efficient ( http://arxiv.org/abs/2112.00229v1 )

ライセンス: Link先を確認
Thomas Weise, Zhize Wu, Xinlu Li, Yan Chen, J\"org L\"assig(参考訳) 適合割り当てプロセスは、候補ソリューションの機能(客観的値など)をスカラー適合性に変換し、それが選択の基盤となる。 周波数適合度割り当て(FFA)では、目標値に対応する適合度はその出現周波数であり、最小化される。 FFAはより良い解に偏りがなく、目的関数値のすべての単射の下で不変なアルゴリズムを生成する。 本稿では,FFAが2つの理論に着想を得た最先端EA,Greedy (2+1) GA,Self-Adjusting (1+lambda,lambda) GAの性能に与える影響について検討する。 FFAは、彼らにとって難しい問題に対して、パフォーマンスを大幅に改善します。 1つのFFAベースのアルゴリズムは、この研究において、トラップ、ジャンプ、プラトーを含む全ての理論ベースのベンチマーク問題を多項式時間で解くことができる。 直接最適化とFFAに基づく最適化を併用した2つのハイブリッド手法を提案する。 すべてのFFAベースのアルゴリズムは、全ての純粋なアルゴリズムの変種よりも満足度の問題に優れる。

A fitness assignment process transforms the features (such as the objective value) of a candidate solution to a scalar fitness, which then is the basis for selection. Under Frequency Fitness Assignment (FFA), the fitness corresponding to an objective value is its encounter frequency and is subject to minimization. FFA creates algorithms that are not biased towards better solutions and are invariant under all bijections of the objective function value. We investigate the impact of FFA on the performance of two theory-inspired, state-of-the-art EAs, the Greedy (2+1) GA and the Self-Adjusting (1+lambda,lambda)) GA. FFA improves their performance significantly on some problems that are hard for them. We empirically find that one FFA-based algorithm can solve all theory-based benchmark problems in this study, including traps, jumps, and plateaus, in polynomial time. We propose two hybrid approaches that use both direct and FFA-based optimization and find that they perform well. All FFA-based algorithms also perform better on satisfiability problems than all pure algorithm variants.
翻訳日:2021-12-02 15:24:17 公開日:2021-12-01
# 非パラメトリックプランナー可逆回帰における逆リスクのミニマックス解析

Minimax Analysis for Inverse Risk in Nonparametric Planer Invertible Regression ( http://arxiv.org/abs/2112.00213v1 )

ライセンス: Link先を確認
Akifumi Okuno, Masaaki Imaizumi(参考訳) 平面上の逆関数を推定するミニマックスリスクについて検討するが、推定器も可逆である。 データから可逆性を学習し、可逆推定器を活用することは、統計学、計量学、機械学習など、多くの領域で使われている。 可逆推定器の整合性と普遍性はよく研究されているが、これらの手法の効率性はまだ開発中である。 本研究では, 2 次元平面上の正方形上の可逆双リプシッツ関数を推定するミニマックスリスクについて検討した。 まず,逆l^2$-riskを導入することで,可逆性を保持する推定器を評価する。 次に、レベル集合を用いた可逆関数の表現を活用し、ミニマックス逆リスクの下位および上位レートを導出する。 上界を得るため、漸近的にほぼ至るところで可逆な推定器を開発し、そのリスクは対数係数まで導出されるミニマックス低いレートとなる。 導出されたミニマックス速度は、他の形状制約と同様に、可逆性がミニマックス率を改善するかどうかの期待を拒絶する非可逆双リプシッツ関数のそれに対応する。

We study a minimax risk of estimating inverse functions on a plane, while keeping an estimator is also invertible. Learning invertibility from data and exploiting the invertible estimator is used in many domains, such as statistics, econometrics, and machine learning. Although the consistency and universality of invertible estimators have been well investigated, the efficiency of these methods is still under development. In this study, we study a minimax risk for estimating invertible bi-Lipschitz functions on a square in a $2$-dimensional plane. We first introduce an inverse $L^2$-risk to evaluate an estimator which preserves invertibility. Then, we derive lower and upper rates for a minimax inverse risk by exploiting a representation of invertible functions using level-sets. To obtain an upper bound, we develop an estimator asymptotically almost everywhere invertible, whose risk attains the derived minimax lower rate up to logarithmic factors. The derived minimax rate corresponds to that of the non-invertible bi-Lipschitz function, which rejects the expectation of whether invertibility improves the minimax rate, similar to other shape constraints.
翻訳日:2021-12-02 15:24:00 公開日:2021-12-01
# (参考訳) 蒸留による1つの画像から1000クラスへの抽出

Extrapolating from a Single Image to a Thousand Classes using Distillation ( http://arxiv.org/abs/2112.00725v1 )

ライセンス: CC BY 4.0
Yuki M. Asano, Aaqib Saeed(参考訳) ニューラルネットワークは1つの画像から視覚の世界について何を学べるのか? 可能な256^(3x224x224)224サイズの四角い画像の空間には、存在する可能性のある物体、シーン、照明条件の多面体は含まれないが、自然画像には強い先行性があるかもしれない。 この仮説を分析するために,教師からの知識蒸留を用いて,単一の画像を用いてニューラルネットワークをスクラッチから学習する枠組みを開発した。 これにより、上記の質問に対する答えは「意外なことに、たくさん」であることがわかった。 定量的には、トップ1の確率はcifar-10/100では94%/74%、imagenetでは59%、音声に拡張すると84%である。 広範な分析では、増強効果、ソースイメージとネットワークアーキテクチャの選択、パンダを見たことのないネットワーク内の「パンダニューロン」の発見などの影響を解消する。 この研究は、1つのイメージを何千ものオブジェクトクラスに外挿し、拡張とイメージの基本的な相互作用に関する新たな研究課題を動機付けるために使用できることを示している。

What can neural networks learn about the visual world from a single image? While it obviously cannot contain the multitudes of possible objects, scenes and lighting conditions that exist - within the space of all possible 256^(3x224x224) 224-sized square images, it might still provide a strong prior for natural images. To analyze this hypothesis, we develop a framework for training neural networks from scratch using a single image by means of knowledge distillation from a supervisedly pretrained teacher. With this, we find that the answer to the above question is: 'surprisingly, a lot'. In quantitative terms, we find top-1 accuracies of 94%/74% on CIFAR-10/100, 59% on ImageNet and, by extending this method to audio, 84% on SpeechCommands. In extensive analyses we disentangle the effect of augmentations, choice of source image and network architectures and also discover "panda neurons" in networks that have never seen a panda. This work shows that one image can be used to extrapolate to thousands of object classes and motivates a renewed research agenda on the fundamental interplay of augmentations and image.
翻訳日:2021-12-02 15:21:18 公開日:2021-12-01
# 弱教師付き物体定位に対する背景アクティベーション抑制

Background Activation Suppression for Weakly Supervised Object Localization ( http://arxiv.org/abs/2112.00580v1 )

ライセンス: Link先を確認
Pingyu Wu, Wei Zhai, Yang Cao(参考訳) weakly supervised object localization (wsol)は、画像レベルのラベルのみを監督として、オブジェクト領域をローカライズすることを目的としている。 近年,FPM(フォアグラウンド予測マップ)を作成した新たなパラダイムが出現し,ローカライゼーションタスクを実現している。 既存のFPMベースの手法では、クロスエントロピー(CE)を用いて前景予測マップを評価し、ジェネレータの学習を指導している。 より効率的な学習を実現するためにアクティベーション値を使うことを議論する。 これは、トレーニングされたネットワークに対して、前景マスクが対象領域の一部だけを覆う場合、CEがゼロに収束するという実験的な観察に基づいている。 アクティベーション値は、マスクがオブジェクト境界に広がるまで増加するが、アクティベーション値を用いてより多くのオブジェクト領域を学習できることを示す。 本稿では,背景活動抑制法(BAS)を提案する。 具体的には、アクティベーションマップ制約モジュール(AMC)は、バックグラウンドのアクティベーション値を抑制することでジェネレータの学習を容易にするように設計されている。 一方、前景領域ガイダンスと領域制約を用いることで、BASは対象領域全体を学ぶことができる。 さらに, 推定段階では, 様々なカテゴリの予測マップを組み合わせることで, 最終的な局所化結果を得る。 大規模な実験により、BASは CUB-200-2011 および ILSVRC データセットのベースライン法よりも顕著で一貫した改善を達成している。

Weakly supervised object localization (WSOL) aims to localize the object region using only image-level labels as supervision. Recently a new paradigm has emerged by generating a foreground prediction map (FPM) to achieve the localization task. Existing FPM-based methods use cross-entropy (CE) to evaluate the foreground prediction map and to guide the learning of generator. We argue for using activation value to achieve more efficient learning. It is based on the experimental observation that, for a trained network, CE converges to zero when the foreground mask covers only part of the object region. While activation value increases until the mask expands to the object boundary, which indicates that more object areas can be learned by using activation value. In this paper, we propose a Background Activation Suppression (BAS) method. Specifically, an Activation Map Constraint module (AMC) is designed to facilitate the learning of generator by suppressing the background activation values. Meanwhile, by using the foreground region guidance and the area constraint, BAS can learn the whole region of the object. Furthermore, in the inference phase, we consider the prediction maps of different categories together to obtain the final localization results. Extensive experiments show that BAS achieves significant and consistent improvement over the baseline methods on the CUB-200-2011 and ILSVRC datasets.
翻訳日:2021-12-02 14:55:43 公開日:2021-12-01
# RGB-D比重検出のためのトランスフォーマーネットワーク

Transformer-based Network for RGB-D Saliency Detection ( http://arxiv.org/abs/2112.00582v1 )

ライセンス: Link先を確認
Yue Wang, Xu Jia, Lu Zhang, Yuke Li, James Elder, Huchuan Lu(参考訳) RGB-Dサリエンシ検出は、RGB画像と深度マップの両方の情報を統合し、課題のある条件下でのサリエント領域の予測を改善する。 RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールでの情報の完全なマイニングとヒューズである。 従来のアプローチでは、ローカル操作によって個別にマルチスケールとマルチモーダルの融合を適用する傾向があり、長距離の依存関係を捉えることができない。 本稿では,この問題に対処するトランスフォーマーネットワークを提案する。 提案アーキテクチャは,トランスフォーマーをベースとした内部モード機能拡張モジュール (TWFEM) とトランスフォーマーをベースとした機能融合モジュール (TFFM) の2つのモジュールから構成される。 TFFMは、複数のスケールと2つのモードを同時に全ての位置から統合することで、十分な特徴融合を行う。 TWFEMは、TFFM前と同じモードで、他のスケールから補完情報を選択し、統合することによって、各スケールの機能を強化する。 トランスフォーマは,機能融合と機能拡張の両方において大きな効果を示し,モデル設計を単純化する一様操作であることを示す。 6つのベンチマークデータセットの広範な実験結果から,提案ネットワークは最先端のrgb-dサリエンシー検出手法に対して好適に機能することが示された。

RGB-D saliency detection integrates information from both RGB images and depth maps to improve prediction of salient regions under challenging conditions. The key to RGB-D saliency detection is to fully mine and fuse information at multiple scales across the two modalities. Previous approaches tend to apply the multi-scale and multi-modal fusion separately via local operations, which fails to capture long-range dependencies. Here we propose a transformer-based network to address this issue. Our proposed architecture is composed of two modules: a transformer-based within-modality feature enhancement module (TWFEM) and a transformer-based feature fusion module (TFFM). TFFM conducts a sufficient feature fusion by integrating features from multiple scales and two modalities over all positions simultaneously. TWFEM enhances feature on each scale by selecting and integrating complementary information from other scales within the same modality before TFFM. We show that transformer is a uniform operation which presents great efficacy in both feature fusion and feature enhancement, and simplifies the model design. Extensive experimental results on six benchmark datasets demonstrate that our proposed network performs favorably against state-of-the-art RGB-D saliency detection methods.
翻訳日:2021-12-02 14:55:19 公開日:2021-12-01
# DeepSportLab: チームスポーツシーンにおけるボール検出,プレーヤインスタンスのセグメンテーション,ポス推定のための統一フレームワーク

DeepSportLab: a Unified Framework for Ball Detection, Player Instance Segmentation and Pose Estimation in Team Sports Scenes ( http://arxiv.org/abs/2112.00627v1 )

ライセンス: Link先を確認
Seyed Abolfazl Ghasemzadeh, Gabriel Van Zandycke, Maxime Istasse, Niels Sayez, Amirafshar Moshtaghpour, Christophe De Vleeschouwer(参考訳) 本稿では,統一的な枠組みを提案する。 (i)ボールの位置を定める。 (ii)ポーズを予測し、 (iii)チームスポーツシーンの選手のインスタンスマスクをセグメンテーションする。 これらの問題は、自動スポーツ分析、生産、放送に高い関心を寄せている。 一般的なプラクティスは、プレイヤーセグメンテーションに普遍的な最先端モデルである \eg, Panoptic-DeepLab を活用することで、個々の問題を解決することである。 シングルタスクモデルの乗算による複雑さの増加に加えて、オフ・ザ・シェルフモデルの使用は、強いオクルージョンや動きのぼやきといったチームのスポーツシーンの複雑さと特異性によってパフォーマンスを阻害している。 これらの制約を回避するために,ボールとプレーヤマスクを同時に予測し,部分強度場と空間埋め込み原理を組み合わせることでポーズを呈する単一モデルのトレーニングを提案する。 部分強度フィールドは、ボールとプレーヤーの位置、およびプレーヤーの関節の位置を提供する。 空間埋め込みはプレイヤーのインスタンスピクセルをそれぞれのプレイヤーセンターに関連付けるだけでなく、プレイヤージョイントをスケルトンにグループ化する。 提案モデルの有効性をDeepSportのバスケットボールデータセット上で実証し,各タスクを個別に扱うSoAモデルに匹敵する性能を実現する。

This paper presents a unified framework to (i) locate the ball, (ii) predict the pose, and (iii) segment the instance mask of players in team sports scenes. Those problems are of high interest in automated sports analytics, production, and broadcast. A common practice is to individually solve each problem by exploiting universal state-of-the-art models, \eg, Panoptic-DeepLab for player segmentation. In addition to the increased complexity resulting from the multiplication of single-task models, the use of the off-the-shelf models also impedes the performance due to the complexity and specificity of the team sports scenes, such as strong occlusion and motion blur. To circumvent those limitations, our paper proposes to train a single model that simultaneously predicts the ball and the player mask and pose by combining the part intensity fields and the spatial embeddings principles. Part intensity fields provide the ball and player location, as well as player joints location. Spatial embeddings are then exploited to associate player instance pixels to their respective player center, but also to group player joints into skeletons. We demonstrate the effectiveness of the proposed model on the DeepSport basketball dataset, achieving comparable performance to the SoA models addressing each individual task separately.
翻訳日:2021-12-02 14:54:54 公開日:2021-12-01
# 超画素類似性を用いた塩分向上

Saliency Enhancement using Superpixel Similarity ( http://arxiv.org/abs/2112.00665v1 )

ライセンス: Link先を確認
Leonardo de Melo Joao, Alexandre Xavier Falcao(参考訳) Saliency Object Detection (SOD) は画像解析にいくつかの応用がある。 深層学習に基づくSOD法は最も効果的であるが、類似した色を持つ前景の部品を見逃すことがある。 この問題を回避するために,本稿では,オブジェクトベースのスーパーピクセルセグメンテーションと,スーパーピクセルベースのサリエンシー推定の2つの操作を交互に実行する,sess(superpixel similarity over superpixel similarity})というポストプロセッシング手法を紹介する。 SESSは入力サリエンシマップを使用して、スーパーピクセルのデライン化のためにシードを推定し、フォアグラウンドとバックグラウンドでスーパーピクセルクエリを定義する。 新しいサリエンシマップは、クエリとスーパーピクセル間の色類似性から得られる。 このプロセスは所定の回数の反復を繰り返すので、生成されたすべてのサリエンシマップはセルオートマトンによって1つにまとめられる。 最後に、後処理と初期マップは、各スーパーピクセルの平均値を使ってマージされる。 我々は,SESSが5つの画像データセット上で3つのディープラーニングベースのSOD手法の結果を連続的に,かつ著しく改善できることを実証した。

Saliency Object Detection (SOD) has several applications in image analysis. Deep-learning-based SOD methods are among the most effective, but they may miss foreground parts with similar colors. To circumvent the problem, we introduce a post-processing method, named \textit{Saliency Enhancement over Superpixel Similarity} (SESS), which executes two operations alternately for saliency completion: object-based superpixel segmentation and superpixel-based saliency estimation. SESS uses an input saliency map to estimate seeds for superpixel delineation and define superpixel queries in foreground and background. A new saliency map results from color similarities between queries and superpixels. The process repeats for a given number of iterations, such that all generated saliency maps are combined into a single one by cellular automata. Finally, post-processed and initial maps are merged using their average values per superpixel. We demonstrate that SESS can consistently and considerably improve the results of three deep-learning-based SOD methods on five image datasets.
翻訳日:2021-12-02 14:54:33 公開日:2021-12-01
# CYBORG: 人脈を失うことでディープラーニングが向上

CYBORG: Blending Human Saliency Into the Loss Improves Deep Learning ( http://arxiv.org/abs/2112.00686v1 )

ライセンス: Link先を確認
Aidan Boyd, Patrick Tinsley, Kevin Bowyer, Adam Czajka(参考訳) 深層学習モデルは、人間の知覚能力を参照してトレーニングを指導すればより一般化できるのか? そして、どのように実践的な方法で実装できるでしょうか? 本稿では,脳の全般性向上(CYBORG)に対する初となるトレーニング戦略を提案する。 この新しいトレーニングアプローチでは、人間の注釈付きサルジェンシーマップをサイボーグ損失関数に組み込んで、与えられた視覚的タスクを解決する際に、人間がサルエントを見出すイメージ領域から、モデルを学習する方向に導く。 クラスアクティベーションマッピング(CAM)メカニズムは、トレーニングバッチ毎にモデルの現在のサリエンシを調査するために使用され、人間のサリエンシと並置モデルのサリエンシを調整し、大きな違いのためにモデルをペナルティ化する。 合成顔検出作業の結果,CYBORG損失は,GAN(Generative Adversarial Networks)6つの顔画像から生成した複数の分類ネットワークアーキテクチャから生成した未知のサンプルに対して,顕著な性能向上をもたらすことが示された。 また、標準損失の7倍のトレーニングデータへのスケーリングがCYBORG損失の精度を上回り得ないことも示している。 副作用として,合成顔検出タスクに明示的な領域アノテーションを付加することで,人間の分類性能が向上した。 この研究は、人間の視覚的サリエンシを損失関数に組み込む方法についての新しい研究領域を開く。 本論文では,本研究で使用するデータ,コード,事前学習モデルについて述べる。

Can deep learning models achieve greater generalization if their training is guided by reference to human perceptual abilities? And how can we implement this in a practical manner? This paper proposes a first-ever training strategy to ConveY Brain Oversight to Raise Generalization (CYBORG). This new training approach incorporates human-annotated saliency maps into a CYBORG loss function that guides the model towards learning features from image regions that humans find salient when solving a given visual task. The Class Activation Mapping (CAM) mechanism is used to probe the model's current saliency in each training batch, juxtapose model saliency with human saliency, and penalize the model for large differences. Results on the task of synthetic face detection show that the CYBORG loss leads to significant improvement in performance on unseen samples consisting of face images generated from six Generative Adversarial Networks (GANs) across multiple classification network architectures. We also show that scaling to even seven times as much training data with standard loss cannot beat the accuracy of CYBORG loss. As a side effect, we observed that the addition of explicit region annotation to the task of synthetic face detection increased human classification performance. This work opens a new area of research on how to incorporate human visual saliency into loss functions. All data, code and pre-trained models used in this work are offered with this paper.
翻訳日:2021-12-02 14:54:14 公開日:2021-12-01
# 半構造化データセット表現を用いたラベルフリーモデル評価

Label-Free Model Evaluation with Semi-Structured Dataset Representations ( http://arxiv.org/abs/2112.00694v1 )

ライセンス: Link先を確認
Xiaoxiao Sun, Yunzhong Hou, Hongdong Li, Liang Zheng(参考訳) ラベルのないモデル評価(AutoEval)は、ラベルのないテストセットでモデル精度を推定し、目に見えない様々な環境におけるモデル動作を理解するために重要である。 画像ラベルがない場合、データセット表現に基づいて、回帰を伴うAutoEvalのモデル性能を推定する。 一方、画像の特徴は、そのような表現にとって単純な選択であるが、非構造的(特定の場所でコンポーネントに特定の意味がない)で大規模な回帰学習を妨げている。 一方、従来の手法では単純な構造表現(平均信頼度や平均的特徴など)を採用するが、限られた次元でデータ特性を捉えるには不十分である。 本稿では,両世界のベストを尽くし,AutoEvalの豊富な情報を含むレグレッション学習に適した,新しい半構造化データセット表現を提案する。 画像特徴に基づいて,半構造化データセット表現のための分布形状,クラスタ,代表サンプルを統合する。 分散形状を持つ構造化全体記述の他に、クラスタと代表サンプルによる非構造化記述には、自己評価タスクを容易にする追加のきめ細かい情報が含まれている。 既存の3つのデータセットと25の新たなデータセットに対して,提案した表現が競合する結果が得られることを示す。 コードとデータセットはhttps://github.com/sxzrt/semi-structured-dataset-representationsで入手できる。

Label-free model evaluation, or AutoEval, estimates model accuracy on unlabeled test sets, and is critical for understanding model behaviors in various unseen environments. In the absence of image labels, based on dataset representations, we estimate model performance for AutoEval with regression. On the one hand, image feature is a straightforward choice for such representations, but it hampers regression learning due to being unstructured (\ie no specific meanings for component at certain location) and of large-scale. On the other hand, previous methods adopt simple structured representations (like average confidence or average feature), but insufficient to capture the data characteristics given their limited dimensions. In this work, we take the best of both worlds and propose a new semi-structured dataset representation that is manageable for regression learning while containing rich information for AutoEval. Based on image features, we integrate distribution shapes, clusters, and representative samples for a semi-structured dataset representation. Besides the structured overall description with distribution shapes, the unstructured description with clusters and representative samples include additional fine-grained information facilitating the AutoEval task. On three existing datasets and 25 newly introduced ones, we experimentally show that the proposed representation achieves competitive results. Code and dataset are available at https://github.com/sxzrt/Semi-Structured-Dataset-Representations.
翻訳日:2021-12-02 14:53:52 公開日:2021-12-01
# 空間意識向上によるgan均衡の改善

Improving GAN Equilibrium by Raising Spatial Awareness ( http://arxiv.org/abs/2112.00718v1 )

ライセンス: Link先を確認
Jianyuan Wang, Ceyuan Yang, Yinghao Xu, Yujun Shen, Hongdong Li, Bolei Zhou(参考訳) GAN(Generative Adversarial Networks)の成功は、ジェネレータ(G)とディスクリミネーター(D)の間の敵の訓練に基づいて構築されている。 D が生成した画像と実画像とを区別できないような一定の平衡に達することが期待されている。 しかし、実際には、GANトレーニングにおいてそのような平衡を達成することは困難であり、代わりに、D は G をほぼ常に上回る。我々はこの現象を、D と G の間の情報非対称性に帰着する。 我々は,ganにおける競争をdで支配する問題を軽減するため,g の中間層にランダムにサンプリングされたマルチレベルヒートマップをインダクティブバイアスとして符号化するなど,g の空間的意識を高めることを目的としている。 したがって、Gは特定の画像領域の合成を意図的に改善することができる。 我々はさらに,G の空間認識を D から誘導される注意マップに合わせることを提案する。この方法では,D と G の間の情報ギャップを効果的に小さくする。 副産物として導入される空間認識は、出力合成よりもインタラクティブな編集を容易にする。 デモビデオはhttps://genforce.github.io/eqgan/。

The success of Generative Adversarial Networks (GANs) is largely built upon the adversarial training between a generator (G) and a discriminator (D). They are expected to reach a certain equilibrium where D cannot distinguish the generated images from the real ones. However, in practice it is difficult to achieve such an equilibrium in GAN training, instead, D almost always surpasses G. We attribute this phenomenon to the information asymmetry between D and G. Specifically, we observe that D learns its own visual attention when determining whether an image is real or fake, but G has no explicit clue on which regions to focus on for a particular synthesis. To alleviate the issue of D dominating the competition in GANs, we aim to raise the spatial awareness of G. Randomly sampled multi-level heatmaps are encoded into the intermediate layers of G as an inductive bias. Thus G can purposefully improve the synthesis of certain image regions. We further propose to align the spatial awareness of G with the attention map induced from D. Through this way we effectively lessen the information gap between D and G. Extensive results show that our method pushes the two-player game in GANs closer to the equilibrium, leading to a better synthesis performance. As a byproduct, the introduced spatial awareness facilitates interactive editing over the output synthesis. Demo video and more results are at https://genforce.github.io/eqgan/.
翻訳日:2021-12-02 14:53:34 公開日:2021-12-01
# Hyper Inverter: HypernetworkによるStyleGANインバージョンの改善

HyperInverter: Improving StyleGAN Inversion via Hypernetwork ( http://arxiv.org/abs/2112.00719v1 )

ライセンス: Link先を確認
Tan M. Dinh, Anh Tuan Tran, Rang Nguyen, Binh-Son Hua(参考訳) 実世界の画像操作は, GAN潜伏空間の探索と利用により近年, 目覚ましい進歩を遂げている。 GANインバージョンはこのパイプラインの最初のステップであり、実際のイメージを永続的なコードに忠実にマッピングすることを目的としている。 残念なことに、既存のGANインバージョン手法の大部分は、以下の3つの要件のうちの少なくとも1つを満たさない:高い再構築品質、編集性、高速推論。 本研究では,全ての要件を同時に満たす新しい2段階戦略を提案する。 第1フェーズでは、入力画像をStyleGAN2 $\mathcal{W}$-spaceにマッピングするようにエンコーダを訓練する。 第2フェーズでは、インバージョン中に欠落した情報を回復するために一連のハイパーネットワークを活用することで、第1フェーズにおける再構築能力を補う。 これらの2つのステップは互いに補完し、ハイパーネットワークブランチと、$\mathcal{W}$-spaceで実行される逆変換による優れた編集性により、高い再構成品質が得られる。 提案手法は完全にエンコーダベースであり,非常に高速に推論できる。 2つの挑戦的なデータセットに対する大規模な実験は、我々の手法の優位性を示している。

Real-world image manipulation has achieved fantastic progress in recent years as a result of the exploration and utilization of GAN latent spaces. GAN inversion is the first step in this pipeline, which aims to map the real image to the latent code faithfully. Unfortunately, the majority of existing GAN inversion methods fail to meet at least one of the three requirements listed below: high reconstruction quality, editability, and fast inference. We present a novel two-phase strategy in this research that fits all requirements at the same time. In the first phase, we train an encoder to map the input image to StyleGAN2 $\mathcal{W}$-space, which was proven to have excellent editability but lower reconstruction quality. In the second phase, we supplement the reconstruction ability in the initial phase by leveraging a series of hypernetworks to recover the missing information during inversion. These two steps complement each other to yield high reconstruction quality thanks to the hypernetwork branch and excellent editability due to the inversion done in the $\mathcal{W}$-space. Our method is entirely encoder-based, resulting in extremely fast inference. Extensive experiments on two challenging datasets demonstrate the superiority of our method.
翻訳日:2021-12-02 14:53:12 公開日:2021-12-01
# クラス重み付けに基づく誤りからの学習とニューラルアーキテクチャ検索への応用

Learning from Mistakes based on Class Weighting with Application to Neural Architecture Search ( http://arxiv.org/abs/2112.00275v1 )

ライセンス: Link先を確認
Jay Gala, Pengtao Xie(参考訳) ミスから学ぶことは、人間の学習で広く使われている効果的な学習手法であり、学習者は将来、間違いを避けるために間違いにもっと注力する。 全体的な学習結果を改善するのに役立つ。 本研究では,この特殊学習能力が機械学習モデルの改善にいかに効果的に利用できるかを検討することを目的とする。 そこで本研究では,誤り駆動学習にヒントを得て,より優れた機械学習モデルを学習するための,単純で効果的な多レベル最適化フレームワークであるlearning from mistakes (lfm)を提案する。 LFMフレームワークは3つの学習段階を含む定式化で構成されている。 主な目的は、将来的なミスを防ぐために再重み付け技術を用いて、ターゲットタスクで効果的に実行するモデルを訓練することである。 本稿では,モデルの検証損失を最小化し,クラス別性能と実データで重み付けされた画像生成器から合成データを用いてモデルを再訓練することにより,クラス重み付けを学習する。 我々は,CIFAR や ImageNet などの画像分類データセットに対する差分アーキテクチャ探索手法に LFM フレームワークを適用し,提案手法の有効性を実証した。

Learning from mistakes is an effective learning approach widely used in human learning, where a learner pays greater focus on mistakes to circumvent them in the future. It aids in improving the overall learning outcomes. In this work, we aim to investigate how effectively this exceptional learning ability can be used to improve machine learning models as well. We propose a simple and effective multi-level optimization framework called learning from mistakes (LFM), inspired by mistake-driven learning to train better machine learning models. Our LFM framework consists of a formulation involving three learning stages. The primary objective is to train a model to perform effectively on target tasks by using a re-weighting technique to prevent similar mistakes in the future. In this formulation, we learn the class weights by minimizing the validation loss of the model and re-train the model with the synthetic data from the image generator weighted by class-wise performance and real data. We apply our LFM framework for differential architecture search methods on image classification datasets such as CIFAR and ImageNet, where the results demonstrate the effectiveness of our proposed strategy.
翻訳日:2021-12-02 14:50:53 公開日:2021-12-01
# マルチヘッドアテンションcnnに基づく毎日の観光需要予測枠組み--韓国の外国人参加者を事例として

A Daily Tourism Demand Prediction Framework Based on Multi-head Attention CNN: The Case of The Foreign Entrant in South Korea ( http://arxiv.org/abs/2112.00328v1 )

ライセンス: Link先を確認
Dong-Keon Kim, Sung Kuk Shyn, Donghee Kim, Seungwoo Jang and Kwangsu Kim(参考訳) 観光経営に望ましい政策決定を行うには,正確な観光予測モデルの開発が不可欠である。 観光経営の初期研究は、観光需要に関連する外部要因の発見に重点を置いている。 最近の研究は、これらの外部要因とともに需要予測におけるディープラーニングを利用している。 主にフレームワークにLSTMやRNNといった再帰的ニューラルネットワークモデルを使用する。 しかし、これらのモデルは観光需要の予測には適していない。 これは、観光需要が様々な外部要因の変化の影響を強く受けており、再帰的ニューラルネットワークモデルはこれらの多変量入力に制限があるためである。 本稿では,これらの制約に対処する多視点CNNモデル(MHAC)を提案する。 MHACは1D畳み込みニューラルネットワークを使用して、時間パターンとアテンションメカニズムを分析し、入力変数間の相関を反映する。 このモデルにより,変数の時系列データから時空間特性を抽出することができる。 我々は,韓国文化の政治,病気,季節,魅力といった外部要因を考慮して,韓国におけるインバウンド観光の変化を予測するための予測枠組みを適用する。 広範な実験の結果,韓国観光予測における他の深層学習に基づく予測フレームワークよりも優れた結果が得られた。

Developing an accurate tourism forecasting model is essential for making desirable policy decisions for tourism management. Early studies on tourism management focus on discovering external factors related to tourism demand. Recent studies utilize deep learning in demand forecasting along with these external factors. They mainly use recursive neural network models such as LSTM and RNN for their frameworks. However, these models are not suitable for use in forecasting tourism demand. This is because tourism demand is strongly affected by changes in various external factors, and recursive neural network models have limitations in handling these multivariate inputs. We propose a multi-head attention CNN model (MHAC) for addressing these limitations. The MHAC uses 1D-convolutional neural network to analyze temporal patterns and the attention mechanism to reflect correlations between input variables. This model makes it possible to extract spatiotemporal characteristics from time-series data of various variables. We apply our forecasting framework to predict inbound tourist changes in South Korea by considering external factors such as politics, disease, season, and attraction of Korean culture. The performance results of extensive experiments show that our method outperforms other deep-learning-based prediction frameworks in South Korea tourism forecasting.
翻訳日:2021-12-02 14:50:34 公開日:2021-12-01
# (参考訳) AstroBERT - 天文学と天文学のための言語モデル

Building astroBERT, a language model for Astronomy & Astrophysics ( http://arxiv.org/abs/2112.00590v1 )

ライセンス: CC BY 4.0
Felix Grezes, Sergi Blanco-Cuaresma, Alberto Accomazzi, Michael J. Kurtz, Golnaz Shapurian, Edwin Henneken, Carolyn S. Grant, Donna M. Thompson, Roman Chyla, Stephen McDonald, Timothy W. Hostetler, Matthew R. Templeton, Kelly E. Lockhart, Nemanja Martinovic, Shinyi Chen, Chris Tanner, Pavlos Protopapas(参考訳) NASA Astrophysics Data System (ADS) を探索するための既存の検索ツールは、非常に豊かで強力な(例えば、類似やトレンドの演算子)が、研究者はまだセマンティックサーチを完全に活用することはできない。 例えば、"results from the planck mission"というクエリは、ユーザからさらなる明確化なしに、planckのさまざまな意味(人、ミッション、定数、機関など)を区別できる必要があります。 ADSでは、最近の天文学出版物のデータセットに、現代の機械学習と自然言語処理技術を適用して、Googleの研究に基づく深いコンテキスト言語モデルであるastroBERTをトレーニングしています。 AstroBERTを使用することで、ADSデータセットの強化と発見性の向上を目標とし、特に、独自のエンティティ認識ツールを開発しています。 ここでは予備的な結果と教訓を紹介する。

The existing search tools for exploring the NASA Astrophysics Data System (ADS) can be quite rich and empowering (e.g., similar and trending operators), but researchers are not yet allowed to fully leverage semantic search. For example, a query for "results from the Planck mission" should be able to distinguish between all the various meanings of Planck (person, mission, constant, institutions and more) without further clarification from the user. At ADS, we are applying modern machine learning and natural language processing techniques to our dataset of recent astronomy publications to train astroBERT, a deeply contextual language model based on research at Google. Using astroBERT, we aim to enrich the ADS dataset and improve its discoverability, and in particular we are developing our own named entity recognition tool. We present here our preliminary results and lessons learned.
翻訳日:2021-12-02 14:49:19 公開日:2021-12-01
# VisRuler: タグ付きおよびブーストされた決定木から決定ルールを抽出するビジュアル分析

VisRuler: Visual Analytics for Extracting Decision Rules from Bagged and Boosted Decision Trees ( http://arxiv.org/abs/2112.00334v1 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Andreas Kerren(参考訳) バッグングとブースティングは、機械学習(ML)において多くの個別決定木を生成する2つの一般的なアンサンブル手法である。 これらの手法の固有のアンサンブル特性のため、予測性能において単一の決定木や他のMLモデルよりも優れる。 しかし、決定木ごとに多くの決定経路が生成され、モデル全体の複雑さが増大し、金融、社会医療、医療などの信頼できる説明可能な決定を必要とする領域での使用が妨げられる。 したがって、ランダムフォレストや適応的なブースティングなど、袋詰めやブースティングアルゴリズムの解釈性は、意思決定数の増加とともに低下する。 本稿では,ユーザによるMLモデルからの意思決定の抽出を支援するビジュアル分析ツールを提案する。このツールは,堅牢で多様なモデル(異なるアンサンブル学習アルゴリズムから派生したもの)を選択し,グローバルなコントリビューションに応じて重要な特徴を選択し,グローバルな説明(あるいは特定のケースに対して,どの決定が必須であるかを判断する。 結論は、いくつかのモデルのクラス合意とユーザがエクスポートした手作業による決定に基づく最終決定である。 最後に、ユースケース、利用シナリオ、ユーザスタディを通じて、VisRulerの適用性と有効性を評価する。

Bagging and boosting are two popular ensemble methods in machine learning (ML) that produce many individual decision trees. Due to the inherent ensemble characteristic of these methods, they typically outperform single decision trees or other ML models in predictive performance. However, numerous decision paths are generated for each decision tree, increasing the overall complexity of the model and hindering its use in domains that require trustworthy and explainable decisions, such as finance, social care, and health care. Thus, the interpretability of bagging and boosting algorithms, such as random forests and adaptive boosting, reduces as the number of decisions rises. In this paper, we propose a visual analytics tool that aims to assist users in extracting decisions from such ML models via a thorough visual inspection workflow that includes selecting a set of robust and diverse models (originating from different ensemble learning algorithms), choosing important features according to their global contribution, and deciding which decisions are essential for global explanation (or locally, for specific cases). The outcome is a final decision based on the class agreement of several models and the explored manual decisions exported by users. Finally, we evaluate the applicability and effectiveness of VisRuler via a use case, a usage scenario, and a user study.
翻訳日:2021-12-02 14:41:56 公開日:2021-12-01
# 新たなメモリ技術によるインメモリディープラーニングの最適化

Optimizing for In-memory Deep Learning with Emerging Memory Technology ( http://arxiv.org/abs/2112.00324v1 )

ライセンス: Link先を確認
Zhehui Wang, Tao Luo, Rick Siow Mong Goh, Wei Zhang, Weng-Fai Wong(参考訳) インメモリディープラーニングは、記憶されているニューラルネットワークモデルを計算し、メモリと計算ユニット間の長距離通信を避けることにより、エネルギーと時間を大幅に節約する。 インメモリディープラーニングはすでに、パフォーマンス密度とエネルギー効率を桁違いに高めている。 新たなメモリ技術を使用することで、密度、エネルギー、パフォーマンスのさらなる向上が期待できる。 しかし、新興メモリ技術は本質的に不安定であり、データ読み込みのランダムな変動をもたらす。 これは非無視的な精度損失に変換でき、利得を無効にする可能性がある。 本稿では,新しいメモリ技術の不安定性を数学的に克服する3つの最適化手法を提案する。 エネルギー効率を最大化しながら、インメモリディープラーニングモデルの精度を向上させることができる。 実験の結果,ほとんどのモデルの最先端の精度を完全に回復でき,最先端のエネルギー効率よりも1桁高いエネルギー効率が得られることがわかった。

In-memory deep learning computes neural network models where they are stored, thus avoiding long distance communication between memory and computation units, resulting in considerable savings in energy and time. In-memory deep learning has already demonstrated orders of magnitude higher performance density and energy efficiency. The use of emerging memory technology promises to increase the gains in density, energy, and performance even further. However, emerging memory technology is intrinsically unstable, resulting in random fluctuations of data reads. This can translate to non-negligible accuracy loss, potentially nullifying the gains. In this paper, we propose three optimization techniques that can mathematically overcome the instability problem of emerging memory technology. They can improve the accuracy of the in-memory deep learning model while maximizing its energy efficiency. Experiments show that our solution can fully recover most models' state-of-the-art accuracy, and achieves at least an order of magnitude higher energy efficiency than the state-of-the-art.
翻訳日:2021-12-02 14:41:33 公開日:2021-12-01
# ベイズフィルタの深部計測更新

Deep Measurement Updates for Bayes Filters ( http://arxiv.org/abs/2112.00380v1 )

ライセンス: Link先を確認
Johannes Pankert, Maria Vittoria Minniti, Lorenz Wellhausen, Marco Hutter(参考訳) ベイズフィルタの計測更新規則は、画像のような高次元センサーデータに対する観測確率を計算するために手作りのヒューリスティックを含むことが多い。 本研究では,多種多様なシステムに対する一般的な更新ルールとして,DMU(Deep Measurement Update)を提案する。 DMUは、深度画像を生入力として処理する条件付きエンコーダデコーダニューラルネットワーク構造を有する。 ネットワークは合成データのみに基づいてトレーニングされているが、実世界データの評価時に優れた性能を示す。 提案手法である primed data training を用いて,dmuモデルが確率的情報ボトルネックに依存することなく,条件変数に敏感になるように効率的にトレーニングできることを実証する。 提案手法は,単一物体のポーズ推定から,ポーズ推定と構音系の内部状態の同時推定まで,複雑性が増大する複数のシナリオで検証する。 さらに,RBOデータセット上のArticulated Signed Distance Function(A-SDF)に対して,調音状態推定のベースライン比較としてベンチマークを行う。

Measurement update rules for Bayes filters often contain hand-crafted heuristics to compute observation probabilities for high-dimensional sensor data, like images. In this work, we propose the novel approach Deep Measurement Update (DMU) as a general update rule for a wide range of systems. DMU has a conditional encoder-decoder neural network structure to process depth images as raw inputs. Even though the network is trained only on synthetic data, the model shows good performance at evaluation time on real-world data. With our proposed training scheme primed data training , we demonstrate how the DMU models can be trained efficiently to be sensitive to condition variables without having to rely on a stochastic information bottleneck. We validate the proposed methods in multiple scenarios of increasing complexity, beginning with the pose estimation of a single object to the joint estimation of the pose and the internal state of an articulated system. Moreover, we provide a benchmark against Articulated Signed Distance Functions(A-SDF) on the RBO dataset as a baseline comparison for articulation state estimation.
翻訳日:2021-12-02 14:41:19 公開日:2021-12-01
# 形状部スロットマシン:部品から3d形状を生成する接触型推論

The Shape Part Slot Machine: Contact-based Reasoning for Generating 3D Shapes from Parts ( http://arxiv.org/abs/2112.00584v1 )

ライセンス: Link先を確認
Kai Wang, Paul Guerrero, Vladimir Kim, Siddhartha Chaudhuri, Minhyuk Sung, Daniel Ritchie(参考訳) 本研究では既存の部品から新しい3次元形状を組み立てる新しい手法であるShape Part Slot Machineを提案する。 本手法は,各形状を「スロット」のグラフとして表現し,各スロットは2つの形状部分の接触領域である。 この表現に基づいて、新しいスロットグラフを生成し、互換性のある部分を取得するグラフニューラルネットワークベースのモデルと、生成されたスロットグラフを尊重する完全な形状に集約する勾配ディフレッシュベースの最適化スキームを設計する。 興味深いことに、部品が接続する領域が、新しい高品質な3D形状を生成するのに十分であることを示すため、完全な部分ジオメトリも必要としない。 提案手法は,既存のモデリング手法よりも品質,多様性,構造的複雑さの点で優れる形状を生成する。

We present the Shape Part Slot Machine, a new method for assembling novel 3D shapes from existing parts by performing contact-based reasoning. Our method represents each shape as a graph of "slots," where each slot is a region of contact between two shape parts. Based on this representation, we design a graph-neural-network-based model for generating new slot graphs and retrieving compatible parts, as well as a gradient-descent-based optimization scheme for assembling the retrieved parts into a complete shape that respects the generated slot graph. This approach does not require any semantic part labels; interestingly, it also does not require complete part geometries -- reasoning about the regions where parts connect proves sufficient to generate novel, high-quality 3D shapes. We demonstrate that our method generates shapes that outperform existing modeling-by-assembly approaches in terms of quality, diversity, and structural complexity.
翻訳日:2021-12-02 14:41:04 公開日:2021-12-01
# CondenseNeXt:組み込みシステムのための超効率的なディープニューラルネットワーク

CondenseNeXt: An Ultra-Efficient Deep Neural Network for Embedded Systems ( http://arxiv.org/abs/2112.00698v1 )

ライセンス: Link先を確認
Priyank Kalgaonkar, Mohamed El-Sharkawy(参考訳) 制約のあるリソースを持つ現代的な組み込みシステムとモバイルデバイスの出現により、機械学習のために驚くほど効率的なディープニューラルネットワークが求められている。 また、データが処理され外部サーバに格納された場合、一般の利用者データのプライバシーと機密性への懸念が高まり、ローカル組み込みシステム上でのリアルタイム推論のための効率的なニューラルネットワークの開発の必要性がさらに高まっている。 本稿では,畳み込みニューラルネットワークを用いた画像分類について述べる。 畳み込みニューラルネットワーク(英: Convolutional Neural Network, CNN)は、画像センサが捉えた視覚画像の分析に広く用いられているディープニューラルネットワーク(DNN)の一種で、情報を抽出し、入力データのリアルタイム推論のための意味のある表現に変換するように設計されている。 本稿では,組込みシステム上でのリアルタイム推論のための既存のcnnアーキテクチャの性能を改善するために,ディープ畳み込みニューラルネットワークアーキテクチャのネオテリック変種を提案する。 CondenseNeXtと呼ばれるこのアーキテクチャは、トレーニング可能なパラメータとFLOPを削減し、トレーニングされたモデルサイズが3.0MB未満と精度のトレードオフのバランスを維持しながら、前例のない計算効率を実現することにより、ベースラインニューラルネットワークアーキテクチャであるCondenseNetと比較して極めて効率的であることを示す。

Due to the advent of modern embedded systems and mobile devices with constrained resources, there is a great demand for incredibly efficient deep neural networks for machine learning purposes. There is also a growing concern of privacy and confidentiality of user data within the general public when their data is processed and stored in an external server which has further fueled the need for developing such efficient neural networks for real-time inference on local embedded systems. The scope of our work presented in this paper is limited to image classification using a convolutional neural network. A Convolutional Neural Network (CNN) is a class of Deep Neural Network (DNN) widely used in the analysis of visual images captured by an image sensor, designed to extract information and convert it into meaningful representations for real-time inference of the input data. In this paper, we propose a neoteric variant of deep convolutional neural network architecture to ameliorate the performance of existing CNN architectures for real-time inference on embedded systems. We show that this architecture, dubbed CondenseNeXt, is remarkably efficient in comparison to the baseline neural network architecture, CondenseNet, by reducing trainable parameters and FLOPs required to train the network whilst maintaining a balance between the trained model size of less than 3.0 MB and accuracy trade-off resulting in an unprecedented computational efficiency.
翻訳日:2021-12-02 14:40:48 公開日:2021-12-01
# 多項式時間でのほぼ最適分離によるクラスタリング混合

Clustering Mixtures with Almost Optimal Separation in Polynomial Time ( http://arxiv.org/abs/2112.00706v1 )

ライセンス: Link先を確認
Jerry Li, Allen Liu(参考訳) 高次元における平均分離ガウスのクラスタリング混合の問題を考える。 我々は、$k$恒等共分散ガウシアンの混合物からサンプルを与えられるので、任意の2つの手段間の最小対距離が少なくとも$\Delta$で、あるパラメータ$\Delta > 0$に対して$\Delta$であり、これらのサンプルの基底真理クラスタリングを復元することが目的である。 分離 $\delta = \theta (\sqrt{\log k})$ は、少なくとも理論的には、良好なクラスタリングを回復するのに必要かつ十分である。 しかし、この保証を達成する推定者は非効率である。 この保証にほぼ一致する多項式時間で実行される最初のアルゴリズムを与える。 より正確には、任意の$c > 0$ に対して、分離が $\delta = \omega (\log^{1/2 + c} k)$ である限り、多項式的に多くのサンプルと時間をとり、良好なクラスタリングを回復するアルゴリズムを与える。 これまで多項式時間アルゴリズムは、分離が$k$の多項式であるときにのみ知られており、$\textsf{poly}( \log k )$分離に必要な準ポリノミカル時間を許容できる全てのアルゴリズムが知られていた。 また,poincar\'{e}不等式を満たす分布の翻訳の混合にも,さらに軽度な仮定の下で結果を拡張した。 我々の主要な技術ツールは、独立した関心事であると信じており、分布の高次モーメントを暗黙的に表現し、推定する新しい方法であり、これにより、全モーメントテンソルを明示的に書き留めることなく、高次モーメントに関する重要な情報を抽出することができる。

We consider the problem of clustering mixtures of mean-separated Gaussians in high dimensions. We are given samples from a mixture of $k$ identity covariance Gaussians, so that the minimum pairwise distance between any two pairs of means is at least $\Delta$, for some parameter $\Delta > 0$, and the goal is to recover the ground truth clustering of these samples. It is folklore that separation $\Delta = \Theta (\sqrt{\log k})$ is both necessary and sufficient to recover a good clustering, at least information theoretically. However, the estimators which achieve this guarantee are inefficient. We give the first algorithm which runs in polynomial time, and which almost matches this guarantee. More precisely, we give an algorithm which takes polynomially many samples and time, and which can successfully recover a good clustering, so long as the separation is $\Delta = \Omega (\log^{1/2 + c} k)$, for any $c > 0$. Previously, polynomial time algorithms were only known for this problem when the separation was polynomial in $k$, and all algorithms which could tolerate $\textsf{poly}( \log k )$ separation required quasipolynomial time. We also extend our result to mixtures of translations of a distribution which satisfies the Poincar\'{e} inequality, under additional mild assumptions. Our main technical tool, which we believe is of independent interest, is a novel way to implicitly represent and estimate high degree moments of a distribution, which allows us to extract important information about high-degree moments without ever writing down the full moment tensors explicitly.
翻訳日:2021-12-02 14:40:22 公開日:2021-12-01
# 真実か偽か:ディープラーニングモデルは噂を検出することを学ぶか?

True or False: Does the Deep Learning Model Learn to Detect Rumors? ( http://arxiv.org/abs/2112.00245v1 )

ライセンス: Link先を確認
Shiwen Ni, Jiawen Li, and Hung-Yu Kao(参考訳) 人間が噂の真偽を区別することは難しいが、現在のディープラーニングモデルは人間を超越し、多くの噂データセットにおいて優れた精度を達成することができる。 本稿では,よく機能しているように見えるディープラーニングモデルが,実際に噂を検出することを学習しているかどうかを考察する。 実世界の5つのデータセット上のBERTモデルを微調整し、全てのテストセットに対して評価することにより、領域外サンプルの一般化能力を評価する。 実験の結果、他の未知のデータセットにおけるモデルの一般化能力は不十分であり、一般的な噂でさえ検出できないことが示された。 さらに、モデルが近道を取って、噂のデータセットに深刻なデータ落とし穴があるときにばかげた知識を学ぶ実験を通じて発見した。 これは、特定の規則に基づく噂文の簡単な修正が、矛盾したモデル予測につながることを意味する。 そこで本研究では, 提案手法であるペアテスト (pairt) を用いて, 音波検出モデルをより現実的に評価する手法を提案し, その評価手法であるペアテスト (pairt) を提案する。 さらに,提案論文の最後には,噂データセットのより良い作成方法や,噂検出モデルの評価について提案する。

It is difficult for humans to distinguish the true and false of rumors, but current deep learning models can surpass humans and achieve excellent accuracy on many rumor datasets. In this paper, we investigate whether deep learning models that seem to perform well actually learn to detect rumors. We evaluate models on their generalization ability to out-of-domain examples by fine-tuning BERT-based models on five real-world datasets and evaluating against all test sets. The experimental results indicate that the generalization ability of the models on other unseen datasets are unsatisfactory, even common-sense rumors cannot be detected. Moreover, we found through experiments that models take shortcuts and learn absurd knowledge when the rumor datasets have serious data pitfalls. This means that simple modifications to the rumor text based on specific rules will lead to inconsistent model predictions. To more realistically evaluate rumor detection models, we proposed a new evaluation method called paired test (PairT), which requires models to correctly predict a pair of test samples at the same time. Furthermore, we make recommendations on how to better create rumor dataset and evaluate rumor detection model at the end of this paper.
翻訳日:2021-12-02 14:39:30 公開日:2021-12-01
# ディープデブラリングアルゴリズムのベンチマーク--大規模マルチ原因データセットと新しいベースラインモデル

Benchmarking Deep Deblurring Algorithms: A Large-Scale Multi-Cause Dataset and A New Baseline Model ( http://arxiv.org/abs/2112.00234v1 )

ライセンス: Link先を確認
Kaihao Zhang, Wenhan Luo, Boheng Chen, Wenqi Ren, Bjorn Stenger, Wei Liu, Hongdong Li, Ming-Hsuan Yang(参考訳) ぼやけたアーティファクトは画像の視覚品質を著しく低下させ、特定のシナリオのために多くのぼやけ方法が提案されている。 しかし、ほとんどの実世界の画像では、ブラーは動きやデフォーカスなど様々な要因によって引き起こされる。 本稿では,様々なデブラリング手法が一般的なボケに対してどのように作用するかについて述べる。 詳細な性能評価のために,実世界と合成したぼやけた画像を含む大規模多元画像デブロアデータセット (MC-Blur) を構築した。 提案したMC-Blurデータセットの画像は、UHD(Ultra-High-Definition)シャープイメージを大きなカーネルで変換し、1000fpsの高速カメラで捉えたシャープ画像を平均化し、画像にデフォーカスを加え、様々なカメラモデルで捉えた現実世界のぼやけた画像を生成する。 これらの結果は、現在のデブロアリング手法の利点と限界を包括的に概観する。 さらに,複数の原因のぼかしに対応するために,新たなベースラインモデルであるレベルアテンションデブロアリングネットワークを提案する。 異なるレベルの特徴に異なる重みを加えることで、提案するネットワークは、より重要なレベルに割り当てられたより大きな重みを持つより強力な特徴を導出し、特徴表現を強化する。 新しいデータセットに対する大規模な実験結果から,多元ぼかしシナリオに対する提案モデルの有効性が示された。

Blur artifacts can seriously degrade the visual quality of images, and numerous deblurring methods have been proposed for specific scenarios. However, in most real-world images, blur is caused by different factors, e.g., motion and defocus. In this paper, we address how different deblurring methods perform on general types of blur. For in-depth performance evaluation, we construct a new large-scale multi-cause image deblurring dataset called (MC-Blur) including real-world and synthesized blurry images with mixed factors of blurs. The images in the proposed MC-Blur dataset are collected using different techniques: convolving Ultra-High-Definition (UHD) sharp images with large kernels, averaging sharp images captured by a 1000 fps high-speed camera, adding defocus to images, and real-world blurred images captured by various camera models. These results provide a comprehensive overview of the advantages and limitations of current deblurring methods. Further, we propose a new baseline model, level-attention deblurring network, to adapt to multiple causes of blurs. By including different weights of attention to the different levels of features, the proposed network derives more powerful features with larger weights assigned to more important levels, thereby enhancing the feature representation. Extensive experimental results on the new dataset demonstrate the effectiveness of the proposed model for the multi-cause blur scenarios.
翻訳日:2021-12-02 14:38:04 公開日:2021-12-01
# GLocal:人物画像生成のためのグローバルグラフ推論と局所構造伝達

GLocal: Global Graph Reasoning and Local Structure Transfer for Person Image Generation ( http://arxiv.org/abs/2112.00263v1 )

ライセンス: Link先を確認
Liyuan Ma, Kejie Huang, Dongxu Wei, Haibin Shen(参考訳) 本稿では,人物画像生成,すなわち,質感の劣化やポーズの相違など,様々な条件下での人物画像の生成に焦点をあてる。 この課題において、テクスチャの排除と大きなポーズのミスアライメントに対処するため、従来の作業では、対象領域を推測するために対応する領域のスタイルを使用しており、コンテキストテクスチャ情報を再構成するためにポイントワイドアライメントに依存しており、領域ワイドなコードとソースのローカル構造をグローバルに相関する能力が欠如している。 これらの問題に対処するために,GLocal フレームワークを提案し,各意味領域間のスタイル相互相関を世界規模で推論することで,テクスチャ塗布時の劣化画像の復元を行う。 局所的な構造情報保存のために,さらにソース画像の局所構造を抽出し,局所構造転送により生成画像に復元する。 提案手法は,DeepFashionデータセットの性能をフルに評価するためのベンチマークであり,本手法の新規性を強調する広範囲なアブレーション研究を示す。

In this paper, we focus on person image generation, namely, generating person image under various conditions, e.g., corrupted texture or different pose. To address texture occlusion and large pose misalignment in this task, previous works just use the corresponding region's style to infer the occluded area and rely on point-wise alignment to reorganize the context texture information, lacking the ability to globally correlate the region-wise style codes and preserve the local structure of the source. To tackle these problems, we present a GLocal framework to improve the occlusion-aware texture estimation by globally reasoning the style inter-correlations among different semantic regions, which can also be employed to recover the corrupted images in texture inpainting. For local structural information preservation, we further extract the local structure of the source image and regain it in the generated image via local structure transfer. We benchmark our method to fully characterize its performance on DeepFashion dataset and present extensive ablation studies that highlight the novelty of our method.
翻訳日:2021-12-02 14:37:36 公開日:2021-12-01
# FDA-GAN : 血液移植のためのフローベースデュアルアテンションGAN

FDA-GAN: Flow-based Dual Attention GAN for Human Pose Transfer ( http://arxiv.org/abs/2112.00281v1 )

ライセンス: Link先を確認
Liyuan Ma, Kejie Huang, Dongxu Wei, Zhaoyan Ming, Haibin Shen(参考訳) 人間のポーズ転送は、ソースの人物の外観をターゲットのポーズに移すことを目的としている。 非剛体画像生成のためのフローベースワープを利用した既存の手法は大きな成功を収めた。 しかし、ソースとターゲットの空間的相関が十分に活用されていないため、合成画像の外観詳細を保存できない。 そこで本研究では,fda-gan(flow-based dual attention gan)を提案する。 具体的には, 2重注意機構を構成する変形可能な局所的注意とフロー類似性注意は, 変形性および閉塞性認識の融合に関与する出力特性を導出することができる。 さらに、転送時のポーズとグローバル位置の整合性を維持するために、ターゲットのポーズからソースの人物への適応正規化を学習するためのポーズ正規化ネットワークを設計する。 定性的かつ定量的な結果から,本手法はパブリックiPERおよびDeepFashionデータセットの最先端モデルよりも優れていることが示された。

Human pose transfer aims at transferring the appearance of the source person to the target pose. Existing methods utilizing flow-based warping for non-rigid human image generation have achieved great success. However, they fail to preserve the appearance details in synthesized images since the spatial correlation between the source and target is not fully exploited. To this end, we propose the Flow-based Dual Attention GAN (FDA-GAN) to apply occlusion- and deformation-aware feature fusion for higher generation quality. Specifically, deformable local attention and flow similarity attention, constituting the dual attention mechanism, can derive the output features responsible for deformable- and occlusion-aware fusion, respectively. Besides, to maintain the pose and global position consistency in transferring, we design a pose normalization network for learning adaptive normalization from the target pose to the source person. Both qualitative and quantitative results show that our method outperforms state-of-the-art models in public iPER and DeepFashion datasets.
翻訳日:2021-12-02 14:37:15 公開日:2021-12-01
# Multiple Fusion Adaptation: Unsupervised Semantic Segmentation Adaptationのための強力なフレームワーク

Multiple Fusion Adaptation: A Strong Framework for Unsupervised Semantic Segmentation Adaptation ( http://arxiv.org/abs/2112.00295v1 )

ライセンス: Link先を確認
Kai Zhang, Yifan Sun, Rui Wang, Haichang Li and Xiaohui Hu(参考訳) 本稿では、追加のアノテーションを伴わずに、ラベルなしのターゲットドメインのセグメンテーション精度を向上させることを目的とした、クロスドメイン意味セグメンテーションタスクに挑戦する。 疑似ラベルに基づく非教師付きドメイン適応 (UDA) パイプラインを用いて, 新規かつ効果的なMFA法を提案する。 MFAは基本的に3つの並行情報融合戦略、すなわちクロスモデル融合、時間融合、新しいオンラインオフライン擬似ラベル融合を考える。 具体的には、オンラインオフラインの擬似ラベル融合は、オフラインの擬似ラベルによって容易に無視される困難な領域にさらなる注意を払うよう適応訓練を奨励する。 他の2つの融合戦略は標準的なように見えるかもしれないが、MFAは統合の効率性と有効性を高めるために多大な努力を払っており、3つの戦略全てを統一されたフレームワークに注入することに成功している。 GTA5-to-Cityscapes(英語版)とSynTHIA-to-Cityscapes(英語版)という2つの広く使われているベンチマーク実験により、本手法はセマンティックセグメンテーション適応を著しく改善し、それぞれ58.2%および62.5% mIoU(英語版))を新たに設定することを示した。 コードはhttps://github.com/kaiizhang/mfaで入手できる。

This paper challenges the cross-domain semantic segmentation task, aiming to improve the segmentation accuracy on the unlabeled target domain without incurring additional annotation. Using the pseudo-label-based unsupervised domain adaptation (UDA) pipeline, we propose a novel and effective Multiple Fusion Adaptation (MFA) method. MFA basically considers three parallel information fusion strategies, i.e., the cross-model fusion, temporal fusion and a novel online-offline pseudo label fusion. Specifically, the online-offline pseudo label fusion encourages the adaptive training to pay additional attention to difficult regions that are easily ignored by offline pseudo labels, therefore retaining more informative details. While the other two fusion strategies may look standard, MFA pays significant efforts to raise the efficiency and effectiveness for integration, and succeeds in injecting all the three strategies into a unified framework. Experiments on two widely used benchmarks, i.e., GTA5-to-Cityscapes and SYNTHIA-to-Cityscapes, show that our method significantly improves the semantic segmentation adaptation, and sets up new state of the art (58.2% and 62.5% mIoU, respectively). The code will be available at https://github.com/KaiiZhang/MFA.
翻訳日:2021-12-02 14:35:29 公開日:2021-12-01
# FCAF3D:完全畳み込みアンカーフリー3Dオブジェクト検出

FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection ( http://arxiv.org/abs/2112.00322v1 )

ライセンス: Link先を確認
Danila Rukhovich, Anna Vorontsova, Anton Konushin(参考訳) 近年、ロボティクスと拡張現実の有望な応用が、ポイントクラウドからの3dオブジェクト検出に多大な注目を集めている。 本稿では,一級完全畳み込み型アンカーレス屋内3次元物体検出法FCAF3Dを提案する。 点雲のボクセル表現を使用し、スパース畳み込みでボクセルを処理する、単純で効果的な方法である。 FCAF3Dは、単一の完全な畳み込みフィードフォワードパスによって、最小限のランタイムで大規模シーンを処理できる。 既存の3次元物体検出手法は,物体の形状について事前の仮定を行い,それらの一般化能力を制限していると論じる。 従来の仮定をなくすために、純粋にデータ駆動方式でより良い結果を得ることができる配向境界ボックスの新たなパラメトリゼーションを提案する。 提案手法は,ScanNet V2 (+4.5), SUN RGB-D (+3.5), S3DIS (+20.5)データセットのmAP@0.5を用いて,最先端の3Dオブジェクト検出結果を実現する。 コードとモデルはhttps://github.com/samsunglabs/fcaf3dで入手できる。

Recently, promising applications in robotics and augmented reality have attracted considerable attention to 3D object detection from point clouds. In this paper, we present FCAF3D - a first-in-class fully convolutional anchor-free indoor 3D object detection method. It is a simple yet effective method that uses a voxel representation of a point cloud and processes voxels with sparse convolutions. FCAF3D can handle large-scale scenes with minimal runtime through a single fully convolutional feed-forward pass. Existing 3D object detection methods make prior assumptions on the geometry of objects, and we argue that it limits their generalization ability. To get rid of any prior assumptions, we propose a novel parametrization of oriented bounding boxes that allows obtaining better results in a purely data-driven way. The proposed method achieves state-of-the-art 3D object detection results in terms of mAP@0.5 on ScanNet V2 (+4.5), SUN RGB-D (+3.5), and S3DIS (+20.5) datasets. The code and models are available at https://github.com/samsunglabs/fcaf3d.
翻訳日:2021-12-02 14:35:02 公開日:2021-12-01
# より良い決定を迫るPush Stricter: 対向ロバスト性を改善するためのクラスコンダクショナルな特徴適応フレームワーク

Push Stricter to Decide Better: A Class-Conditional Feature Adaptive Framework for Improving Adversarial Robustness ( http://arxiv.org/abs/2112.00323v1 )

ライセンス: Link先を確認
Jia-Li Yin, Lehui Xie, Wanqing Zhu, Ximeng Liu, Bo-Hao Chen(参考訳) 敵の例の脅威に対応するために、敵の訓練は、オンラインの敵の例でモデルを訓練することでモデルのロバスト性を高める魅力的な選択肢を提供する。 しかし,既存の逆行訓練手法のほとんどは,逆行例の強化による堅牢な精度向上に重点を置いているが,自然データと逆行例のシフトの増加を無視しているため,自然精度は劇的に低下する。 自然と頑健な精度のトレードオフを維持するため,特徴適応の観点からの変化を緩和し,自然データと敵例のクラス条件特徴適応を最適化する特徴適応適応訓練(Feature Adaptive Adversarial Training, FAAT)を提案する。 具体的には,(1)クラス識別的,(2)対人攻撃の変化に不変な特徴を奨励するクラス条件判別器を提案する。 新たなFAATフレームワークは、自然データと敵対データに類似した分布を持つ特徴を生成することによって、自然な精度とロバストな精度のトレードオフを可能にする。 さまざまなデータセットの実験により、FAATはより差別的な特徴を生成し、最先端の手法に対して好意的に機能することが示された。 コードはhttps://github.com/visionflow/faatで入手できる。

In response to the threat of adversarial examples, adversarial training provides an attractive option for enhancing the model robustness by training models on online-augmented adversarial examples. However, most of the existing adversarial training methods focus on improving the robust accuracy by strengthening the adversarial examples but neglecting the increasing shift between natural data and adversarial examples, leading to a dramatic decrease in natural accuracy. To maintain the trade-off between natural and robust accuracy, we alleviate the shift from the perspective of feature adaption and propose a Feature Adaptive Adversarial Training (FAAT) optimizing the class-conditional feature adaption across natural data and adversarial examples. Specifically, we propose to incorporate a class-conditional discriminator to encourage the features become (1) class-discriminative and (2) invariant to the change of adversarial attacks. The novel FAAT framework enables the trade-off between natural and robust accuracy by generating features with similar distribution across natural and adversarial data, and achieve higher overall robustness benefited from the class-discriminative feature characteristics. Experiments on various datasets demonstrate that FAAT produces more discriminative features and performs favorably against state-of-the-art methods. Codes are available at https://github.com/VisionFlow/FAAT.
翻訳日:2021-12-02 14:34:45 公開日:2021-12-01
# 変圧器付き多視点ステレオ

Multi-View Stereo with Transformer ( http://arxiv.org/abs/2112.00336v1 )

ライセンス: Link先を確認
Jie Zhu, Bo Peng, Wanqing Li, Haifeng Shen, Zhe Zhang, Jianjun Lei(参考訳) 本稿では,MVSTR(Multi-View Stereo)のためのネットワークを提案する。 これはtransformer上に構築されており、グローバルコンテキストと3d一貫性を備えた密集した特徴を抽出することができる。 具体的には、既存のCNNベースのMVS手法の限られた受容領域に対処するため、グローバルコンテクストトランスフォーマーモジュールが最初に提案され、視野内グローバルコンテキストを探索する。 さらに、高密度機能を3D一貫性にするために、よく設計されたクロスビューアテンション機構を備えた3D-ジオメトリトランスフォーマーモジュールを構築し、ビュー間の情報相互作用を容易にする。 実験結果から,提案したMVSTRは,DTUデータセット上で最高の総合性能を達成し,Turps & Templesベンチマークデータセット上での強力な一般化を実現していることがわかった。

This paper proposes a network, referred to as MVSTR, for Multi-View Stereo (MVS). It is built upon Transformer and is capable of extracting dense features with global context and 3D consistency, which are crucial to achieving reliable matching for MVS. Specifically, to tackle the problem of the limited receptive field of existing CNN-based MVS methods, a global-context Transformer module is first proposed to explore intra-view global context. In addition, to further enable dense features to be 3D-consistent, a 3D-geometry Transformer module is built with a well-designed cross-view attention mechanism to facilitate inter-view information interaction. Experimental results show that the proposed MVSTR achieves the best overall performance on the DTU dataset and strong generalization on the Tanks & Temples benchmark dataset.
翻訳日:2021-12-02 14:34:20 公開日:2021-12-01
# Confidence Propagation Cluster: オブジェクト検出の完全な可能性

Confidence Propagation Cluster: Unleash Full Potential of Object Detectors ( http://arxiv.org/abs/2112.00342v1 )

ライセンス: Link先を確認
Yichun Shen*, Wanli Jiang*, Zhen Xu, Rundong Li, Junghyun Kwon, Siyi Li(参考訳) ほとんどのオブジェクト検出手法が非最大抑圧(NMS)とSoft-NMSのような改良版を使って冗長な境界ボックスを除去することでオブジェクトを得るのは、長い歴史がある。 我々は3つの側面からNMSベースの手法に挑戦する。 1) 最も信頼度の高いバウンディングボックスは、接地箱と最大の重なりを持つ真の正ではないかもしれない。 2) 冗長箱には抑制が要求されるだけでなく, 真の正の場合には信頼性向上も必要である。 3)完全並列性を実現するために,信頼度値による候補ボックスのソートは不要である。 本稿では,信条伝播(bp)に触発されて,完全並列化と精度向上を両立したnms法を代替する信頼度伝播クラスタ(cp-cluster)を提案する。 CP-Clusterでは、BPからメッセージパッシング機構を借りて冗長ボックスをペナル化し、収束までの反復的な方法で真の正を同時に強化する。 我々は, 高速RCNN, SSD, FCOS, YOLOv3, YOLOv5, Centernetなどの主流検出器に適用することでCP-Clusterの有効性を検証した。 ms cocoにおける実験では、検出器を再訓練することなく、これらの最先端モデルの平均マップを、それぞれ0.2から1.9の明確なマージンで着実に改善できることを示した。 ソースコードはhttps://github.com/shenyi0220/CP-Clusterで入手できる。

It has been a long history that most object detection methods obtain objects by using the non-maximum suppression (NMS) and its improved versions like Soft-NMS to remove redundant bounding boxes. We challenge those NMS-based methods from three aspects: 1) The bounding box with highest confidence value may not be the true positive having the biggest overlap with the ground-truth box. 2) Not only suppression is required for redundant boxes, but also confidence enhancement is needed for those true positives. 3) Sorting candidate boxes by confidence values is not necessary so that full parallelism is achievable. In this paper, inspired by belief propagation (BP), we propose the Confidence Propagation Cluster (CP-Cluster) to replace NMS-based methods, which is fully parallelizable as well as better in accuracy. In CP-Cluster, we borrow the message passing mechanism from BP to penalize redundant boxes and enhance true positives simultaneously in an iterative way until convergence. We verified the effectiveness of CP-Cluster by applying it to various mainstream detectors such as FasterRCNN, SSD, FCOS, YOLOv3, YOLOv5, Centernet etc. Experiments on MS COCO show that our plug and play method, without retraining detectors, is able to steadily improve average mAP of all those state-of-the-art models with a clear margin from 0.2 to 1.9 respectively when compared with NMS-based methods. Source code is available at https://github.com/shenyi0220/CP-Cluster
翻訳日:2021-12-02 14:34:06 公開日:2021-12-01
# カメラ動作非依存3次元ポーズ推定

Camera Motion Agnostic 3D Human Pose Estimation ( http://arxiv.org/abs/2112.00343v1 )

ライセンス: Link先を確認
Seong Hyun Kim, Sunwon Jeong, Sungbum Park, Ju Yong Chang(参考訳) 近年,3次元ポーズと形状推定法の性能は著しく改善されているが,既存のアプローチではカメラや人中心座標系で定義された3次元ポーズを生成するのが一般的である。 これにより、動くカメラで撮影したビデオの世界の座標系における人の純粋なポーズと動きを推定することが困難になる。 この問題に対処するために,世界座標系で定義された3次元人間のポーズとメッシュを予測するためのカメラモーション非依存アプローチを提案する。 提案手法の中核となる考え方は、カメラの動きに結合されたグローバルなポーズではなく、座標系の選択に不変な隣接する2つのグローバルなポーズ(すなわちグローバルな動き)の違いを推定することである。 そこで本研究では,GMR(Global Motion Regressor)と呼ばれる関節の相対回転からなる局所的なポーズ列から,大域的な動き列を予測できる双方向ゲートリカレントユニット(GRU)に基づくネットワークを提案する。 移動カメラ環境において構築された3DPWと合成データセットを用いて評価を行う。 提案手法の有効性を実証的に検証し,実験を行った。 コードとデータセットはhttps://github.com/seonghyunkim1212/gmrで入手できる。

Although the performance of 3D human pose and shape estimation methods has improved significantly in recent years, existing approaches typically generate 3D poses defined in camera or human-centered coordinate system. This makes it difficult to estimate a person's pure pose and motion in world coordinate system for a video captured using a moving camera. To address this issue, this paper presents a camera motion agnostic approach for predicting 3D human pose and mesh defined in the world coordinate system. The core idea of the proposed approach is to estimate the difference between two adjacent global poses (i.e., global motion) that is invariant to selecting the coordinate system, instead of the global pose coupled to the camera motion. To this end, we propose a network based on bidirectional gated recurrent units (GRUs) that predicts the global motion sequence from the local pose sequence consisting of relative rotations of joints called global motion regressor (GMR). We use 3DPW and synthetic datasets, which are constructed in a moving-camera environment, for evaluation. We conduct extensive experiments and prove the effectiveness of the proposed method empirically. Code and datasets are available at https://github.com/seonghyunkim1212/GMR
翻訳日:2021-12-02 14:33:41 公開日:2021-12-01
# CNNモデルを用いたビザページスタンプからの自動走行パターン抽出

Automatic travel pattern extraction from visa page stamps using CNN models ( http://arxiv.org/abs/2112.00348v1 )

ライセンス: Link先を確認
Eimantas Ledinauskas, Julius Ruseckas, Julius Marozas, Kasparas Karlauskas, Justas Terentjevas, Augustas Ma\v{c}ijauskas, Alfonsas Jur\v{s}\.enas(参考訳) スキャンされたビザページを処理し,検出された切手から旅行パターンを自動的に抽出する自動文書解析システムを提案する。 システムは、ビザページでのスタンプ検出、一般的なスタンプ国とエントリー/エグジットの認識、シェンゲン地域スタンプ国とエントリー/エグジットの認識、シェンゲン地域スタンプの日付の抽出などを通じてページを処理する。 提案するパイプラインの各ステージに対して,ニューラルネットワークモデルを構築します。 そこで我々は,Schengen領域のスタンプ検出と日付,国,入出力認識モデルとグラフィカルユーザインタフェースを統合して,自動走行パターン抽出ツールを構築した。

We propose an automated document analysis system that processes scanned visa pages and automatically extracts the travel pattern from detected stamps. The system processes the page via the following pipeline: stamp detection in the visa page; general stamp country and entry/exit recognition; Schengen area stamp country and entry/exit recognition; Schengen area stamp date extraction. For each stage of the proposed pipeline we construct neural network models. We integrated Schengen area stamp detection and date, country, entry/exit recognition models together with graphical user interface into an automatic travel pattern extraction tool, which is precise enough for practical applications.
翻訳日:2021-12-02 14:33:24 公開日:2021-12-01
# 人の動作予測

Dyadic Human Motion Prediction ( http://arxiv.org/abs/2112.00396v1 )

ライセンス: Link先を確認
Isinsu Katircioglu, Costa Georgantas, Mathieu Salzmann, Pascal Fua(参考訳) 人間の動き予測に関する以前の研究は、主に過去のポーズシーケンスから切り離された単一被験者の将来の動きを予測することに焦点を当てていた。 しかし、密接な相互作用のある人物の存在下では、この戦略は異なる被験者の動き間の依存関係を考慮できない。 そこで本稿では,二つの観察対象の相互作用を明示的に理由づける運動予測フレームワークを提案する。 具体的には,2つの被験者の運動履歴の相互依存をモデル化する一対の注意機構を導入する。 これにより、より現実的な方法で長期的な動きのダイナミクスを保ち、ダンスシナリオで発生するような異常で速い動きをより堅牢に予測することができる。 これを評価するため、既存の動き予測データセットには2つの密接に相互作用する主題が描かれていないため、lindyhop600kダンスデータセットを紹介する。 提案手法は,最先端のひとり称動作予測技術より優れていることを示す。

Prior work on human motion forecasting has mostly focused on predicting the future motion of single subjects in isolation from their past pose sequence. In the presence of closely interacting people, however, this strategy fails to account for the dependencies between the different subject's motions. In this paper, we therefore introduce a motion prediction framework that explicitly reasons about the interactions of two observed subjects. Specifically, we achieve this by introducing a pairwise attention mechanism that models the mutual dependencies in the motion history of the two subjects. This allows us to preserve the long-term motion dynamics in a more realistic way and more robustly predict unusual and fast-paced movements, such as the ones occurring in a dance scenario. To evaluate this, and because no existing motion prediction datasets depict two closely-interacting subjects, we introduce the LindyHop600K dance dataset. Our results evidence that our approach outperforms the state-of-the-art single person motion prediction techniques.
翻訳日:2021-12-02 14:33:11 公開日:2021-12-01
# 情報理論表現蒸留

Information Theoretic Representation Distillation ( http://arxiv.org/abs/2112.00459v1 )

ライセンス: Link先を確認
Roy Miles, Adri\'an L\'opez Rodr\'iguez, Krystian Mikolajczyk(参考訳) 知識蒸留の実証的な成功にもかかわらず、計算的に安価な実装につながる理論的な基礎はいまだに欠けている。 この懸念に対処するために,最近提案されているエントロピー的機能を用いて,情報理論と知識蒸留の新たな関係を創る。 そこで我々は,学生と教師の表現の相関と相互情報の最大化を目的とした2つの相補的損失を導入する。 本手法は, 知識蒸留およびクロスモデル伝達タスクにおける最先端技術に対する競争性能を向上すると同時に, 密接な関係と類似した手法よりも, トレーニングオーバーヘッドを著しく低減する。 さらに,二元蒸留タスクにおける本手法の有効性を実証し,二元量子化のための新たな最新技術に光を当てた。 コード、評価プロトコル、トレーニングされたモデルが公開される予定だ。

Despite the empirical success of knowledge distillation, there still lacks a theoretical foundation that can naturally lead to computationally inexpensive implementations. To address this concern, we forge an alternative connection between information theory and knowledge distillation using a recently proposed entropy-like functional. In doing so, we introduce two distinct complementary losses which aim to maximise the correlation and mutual information between the student and teacher representations. Our method achieves competitive performance to state-of-the-art on the knowledge distillation and cross-model transfer tasks, while incurring significantly less training overheads than closely related and similarly performing approaches. We further demonstrate the effectiveness of our method on a binary distillation task, whereby we shed light to a new state-of-the-art for binary quantisation. The code, evaluation protocols, and trained models will be publicly available.
翻訳日:2021-12-02 14:32:10 公開日:2021-12-01
# スタイルとファグマター: 意味的Fggyシーン理解のための累積ドメイン適応

Both Style and Fog Matter: Cumulative Domain Adaptation for Semantic Foggy Scene Understanding ( http://arxiv.org/abs/2112.00484v1 )

ライセンス: Link先を確認
Xianzheng Ma, Zhixiang Wang, Yacheng Zhan, Yinqiang Zheng, Zheng Wang, Dengxin Dai, Chia-Wen Lin(参考訳) 晴れた天候下での意味的シーン理解では相当な進歩が見られたが、不完全な観測による不確実性のため、濃い霧などの悪天候下ではいまだに困難な問題である。 また、霧画像の収集とラベル付けの難しさは、この分野の進歩を妨げる。 晴れた天候下での意味的シーン理解の成功を考えると、クリアイメージから学んだ知識を霧の領域に移すのが妥当だと思います。 そのため、クリアイメージと霧画像の間のドメインギャップを埋めることが問題となる。 霧による領域ギャップの解消を主眼とする従来の手法とは違い,霧の影響とスタイルの変化を同時に考慮し,領域ギャップを緩和する手法を提案する。 モチベーションは,中間ドメインを追加することにより,スタイル関連ギャップと霧関連ギャップをそれぞれ分割し,閉じることができることに基づく。 そこで本研究では,スタイルやフォグ,ダブルファクタ(スタイルとフォグ)を累積的に適応する新しいパイプラインを提案する。 具体的には、スタイルファクタとフォグファクタを分離し、異なるドメインの画像から二重要素を分離する統一的なフレームワークを考案する。 さらに,新しい累積損失と3つの因子の絡み合いを協調して,これら3つの因子を徹底的に絡み合う。 本手法は,3つのベンチマーク上での最先端性能を実現し,降雪場面における一般化能力を示す。

Although considerable progress has been made in semantic scene understanding under clear weather, it is still a tough problem under adverse weather conditions, such as dense fog, due to the uncertainty caused by imperfect observations. Besides, difficulties in collecting and labeling foggy images hinder the progress of this field. Considering the success in semantic scene understanding under clear weather, we think it is reasonable to transfer knowledge learned from clear images to the foggy domain. As such, the problem becomes to bridge the domain gap between clear images and foggy images. Unlike previous methods that mainly focus on closing the domain gap caused by fog -- defogging the foggy images or fogging the clear images, we propose to alleviate the domain gap by considering fog influence and style variation simultaneously. The motivation is based on our finding that the style-related gap and the fog-related gap can be divided and closed respectively, by adding an intermediate domain. Thus, we propose a new pipeline to cumulatively adapt style, fog and the dual-factor (style and fog). Specifically, we devise a unified framework to disentangle the style factor and the fog factor separately, and then the dual-factor from images in different domains. Furthermore, we collaborate the disentanglement of three factors with a novel cumulative loss to thoroughly disentangle these three factors. Our method achieves the state-of-the-art performance on three benchmarks and shows generalization ability in rainy and snowy scenes.
翻訳日:2021-12-02 14:31:57 公開日:2021-12-01
# 監督事前訓練の伝達可能性の再考:MLPの視点から

Revisiting the Transferability of Supervised Pretraining: an MLP Perspective ( http://arxiv.org/abs/2112.00496v1 )

ライセンス: Link先を確認
Yizhou Wang, Shixiang Tang, Feng Zhu, Lei Bai, Rui Zhao, Donglian Qi, Wanli Ouyang(参考訳) pretrain-finetuneパラダイムは、ビジュアル学習の古典的なパイプラインである。 教師なし事前学習手法の最近の進歩は、教師付きプレトレーニング手法よりも優れた転送性能を示す。 本稿では、この現象を再考し、多層パーセプトロン(MLP)の観点から、教師なしと教師なしの事前訓練の間の伝達可能性ギャップの理解に新たな光を当てる。 先行研究では,同じデータセット上で事前訓練と評価を行う非教師あり画像分類におけるmlpの有効性に注目する一方で,教師なし前訓練法よりも教師なし前訓練法の転送性を向上させる上で,mlpプロジェクタが重要な要因であることを明らかにした。 そこで本研究では, 教師付きプリトレーニングにおいて, 分類器の前にmlpプロジェクタを付加することにより, 教師付きプリトレーニングと非教師付きプリトレーニングの転送可能性ギャップを解消する。 解析の結果,MLPプロジェクタは視覚特徴のクラス内変動を抑え,事前学習と評価データセット間の特徴分布距離を小さくし,特徴冗長性を低減できることがわかった。 公開ベンチマークでの広範囲な実験により、mlpプロジェクタの追加により、教師付き事前学習の転送性が著しく向上し、概念一般化タスクのtop-1精度が向上し、12領域の分類タスクにおける線形評価の精度が \textbf{+5.8\%} top-1、cocoオブジェクト検出タスクにおける \textbf{+0.8\%} apが向上した。 コードは受理後に公開される。

The pretrain-finetune paradigm is a classical pipeline in visual learning. Recent progress on unsupervised pretraining methods shows superior transfer performance to their supervised counterparts. This paper revisits this phenomenon and sheds new light on understanding the transferability gap between unsupervised and supervised pretraining from a multilayer perceptron (MLP) perspective. While previous works focus on the effectiveness of MLP on unsupervised image classification where pretraining and evaluation are conducted on the same dataset, we reveal that the MLP projector is also the key factor to better transferability of unsupervised pretraining methods than supervised pretraining methods. Based on this observation, we attempt to close the transferability gap between supervised and unsupervised pretraining by adding an MLP projector before the classifier in supervised pretraining. Our analysis indicates that the MLP projector can help retain intra-class variation of visual features, decrease the feature distribution distance between pretraining and evaluation datasets, and reduce feature redundancy. Extensive experiments on public benchmarks demonstrate that the added MLP projector significantly boosts the transferability of supervised pretraining, \eg \textbf{+7.2\%} top-1 accuracy on the concept generalization task, \textbf{+5.8\%} top-1 accuracy for linear evaluation on 12-domain classification tasks, and \textbf{+0.8\%} AP on COCO object detection task, making supervised pretraining comparable or even better than unsupervised pretraining. Codes will be released upon acceptance.
翻訳日:2021-12-02 14:31:31 公開日:2021-12-01
# Naive Geometric Computingによる学習指向リモートセンシングオブジェクト検出

Learning Oriented Remote Sensing Object Detection via Naive Geometric Computing ( http://arxiv.org/abs/2112.00504v1 )

ライセンス: Link先を確認
Yanjie Wang, Xu Zou, Zhijun Zhang, Wenhui Xu, Liqun Chen, Sheng Zhong, Luxin Yan, Guodong Wang(参考訳) 対象物の検出と回転情報の推定は,リモートセンシング画像の解析において重要なステップである。 最近提案された多くの手法が目覚ましい性能を達成したにもかかわらず、ほとんどの手法は1つ(回転角など)または数個(複数の座標など)の基底値だけを個別に管理して直接物体の方向を予測することを学んでいる。 プロポーザルとローテーション情報回帰に関して余分な制約がトレーニング中の共同監督に採用されれば、オブジェクト指向オブジェクト検出はより正確で堅牢になる。 この目的のために, 物体の水平方向提案, 向き付け提案, 回転角の回帰を同時に学習する機構を, 単純幾何計算により, 付加的な定常制約として革新的に提案する(図1参照)。 提案手法の質を向上し,より優れた性能を実現するために,指向性中心先導ラベル割り当て戦略を提案する。 大規模な実験により,提案手法を組み込んだモデルでは,推定時に余分な計算負担を伴わずに,新たな最先端結果を達成するために,ベースラインを大きなマージンで大幅に上回ることを示した。 提案するアイデアはシンプルで直感的であり、容易に実装できる。 ソースコードとトレーニングされたモデルは補足ファイルに含まれている。

Detecting oriented objects along with estimating their rotation information is one crucial step for analyzing remote sensing images. Despite that many methods proposed recently have achieved remarkable performance, most of them directly learn to predict object directions under the supervision of only one (e.g. the rotation angle) or a few (e.g. several coordinates) groundtruth values individually. Oriented object detection would be more accurate and robust if extra constraints, with respect to proposal and rotation information regression, are adopted for joint supervision during training. To this end, we innovatively propose a mechanism that simultaneously learns the regression of horizontal proposals, oriented proposals, and rotation angles of objects in a consistent manner, via naive geometric computing, as one additional steady constraint (see Figure 1). An oriented center prior guided label assignment strategy is proposed for further enhancing the quality of proposals, yielding better performance. Extensive experiments demonstrate the model equipped with our idea significantly outperforms the baseline by a large margin to achieve a new state-of-the-art result without any extra computational burden during inference. Our proposed idea is simple and intuitive that can be readily implemented. Source codes and trained models are involved in supplementary files.
翻訳日:2021-12-02 14:30:54 公開日:2021-12-01
# ロングテール人物探索のためのサブタスク支配型トランスファー学習

Subtask-dominated Transfer Learning for Long-tail Person Search ( http://arxiv.org/abs/2112.00527v1 )

ライセンス: Link先を確認
Chuang Liu, Hua Yang, Qin Zhou, Shibao Zheng(参考訳) 人物探索は、人物検出と人物再識別(Re-ID)を統一し、パノラマギャラリー画像から質問者を特定する。 1つの大きな課題は、不均衡なロングテールの人物識別分布であり、1段階の人物探索モデルが最終識別のための識別的人物特徴を学習することを防ぐ。 しかし,一段階探索における重度不均衡なアイデンティティ分布の解法については未検討である。 ロングテール分類タスク用に設計された手法、例えば画像レベルの再サンプリング戦略は、検出ベースのマルチタスクフレームワークで人物検出と再idサブタスクを共同で解決するワンステップ人物探索に効果的に適用することは困難である。 そこで本研究では,Subtask-dominated Transfer Learning (STL)法を提案する。 STL法は、支配的なRe-IDサブタスクの事前学習段階におけるロングテール問題を解くとともに、事前訓練されたモデルの転送学習によるワンステップ人物探索を改善する。 さらに,一段階の人物探索のための人物特徴の識別能力を高めるために,多段階のRoI核融合プール層を設計する。 CUHK-SYSUとPRWデータセットの大規模な実験により,提案手法の優位性と有効性を示した。

Person search unifies person detection and person re-identification (Re-ID) to locate query persons from the panoramic gallery images. One major challenge comes from the imbalanced long-tail person identity distributions, which prevents the one-step person search model from learning discriminative person features for the final re-identification. However, it is under-explored how to solve the heavy imbalanced identity distributions for the one-step person search. Techniques designed for the long-tail classification task, for example, image-level re-sampling strategies, are hard to be effectively applied to the one-step person search which jointly solves person detection and Re-ID subtasks with a detection-based multi-task framework. To tackle this problem, we propose a Subtask-dominated Transfer Learning (STL) method. The STL method solves the long-tail problem in the pretraining stage of the dominated Re-ID subtask and improves the one-step person search by transfer learning of the pretrained model. We further design a Multi-level RoI Fusion Pooling layer to enhance the discrimination ability of person features for the one-step person search. Extensive experiments on CUHK-SYSU and PRW datasets demonstrate the superiority and effectiveness of the proposed method.
翻訳日:2021-12-02 14:30:32 公開日:2021-12-01
# 深度不確かさ学習による対面アンチ・スプーフィングのためのデュアルスポットアンタングル生成

Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth Uncertainty Learning ( http://arxiv.org/abs/2112.00568v1 )

ライセンス: Link先を確認
Hangtong Wu, Dan Zen, Yibo Hu, Hailin Shi, Tao Mei(参考訳) face anti-spoofing(fas)は、顔認識システムによるプレゼンテーション攻撃を防ぐ上で重要な役割を担っている。 既存のフェース・アンチ・スプーフィング・データセットは、FASモデルの一般化能力を制限する、アイデンティティと重要分散が不十分なため、多様性を欠いている。 本稿では,DSDG(Dual Spoof Disentanglement Generation)フレームワークを提案する。 変分オートエンコーダ(VAE)の解釈可能な因子化潜時歪みに基づいて、DSDGは、潜時空間における同一性表現と偽パターン表現の結合分布を学習する。 そして、ランダムノイズから大規模なペアライブおよびスプーフ画像を生成し、トレーニングセットの多様性を高める。 しかし、VAE固有の欠陥のため、生成した顔画像の一部が部分的に歪んでいる。 このようなノイズのあるサンプルは正確な深度を予測できないため、広く使われている深度監督最適化を阻害する可能性がある。 この問題に対処するため,より軽量な深度不確実性モジュール(DUM)を導入し,深度不確実性学習によるノイズサンプルの悪影響を軽減する。 DUMは外部依存なしに開発されており、顔の反スプーフィングのための奥行き監視ネットワークと柔軟に統合することができる。 提案手法の有効性を5つの一般的なベンチマークで評価し,テスト内設定とテスト間設定の両方で最新の結果を得る。 コードはhttps://github.com/JDAI-CV/FaceX-Zoo/tree/main/addition_module/DSDGで公開されている。

Face anti-spoofing (FAS) plays a vital role in preventing face recognition systems from presentation attacks. Existing face anti-spoofing datasets lack diversity due to the insufficient identity and insignificant variance, which limits the generalization ability of FAS model. In this paper, we propose Dual Spoof Disentanglement Generation (DSDG) framework to tackle this challenge by "anti-spoofing via generation". Depending on the interpretable factorized latent disentanglement in Variational Autoencoder (VAE), DSDG learns a joint distribution of the identity representation and the spoofing pattern representation in the latent space. Then, large-scale paired live and spoofing images can be generated from random noise to boost the diversity of the training set. However, some generated face images are partially distorted due to the inherent defect of VAE. Such noisy samples are hard to predict precise depth values, thus may obstruct the widely-used depth supervised optimization. To tackle this issue, we further introduce a lightweight Depth Uncertainty Module (DUM), which alleviates the adverse effects of noisy samples by depth uncertainty learning. DUM is developed without extra-dependency, thus can be flexibly integrated with any depth supervised network for face anti-spoofing. We evaluate the effectiveness of the proposed method on five popular benchmarks and achieve state-of-the-art results under both intra- and inter- test settings. The codes are available at https://github.com/JDAI-CV/FaceX-Zoo/tree/main/addition_module/DSDG.
翻訳日:2021-12-02 14:30:11 公開日:2021-12-01
# (参考訳) mdfm: 単発学習のための多次元fusingモデル

MDFM: Multi-Decision Fusing Model for Few-Shot Learning ( http://arxiv.org/abs/2112.00690v1 )

ライセンス: CC BY 4.0
Shuai Shao, Lei Xing, Rui Xu, Weifeng Liu, Yan-Jiang Wang, Bao-Di Liu(参考訳) 近年、研究者はデータスカース問題に対処するために、数ショット学習(FSL)タスクに注意を払っている。 標準のFSLフレームワークは2つのコンポーネントで構成されています。 i)プリトレイン。 ベースデータを使用してCNNベースの特徴抽出モデル(FEM)を生成する。 ii)メタテスト。 トレーニングされたFEMを新しいデータ(カテゴリはベースデータとは異なる)に適用して、機能埋め込みを取得して認識する。 研究者はFSLで驚くべき突破口を作ったが、依然として根本的な問題が残っている。 基礎データを持つ訓練されたFEMは、通常、新しいクラスに完璧に適応できないため、新しいデータの特徴は分散シフト問題を引き起こす可能性がある。 この課題に対処するために、異なるFEMに基づく決定の大部分が、すべてのクラスで利用できない \textit{weak decision} として見なされているとしても、いくつかの特定のカテゴリで十分に機能する、という仮説を立てる。 この仮定にインスパイアされたMDFM(Multi-Decision Fusing Model)は,複数のFEMに基づく決定を包括的に検討し,モデルの有効性とロバスト性を向上する手法である。 MDFMは単純で柔軟な非パラメトリック法であり、既存のFEMに直接適用することができる。 さらに、提案したMDFMを2つのFSL設定(教師付きおよび半教師付き設定)に拡張する。 提案手法を5つのベンチマークデータセットで評価し,3.4%-7.3\%の大幅な改善を達成した。

In recent years, researchers pay growing attention to the few-shot learning (FSL) task to address the data-scarce problem. A standard FSL framework is composed of two components: i) Pre-train. Employ the base data to generate a CNN-based feature extraction model (FEM). ii) Meta-test. Apply the trained FEM to the novel data (category is different from base data) to acquire the feature embeddings and recognize them. Although researchers have made remarkable breakthroughs in FSL, there still exists a fundamental problem. Since the trained FEM with base data usually cannot adapt to the novel class flawlessly, the novel data's feature may lead to the distribution shift problem. To address this challenge, we hypothesize that even if most of the decisions based on different FEMs are viewed as \textit{weak decisions}, which are not available for all classes, they still perform decently in some specific categories. Inspired by this assumption, we propose a novel method Multi-Decision Fusing Model (MDFM), which comprehensively considers the decisions based on multiple FEMs to enhance the efficacy and robustness of the model. MDFM is a simple, flexible, non-parametric method that can directly apply to the existing FEMs. Besides, we extend the proposed MDFM to two FSL settings (i.e., supervised and semi-supervised settings). We evaluate the proposed method on five benchmark datasets and achieve significant improvements of 3.4%-7.3\% compared with state-of-the-arts.
翻訳日:2021-12-02 14:28:56 公開日:2021-12-01
# VoRTX:Voxelwise View Selection and Fusionのためのトランスフォーマーを用いたボリューム3D再構成

VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View Selection and Fusion ( http://arxiv.org/abs/2112.00236v1 )

ライセンス: Link先を確認
Noah Stier, Alexander Rich, Pradeep Sen, Tobias H\"ollerer(参考訳) 近年の体積3次元再構成法は, 未観測表面においても, 極めて正確な形状が得られた。 しかし、マルチビュー融合に関しては望ましくないトレードオフに直面している。 グローバル平均化によって利用可能なすべてのビュー情報を融合し、詳細な詳細を失うか、あるいは局所的な融合のためにヒューリスティックにクラスタ化することで、すべてのビューを共同で検討する能力を制限することができる。 我々の重要な洞察は、カメラのポーズや画像の内容に条件付けされたビューフュージョン関数を学習することで、ビューの多様性を制限することなく、より詳細を維持できるということである。 本稿では,この多視点融合をトランスを用いて学習することを提案する。 この目的のために,多視点機能融合のためのトランスフォーマを用いたエンドツーエンドのボリューム3D再構成ネットワークであるVoRTXを紹介する。 このモデルでは,初期投影型シーン形状推定の予測にトランスフォーマーアーキテクチャを利用する。 この推定は、表面を遮蔽領域にバックプロジェクションすることを避けるために用いられる。 我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。 また,TUM-RGBD と ICL-NUIM の2つの他のデータセットにおいて,最先端の手法よりも高い精度で,微調整なしで一般化を実証する。

Recent volumetric 3D reconstruction methods can produce very accurate results, with plausible geometry even for unobserved surfaces. However, they face an undesirable trade-off when it comes to multi-view fusion. They can fuse all available view information by global averaging, thus losing fine detail, or they can heuristically cluster views for local fusion, thus restricting their ability to consider all views jointly. Our key insight is that greater detail can be retained without restricting view diversity by learning a view-fusion function conditioned on camera pose and image content. We propose to learn this multi-view fusion using a transformer. To this end, we introduce VoRTX, an end-to-end volumetric 3D reconstruction network using transformers for wide-baseline, multi-view feature fusion. Our model is occlusion-aware, leveraging the transformer architecture to predict an initial, projective scene geometry estimate. This estimate is used to avoid backprojecting image features through surfaces into occluded regions. We train our model on ScanNet and show that it produces better reconstructions than state-of-the-art methods. We also demonstrate generalization without any fine-tuning, outperforming the same state-of-the-art methods on two other datasets, TUM-RGBD and ICL-NUIM.
翻訳日:2021-12-02 14:03:07 公開日:2021-12-01
# クロスドメインFew-Shot学習におけるランキング距離校正

Ranking Distance Calibration for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2112.00260v1 )

ライセンス: Link先を確認
Pan Li, Shaogang Gong, Yanwei Fu, Chengjie Wang(参考訳) 数ショット学習の最近の進歩は、ソースとターゲットデータセットが異なるドメインから存在する、より現実的なクロスドメイン設定を促進する。 ドメインギャップとソースとターゲットデータセット間のラベル空間の相違により、共有される知識は極めて限られている。 これは、既存の多くのメソッドのように、ソースドメインのトレーニング戦略を過度に詳細化するのではなく、ターゲットドメインでより多くの情報を調べることを奨励します。 そこで我々は,クロスエントロピー損失によって事前訓練された汎用表現と,従来の距離ベース分類器,および画像検索ビューからスタートし,タスク内の相互k-アネレスト近傍を発見して,目標距離行列を校正する再分類プロセスを採用する。 事前学習された表現がソースに偏っていると仮定すると、双曲的接変換によるより転送可能な識別情報を保ちながら、タスク無関係な特徴を最小化する非線形部分空間を構築する。 この対象を意識しない非線形部分空間の校正距離は、事前訓練された表現のそれと相補的である。 このような距離キャリブレーション情報を事前訓練された表現に付与するために、クルバック・リブラー分散損失を用いて、徐々にキャリブレーションされた距離分布に向けてモデルを誘導する。 8つの対象領域の広範な評価は、この目標ランキング校正プロセスが、マイトショット学習における従来の距離ベース分類器を改善することを示している。

Recent progress in few-shot learning promotes a more realistic cross-domain setting, where the source and target datasets are from different domains. Due to the domain gap and disjoint label spaces between source and target datasets, their shared knowledge is extremely limited. This encourages us to explore more information in the target domain rather than to overly elaborate training strategies on the source domain as in many existing methods. Hence, we start from a generic representation pre-trained by a cross-entropy loss and a conventional distance-based classifier, along with an image retrieval view, to employ a re-ranking process for calibrating a target distance matrix by discovering the reciprocal k-nearest neighbours within the task. Assuming the pre-trained representation is biased towards the source, we construct a non-linear subspace to minimise task-irrelevant features therewithin while keep more transferrable discriminative information by a hyperbolic tangent transformation. The calibrated distance in this target-aware non-linear subspace is complementary to that in the pre-trained representation. To impose such distance calibration information onto the pre-trained representation, a Kullback-Leibler divergence loss is employed to gradually guide the model towards the calibrated distance-based distribution. Extensive evaluations on eight target domains show that this target ranking calibration process can improve conventional distance-based classifiers in few-shot learning.
翻訳日:2021-12-02 14:02:45 公開日:2021-12-01
# 深部ニューラルネットワークの未知検出能力に関する統一ベンチマーク

A Unified Benchmark for the Unknown Detection Capability of Deep Neural Networks ( http://arxiv.org/abs/2112.00337v1 )

ライセンス: Link先を確認
Jihyo Kim, Jiin Koo, Sangheum Hwang(参考訳) ディープニューラルネットワークは様々なタスクにおいて優れたパフォーマンスを実現しているが、それらは重要な問題である:完全に未知のサンプルであっても過信予測である。 これらの未知のサンプルのフィルタリングに成功するために多くの研究が提案されているが、それらは、誤分類検出、オープンセット認識、分散検出と呼ばれる、狭く特定のタスクのみを考慮していた。 本研究では,これらのタスクは,理想モデルがすべてのタスクに対して検出能力を持つべきなので,基本的に同一の問題として扱われるべきである,と論じる。 そこで我々は,従来の個別タスクの統合である未知検出タスクを導入し,未知サンプルの幅広いスペクトル上での深部ニューラルネットワークの検出能力を厳密に検証する。 この目的のために、異なるスケールの統一ベンチマークデータセットを構築し、既存の一般的な方法の未知の検出能力を比較した。 我々は、Deep Ensembleが未知の検出において他の手法よりも一貫して優れていることを発見した。 再現可能なコードとベンチマークデータセットは、https://github.com/daintlab/unknown-detection-benchmarksで入手できる。

Deep neural networks have achieved outstanding performance over various tasks, but they have a critical issue: over-confident predictions even for completely unknown samples. Many studies have been proposed to successfully filter out these unknown samples, but they only considered narrow and specific tasks, referred to as misclassification detection, open-set recognition, or out-of-distribution detection. In this work, we argue that these tasks should be treated as fundamentally an identical problem because an ideal model should possess detection capability for all those tasks. Therefore, we introduce the unknown detection task, an integration of previous individual tasks, for a rigorous examination of the detection capability of deep neural networks on a wide spectrum of unknown samples. To this end, unified benchmark datasets on different scales were constructed and the unknown detection capabilities of existing popular methods were subject to comparison. We found that Deep Ensemble consistently outperforms the other approaches in detecting unknowns; however, all methods are only successful for a specific type of unknown. The reproducible code and benchmark datasets are available at https://github.com/daintlab/unknown-detection-benchmarks .
翻訳日:2021-12-02 14:02:22 公開日:2021-12-01
# $\ell_\infty$-Robustness and Beyond: 効果的な対人訓練の開放

$\ell_\infty$-Robustness and Beyond: Unleashing Efficient Adversarial Training ( http://arxiv.org/abs/2112.00378v1 )

ライセンス: Link先を確認
Hadi M. Dolatabadi, Sarah Erfani, Christopher Leckie(参考訳) ニューラルネットワークは敵の攻撃に弱い: 入力に巧みに作り上げられた、知覚不能な摂動を加えることで、出力を変更できる。 敵の訓練は、そのような攻撃に対して堅牢なモデルを訓練する最も効果的なアプローチの1つである。 しかしながら、トレーニングデータ全体の逆例をイテレーション毎に構築する必要があるため、ニューラルネットワークのバニラトレーニングよりもはるかに遅いため、その効果は妨げられている。 近年,頑健なモデルを効率的に得る高速適応訓練法が提案されている。 しかし、その成功の背景にある理由は完全には理解されておらず、さらに重要なのは、トレーニング中にFGSMを使用するため、$\ell_\infty$-bounded攻撃のための堅牢なモデルをトレーニングできることだ。 本稿では,コアセット選択の理論を活用することで,学習データの小さなサブセットを選択することで,ロバストトレーニングの時間的複雑さを低減できることを示す。 既存の手法と異なり,TRADES,$\ell_p$-PGD,Perceptual Adversarial Trainingなど,さまざまなトレーニング対象に適用することができる。 実験結果から,我々のアプローチは,クリーンでロバストな精度の低下を経験しながら,敵のトレーニングを2~3倍高速化することが示唆された。

Neural networks are vulnerable to adversarial attacks: adding well-crafted, imperceptible perturbations to their input can modify their output. Adversarial training is one of the most effective approaches in training robust models against such attacks. However, it is much slower than vanilla training of neural networks since it needs to construct adversarial examples for the entire training data at every iteration, which has hampered its effectiveness. Recently, Fast Adversarial Training was proposed that can obtain robust models efficiently. However, the reasons behind its success are not fully understood, and more importantly, it can only train robust models for $\ell_\infty$-bounded attacks as it uses FGSM during training. In this paper, by leveraging the theory of coreset selection we show how selecting a small subset of training data provides a more principled approach towards reducing the time complexity of robust training. Unlike existing methods, our approach can be adapted to a wide variety of training objectives, including TRADES, $\ell_p$-PGD, and Perceptual Adversarial Training. Our experimental results indicate that our approach speeds up adversarial training by 2-3 times, while experiencing a small reduction in the clean and robust accuracy.
翻訳日:2021-12-02 14:00:11 公開日:2021-12-01
# Rethink, Revisit, Revise: ゼロショット学習のためのスパイラル強化型自己修正ネットワーク

Rethink, Revisit, Revise: A Spiral Reinforced Self-Revised Network for Zero-Shot Learning ( http://arxiv.org/abs/2112.00410v1 )

ライセンス: Link先を確認
Zhe Liu, Yun Li, Lina Yao, Julian McAuley, and Sam Dixon(参考訳) ゼロショット学習(ZSL)への現在のアプローチは、複雑な相関を捉えることのできる一般化可能な意味知識の習得に苦慮している。 知識の再訪によって学習プロセスを増強する「emph{spiral curriculum}」に触発され、属性群(例えば、\emph{color} と \emph{shape} の組合せ群)に基づいて視覚表現を再検討するスパイラル学習の一形態を提案する。 スパイラル学習は、一般化された局所的相関を学習することを目的としており、モデルが徐々にグローバルな学習を強化し、複雑な相関を理解することを可能にする。 実装は2段階の \emph{Reinforced Self-Revised (RSR) フレームワーク, \emph{preview} と \emph{review} に基づいている。 RSRはまず視覚情報をプレビューし、弱い教師付きで多様な属性群を構築する。 次に、属性群に基づいて洗練された局所性をスパイラルに学習し、グローバル意味相関の修正に局所性を用いる。 筆者らのフレームワークは,ゼロショットと一般化ゼロショット設定の両方において,4つのベンチマークデータセットの最先端アルゴリズムよりも優れており,学習におけるスパイラル学習の有効性を示す。 また,属性群と強化された意思決定プロセスが相補的な意味情報を取り込み,予測や説明可能性の向上に役立つことを示すために,広範な分析を行った。

Current approaches to Zero-Shot Learning (ZSL) struggle to learn generalizable semantic knowledge capable of capturing complex correlations. Inspired by \emph{Spiral Curriculum}, which enhances learning processes by revisiting knowledge, we propose a form of spiral learning which revisits visual representations based on a sequence of attribute groups (e.g., a combined group of \emph{color} and \emph{shape}). Spiral learning aims to learn generalized local correlations, enabling models to gradually enhance global learning and thus understand complex correlations. Our implementation is based on a 2-stage \emph{Reinforced Self-Revised (RSR)} framework: \emph{preview} and \emph{review}. RSR first previews visual information to construct diverse attribute groups in a weakly-supervised manner. Then, it spirally learns refined localities based on attribute groups and uses localities to revise global semantic correlations. Our framework outperforms state-of-the-art algorithms on four benchmark datasets in both zero-shot and generalized zero-shot settings, which demonstrates the effectiveness of spiral learning in learning generalizable and complex correlations. We also conduct extensive analysis to show that attribute groups and reinforced decision processes can capture complementary semantic information to improve predictions and aid explainability.
翻訳日:2021-12-02 13:59:49 公開日:2021-12-01
# 360度単眼深度推定のための分解分布シフト付きベンチマーク

A benchmark with decomposed distribution shifts for 360 monocular depth estimation ( http://arxiv.org/abs/2112.00432v1 )

ライセンス: Link先を確認
Georgios Albanis, Nikolaos Zioulis, Petros Drakoulis, Federico Alvarez, Dimitrios Zarpalas, Petros Daras(参考訳) 本研究では,コンピュータビジョンタスクのための分布シフトベンチマークである単眼深度推定を提案する。 当社の差別化は、非制御テストの非制御データのより広範な分布シフトを3つの異なる分布シフトに分解することである。 具体的には,合成によるデータ生成と分析を行い,共変量(カラー入力),事前(ディープアウトプット),概念(テーマリレーションシップ)分布シフトを生成する。 コンビネーションを合成し、それらを積み重ねることでパフォーマンスが低下し、標準のアプローチでは水平に対処できないため、各コンビネーションが実際に対処すべき課題であることを示すことも行います。

In this work we contribute a distribution shift benchmark for a computer vision task; monocular depth estimation. Our differentiation is the decomposition of the wider distribution shift of uncontrolled testing on in-the-wild data, to three distinct distribution shifts. Specifically, we generate data via synthesis and analyze them to produce covariate (color input), prior (depth output) and concept (their relationship) distribution shifts. We also synthesize combinations and show how each one is indeed a different challenge to address, as stacking them produces increased performance drops and cannot be addressed horizontally using standard approaches.
翻訳日:2021-12-02 13:59:26 公開日:2021-12-01
# RegNeRF:スパース入力からのビュー合成のための正則化ニューラルラジアンス場

RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from Sparse Inputs ( http://arxiv.org/abs/2112.00724v1 )

ライセンス: Link先を確認
Michael Niemeyer, Jonathan T. Barron, Ben Mildenhall, Mehdi S. M. Sajjadi, Andreas Geiger, Noha Radwan(参考訳) neural radiance fields(nerf)は、その単純さと最先端のパフォーマンスのために、新しいビュー合成のタスクの強力な表現として登場した。 多くの入力ビューが利用可能である場合、NeRFは見当たらない視点のフォトリアリスティックレンダリングを生成することができるが、この数を減らすと、その性能は大幅に低下する。 スパース入力シナリオにおけるアーティファクトの大多数は,推定されたシーン形状の誤差と,トレーニング開始時の振る舞いの相違によるものである。 我々は、観測されていない視点からレンダリングされたパッチの形状と外観を規則化し、トレーニング中にレイサンプリング空間をアニーする。 さらに,監視されていない視点の色を正規化するために正規化フローモデルを用いる。 我々のモデルは、一つのシーンで最適化する他の方法よりも、大規模なマルチビューデータセットで広範囲に事前訓練された条件付きモデルよりも優れています。

Neural Radiance Fields (NeRF) have emerged as a powerful representation for the task of novel view synthesis due to their simplicity and state-of-the-art performance. Though NeRF can produce photorealistic renderings of unseen viewpoints when many input views are available, its performance drops significantly when this number is reduced. We observe that the majority of artifacts in sparse input scenarios are caused by errors in the estimated scene geometry, and by divergent behavior at the start of training. We address this by regularizing the geometry and appearance of patches rendered from unobserved viewpoints, and annealing the ray sampling space during training. We additionally use a normalizing flow model to regularize the color of unobserved viewpoints. Our model outperforms not only other methods that optimize over a single scene, but in many cases also conditional models that are extensively pre-trained on large multi-view datasets.
翻訳日:2021-12-02 13:58:58 公開日:2021-12-01
# MonoScene: モノクロ3Dセマンティックシーンの完成

MonoScene: Monocular 3D Semantic Scene Completion ( http://arxiv.org/abs/2112.00726v1 )

ライセンス: Link先を確認
Anh-Quan Cao, Raoul de Charette(参考訳) MonoSceneは3Dセマンティックシーンコンプリート(SSC)フレームワークを提案し、シーンの密集した幾何学と意味を単一の単眼RGB画像から推測する。 ssc文献と異なり,2.5次元または3次元の入力を頼りに2次元から3次元のシーンを合成する複雑な問題を解決する。 我々のフレームワークは、光学から誘発される新しい2D-3D特徴によってブリッジされた連続した2次元および3次元ユニセットに依存し、時空間整合を強制する前に3次元コンテキスト関係を導入する。 建築コントリビューションに加えて,新たなグローバルシーンと地域フラストラムの損失も紹介する。 実験では、すべてのメトリクスやデータセットの文献よりも優れており、カメラの視野を越えても、幻覚的な風景を呈している。 私たちのコードとトレーニングされたモデルはhttps://github.com/cv-rits/MonoSceneで利用可能です。

MonoScene proposes a 3D Semantic Scene Completion (SSC) framework, where the dense geometry and semantics of a scene are inferred from a single monocular RGB image. Different from the SSC literature, relying on 2.5 or 3D input, we solve the complex problem of 2D to 3D scene reconstruction while jointly inferring its semantics. Our framework relies on successive 2D and 3D UNets bridged by a novel 2D-3D features projection inspiring from optics and introduces a 3D context relation prior to enforce spatio-semantic consistency. Along with architectural contributions, we introduce novel global scene and local frustums losses. Experiments show we outperform the literature on all metrics and datasets while hallucinating plausible scenery even beyond the camera field of view. Our code and trained models are available at https://github.com/cv-rits/MonoScene
翻訳日:2021-12-02 13:58:42 公開日:2021-12-01
# RNN-Tにおけるラベル誤りの訓練効果の検討

Investigation of Training Label Error Impact on RNN-T ( http://arxiv.org/abs/2112.00350v1 )

ライセンス: Link先を確認
I-Fan Chen, Brian King, Jasha Droppo(参考訳) 本稿では,RNN-Tに基づくASRモデルに対して,異なるトレーニングラベル誤差の影響を定量的に解析する手法を提案する。 その結果,RNN-Tトレーニングデータにおいて,削除誤りは置換や挿入ラベルエラーよりも有害であることがわかった。 また,rnn-tにおけるラベルエラー影響軽減手法についても検討し,ラベルエラーによる劣化をある程度緩和するが,ラベルエラーの有無に関わらずトレーニングしたモデル間の性能ギャップを取り除けなかった。 解析結果に基づいて,削除ラベルエラーの低減を優先して,RNN-Tのデータパイプラインの設計を提案する。 また,ラベル誤り軽減手法が存在するにも関わらず,高品質なトレーニングラベルの確保が引き続き重要であることも確認した。

In this paper, we propose an approach to quantitatively analyze impacts of different training label errors to RNN-T based ASR models. The result shows deletion errors are more harmful than substitution and insertion label errors in RNN-T training data. We also examined label error impact mitigation approaches on RNN-T and found that, though all the methods mitigate the label-error-caused degradation to some extent, they could not remove the performance gap between the models trained with and without the presence of label errors. Based on the analysis results, we suggest to design data pipelines for RNN-T with higher priority on reducing deletion label errors. We also find that ensuring high-quality training labels remains important, despite of the existence of the label error mitigation approaches.
翻訳日:2021-12-02 13:58:27 公開日:2021-12-01
# タンパク質機能予測のための待ち行列埋め込みと畳み込みニューラルネットワーク

Leveraging Sequence Embedding and Convolutional Neural Network for Protein Function Prediction ( http://arxiv.org/abs/2112.00344v1 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Po-Han Chi, Jia-Hua Wu, Min Sun(参考訳) タンパク質の機能や特性を正確に予測する能力は、医薬品開発や人工タンパク質合成など、バイオテクノロジー産業において不可欠である。 タンパク質機能予測の主な課題は、大きなラベル空間とラベル付きトレーニングデータの欠如である。 これらの課題を克服するために、教師なしシーケンス埋め込みと深部畳み込みニューラルネットワークの成功を活用する。 対照的に、既存の手法のほとんどはラベル空間を減らすためにレアタンパク質の機能を削除する。 さらに、いくつかの既存の方法は、生化学的実験で決定が難しい追加の生体情報(タンパク質の3次元構造など)を必要とする。 提案手法は,タンパク質配列のみを入力として,公開ベンチマークの他の手法を著しく上回っている。 これにより、タンパク質の機能を特定するプロセスが加速される。

The capability of accurate prediction of protein functions and properties is essential in the biotechnology industry, e.g. drug development and artificial protein synthesis, etc. The main challenges of protein function prediction are the large label space and the lack of labeled training data. Our method leverages unsupervised sequence embedding and the success of deep convolutional neural network to overcome these challenges. In contrast, most of the existing methods delete the rare protein functions to reduce the label space. Furthermore, some existing methods require additional bio-information (e.g., the 3-dimensional structure of the proteins) which is difficult to be determined in biochemical experiments. Our proposed method significantly outperforms the other methods on the publicly available benchmark using only protein sequences as input. This allows the process of identifying protein functions to be sped up.
翻訳日:2021-12-02 13:57:15 公開日:2021-12-01
# 化学元素知識グラフを用いた分子コントラスト学習

Molecular Contrastive Learning with Chemical Element Knowledge Graph ( http://arxiv.org/abs/2112.00544v1 )

ライセンス: Link先を確認
Yin Fang, Qiang Zhang, Haihong Yang, Xiang Zhuang, Shumin Deng, Wen Zhang, Ming Qin, Zhuo Chen, Xiaohui Fan, Huajun Chen(参考訳) 分子表現学習は、分子特性予測や薬物設計など、複数の下流タスクに寄与する。 分子を適切に表現するためには、グラフコントラスト学習は、自己超越的な信号を使用し、人間のアノテーションの要求がないため、有望なパラダイムである。 しかし、先行研究は基本的なドメイン知識をグラフセマンティクスに組み込むことができず、そのため共通の属性を持つが結合によって直接結び付けられていない原子間の相関を無視する。 これらの課題に対処するため,我々は,元素間の微視的関連を要約するケミカル要素知識グラフ(KG)を構築し,分子表現学習のための新しい知識強調学習(KCL)フレームワークを提案する。 KCLフレームワークは3つのモジュールで構成される。 最初のモジュールである知識誘導グラフ拡張は、化学元素kgに基づいて元の分子グラフを増強する。 第2のモジュールである知識対応グラフ表現は、元の分子グラフの共通グラフエンコーダと知識対応メッセージパッシングニューラルネットワーク(KMPNN)を用いて分子表現を抽出し、拡張された分子グラフの複雑な情報をエンコードする。 最後のモジュールは対照的な目的であり、分子グラフのこの2つのビューの一致を最大化する。 広範な実験により、kclは8つの分子データセットで最先端のベースラインに対して優れた性能を得た。 可視化実験は、KCLが分子グラフの原子や属性から学んだことを適切に解釈する。 私たちのコードとデータは補足資料で利用可能です。

Molecular representation learning contributes to multiple downstream tasks such as molecular property prediction and drug design. To properly represent molecules, graph contrastive learning is a promising paradigm as it utilizes self-supervision signals and has no requirements for human annotations. However, prior works fail to incorporate fundamental domain knowledge into graph semantics and thus ignore the correlations between atoms that have common attributes but are not directly connected by bonds. To address these issues, we construct a Chemical Element Knowledge Graph (KG) to summarize microscopic associations between elements and propose a novel Knowledge-enhanced Contrastive Learning (KCL) framework for molecular representation learning. KCL framework consists of three modules. The first module, knowledge-guided graph augmentation, augments the original molecular graph based on the Chemical Element KG. The second module, knowledge-aware graph representation, extracts molecular representations with a common graph encoder for the original molecular graph and a Knowledge-aware Message Passing Neural Network (KMPNN) to encode complex information in the augmented molecular graph. The final module is a contrastive objective, where we maximize agreement between these two views of molecular graphs. Extensive experiments demonstrated that KCL obtained superior performances against state-of-the-art baselines on eight molecular datasets. Visualization experiments properly interpret what KCL has learned from atoms and attributes in the augmented molecular graphs. Our codes and data are available in supplementary materials.
翻訳日:2021-12-02 13:57:03 公開日:2021-12-01
# 認証された敵対的防御が分散的腐敗を満たす - ベンチマークロバスト性と単純なベースライン

Certified Adversarial Defenses Meet Out-of-Distribution Corruptions: Benchmarking Robustness and Simple Baselines ( http://arxiv.org/abs/2112.00659v1 )

ライセンス: Link先を確認
Jiachen Sun, Akshay Mehra, Bhavya Kailkhura, Pin-Yu Chen, Dan Hendrycks, Jihun Hamm, and Z. Morley Mao(参考訳) 認証された堅牢性保証は、テストタイムアタックに対するモデルの堅牢性を測定し、実世界でのモデルのデプロイの準備性を評価する。 本研究では,ランダム化平滑化に基づく認証手法が,od(out-of-distribution-distribution)データに遭遇すると,その逆のロバスト性がどう変化するかを批判的に検証する。 我々の分析では、これらのモデルが気象関連腐敗などの低周波OODデータに対して以前にも知られていなかった脆弱性を示す。 この問題を軽減するために,トレーニングデータのスペクトルカバレッジを改善するために,新たなデータ拡張スキームであるFourierMixを提案する。 さらに,拡張データのノイズ摂動に対する一貫した予測を奨励し,平滑化モデルの品質を向上させる新しい正規化器を提案する。 また,FourierMixの拡張により,様々なOODベンチマークにおいて,より優れたロバスト性保証を実現することが可能となる。 評価の結果,現在のOODベンチマークでは,モデルのスペクトルバイアスを強調できないことが明らかとなった。 そこで本研究では,スペクトル領域の異なる領域からの破損を含む総合的なベンチマークスイートを提案する。 提案手法を用いてトレーニングされたモデルの評価では,周波数スペクトル全体に対するOODシフトの下で,より信頼性の高いロバスト性保証を実現するために,スペクトルバイアスを強調し,FourierMix訓練モデルの優位性を確立する。

Certified robustness guarantee gauges a model's robustness to test-time attacks and can assess the model's readiness for deployment in the real world. In this work, we critically examine how the adversarial robustness guarantees from randomized smoothing-based certification methods change when state-of-the-art certifiably robust models encounter out-of-distribution (OOD) data. Our analysis demonstrates a previously unknown vulnerability of these models to low-frequency OOD data such as weather-related corruptions, rendering these models unfit for deployment in the wild. To alleviate this issue, we propose a novel data augmentation scheme, FourierMix, that produces augmentations to improve the spectral coverage of the training data. Furthermore, we propose a new regularizer that encourages consistent predictions on noise perturbations of the augmented data to improve the quality of the smoothed models. We find that FourierMix augmentations help eliminate the spectral bias of certifiably robust models enabling them to achieve significantly better robustness guarantees on a range of OOD benchmarks. Our evaluation also uncovers the inability of current OOD benchmarks at highlighting the spectral biases of the models. To this end, we propose a comprehensive benchmarking suite that contains corruptions from different regions in the spectral domain. Evaluation of models trained with popular augmentation methods on the proposed suite highlights their spectral biases and establishes the superiority of FourierMix trained models at achieving better-certified robustness guarantees under OOD shifts over the entire frequency spectrum.
翻訳日:2021-12-02 13:56:36 公開日:2021-12-01
# MOMO -- PACSアーカイブのための外部DICOM研究のディープラーニングによる分類

MOMO -- Deep Learning-driven classification of external DICOM studies for PACS archivation ( http://arxiv.org/abs/2112.00661v1 )

ライセンス: Link先を確認
Frederic Jonske, Maximilian Dederichs, Moon-Sung Kim, Jan Egger, Lale Umutlu, Michael Forsting, Felix Nensa, Jens Kleesiek(参考訳) 患者は、CD-ROMとして以前の画像研究を受け、新しい病院の臨床スタッフに、これらの研究を地元のデータベースにインポートするよう要求するなど、他の施設で定期的に評価や治療を継続する。 しかし、異なる施設間では、命名法、内容、さらには医療処置の基準は様々であり、受講者の病院の基準の文脈において、受講した研究を正確に分類するために、しばしば人間の介入を必要とする。 本研究では,メタデータのサブストリングマッチングとニューラルネットワークアンサンブルを用いて,7つの異なるモダリティを用いた76の一般的なイメージング研究を認識するようにトレーニングした,ディープラーニングに基づくアプローチであるmomo(modality mapping and orchestration)を提案する。 このアルゴリズムが提供できる精度を測定するために、振り返り研究が行われる。 この目的のために、既存のラベルを持つ11,934個の画像シリーズが、地元の病院のPACSデータベースから検索され、ニューラルネットワークを訓練した。 843の完全匿名化外部研究を手作業で実施し,アルゴリズムの性能評価を行った。 さらに,アルゴリズムにおけるネットワークアンサンブルの性能への影響を測定するため,アブレーション実験を行い,商用製品との比較評価を行った。 商用製品(96.20%の予測能力、82.86%の精度、1.36%のマイナーエラー)と比較して、ニューラルネットワークアンサンブルだけで、精度の低い分類タスクを実行する(99.05%の予測能力、72.69%の精度、10.3%のマイナーエラー)。 しかし、MOMOは高い精度と予測力(99.29%の予測力、92.71%の精度、2.63%のマイナーエラー)で上回っている。

Patients regularly continue assessment or treatment in other facilities than they began them in, receiving their previous imaging studies as a CD-ROM and requiring clinical staff at the new hospital to import these studies into their local database. However, between different facilities, standards for nomenclature, contents, or even medical procedures may vary, often requiring human intervention to accurately classify the received studies in the context of the recipient hospital's standards. In this study, the authors present MOMO (MOdality Mapping and Orchestration), a deep learning-based approach to automate this mapping process utilizing metadata substring matching and a neural network ensemble, which is trained to recognize the 76 most common imaging studies across seven different modalities. A retrospective study is performed to measure the accuracy that this algorithm can provide. To this end, a set of 11,934 imaging series with existing labels was retrieved from the local hospital's PACS database to train the neural networks. A set of 843 completely anonymized external studies was hand-labeled to assess the performance of our algorithm. Additionally, an ablation study was performed to measure the performance impact of the network ensemble in the algorithm, and a comparative performance test with a commercial product was conducted. In comparison to a commercial product (96.20% predictive power, 82.86% accuracy, 1.36% minor errors), a neural network ensemble alone performs the classification task with less accuracy (99.05% predictive power, 72.69% accuracy, 10.3% minor errors). However, MOMO outperforms either by a large margin in accuracy and with increased predictive power (99.29% predictive power, 92.71% accuracy, 2.63% minor errors).
翻訳日:2021-12-02 13:56:10 公開日:2021-12-01
# (参考訳) エッジトランスを用いたシステム一般化

Systematic Generalization with Edge Transformers ( http://arxiv.org/abs/2112.00578v1 )

ライセンス: CC BY 4.0
Leon Bergen, Timothy J. O'Donnell, Dzmitry Bahdanau(参考訳) 近年の研究では、自然言語理解における体系的な一般化は、トランスフォーマーやグラフニューラルネットワークのような最先端のニューラルネットワークモデルの課題であり続けていることが示唆されている。 この課題に対処するために、TransformerからインスピレーションとルールベースのシンボルAIを組み合わせた新しいモデルであるEdge Transformerを提案する。 Edge Transformerの最初の鍵となるアイデアは、Transformerモデルで行われているように、ベクトル状態とすべてのエッジ、すなわち入力ノードのすべてのペアを、すべてのノードに対して関連付けることである。 2つ目の大きな革新は、論理プログラミングの統一にインスパイアされたエッジ表現を更新する三角形のアテンションメカニズムである。 関係推論,セマンティック解析,依存性解析において,構成一般化ベンチマーク上でEdge Transformerを評価する。 3つの設定で、Edge TransformerはRelation-aware、Universal、Classic Transformerのベースラインを上回っている。

Recent research suggests that systematic generalization in natural language understanding remains a challenge for state-of-the-art neural models such as Transformers and Graph Neural Networks. To tackle this challenge, we propose Edge Transformer, a new model that combines inspiration from Transformers and rule-based symbolic AI. The first key idea in Edge Transformers is to associate vector states with every edge, that is, with every pair of input nodes -- as opposed to just every node, as it is done in the Transformer model. The second major innovation is a triangular attention mechanism that updates edge representations in a way that is inspired by unification from logic programming. We evaluate Edge Transformer on compositional generalization benchmarks in relational reasoning, semantic parsing, and dependency parsing. In all three settings, the Edge Transformer outperforms Relation-aware, Universal and classical Transformer baselines.
翻訳日:2021-12-02 13:54:13 公開日:2021-12-01
# STEM:ステンス検出のための教師なし構造EMベディング

STEM: Unsupervised STructural EMbedding for Stance Detection ( http://arxiv.org/abs/2112.00712v1 )

ライセンス: Link先を確認
Ron Korenblum Pick, Vladyslav Kozhukhov, Dan Vilenchik, Oren Tsur(参考訳) スタンス検出は重要なタスクであり、偽ニュース、噂、科学否定の伝播を解析しモデル化するといった下流タスクの多くをサポートする。 本稿では,姿勢検出のための新しい枠組みを提案する。 私たちのフレームワークは教師なしで、ドメイン非依存です。 クレームと多人数ディスカッションが与えられた場合、各話者に対するトポロジカルな埋め込みを導出する相互作用ネットワークを構築します。 これらの話者埋め込みは以下の性質を享受する:同じ姿勢の話者は類似したベクトルで表される傾向があり、反ポッドベクトルは反対の姿勢の話者を表す。 これらの埋め込みは、話者をスタンス分割に分割するために使われる。 提案手法は,異なるプラットフォームから3つの異なるデータセットで評価する。 提案手法は,その出力に対する信頼性レベルを提供しながら,教師付きモデルに匹敵する性能を有する。 さらに,構造埋め込みが話者が表現した価数とどのように関連しているかを示す。 最後に、フレームワーク固有のいくつかの制限について議論する。

Stance detection is an important task, supporting many downstream tasks such as discourse parsing and modeling the propagation of fake news, rumors, and science denial. In this paper, we propose a novel framework for stance detection. Our framework is unsupervised and domain-independent. Given a claim and a multi-participant discussion - we construct the interaction network from which we derive topological embeddings for each speaker. These speaker embeddings enjoy the following property: speakers with the same stance tend to be represented by similar vectors, while antipodal vectors represent speakers with opposing stances. These embeddings are then used to divide the speakers into stance-partitions. We evaluate our method on three different datasets from different platforms. Our method outperforms or is comparable with supervised models while providing confidence levels for its output. Furthermore, we demonstrate how the structural embeddings relate to the valence expressed by the speakers. Finally, we discuss some limitations inherent to the framework.
翻訳日:2021-12-02 13:36:13 公開日:2021-12-01
# 物理インフォームドニューラルネットワークを用いた多状態システムの信頼性評価フレームワーク

A generic physics-informed neural network-based framework for reliability assessment of multi-state systems ( http://arxiv.org/abs/2112.00220v1 )

ライセンス: Link先を確認
Taotao Zhou, Xiaoge Zhang, Enrique Lopez Droguett, Ali Mosleh(参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)の最近の進歩を活用し,マルチステートシステム(MSS)の信頼性を評価する汎用的なPINNベースのフレームワークを開発する。 提案手法は2つの主要なステップからなる。 第1段階では,pinnのフレームワークを用いた機械学習問題として,mssの信頼性評価を再キャストする。 2つの損失群を持つフィードフォワードニューラルネットワークを構築し、mssにおける常微分方程式(odes)によって制御される初期状態と状態遷移を符号化する。 次に,マルチタスク学習の観点から,pinnのバックプロパゲーション勾配の大きさにおける高い不均衡の問題に取り組む。 特に、損失関数の各要素を個々のタスクとして扱い、衝突勾配を持つ他のタスクのノルム平面上にタスクの勾配を投影する「衝突勾配投影」(pcgrad)という勾配手術アプローチを採用する。 勾配投影操作は, PINN訓練時の勾配干渉による劣化効果を著しく軽減し, MSS信頼性評価のための高精度解へのPINNの収束速度を向上する。 提案するPINNベースのフレームワークを用いて,MSSの信頼性評価への応用を,時間に依存しない状態遷移や依存状態遷移,システムスケールによって検討する。 その結果,提案したPINNベースのフレームワークはMSS信頼性評価において汎用的かつ顕著な性能を示し,PINNにPCGradを組み込むことにより,ソリューションの品質と収束速度が大幅に向上することが示された。

In this paper, we leverage the recent advances in physics-informed neural network (PINN) and develop a generic PINN-based framework to assess the reliability of multi-state systems (MSSs). The proposed methodology consists of two major steps. In the first step, we recast the reliability assessment of MSS as a machine learning problem using the framework of PINN. A feedforward neural network with two individual loss groups are constructed to encode the initial condition and state transitions governed by ordinary differential equations (ODEs) in MSS. Next, we tackle the problem of high imbalance in the magnitude of the back-propagated gradients in PINN from a multi-task learning perspective. Particularly, we treat each element in the loss function as an individual task, and adopt a gradient surgery approach named projecting conflicting gradients (PCGrad), where a task's gradient is projected onto the norm plane of any other task that has a conflicting gradient. The gradient projection operation significantly mitigates the detrimental effects caused by the gradient interference when training PINN, thus accelerating the convergence speed of PINN to high-precision solutions to MSS reliability assessment. With the proposed PINN-based framework, we investigate its applications for MSS reliability assessment in several different contexts in terms of time-independent or dependent state transitions and system scales varying from small to medium. The results demonstrate that the proposed PINN-based framework shows generic and remarkable performance in MSS reliability assessment, and the incorporation of PCGrad in PINN leads to substantial improvement in solution quality and convergence speed.
翻訳日:2021-12-02 13:35:58 公開日:2021-12-01
# プルーニングとモデル平均化戦略による効率的かつ効率的な構造学習

Effective and efficient structure learning with pruning and model averaging strategies ( http://arxiv.org/abs/2112.00398v1 )

ライセンス: Link先を確認
Anthony C. Constantinou, Yang Liu, Neville K. Kitson, Kiattikun Chobtham, Zhigao Guo(参考訳) スコアベースの解を持つベイズネットワーク(BN)の構造を学ぶには、可能なグラフの探索空間を探索し、与えられた目的関数を最大化するグラフへ移動する必要がある。 一部のアルゴリズムは、最も客観的なスコアでグラフを返すことを保証する厳密な解を提供し、他のアルゴリズムは計算複雑性の低減と引き換えに近似解を提供する。 本稿では,2つの新しい戦略とヒルクライミング探索を組み合わせたモデル平均ヒルクライミング(mahc)と呼ぶ近似bn構造学習アルゴリズムについて述べる。 アルゴリズムはグラフの探索空間を刈り取ることから始まり、そこでは刈り取り戦略を、組合せ最適化構造学習問題に典型的に適用される打抜き戦略の攻撃バージョンと見なすことができる。 そして、丘を登る探索過程において平均化を行い、その隣接するグラフと有効なすべてのグラフに対して、平均して目的関数を最大化する近隣グラフに移動する。 異なる学習クラスにまたがる他のアルゴリズムとの比較から、アグレッシブな刈り取りとモデル平均化の組み合わせは、特にデータノイズの存在下では効率的かつ効率的であることが示唆される。

Learning the structure of a Bayesian Network (BN) with score-based solutions involves exploring the search space of possible graphs and moving towards the graph that maximises a given objective function. Some algorithms offer exact solutions that guarantee to return the graph with the highest objective score, while others offer approximate solutions in exchange for reduced computational complexity. This paper describes an approximate BN structure learning algorithm, which we call Model Averaging Hill-Climbing (MAHC), that combines two novel strategies with hill-climbing search. The algorithm starts by pruning the search space of graphs, where the pruning strategy can be viewed as an aggressive version of the pruning strategies that are typically applied to combinatorial optimisation structure learning problems. It then performs model averaging in the hill-climbing search process and moves to the neighbouring graph that maximises the objective function, on average, for that neighbouring graph and over all its valid neighbouring graphs. Comparisons with other algorithms spanning different classes of learning suggest that the combination of aggressive pruning with model averaging is both effective and efficient, particularly in the presence of data noise.
翻訳日:2021-12-02 13:35:33 公開日:2021-12-01
# 不完全監督下の非対称誤差制御-ラベルノイズ調整ニーマン・ピアソン傘アルゴリズム

Asymmetric error control under imperfect supervision: a label-noise-adjusted Neyman-Pearson umbrella algorithm ( http://arxiv.org/abs/2112.00314v1 )

ライセンス: Link先を確認
Shunan Yao, Bradley Rava, Xin Tong, Gareth James(参考訳) データ内のラベルノイズは、多くの広く使われている分類手法の有効性に影響を与えるため、教師付き学習アプリケーションにおいて長い間重要な問題となっている。 近年、医療診断やサイバーセキュリティといった重要な現実世界の応用は、より厳しいタイプのエラー(例:I型エラー)を優先レベルで制限し、他方を最小化(例:II型エラー)するNeyman-Pearson(NP)分類パラダイムに新たな関心を生んでいる。 しかし、ラベルノイズ下でのNPパラダイムについてはほとんど研究されていない。 一般的なNP分類器がトレーニング段階でラベルノイズを無視したとしても、高い確率でI型エラーを制御できることは驚くべきことである。 しかし、それらが支払う価格はI型エラーの過度な保守性であり、従ってパワーが大幅に低下する(すなわち、1-$タイプII型エラー)。 ドメインエキスパートが汚職重大度に低い限界を与えると仮定し,NPパラダイムに基づくトレーニングラベルノイズにほとんどの最先端の分類手法を適応させる理論支援アルゴリズムを提案する。 結果の分類器は、I型エラーを所望のレベルで高い確率で制御するだけでなく、パワーも向上する。

Label noise in data has long been an important problem in supervised learning applications as it affects the effectiveness of many widely used classification methods. Recently, important real-world applications, such as medical diagnosis and cybersecurity, have generated renewed interest in the Neyman-Pearson (NP) classification paradigm, which constrains the more severe type of error (e.g., the type I error) under a preferred level while minimizing the other (e.g., the type II error). However, there has been little research on the NP paradigm under label noise. It is somewhat surprising that even when common NP classifiers ignore the label noise in the training stage, they are still able to control the type I error with high probability. However, the price they pay is excessive conservativeness of the type I error and hence a significant drop in power (i.e., $1 - $ type II error). Assuming that domain experts provide lower bounds on the corruption severity, we propose the first theory-backed algorithm that adapts most state-of-the-art classification methods to the training label noise under the NP paradigm. The resulting classifiers not only control the type I error with high probability under the desired level but also improve power.
翻訳日:2021-12-02 13:34:38 公開日:2021-12-01
# 混合ニューラルネットワークガウス過程

Mixed neural network Gaussian processes ( http://arxiv.org/abs/2112.00365v1 )

ライセンス: Link先を確認
Alexey Lindo, Theodore Papamarkou, Serik Sagitov, Laura Stewart(参考訳) この論文には2つの貢献がある。 まず、混合合成カーネルと混合ニューラルネットワークガウス過程(NGGP)を導入する。 混合合成核は確率生成関数(pgfs)の合成によって生成される。 混合NNGPは混合合成カーネルを持つガウス過程(GP)であり、各層に対して異なる活性化関数を持つ多層パーセプトロン(MLP)の無限幅極限に存在する。 第二に、ニューラルネットワークの$\theta$アクティベーション関数と$\theta$合成カーネルは分岐過程の理論に基づいて、より具体的に$\theta$ pgfsに基づいて導入された。 $\theta$ 構成核は再帰的であるが、それらは閉形式で表される。 合成核の$\theta$は特定の条件下での非退化漸近性を持つ。 したがって、$\theta$構成カーネルを持つGPは、非明示的再帰的カーネル評価を必要とせず、制御可能な無限深度漸近特性を持つ。 オープンな研究の問題は、$\theta$コンポジションカーネルを持つGPが$\theta$アクティベーション関数を持つ無限幅 MLP の極限であるかどうかである。

This paper makes two contributions. Firstly, it introduces mixed compositional kernels and mixed neural network Gaussian processes (NGGPs). Mixed compositional kernels are generated by composition of probability generating functions (PGFs). A mixed NNGP is a Gaussian process (GP) with a mixed compositional kernel, arising in the infinite-width limit of multilayer perceptrons (MLPs) that have a different activation function for each layer. Secondly, $\theta$ activation functions for neural networks and $\theta$ compositional kernels are introduced by building upon the theory of branching processes, and more specifically upon $\theta$ PGFs. While $\theta$ compositional kernels are recursive, they are expressed in closed form. It is shown that $\theta$ compositional kernels have non-degenerate asymptotic properties under certain conditions. Thus, GPs with $\theta$ compositional kernels do not require non-explicit recursive kernel evaluations and have controllable infinite-depth asymptotic properties. An open research question is whether GPs with $\theta$ compositional kernels are limits of infinitely-wide MLPs with $\theta$ activation functions.
翻訳日:2021-12-02 13:34:14 公開日:2021-12-01
# ケルネルノルムによるワッサーシュタイン距離の制御と圧縮統計的学習への応用

Controlling Wasserstein distances by Kernel norms with application to Compressive Statistical Learning ( http://arxiv.org/abs/2112.00423v1 )

ライセンス: Link先を確認
Titouan Vayer, R\'emi Gribonval(参考訳) 確率分布を比較することは、多くの機械学習アルゴリズムの要点である。 最大平均不一致 (mmd) と最適輸送距離 (ot) は、近年注目されている確率測度間の距離の2つのクラスである。 本稿では,wasserstein距離をmmdノルムで制御できる条件について述べる。 我々の研究は、資源効率の高い大規模学習のための一般的なフレームワークである圧縮統計学習(CSL)理論によって動機付けられ、トレーニングデータを単一のベクトル(スケッチと呼ばれる)にまとめ、検討された学習タスクに関連する情報をキャプチャする。 CSLの既存の結果に触発されて、H\er Lower Restricted Isometric Property (H\er LRIP)を導入し、この特性が圧縮統計的学習の興味深い保証をもたらすことを示す。 mmdとwasserstein距離の関係に基づいて, 確率分布間のタスク固有メトリックがwasserstein距離によって境界づけられる場合の学習タスクのwasserstein学習可能性の概念を導入・検討することにより, 圧縮的統計学習の保証を提供する。

Comparing probability distributions is at the crux of many machine learning algorithms. Maximum Mean Discrepancies (MMD) and Optimal Transport distances (OT) are two classes of distances between probability measures that have attracted abundant attention in past years. This paper establishes some conditions under which the Wasserstein distance can be controlled by MMD norms. Our work is motivated by the compressive statistical learning (CSL) theory, a general framework for resource-efficient large scale learning in which the training data is summarized in a single vector (called sketch) that captures the information relevant to the considered learning task. Inspired by existing results in CSL, we introduce the H\"older Lower Restricted Isometric Property (H\"older LRIP) and show that this property comes with interesting guarantees for compressive statistical learning. Based on the relations between the MMD and the Wasserstein distance, we provide guarantees for compressive statistical learning by introducing and studying the concept of Wasserstein learnability of the learning task, that is when some task-specific metric between probability distributions can be bounded by a Wasserstein distance.
翻訳日:2021-12-02 13:33:56 公開日:2021-12-01
# (参考訳) AIを用いたアウトリー検出:サーベイ

Outlier Detection using AI: A Survey ( http://arxiv.org/abs/2112.00588v1 )

ライセンス: CC BY 4.0
Md Nazmul Kabir Sikder and Feras A. Batarseh(参考訳) 異常者は、異常な活動、侵入、または集団から不規則な距離にある不審なデータポイントとして定義される事象または観測である。 しかし、外れ値イベントの定義は主観的であり、アプリケーションとドメイン(Energy, Health, Wireless Networkなど)に依存します。 異常なイベントがインフラに重大なダメージを与える可能性があるため、インフラストラクチャの障害を避けるために、できるだけ慎重に外れたイベントを検出することが重要である。 例えば、マイクログリッドのようなサイバー物理システムへの攻撃は電圧や周波数不安定を引き起こし、非常に高価な修理を伴うスマートインバータを傷つける可能性がある。 マイクログリッドにおける異常な活動は、機械的障害、システムにおける行動変化、人間や機器のエラー、悪意のある攻撃などである。 したがって、その変動性のため、外乱検出(OD)は成長を続ける研究分野である。 本章では,AI技術を用いたOD手法の進歩について論じる。 そのため、各odモデルの基本的な概念は、複数のカテゴリを通じて導入される。 OD法は, 統計ベース, 距離ベース, 密度ベース, クラスタリング, 学習ベース, アンサンブルの6つのカテゴリに分類される。 各カテゴリについて、最新の最先端のアプローチ、アプリケーション領域、パフォーマンスについて論じる。 その後、各技術の長所、短所、課題について簡単な議論を行い、今後の研究方向性について推奨する。 この調査は、AIの保証のためのODメソッドの最近の進歩をより深く理解するために、読者を導くことを目的としている。

An outlier is an event or observation that is defined as an unusual activity, intrusion, or a suspicious data point that lies at an irregular distance from a population. The definition of an outlier event, however, is subjective and depends on the application and the domain (Energy, Health, Wireless Network, etc.). It is important to detect outlier events as carefully as possible to avoid infrastructure failures because anomalous events can cause minor to severe damage to infrastructure. For instance, an attack on a cyber-physical system such as a microgrid may initiate voltage or frequency instability, thereby damaging a smart inverter which involves very expensive repairing. Unusual activities in microgrids can be mechanical faults, behavior changes in the system, human or instrument errors or a malicious attack. Accordingly, and due to its variability, Outlier Detection (OD) is an ever-growing research field. In this chapter, we discuss the progress of OD methods using AI techniques. For that, the fundamental concepts of each OD model are introduced via multiple categories. Broad range of OD methods are categorized into six major categories: Statistical-based, Distance-based, Density-based, Clustering-based, Learning-based, and Ensemble methods. For every category, we discuss recent state-of-the-art approaches, their application areas, and performances. After that, a brief discussion regarding the advantages, disadvantages, and challenges of each technique is provided with recommendations on future research directions. This survey aims to guide the reader to better understand recent progress of OD methods for the assurance of AI.
翻訳日:2021-12-02 13:33:14 公開日:2021-12-01
# メタ強化学習アルゴリズムの実践的整合性について

On the Practical Consistency of Meta-Reinforcement Learning Algorithms ( http://arxiv.org/abs/2112.00478v1 )

ライセンス: Link先を確認
Zheng Xiong, Luisa Zintgraf, Jacob Beck, Risto Vuorio, Shimon Whiteson(参考訳) 一貫性はメタ学習アルゴリズムの理論的性質であり、特定の仮定の下では、テスト時に任意のタスクに適応できることを保証する。 オープンな問題は、矛盾するアルゴリズムと比較して、理論的な一貫性が実際にどのように変換されるかである。 本稿では,代表的メタRLアルゴリズムを用いて,この問題を経験的に検討する。 理論的に整合性のあるアルゴリズムは、通常、オフ・オブ・ディストリビューション(OOD)タスクに適応できるが、一貫性のないアルゴリズムはできない。 さらに、OODタスクのすべてのエージェントコンポーネントを更新し続けることで、理論的に一貫性のないアルゴリズムを一貫性のあるものにすることができる。 理論的整合性は確かに望ましい性質であり、矛盾したメタRLアルゴリズムは、同じ利点を享受するために容易に一貫性を持たせることができる。

Consistency is the theoretical property of a meta learning algorithm that ensures that, under certain assumptions, it can adapt to any task at test time. An open question is whether and how theoretical consistency translates into practice, in comparison to inconsistent algorithms. In this paper, we empirically investigate this question on a set of representative meta-RL algorithms. We find that theoretically consistent algorithms can indeed usually adapt to out-of-distribution (OOD) tasks, while inconsistent ones cannot, although they can still fail in practice for reasons like poor exploration. We further find that theoretically inconsistent algorithms can be made consistent by continuing to update all agent components on the OOD tasks, and adapt as well or better than originally consistent ones. We conclude that theoretical consistency is indeed a desirable property, and inconsistent meta-RL algorithms can easily be made consistent to enjoy the same benefits.
翻訳日:2021-12-02 13:31:23 公開日:2021-12-01
# コンピュータビジョンのためのディープラーニングのロバスト性: ギャップを心に?

Robustness in Deep Learning for Computer Vision: Mind the gap? ( http://arxiv.org/abs/2112.00639v1 )

ライセンス: Link先を確認
Nathan Drenkow, Numair Sani, Ilya Shpitser, Mathias Unberath(参考訳) コンピュータビジョンタスクのためのディープニューラルネットワークは、ますます安全で社会的に影響を受けやすいアプリケーションにデプロイされ、様々な自然発生の撮像条件下でモデルパフォーマンスのギャップを埋める必要性を動機付けている。 敵対的機械学習を含む複数の文脈で明確に使用されるロバストネスは、自然に誘発される画像の破損や変化の下でモデルパフォーマンスを保存することを指す。 コンピュータビジョンのための深層学習における非敵対的ロバストネスに対する現在の定義と進歩を識別、分析、要約するために体系的なレビューを行う。 この研究領域は、敵対的機械学習と比較して不均等にほとんど注目されていないが、しばしば敵的条件に類似したパフォーマンス劣化を示す顕著な堅牢性ギャップが存在する。 コンテキスト間のロバスト性をより透過的に定義するために,データ生成プロセスの構造的因果モデルを導入し,非可逆的ロバスト性について,非可逆的ロバスト性データ分布から低確率サンプルに対応する劣化画像に対するモデルの挙動を解釈する。 次に、ニューラルネットワークの堅牢性を改善するための鍵となるアーキテクチャ、データ拡張、最適化戦略を特定する。 このロバスト性に関する因果的見解は、ロバスト性戦術と評価の両方に関して現在の文献における一般的な慣行が、画像条件の相反的な分布をもたらすソフト介入のような因果的概念に対応していることを示している。 調査結果と分析を通じて、この明らかで重要な非敵対的ロバスト性ギャップを将来の研究がどう考えるかの視点を提供する。

Deep neural networks for computer vision tasks are deployed in increasingly safety-critical and socially-impactful applications, motivating the need to close the gap in model performance under varied, naturally occurring imaging conditions. Robustness, ambiguously used in multiple contexts including adversarial machine learning, here then refers to preserving model performance under naturally-induced image corruptions or alterations. We perform a systematic review to identify, analyze, and summarize current definitions and progress towards non-adversarial robustness in deep learning for computer vision. We find that this area of research has received disproportionately little attention relative to adversarial machine learning, yet a significant robustness gap exists that often manifests in performance degradation similar in magnitude to adversarial conditions. To provide a more transparent definition of robustness across contexts, we introduce a structural causal model of the data generating process and interpret non-adversarial robustness as pertaining to a model's behavior on corrupted images which correspond to low-probability samples from the unaltered data distribution. We then identify key architecture-, data augmentation-, and optimization tactics for improving neural network robustness. This causal view of robustness reveals that common practices in the current literature, both in regards to robustness tactics and evaluations, correspond to causal concepts, such as soft interventions resulting in a counterfactually-altered distribution of imaging conditions. Through our findings and analysis, we offer perspectives on how future research may mind this evident and significant non-adversarial robustness gap.
翻訳日:2021-12-02 13:31:07 公開日:2021-12-01
# 言語に基づく帰納的推論のための構造損失を伴う対話モデル

Interactive Model with Structural Loss for Language-based Abductive Reasoning ( http://arxiv.org/abs/2112.00284v1 )

ライセンス: Link先を確認
Linhao Li, Ming Xu, Yongfeng Dong, Xin Li, Ao Wang, Qinghua Hu(参考訳) 帰納的自然言語推論タスク(「alpha$NLI」)は、原因と事象の最も明確な説明を推測するために提案される。 alpha$nli のタスクでは、2つの観察が与えられ、最も妥当な仮説は候補の中から選択するように求められます。 既存の手法では、各仮説間の関係を個別にモデル化し、推論ネットワークを均一にペナルティ化する。 本稿では、正しい仮説の推論能力の区別は不要であり、同様に、観察の理由を説明する際には、すべての誤った仮説が同じに寄与すると主張している。 そこで,本論文では,仮説のランク付けや,'joint softmax focal loss'と呼ばれる構造的損失の設計に代えてグループ化を提案する。 仮説が一般に意味論的に関連しているという観察に基づいて,対立する仮説間のリッチな相互作用を活用することを目的とした,対話型言語モデルの設計を行った。 我々はこの新モデルを$\alpha$NLI: Interactive Model with Structure Loss (IMSL)と名付けた。 実験の結果,我々のIMSL は RoBERTa-large Pretrained model で最高性能を示し,ACC と AUC はそれぞれ 1 % と 5 % に増加した。

The abductive natural language inference task ($\alpha$NLI) is proposed to infer the most plausible explanation between the cause and the event. In the $\alpha$NLI task, two observations are given, and the most plausible hypothesis is asked to pick out from the candidates. Existing methods model the relation between each candidate hypothesis separately and penalize the inference network uniformly. In this paper, we argue that it is unnecessary to distinguish the reasoning abilities among correct hypotheses; and similarly, all wrong hypotheses contribute the same when explaining the reasons of the observations. Therefore, we propose to group instead of ranking the hypotheses and design a structural loss called ``joint softmax focal loss'' in this paper. Based on the observation that the hypotheses are generally semantically related, we have designed a novel interactive language model aiming at exploiting the rich interaction among competing hypotheses. We name this new model for $\alpha$NLI: Interactive Model with Structural Loss (IMSL). The experimental results show that our IMSL has achieved the highest performance on the RoBERTa-large pretrained model, with ACC and AUC results increased by about 1\% and 5\% respectively.
翻訳日:2021-12-02 13:30:15 公開日:2021-12-01
# NER-BERT:低リソースエンティティタグの事前トレーニングモデル

NER-BERT: A Pre-trained Model for Low-Resource Entity Tagging ( http://arxiv.org/abs/2112.00405v1 )

ライセンス: Link先を確認
Zihan Liu, Feijun Jiang, Yuxiang Hu, Chen Shi, Pascale Fung(参考訳) 名前付きエンティティ認識(ner)モデルは、低リソースドメインで大規模なトレーニングデータセットが利用できない場合、一般的にはパフォーマンスが悪い。 近年,大規模言語モデルの事前学習は,データ不足問題に対処する上で有望な方向となっている。 しかし、言語モデリングとNERタスクの相違によりモデルの性能が制限される可能性があり、収集されたNERデータセットは一般的に小さいか大きいが品質が低いため、NERタスクの事前学習はめったに行われていない。 本稿では,比較的高品質な大規模NERコーパスを構築し,作成したデータセットに基づいてNER-BERTモデルを事前学習する。 実験結果から,この事前学習モデルは,9つのドメインにわたる低リソースシナリオにおいて,BERTと他の強力なベースラインを著しく上回ることを示す。 さらに、エンティティ表現の可視化は、さまざまなエンティティを分類するためのNER-BERTの有効性をさらに示す。

Named entity recognition (NER) models generally perform poorly when large training datasets are unavailable for low-resource domains. Recently, pre-training a large-scale language model has become a promising direction for coping with the data scarcity issue. However, the underlying discrepancies between the language modeling and NER task could limit the models' performance, and pre-training for the NER task has rarely been studied since the collected NER datasets are generally small or large but with low quality. In this paper, we construct a massive NER corpus with a relatively high quality, and we pre-train a NER-BERT model based on the created dataset. Experimental results show that our pre-trained model can significantly outperform BERT as well as other strong baselines in low-resource scenarios across nine diverse domains. Moreover, a visualization of entity representations further indicates the effectiveness of NER-BERT for categorizing a variety of entities.
翻訳日:2021-12-02 13:29:54 公開日:2021-12-01
# 因果的介入による弱教師付き映像物体の接地

Weakly-Supervised Video Object Grounding via Causal Intervention ( http://arxiv.org/abs/2112.00475v1 )

ライセンス: Link先を確認
Wei Wang, Junyu Gao, Changsheng Xu(参考訳) 我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。 文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。 近年の進歩にも拘わらず, 既存の手法はすべて, 接地性能を損なうスプリアスアソシエーションの深刻な問題に悩まされている。 本稿では,WSVOGの定義から出発し,(1)関係自体がオブジェクト関係ではなく,監督の弱いため極めて曖昧であり,(2)既存の手法で統計に基づくマッチング戦略をとる際に,観測バイアスによって必然的に結合される,という2つの側面からスプリケートな関連性を見極める。 このことを念頭に、より正確で堅牢なビデオオブジェクトグラウンドイングのために、分解されたオブジェクト関連アソシエーションを学習するための統一因果フレームワークを設計する。 具体的には,映像データ生成プロセスの観点から,因果的介入によるオブジェクト関連関係を学習する。 介入の観点で細かな監督の欠如を克服するために,新しい空間的-時間的adversarial contrastive learningパラダイムを提案する。 さらに, 対象関係における共起効果をさらに排除するため, バックドア調整による因果介入を行い, 真の因果関係を追求する。 最後に、分離されたオブジェクト関連協会は、エンドツーエンドで統一因果フレームワークの下で学び、最適化される。 IIDおよびOODテストセットの3つのベンチマークの大規模な実験は、最先端技術に対する正確で堅牢な基盤性能を示している。

We target at the task of weakly-supervised video object grounding (WSVOG), where only video-sentence annotations are available during model learning. It aims to localize objects described in the sentence to visual regions in the video, which is a fundamental capability needed in pattern analysis and machine learning. Despite the recent progress, existing methods all suffer from the severe problem of spurious association, which will harm the grounding performance. In this paper, we start from the definition of WSVOG and pinpoint the spurious association from two aspects: (1) the association itself is not object-relevant but extremely ambiguous due to weak supervision, and (2) the association is unavoidably confounded by the observational bias when taking the statistics-based matching strategy in existing methods. With this in mind, we design a unified causal framework to learn the deconfounded object-relevant association for more accurate and robust video object grounding. Specifically, we learn the object-relevant association by causal intervention from the perspective of video data generation process. To overcome the problems of lacking fine-grained supervision in terms of intervention, we propose a novel spatial-temporal adversarial contrastive learning paradigm. To further remove the accompanying confounding effect within the object-relevant association, we pursue the true causality by conducting causal intervention via backdoor adjustment. Finally, the deconfounded object-relevant association is learned and optimized under a unified causal framework in an end-to-end manner. Extensive experiments on both IID and OOD testing sets of three benchmarks demonstrate its accurate and robust grounding performance against state-of-the-arts.
翻訳日:2021-12-02 13:29:40 公開日:2021-12-01
# オブジェクトアウェアビデオ言語による検索事前学習

Object-aware Video-language Pre-training for Retrieval ( http://arxiv.org/abs/2112.00656v1 )

ライセンス: Link先を確認
Alex Jinpeng Wang, Yixiao Ge, Guanyu Cai, Rui Yan, Xudong Lin, Ying Shan, Xiaohu Qie, Mike Zheng Shou(参考訳) 近年,大規模データセットと強力なトランスフォーマーネットワークの導入により,映像言語事前学習が特に検索において大きな成功を収めている。 しかし、既存のビデオ言語トランスフォーマーモデルは、はっきりとしたセマンティックアライメントを明示していない。 本研究では,オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心型トランスフォーマーを提案する。 重要なアイデアは、トレーニングプロセスを導くために、バウンディングボックスとオブジェクトタグを活用することだ。 4つのベンチマークでビデオテキストマッチングの3つの標準サブタスクについて評価した。 また,提案手法について深い解析と詳細なアブレーションを行う。 対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。 コードは \url{https://github.com/FingerRec/OA-Transformer} でリリースされる。

Recently, by introducing large-scale dataset and strong transformer network, video-language pre-training has shown great success especially for retrieval. Yet, existing video-language transformer models do not explicitly fine-grained semantic align. In this work, we present Object-aware Transformers, an object-centric approach that extends video-language transformer to incorporate object representations. The key idea is to leverage the bounding boxes and object tags to guide the training process. We evaluate our model on three standard sub-tasks of video-text matching on four widely used benchmarks. We also provide deep analysis and detailed ablation about the proposed method. We show clear improvement in performance across all tasks and datasets considered, demonstrating the value of a model that incorporates object representations into a video-language architecture. The code will be released at \url{https://github.com/FingerRec/OA-Transformer}.
翻訳日:2021-12-02 13:29:13 公開日:2021-12-01
# 緩やかな時間的局所的注意を用いた点雲分割

Point Cloud Segmentation Using Sparse Temporal Local Attention ( http://arxiv.org/abs/2112.00289v1 )

ライセンス: Link先を確認
Joshua Knights, Peyman Moghadam, Clinton Fookes, Sridha Sridharan(参考訳) 点雲は自動運転車の知覚において重要なモダリティであり、周囲の環境の堅牢な幾何学的理解の手段を提供する。 しかし、自律走行車からのセンサー出力は自然に時間的だが、3dセマンティックセグメンテーションのためのポイントクラウドシーケンスの活用は限られている。 本稿では,前点のクラウドフレームの局所的近傍から中間的な特徴を集約し,デコーダにリッチな時間的コンテキストを提供する新しいスパース時空間的局所的注意 (stela) モジュールを提案する。 sparse local neighborhoodhoodを使用することで、ポイント機能に直接マッチする機能よりも柔軟に機能を収集でき、ポイントクラウドフレーム全体にわたって高価なグローバルな注意を向ける方法よりも効率的です。 SemanticKittiデータセット上で64.3%の競合mIoUを実現し、アブレーション研究における単一フレームベースラインに対する大幅な改善を示す。

Point clouds are a key modality used for perception in autonomous vehicles, providing the means for a robust geometric understanding of the surrounding environment. However despite the sensor outputs from autonomous vehicles being naturally temporal in nature, there is still limited exploration of exploiting point cloud sequences for 3D seman-tic segmentation. In this paper we propose a novel Sparse Temporal Local Attention (STELA) module which aggregates intermediate features from a local neighbourhood in previous point cloud frames to provide a rich temporal context to the decoder. Using the sparse local neighbourhood enables our approach to gather features more flexibly than those which directly match point features, and more efficiently than those which perform expensive global attention over the whole point cloud frame. We achieve a competitive mIoU of 64.3% on the SemanticKitti dataset, and demonstrate significant improvement over the single-frame baseline in our ablation studies.
翻訳日:2021-12-02 13:27:46 公開日:2021-12-01
# マイノリティの多数派:長い尾の分類のためのコンテキストリッチなマイノリティオーバーサンプリング

The Majority Can Help The Minority: Context-rich Minority Oversampling for Long-tailed Classification ( http://arxiv.org/abs/2112.00412v1 )

ライセンス: Link先を確認
Seulki Park, Youngkyu Hong, Byeongho Heo, Sangdoo Yun and Jin Young Choi(参考訳) クラス不均衡データの問題は、マイノリティクラスのデータの欠如により、分類器の一般化性能が低下することにある。 本稿では,背景画像として多数クラスのリッチな文脈を活用することで,多様なマイノリティサンプルを拡大する新しいマイノリティオーバーサンプリング手法を提案する。 マイノリティのサンプルを多様化させるためには、フォアグラウンドパッチをマイノリティクラスから背景イメージに貼り付け、豊かなコンテキストを持つマジョリティクラスに貼り付けます。 提案手法は単純で,既存の長尾認識手法と簡単に組み合わせることができる。 提案手法の有効性を実験およびアブレーション実験により実証的に検証した。 アーキテクチャの変更や複雑なアルゴリズムがなければ、様々なロングテールの分類ベンチマークで最先端のパフォーマンスが得られる。 私たちのコードはリンクで公開されます。

The problem of class imbalanced data lies in that the generalization performance of the classifier is deteriorated due to the lack of data of the minority classes. In this paper, we propose a novel minority over-sampling method to augment diversified minority samples by leveraging the rich context of the majority classes as background images. To diversify the minority samples, our key idea is to paste a foreground patch from a minority class to a background image from a majority class having affluent contexts. Our method is simple and can be easily combined with the existing long-tailed recognition methods. We empirically prove the effectiveness of the proposed oversampling method through extensive experiments and ablation studies. Without any architectural changes or complex algorithms, our method achieves state-of-the-art performance on various long-tailed classification benchmarks. Our code will be publicly available at link.
翻訳日:2021-12-02 13:27:29 公開日:2021-12-01
# Adv-4-Adv: 対向領域適応による逆境摂動の抑制

Adv-4-Adv: Thwarting Changing Adversarial Perturbations via Adversarial Domain Adaptation ( http://arxiv.org/abs/2112.00428v1 )

ライセンス: Link先を確認
Tianyue Zheng, Zhe Chen, Shuya Ding, Chao Cai, Jun Luo(参考訳) 敵の訓練は特定の敵の摂動に対して有用であるが、訓練に使用されるものから逸脱する攻撃を一般化するには効果がないことが証明されている。 しかし、この非効率性は本質的にドメイン適応性と結びついており、敵対的ドメイン適応が有望な解であるように見えるディープラーニングにおけるもう一つの重要な問題である。 そこで本研究では,adv-4-advを未知の摂動に対して頑健性を維持することを目的とした新しい攻撃訓練法として提案する。 本質的に、adv-4-advは異なる摂動を引き起こす攻撃を異なるドメインとして扱い、敵のドメイン適応の力を活用することで、ドメイン/攻撃特有の特徴を取り除くことを目指している。 これにより、訓練されたモデルに堅牢なドメイン不変表現を学習させ、それによって一般化能力が向上する。 Fashion-MNIST、SVHN、CIFAR-10、CIFAR-100の広範囲な評価は、単純な攻撃(例えばFGSM)によって作られたサンプルに基づいてAdv-4-Advによって訓練されたモデルがより高度な攻撃(PGDなど)に一般化され、これらのデータセットに対する最先端の提案を上回る性能を示す。

Whereas adversarial training can be useful against specific adversarial perturbations, they have also proven ineffective in generalizing towards attacks deviating from those used for training. However, we observe that this ineffectiveness is intrinsically connected to domain adaptability, another crucial issue in deep learning for which adversarial domain adaptation appears to be a promising solution. Consequently, we proposed Adv-4-Adv as a novel adversarial training method that aims to retain robustness against unseen adversarial perturbations. Essentially, Adv-4-Adv treats attacks incurring different perturbations as distinct domains, and by leveraging the power of adversarial domain adaptation, it aims to remove the domain/attack-specific features. This forces a trained model to learn a robust domain-invariant representation, which in turn enhances its generalization ability. Extensive evaluations on Fashion-MNIST, SVHN, CIFAR-10, and CIFAR-100 demonstrate that a model trained by Adv-4-Adv based on samples crafted by simple attacks (e.g., FGSM) can be generalized to more advanced attacks (e.g., PGD), and the performance exceeds state-of-the-art proposals on these datasets.
翻訳日:2021-12-02 13:27:14 公開日:2021-12-01
# Sinhalaのセンセーション:SinhalaポストのFacebook反応を予測する

Seeking Sinhala Sentiment: Predicting Facebook Reactions of Sinhala Posts ( http://arxiv.org/abs/2112.00468v1 )

ライセンス: Link先を確認
Vihanga Jayawickrama, Gihan Weeraprameshwara, Nisansa de Silva, Yudhanjaya Wijeratne(参考訳) Facebookのネットワークでは、ユーザーは感情のタイプロジーを通じてテキストに反応を記録することができる。 したがって、このネットワークは大規模なもので、注釈付き感情データの一次データセットである。 本稿は、スリランカの文脈を中心としたFacebookの10年分の投稿データから、オンラインのSinhalaテキストコンテンツに対する感情検出に対するステークホルダーのアプローチをモデル化するために、何百万もの反応を利用する。 3つの異なる感情分析モデルが構築され、反応のサブセットが限定され、全ての反応と、正負の星の評価値が導出される。 観測者の反応を捉えたこれらのモデルの有効性を計算し、議論する。 分析の結果,シンハラ含量に対する反応の2成分分類は,他の手法よりもかなり正確であることが判明した。 さらに、類似反応を含むことは、他の反応を正確に予測する能力を妨げる。

The Facebook network allows its users to record their reactions to text via a typology of emotions. This network, taken at scale, is therefore a prime data set of annotated sentiment data. This paper uses millions of such reactions, derived from a decade worth of Facebook post data centred around a Sri Lankan context, to model an eye of the beholder approach to sentiment detection for online Sinhala textual content. Three different sentiment analysis models are built, taking into account a limited subset of reactions, all reactions, and another that derives a positive/negative star rating value. The efficacy of these models in capturing the reactions of the observers are then computed and discussed. The analysis reveals that binary classification of reactions, for Sinhala content, is significantly more accurate than the other approaches. Furthermore, the inclusion of the like reaction hinders the capability of accurately predicting other reactions.
翻訳日:2021-12-02 13:26:50 公開日:2021-12-01
# 文間依存グラフによるゼロショット言語間機械読解理解

Zero-Shot Cross-Lingual Machine Reading Comprehension via Inter-Sentence Dependency Graph ( http://arxiv.org/abs/2112.00503v1 )

ライセンス: Link先を確認
Liyan Xu, Xuchao Zhang, Bo Zong, Yanchi Liu, Wei Cheng, Jingchao Ni, Haifeng Chen, Liang Zhao, Jinho D. Choi(参考訳) 我々は,汎用依存関係(ud)からの構文的特徴を組み込むことにより,直接ゼロショット設定における言語間機械読解(mrc)のタスクを目標とし,各文における構文的関係を重要視する。 先行研究では,mrcタスクのマルチセンテンス入力における構文依存性をさらに活用するために,基本的イントラセンス関係に加えて,イントラセンテンス間の構文関係を採用することを提案する。 本手法では,係り受け木を連結した文間依存グラフ(ISDG)を構築し,文間の大域的構文関係を形成する。 次に、グローバル依存グラフを符号化するIDDGエンコーダを提案し、ワンホップとマルチホップの依存関係パスの両方を通して、文間関係を明示的に解決する。 3つの多言語MRCデータセット(XQuAD、MLQA、TyDiQA-GoldP)の実験では、英語でのみ訓練されたエンコーダは、8つの言語をカバーする14のテストセットすべてでゼロショット性能を向上でき、平均3.8 F1 / 5.2 EMの改善と、特定の言語で5.2 F1 / 11.2 EMを実現している。 さらなる分析は、言語間一貫した構文経路に注意を向けることによる改善が可能であることを示している。

We target the task of cross-lingual Machine Reading Comprehension (MRC) in the direct zero-shot setting, by incorporating syntactic features from Universal Dependencies (UD), and the key features we use are the syntactic relations within each sentence. While previous work has demonstrated effective syntax-guided MRC models, we propose to adopt the inter-sentence syntactic relations, in addition to the rudimentary intra-sentence relations, to further utilize the syntactic dependencies in the multi-sentence input of the MRC task. In our approach, we build the Inter-Sentence Dependency Graph (ISDG) connecting dependency trees to form global syntactic relations across sentences. We then propose the ISDG encoder that encodes the global dependency graph, addressing the inter-sentence relations via both one-hop and multi-hop dependency paths explicitly. Experiments on three multilingual MRC datasets (XQuAD, MLQA, TyDiQA-GoldP) show that our encoder that is only trained on English is able to improve the zero-shot performance on all 14 test sets covering 8 languages, with up to 3.8 F1 / 5.2 EM improvement on-average, and 5.2 F1 / 11.2 EM on certain languages. Further analysis shows the improvement can be attributed to the attention on the cross-linguistically consistent syntactic path.
翻訳日:2021-12-02 13:26:35 公開日:2021-12-01
# (参考訳) 無ソース非教師なし3次元物体検出のための注意型プロトタイプ

Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D Object Detection ( http://arxiv.org/abs/2111.15656v2 )

ライセンス: CC BY 4.0
Deepti Hegde and Vishal M. Patel(参考訳) 3dオブジェクト検出ネットワークは、トレーニングされたデータに対して偏りがちである。 トレーニング(ソース)データとは異なる場所、条件、センサーでキャプチャされたデータセットの評価は、テスト(あるいはターゲット)データとの分散の欠如によるモデルパフォーマンスの低下をもたらす。 ドメイン適応の現在の方法は、プライバシやメモリ上の懸念から利用できないトレーニング中にソースデータへのアクセスを前提とするか、あるいは入力としてライダーフレームのシーケンスを必要とする。 そこで本稿では,ライダーを用いた3次元物体検出装置のソースレス・教師なし領域適応のための単一フレーム手法を提案する。 ノイズラベルの存在下でのプロトタイプ計算における従来の特徴集約手法の限界に対処し,不正確で信頼度の高いアノテーションに対応する外れ値roiをトランスフォーマモジュールを用いて識別し,注意クラスプロトタイプを計算する。 反復的なトレーニング戦略では、ノイズの多い擬似ラベルに関連する損失は軽減され、自己学習の過程で洗練される。 提案手法の有効性を検証するために,ラベルが豊富な大規模データセット(waymo open dataset や nuscenes など)でトレーニングされたネットワークに関連するドメインシフトを検証し,より小さなラベルパウダーデータセット(kitti など)とvice-versaについて評価した。 我々は,最近の2つの物体検出器に対するアプローチを実証し,他の領域の適応性よりも優れる結果を得る。

3D object detection networks tend to be biased towards the data they are trained on. Evaluation on datasets captured in different locations, conditions or sensors than that of the training (source) data results in a drop in model performance due to the gap in distribution with the test (or target) data. Current methods for domain adaptation either assume access to source data during training, which may not be available due to privacy or memory concerns, or require a sequence of lidar frames as an input. We propose a single-frame approach for source-free, unsupervised domain adaptation of lidar-based 3D object detectors that uses class prototypes to mitigate the effect pseudo-label noise. Addressing the limitations of traditional feature aggregation methods for prototype computation in the presence of noisy labels, we utilize a transformer module to identify outlier ROI's that correspond to incorrect, over-confident annotations, and compute an attentive class prototype. Under an iterative training strategy, the losses associated with noisy pseudo labels are down-weighed and thus refined in the process of self-training. To validate the effectiveness of our proposed approach, we examine the domain shift associated with networks trained on large, label-rich datasets (such as the Waymo Open Dataset and nuScenes) and evaluate on smaller, label-poor datasets (such as KITTI) and vice-versa. We demonstrate our approach on two recent object detectors and achieve results that out-perform the other domain adaptation works.
翻訳日:2021-12-02 13:24:35 公開日:2021-12-01
# MultiPath++: 行動予測のための効率的な情報融合と軌道集約

MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction ( http://arxiv.org/abs/2111.14973v2 )

ライセンス: Link先を確認
Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp(参考訳) 道路利用者の将来行動を予測することは、自動運転において最も困難で重要な問題の一つである。 この問題にディープラーニングを適用するには、豊富な知覚信号と地図情報という形で異種の世界状態を融合し、可能未来にわたる高度にマルチモーダルな分布を推定する必要がある。 本稿では,一般的なベンチマークにおける最先端性能を実現するための予測モデルであるMultiPath++を提案する。 MultiPath++は、多くの設計選択を再考することによって、MultiPathアーキテクチャを改善している。 multipath++は、道路の特徴を記述するためにコンパクトで効率的なポリラインを消費し、生のエージェント状態情報(例えば、位置、速度、加速度など)を直接消費する。 本稿では,これらの要素のコンテキスト対応融合を提案し,再利用可能なマルチコンテキストゲーティング融合コンポーネントを開発する。 次に、事前定義された静的アンカーの選択を再考し、モデルのエンドツーエンドに潜伏するアンカーの埋め込みを学習する方法を開発する。 最後に、他のMLドメインに共通するアンサンブルと出力アグリゲーション技術を検討し、確率的マルチモーダル出力表現に有効な変種を見つける。 我々は,これらの設計選択を徹底的にアブレーションし,提案モデルがargoverse motion forecasting competition と waymo open dataset motion prediction challenge において最先端のパフォーマンスを達成していることを示す。

Predicting the future behavior of road users is one of the most challenging and important problems in autonomous driving. Applying deep learning to this problem requires fusing heterogeneous world state in the form of rich perception signals and map information, and inferring highly multi-modal distributions over possible futures. In this paper, we present MultiPath++, a future prediction model that achieves state-of-the-art performance on popular benchmarks. MultiPath++ improves the MultiPath architecture by revisiting many design choices. The first key design difference is a departure from dense image-based encoding of the input world state in favor of a sparse encoding of heterogeneous scene elements: MultiPath++ consumes compact and efficient polylines to describe road features, and raw agent state information directly (e.g., position, velocity, acceleration). We propose a context-aware fusion of these elements and develop a reusable multi-context gating fusion component. Second, we reconsider the choice of pre-defined, static anchors, and develop a way to learn latent anchor embeddings end-to-end in the model. Lastly, we explore ensembling and output aggregation techniques -- common in other ML domains -- and find effective variants for our probabilistic multimodal output representation. We perform an extensive ablation on these design choices, and show that our proposed model achieves state-of-the-art performance on the Argoverse Motion Forecasting Competition and the Waymo Open Dataset Motion Prediction Challenge.
翻訳日:2021-12-02 13:08:29 公開日:2021-12-01
# 改良ビームサーチと修正安定ランクを有するディープニューラルネットワークの高効率低ランク圧縮

A Highly Effective Low-Rank Compression of Deep Neural Networks with Modified Beam-Search and Modified Stable Rank ( http://arxiv.org/abs/2111.15179v2 )

ライセンス: Link先を確認
Moonjung Eo, Suhyun Kang, Wonjong Rhee(参考訳) 圧縮は、特に計算能力とストレージ容量に制限のあるエッジデバイスにおいて、重要なディープラーニング研究トピックの1つとして現れている。 主な圧縮技術のうち、行列分解による低ランク圧縮には2つの問題があることが知られている。 まず、幅広いチューニングが必要である。 第二に、結果の圧縮性能は一般的に印象的ではない。 本研究では,変形ビーム探索を自動ランク選択に利用し,変形安定ランクを圧縮フレンドリーなトレーニングに利用する低ランク圧縮法を提案する。 結果として得られるBSR(Beam-search and Staable Rank)アルゴリズムは、所望の圧縮比を調整するために1つのハイパーパラメータのみを必要とする。 BSRの精度と圧縮比トレードオフ曲線のパフォーマンスは、これまで知られていた低ランク圧縮法よりも優れていることが判明した。 さらに、BSRは最先端の構造化プルーニング法と同等以上の性能を発揮する。 プルーニングと同様に、BSRはさらなる圧縮のために量子化と簡単に組み合わせることができる。

Compression has emerged as one of the essential deep learning research topics, especially for the edge devices that have limited computation power and storage capacity. Among the main compression techniques, low-rank compression via matrix factorization has been known to have two problems. First, an extensive tuning is required. Second, the resulting compression performance is typically not impressive. In this work, we propose a low-rank compression method that utilizes a modified beam-search for an automatic rank selection and a modified stable rank for a compression-friendly training. The resulting BSR (Beam-search and Stable Rank) algorithm requires only a single hyperparameter to be tuned for the desired compression ratio. The performance of BSR in terms of accuracy and compression ratio trade-off curve turns out to be superior to the previously known low-rank compression methods. Furthermore, BSR can perform on par with or better than the state-of-the-art structured pruning methods. As with pruning, BSR can be easily combined with quantization for an additional compression.
翻訳日:2021-12-02 13:08:02 公開日:2021-12-01
# 野生における幻覚的神経放射野

Hallucinated Neural Radiance Fields in the Wild ( http://arxiv.org/abs/2111.15246v2 )

ライセンス: Link先を確認
Xingyu Chen, Qi Zhang, Xiaoyu Li, Yue Chen, Ying Feng, Xuan Wang, Jue Wang(参考訳) Neural Radiance Fields (NeRF)はその印象的なビュー合成能力で最近人気を博している。 本稿では,観光画像群から現実的なNeRFを1日毎に再現する手法として,幻覚型NeRFの問題点について検討する。 既存のソリューションでは、様々な条件下で新しいビューをレンダリングするために、コントロール可能な外観の埋め込みを持つNeRFを採用しているが、見えない外観でビュー一貫性のある画像をレンダリングすることはできない。 この問題を解決するために,Ha-NeRFと呼ばれる幻覚型NeRFを構築するためのエンドツーエンドフレームワークを提案する。 具体的には,時間変化を処理し,新たな視点に伝達する出現幻覚モジュールを提案する。 観光画像の複雑なオクルージョンを考慮し,静的被写体を正確に分解して視認性を高めるためのアンチオクルージョンモジュールを導入した。 合成データと実際の観光写真コレクションによる実験結果から,本手法は希望する外観を幻覚させるだけでなく,異なる視点からオクルージョンフリーな画像を表示できることが示唆された。 プロジェクトと追加資料はhttps://rover-xingyu.github.io/Ha-NeRF/で公開されている。

Neural Radiance Fields (NeRF) has recently gained popularity for its impressive novel view synthesis ability. This paper studies the problem of hallucinated NeRF: i.e. recovering a realistic NeRF at a different time of day from a group of tourism images. Existing solutions adopt NeRF with a controllable appearance embedding to render novel views under various conditions, but cannot render view-consistent images with an unseen appearance. To solve this problem, we present an end-to-end framework for constructing a hallucinated NeRF, dubbed as Ha-NeRF. Specifically, we propose an appearance hallucination module to handle time-varying appearances and transfer them to novel views. Considering the complex occlusions of tourism images, an anti-occlusion module is introduced to decompose the static subjects for visibility accurately. Experimental results on synthetic data and real tourism photo collections demonstrate that our method can not only hallucinate the desired appearances, but also render occlusion-free images from different views. The project and supplementary materials are available at https://rover-xingyu.github.io/Ha-NeRF/.
翻訳日:2021-12-02 13:07:35 公開日:2021-12-01
# 分散マルチエージェントシステムにおける通信のパワー

The Power of Communication in a Distributed Multi-Agent System ( http://arxiv.org/abs/2111.15611v2 )

ライセンス: Link先を確認
Philipp Dominic Siedler(参考訳) シングルエージェント(sa)強化学習システムは、非定常問題に対する優れた再帰性を示している。 しかし、MARL(Multi-Agent Reinforcement Learning)は、SAシステムを概して、スケールするときに超える。 さらに、masystemsは、他人をオブザーバすることで発生するコラボレーションや、コラボレータ間の情報共有に使用される通信システムによって、スーパーパワー化することができる。 本研究では,分散化部分可観測マルコフデシジョンプロセス (dec-pomdps) とグラフニューラルネットワーク (gnns) に基づくコミュニケーション機能を備えた分散ma学習機構を開発した。 機械学習モデルのトレーニングによって消費される時間とエネルギーの最小化と、パフォーマンスの向上は協調MAメカニズムによって達成できる。 実際のシナリオでは, 分散風力発電機を含むオフショア風力発電所において, 集合的効率を最大化することを目的としており, SAシステムと比較すると, MA協力は, 未確認・スケールのシナリオにおいて, トレーニング時間と累積報酬の増大を著しく低減している。

Single-Agent (SA) Reinforcement Learning systems have shown outstanding re-sults on non-stationary problems. However, Multi-Agent Reinforcement Learning(MARL) can surpass SA systems generally and when scaling. Furthermore, MAsystems can be super-powered by collaboration, which can happen through ob-serving others, or a communication system used to share information betweencollaborators. Here, we developed a distributed MA learning mechanism withthe ability to communicate based on decentralised partially observable Markovdecision processes (Dec-POMDPs) and Graph Neural Networks (GNNs). Minimis-ing the time and energy consumed by training Machine Learning models whileimproving performance can be achieved by collaborative MA mechanisms. Wedemonstrate this in a real-world scenario, an offshore wind farm, including a set ofdistributed wind turbines, where the objective is to maximise collective efficiency.Compared to a SA system, MA collaboration has shown significantly reducedtraining time and higher cumulative rewards in unseen and scaled scenarios.
翻訳日:2021-12-02 13:07:17 公開日:2021-12-01
# VPFNet:仮想ポイントベースLiDARとステレオデータ融合による3次元物体検出の改善

VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and Stereo Data Fusion ( http://arxiv.org/abs/2111.14382v2 )

ライセンス: Link先を確認
Hanqi Zhu, Jiajun Deng, Yu Zhang, Jianmin Ji, Qiuyu Mao, Houqiang Li, Yanyong Zhang(参考訳) 奥行きを認識できるlidar点雲と意味に富んだステレオ画像からの補完情報を融合することは3dオブジェクト検出に有用であると認識されている。 それでも、スパース3D点と密度2Dピクセルの間の本質的に不自然な相互作用を探索することは簡単ではない。 この困難を解消するため、最近の提案では一般的に3Dポイントを2次元画像平面に投影し、画像データをサンプリングし、その点にデータを集約する。 しかし、このアプローチはポイントクラウドの解像度とRGBイメージのミスマッチに悩まされ、亜最適性能をもたらすことが多い。 具体的には、スパースポイントをマルチモーダルデータ集約位置として捉えると、高解像度画像に対して深刻な情報損失が生じ、それによってマルチセンサ融合の有効性が損なわれる。 本稿では、"仮想"ポイントでポイントクラウドとイメージデータを巧みに調整し、集約する新しいアーキテクチャであるVPFNetを紹介します。 特に、その密度が3Dポイントと2Dピクセルの間にあることにより、仮想ポイントは2つのセンサー間の解像度ギャップをうまくブリッジし、処理のためのより多くの情報を保持することができる。 さらに,3次元物体検出装置への非無視的な貢献により,点雲とRGB画像の両方に適用可能なデータ拡張技術についても検討した。 我々は、KITTIデータセットに関する広範な実験を行い、最先端の手法と比較して優れた性能を示した。 注目すべきは、当社のVPFNetがKITTIテストセットで83.21\%中等度3D APと91.86\%中等度BEV APを達成したことだ。 ネットワーク設計は計算効率も考慮に入れています -- 単一のnvidia rtx 2080ti gpuで15fpsを実現できます。 コードは再生およびさらなる調査のために利用可能になる。

It has been well recognized that fusing the complementary information from depth-aware LiDAR point clouds and semantic-rich stereo images would benefit 3D object detection. Nevertheless, it is not trivial to explore the inherently unnatural interaction between sparse 3D points and dense 2D pixels. To ease this difficulty, the recent proposals generally project the 3D points onto the 2D image plane to sample the image data and then aggregate the data at the points. However, this approach often suffers from the mismatch between the resolution of point clouds and RGB images, leading to sub-optimal performance. Specifically, taking the sparse points as the multi-modal data aggregation locations causes severe information loss for high-resolution images, which in turn undermines the effectiveness of multi-sensor fusion. In this paper, we present VPFNet -- a new architecture that cleverly aligns and aggregates the point cloud and image data at the `virtual' points. Particularly, with their density lying between that of the 3D points and 2D pixels, the virtual points can nicely bridge the resolution gap between the two sensors, and thus preserve more information for processing. Moreover, we also investigate the data augmentation techniques that can be applied to both point clouds and RGB images, as the data augmentation has made non-negligible contribution towards 3D object detectors to date. We have conducted extensive experiments on KITTI dataset, and have observed good performance compared to the state-of-the-art methods. Remarkably, our VPFNet achieves 83.21\% moderate 3D AP and 91.86\% moderate BEV AP on the KITTI test set, ranking the 1st since May 21th, 2021. The network design also takes computation efficiency into consideration -- we can achieve a FPS of 15 on a single NVIDIA RTX 2080Ti GPU. The code will be made available for reproduction and further investigation.
翻訳日:2021-12-02 13:07:00 公開日:2021-12-01
# HDR-NeRF:高ダイナミックレンジニューラル放射場

HDR-NeRF: High Dynamic Range Neural Radiance Fields ( http://arxiv.org/abs/2111.14451v2 )

ライセンス: Link先を確認
Xin Huang, Qi Zhang, Ying Feng, Hongdong Li, Xuan Wang, Qing Wang(参考訳) 我々は、低ダイナミックレンジ(LDR)ビューのセットからHDR放射界を異なる露出で復元するために、HDR-NeRF(High Dynamic Range Neural Radiance Fields)を提案する。 HDR-NeRFを用いて、異なる露出下で、新しいHDRビューと新しいLDRビューの両方を生成することができる。 この方法の鍵は物理イメージングの過程をモデル化することであり、シーンポイントの放射能が2つの暗黙的な機能を持つldr画像の画素値(放射能場とトーンマッパー)に変換されることを示す。 放射場はシーンラディアンス(値が0から+infty)を符号化し、対応する光の起源と光方向を与えることにより、光の密度と放射を出力する。 トーンマッパーは、カメラセンサに照射された光が画素値になるマッピング過程をモデル化する。 放射光と対応する露光時間とをトーンマッパーに供給することにより、光の色を予測する。 我々は、古典的なボリュームレンダリング技術を用いて出力放射率、色、密度をHDRおよびLDR画像に投影し、入力されたLDR画像のみを監督する。 提案手法を評価するために,新しい前方向きHDRデータセットを収集する。 合成および実世界のシーンにおける実験結果は, 合成ビューの露光を正確に制御できるだけでなく, ダイナミックレンジの描画も可能であることを確認した。

We present High Dynamic Range Neural Radiance Fields (HDR-NeRF) to recover an HDR radiance field from a set of low dynamic range (LDR) views with different exposures. Using the HDR-NeRF, we are able to generate both novel HDR views and novel LDR views under different exposures. The key to our method is to model the physical imaging process, which dictates that the radiance of a scene point transforms to a pixel value in the LDR image with two implicit functions: a radiance field and a tone mapper. The radiance field encodes the scene radiance (values vary from 0 to +infty), which outputs the density and radiance of a ray by giving corresponding ray origin and ray direction. The tone mapper models the mapping process that a ray hitting on the camera sensor becomes a pixel value. The color of the ray is predicted by feeding the radiance and the corresponding exposure time into the tone mapper. We use the classic volume rendering technique to project the output radiance, colors, and densities into HDR and LDR images, while only the input LDR images are used as the supervision. We collect a new forward-facing HDR dataset to evaluate the proposed method. Experimental results on synthetic and real-world scenes validate that our method can not only accurately control the exposures of synthesized views but also render views with a high dynamic range.
翻訳日:2021-12-02 13:06:26 公開日:2021-12-01
# 映像復元のための時間的アライメントの再検討

Revisiting Temporal Alignment for Video Restoration ( http://arxiv.org/abs/2111.15288v2 )

ライセンス: Link先を確認
Kun Zhou, Wenbo Li, Liying Lu, Xiaoguang Han, Jiangbo Lu(参考訳) 長時間の時間的アライメントは、ビデオ復元作業には不可欠である。 近年、長距離アライメントをいくつかのサブアライメントに分割し、徐々に処理しようとする研究もある。 この操作は遠距離対応のモデル化に有用であるが,伝播機構により誤りの蓄積は避けられない。 本稿では,サブアライメントの段階的改良を施し,より高精度な動作補償を実現する,新しい反復アライメントモジュールを提案する。 さらにアライメントの精度と時間的整合性を高めるために,各フレームの重要性を空間的に評価する非パラメトリック再重み付け手法を開発した。 提案手法により,ビデオスーパーレゾリューション,デノイング,デブロワーリングなど,様々なビデオ修復タスクにおいて,複数のベンチマークで最先端のパフォーマンスを実現する。 我々のプロジェクトは \url{https://github.com/redrock303/Revisiting-Temporal-Alignment-for-Video-Restoration.git} で利用可能です。

Long-range temporal alignment is critical yet challenging for video restoration tasks. Recently, some works attempt to divide the long-range alignment into several sub-alignments and handle them progressively. Although this operation is helpful in modeling distant correspondences, error accumulation is inevitable due to the propagation mechanism. In this work, we present a novel, generic iterative alignment module which employs a gradual refinement scheme for sub-alignments, yielding more accurate motion compensation. To further enhance the alignment accuracy and temporal consistency, we develop a non-parametric re-weighting method, where the importance of each neighboring frame is adaptively evaluated in a spatial-wise way for aggregation. By virtue of the proposed strategies, our model achieves state-of-the-art performance on multiple benchmarks across a range of video restoration tasks including video super-resolution, denoising and deblurring. Our project is available in \url{https://github.com/redrock303/Revisiting-Temporal-Alignment-for-Video-Restoration.git}.
翻訳日:2021-12-02 13:04:57 公開日:2021-12-01
# 拡散オートエンコーダ : 意味のあるデオード可能な表現を目指して

Diffusion Autoencoders: Toward a Meaningful and Decodable Representation ( http://arxiv.org/abs/2111.15640v2 )

ライセンス: Link先を確認
Konpat Preechakul, Nattanat Chatthee, Suttisak Wizadwongsa, Supasorn Suwajanakorn(参考訳) 拡散確率モデル(dpms)はgansに匹敵する画像生成において顕著な品質を達成している。 しかし、GANとは異なり、DPMは意味的な意味がなく、他のタスクの有用な表現として機能しない潜在変数のセットを使用する。 本稿では,DPMを用いた表現学習の可能性を探究し,自動符号化による入力画像の有意義でデオード可能な表現の抽出を試みる。 我々のキーとなるアイデアは、学習可能なエンコーダを高レベルのセマンティクスの発見に使い、DPMを残りの確率変動をモデル化するためのデコーダとして使うことです。 提案手法では,第1部が意味的意味的かつ線形な2部潜在コードに任意の画像をエンコードし,第2部が確率的詳細をキャプチャし,近似的再構成を可能にする。 この機能により、実際の画像の属性操作など、現在GANベースの手法を駆使している挑戦的なアプリケーションが可能になる。 また,この2レベル符号化により,ノイズ除去効率が向上し,数ショット条件サンプリングを含む下流タスクが自然に容易になることを示す。 プロジェクトページ(https://Diff-AE.github.io/)をご覧ください。

Diffusion probabilistic models (DPMs) have achieved remarkable quality in image generation that rivals GANs'. But unlike GANs, DPMs use a set of latent variables that lack semantic meaning and cannot serve as a useful representation for other tasks. This paper explores the possibility of using DPMs for representation learning and seeks to extract a meaningful and decodable representation of an input image via autoencoding. Our key idea is to use a learnable encoder for discovering the high-level semantics, and a DPM as the decoder for modeling the remaining stochastic variations. Our method can encode any image into a two-part latent code, where the first part is semantically meaningful and linear, and the second part captures stochastic details, allowing near-exact reconstruction. This capability enables challenging applications that currently foil GAN-based methods, such as attribute manipulation on real images. We also show that this two-level encoding improves denoising efficiency and naturally facilitates various downstream tasks including few-shot conditional sampling. Please visit our project page: https://Diff-AE.github.io/
翻訳日:2021-12-02 13:04:42 公開日:2021-12-01
# ボルツマン確率変数のサンプリングにD波コンピュータを用いる際の課題について

On the challenges of using D-Wave computers to sample Boltzmann Random Variables ( http://arxiv.org/abs/2111.15295v2 )

ライセンス: Link先を確認
Thomas Pochart, Paulin Jacquot, Joseph Mikael(参考訳) ボルツマン分布に従う確率変数のサンプリングは、特定の種類のニューラルネットワークである \textit{boltzmann machines} のトレーニングなど、様々なアプリケーションに関連するnp問題である。 このような分布をサンプルするためにd-wave量子コンピュータを使用する試みがいくつか行われており、これはこれらのアプリケーションにおいて大幅な高速化につながる可能性がある。 しかし、現在でもそのようなサンプリングを効率的に行うための課題がいくつか残っている。 各種の障害について詳述し, サンプリング問題をD波機で解く際の難しさについて解説する。

Sampling random variables following a Boltzmann distribution is an NP-hard problem involved in various applications such as training of \textit{Boltzmann machines}, a specific kind of neural network. Several attempts have been made to use a D-Wave quantum computer to sample such a distribution, as this could lead to significant speedup in these applications. Yet, at present, several challenges remain to efficiently perform such sampling. We detail the various obstacles and explain the remaining difficulties in solving the sampling problem on a D-wave machine.
翻訳日:2021-12-02 13:04:23 公開日:2021-12-01
# 分散小データによるプライバシ保存型サーバレスエッジラーニング

Privacy-Preserving Serverless Edge Learning with Decentralized Small Data ( http://arxiv.org/abs/2111.14955v2 )

ライセンス: Link先を確認
Shih-Chun Lin and Chia-Hung Lin(参考訳) 過去10年間、データ駆動アルゴリズムは、コンピュータビジョンや自然言語処理など、多くの研究分野において、従来の最適化ベースのアルゴリズムを上回っていた。 しかし、広範なデータ利用は、ディープラーニングアルゴリズム、すなわちプライバシ保存に新たな課題や脅威をもたらす。 分散トレーニング戦略は、ディープモデルをトレーニングする際のデータプライバシを保証するための有望なアプローチになっている。 本稿では、従来のサーバレスプラットフォームをサーバレスエッジ学習アーキテクチャで拡張し、ネットワークの観点から効率的な分散トレーニングフレームワークを提供する。 このフレームワークは、異種物理ユニット間の利用可能なリソースを動的に編成し、ディープラーニングの目標を効率的に達成する。 この設計では、ラストマイル送信、モバイルデバイスの計算能力、エッジとクラウドコンピューティングセンター、デバイスバッテリステータスなど、学習タスク要求と基盤となるインフラストラクチャの不均一性を共同で検討している。 さらに、分散トレーニングのオーバーヘッドを大幅に削減するために、汎用的な単純なデータ分類器を統合することで、小規模データトレーニングを提案する。 この低負荷強化は、様々な分散ディープモデルとシームレスに働き、トレーニングフェーズにおける通信と計算効率を改善する。 最後に、オープンチャレンジと今後の研究方向性は、研究コミュニティに効率的な分散ディープラーニング技術の開発を促す。

In the last decade, data-driven algorithms outperformed traditional optimization-based algorithms in many research areas, such as computer vision, natural language processing, etc. However, extensive data usages bring a new challenge or even threat to deep learning algorithms, i.e., privacy-preserving. Distributed training strategies have recently become a promising approach to ensure data privacy when training deep models. This paper extends conventional serverless platforms with serverless edge learning architectures and provides an efficient distributed training framework from the networking perspective. This framework dynamically orchestrates available resources among heterogeneous physical units to efficiently fulfill deep learning objectives. The design jointly considers learning task requests and underlying infrastructure heterogeneity, including last-mile transmissions, computation abilities of mobile devices, edge and cloud computing centers, and devices battery status. Furthermore, to significantly reduce distributed training overheads, small-scale data training is proposed by integrating with a general, simple data classifier. This low-load enhancement can seamlessly work with various distributed deep models to improve communications and computation efficiencies during the training phase. Finally, open challenges and future research directions encourage the research community to develop efficient distributed deep learning techniques.
翻訳日:2021-12-02 13:04:13 公開日:2021-12-01
# 双方向画像テキスト生成のための変換等価画像量化器

Translation-equivariant Image Quantizer for Bi-directional Image-Text Generation ( http://arxiv.org/abs/2112.00384v1 )

ライセンス: Link先を確認
Woncheol Shin, Gyubok Lee, Jiyoung Lee, Joonseok Lee, Edward Choi(参考訳) 近年,ベクトル量子化画像モデリングはテキスト・画像生成などの生成タスクにおいて顕著な性能を示した。 しかし,現在の画像量化器は,簡単な実験装置であっても,下流のテキスト・画像生成や画像・テキスト生成において,エイリアス化や劣化による量子化空間の変換等式を満足しないことがわかった。 アンチエイリアスに注目する代わりに、量子化空間における翻訳等価性を促進するために直接のアプローチを取る。 特に,「量子化空間における翻訳等分散」と呼ばれる画像量子化器の望ましい性質を探索し,コードブック埋め込みベクトルの直交性を正則化することにより,翻訳等分散を実現するための単純かつ効果的な方法を提案する。 この手法を用いることで、VQGANよりも高い精度でテキスト・画像生成が+22%、画像・画像生成が+26%向上する。

Recently, vector-quantized image modeling has demonstrated impressive performance on generation tasks such as text-to-image generation. However, we discover that the current image quantizers do not satisfy translation equivariance in the quantized space due to aliasing, degrading performance in the downstream text-to-image generation and image-to-text generation, even in simple experimental setups. Instead of focusing on anti-aliasing, we take a direct approach to encourage translation equivariance in the quantized space. In particular, we explore a desirable property of image quantizers, called 'Translation Equivariance in the Quantized Space' and propose a simple but effective way to achieve translation equivariance by regularizing orthogonality in the codebook embedding vectors. Using this method, we improve accuracy by +22% in text-to-image generation and +26% in image-to-text generation, outperforming the VQGAN.
翻訳日:2021-12-02 13:03:27 公開日:2021-12-01