このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220329となっている論文です。

PDF登録状況(公開日: 20220329)

TitleAuthorsAbstract論文公表日・翻訳日
# 制限ボルツマン機械流れとイジングモデルの臨界温度

Restricted Boltzmann Machine Flows and The Critical Temperature of Ising models ( http://arxiv.org/abs/2006.10176v2 )

ライセンス: Link先を確認
Rodrigo Veiga, Renato Vicente(参考訳) 本稿では,ニューラルネットワーク温度計による正方格子イジングモデルの温度空間上にマッピングされた制限ボルツマン機械(rbm)からの反復サンプリング(フロー)の代替実験について検討する。 このフレームワークは、RBMベースのディープニューラルネットワークとRenormalization Group(RG)の間の接続を調べるために導入された。 ある条件下では、イジングスピン配置で訓練されたrbmの流れが臨界値の周りの温度空間に近づくことが判明している: $ k_b t_c / j \approx 2.269$。 本稿では、モデルトポロジに関する情報を持たないデータセットを考察し、ニューラルネットワーク温度計は、RBMがスケール不変性を学習したかどうかを正確に検出する方法ではないと論じる。

We explore alternative experimental setups for the iterative sampling (flow) from Restricted Boltzmann Machines (RBM) mapped on the temperature space of square lattice Ising models by a neural network thermometer. This framework has been introduced to explore connections between RBM-based deep neural networks and the Renormalization Group (RG). It has been found that, under certain conditions, the flow of an RBM trained with Ising spin configurations approaches in the temperature space a value around the critical one: $ k_B T_c / J \approx 2.269$. In this paper we consider datasets with no information about model topology to argue that a neural network thermometer is not an accurate way to detect whether the RBM has learned scale invariance or not.
翻訳日:2022-11-19 21:31:24 公開日:2022-03-29
# フレキシブル・スパシティ・アウェア・モデリングに向けて:一般化双曲前処理を用いた自動テンソルランク学習

Towards Flexible Sparsity-Aware Modeling: Automatic Tensor Rank Learning Using The Generalized Hyperbolic Prior ( http://arxiv.org/abs/2009.02472v2 )

ライセンス: Link先を確認
Lei Cheng, Zhongtao Chen, Qingjiang Shi, Yik-Chung Wu, and Sergios Theodoridis(参考訳) 標準ポリアディック分解(CPD)のためのテンソルランク学習は、長い間必須だが難しい問題とみなされてきた。 特に、テンソルランクがPDモデルの複雑さを制御するため、その不正確な学習はノイズへの過度な適合や信号源への過度な適合を引き起こし、モデルパラメータの解釈可能性を破壊する。 しかし、テンソルランクの最適決定は非決定論的多項式時間ハード(NP-hard)タスクであることが知られている。 試行錯誤実験によって最高のテンソルランクを求めるのではなく、確率的cpdモデリングの文脈でガウス・ガンマ前置法に基づくベイズ推定が導入され、自動テンソルランク決定に有効な戦略であることが示されている。 これは、自動テンソルランク学習を伴う他の構造化テンソルCPDの研究が盛んになった。 硬貨の反対側では、ガウス-ガンマモデルは高階テンソルや低信号対雑音比(snrs)ではうまく機能しないことも研究で明らかになった。 これらの欠点を克服するため,本稿では,確率的cpdモデルに先立って,より先進的な一般化双曲型 (gh) を導入する。 この新しい確率モデルに基づき、アルゴリズムは変分推論の枠組みの下で開発され、各更新は閉形式で得られる。 合成データと実世界のデータセットを用いた大規模数値計算により,低SNRの場合においても,低および高テンソルランクの学習において,提案手法の性能が著しく向上したことを示す。

Tensor rank learning for canonical polyadic decomposition (CPD) has long been deemed as an essential yet challenging problem. In particular, since the tensor rank controls the complexity of the CPD model, its inaccurate learning would cause overfitting to noise or underfitting to the signal sources, and even destroy the interpretability of model parameters. However, the optimal determination of a tensor rank is known to be a non-deterministic polynomial-time hard (NP-hard) task. Rather than exhaustively searching for the best tensor rank via trial-and-error experiments, Bayesian inference under the Gaussian-gamma prior was introduced in the context of probabilistic CPD modeling, and it was shown to be an effective strategy for automatic tensor rank determination. This triggered flourishing research on other structured tensor CPDs with automatic tensor rank learning. On the other side of the coin, these research works also reveal that the Gaussian-gamma model does not perform well for high-rank tensors and/or low signal-to-noise ratios (SNRs). To overcome these drawbacks, in this paper, we introduce a more advanced generalized hyperbolic (GH) prior to the probabilistic CPD model, which not only includes the Gaussian-gamma model as a special case, but also is more flexible to adapt to different levels of sparsity. Based on this novel probabilistic model, an algorithm is developed under the framework of variational inference, where each update is obtained in a closed-form. Extensive numerical results, using synthetic data and real-world datasets, demonstrate the significantly improved performance of the proposed method in learning both low as well as high tensor ranks even for low SNR cases.
翻訳日:2022-10-21 20:42:20 公開日:2022-03-29
# フルカーネルマトリックストランスファーによる知識蒸留の改善

Improved Knowledge Distillation via Full Kernel Matrix Transfer ( http://arxiv.org/abs/2009.14416v2 )

ライセンス: Link先を確認
Qi Qian, Hao Li, Juhua Hu(参考訳) 知識蒸留は深層学習におけるモデル圧縮に有効な方法である。 大きなモデル(すなわち教師モデル)が与えられた場合、教師から情報を転送することで、コンパクトモデル(すなわち学生モデル)のパフォーマンスを向上させることを目的としている。 蒸留に関する様々な情報が研究されている。 近年,実例間の相似性を蒸留関連情報に移すことが提案されている。 しかしながら、ほとんどの努力は異なる類似度測定の開発に費やされているが、各イテレーションでミニバッチ内の例からなる小さな行列のみが転送され、データセット全体のペアの類似度を最適化するのに非効率である。 本研究では,完全類似度行列を効率的に転送することを目的とする。 主な課題は、例の数に二次的な全行列の大きさからである。 この課題に対処するために、元のフルマトリクスをnystr{\"{o}}mメソッドで分解する。 適切なランドマークポイントを選択することで、移動の損失をさらに単純化できることを示す理論的解析を行う。 具体的には, 元のカーネル行列と教師と学生との差は, 元の例とランドマーク点の類似点のみからなる部分行列の差分で十分有界であることが判明した。 フルマトリクスと比較すると、部分マトリクスのサイズは例数で線形であり、最適化の効率を大幅に改善する。 ベンチマークデータセットに関する実証研究は,提案アルゴリズムの有効性を示す。 コードは \url{https://github.com/idstcv/KDA} で入手できる。

Knowledge distillation is an effective way for model compression in deep learning. Given a large model (i.e., teacher model), it aims to improve the performance of a compact model (i.e., student model) by transferring the information from the teacher. Various information for distillation has been studied. Recently, a number of works propose to transfer the pairwise similarity between examples to distill relative information. However, most of efforts are devoted to developing different similarity measurements, while only a small matrix consisting of examples within a mini-batch is transferred at each iteration that can be inefficient for optimizing the pairwise similarity over the whole data set. In this work, we aim to transfer the full similarity matrix effectively. The main challenge is from the size of the full matrix that is quadratic to the number of examples. To address the challenge, we decompose the original full matrix with Nystr{\"{o}}m method. By selecting appropriate landmark points, our theoretical analysis indicates that the loss for transfer can be further simplified. Concretely, we find that the difference between the original full kernel matrices between teacher and student can be well bounded by that of the corresponding partial matrices, which only consists of similarities between original examples and landmark points. Compared with the full matrix, the size of the partial matrix is linear in the number of examples, which improves the efficiency of optimization significantly. The empirical study on benchmark data sets demonstrates the effectiveness of the proposed algorithm. Code is available at \url{https://github.com/idstcv/KDA}.
翻訳日:2022-10-12 22:14:53 公開日:2022-03-29
# 大規模グラフのためのデータ拡張としてのロバスト最適化

Robust Optimization as Data Augmentation for Large-scale Graphs ( http://arxiv.org/abs/2010.09891v3 )

ライセンス: Link先を確認
Kezhi Kong, Guohao Li, Mucong Ding, Zuxuan Wu, Chen Zhu, Bernard Ghanem, Gavin Taylor, Tom Goldstein(参考訳) データ拡張は、トレーニングセットを拡大することで、ニューラルネットワークの一般化に役立つが、グラフデータを効果的に拡張して、GNN(Graph Neural Networks)のパフォーマンスを向上する方法は、未解決のままである。 既存のグラフレギュレータのほとんどはエッジの追加や削除によってグラフトポロジ構造を操作することに重点を置いているが、パフォーマンスを向上させるためにノード機能を拡張する方法を提供する。 学習中に勾配に基づく逆方向摂動を伴うノード特徴を反復的に拡張するFLAG(Free Large-scale Adversarial Augmentation on Graphs)を提案する。 入力データの小さなゆらぎにモデルを不変にすることで,本手法は分布外サンプルへの一般化を支援し,テスト時のモデル性能を向上させる。 FLAGはグラフデータに対する汎用的なアプローチであり、ノード分類、リンク予測、グラフ分類タスクで普遍的に機能する。 FLAGは柔軟でスケーラブルで、任意のGNNバックボーンと大規模データセットでデプロイ可能である。 本手法の有効性と安定性を広範な実験とアブレーションにより実証する。 また,本手法のより深い理解のために直観的な観察を行う。

Data augmentation helps neural networks generalize better by enlarging the training set, but it remains an open question how to effectively augment graph data to enhance the performance of GNNs (Graph Neural Networks). While most existing graph regularizers focus on manipulating graph topological structures by adding/removing edges, we offer a method to augment node features for better performance. We propose FLAG (Free Large-scale Adversarial Augmentation on Graphs), which iteratively augments node features with gradient-based adversarial perturbations during training. By making the model invariant to small fluctuations in input data, our method helps models generalize to out-of-distribution samples and boosts model performance at test time. FLAG is a general-purpose approach for graph data, which universally works in node classification, link prediction, and graph classification tasks. FLAG is also highly flexible and scalable, and is deployable with arbitrary GNN backbones and large-scale datasets. We demonstrate the efficacy and stability of our method through extensive experiments and ablation studies. We also provide intuitive observations for a deeper understanding of our method.
翻訳日:2022-10-05 21:04:20 公開日:2022-03-29
# 摂動マスクによる画像アニメーション

Image Animation with Perturbed Masks ( http://arxiv.org/abs/2011.06922v3 )

ライセンス: Link先を確認
Yoav Shalev, Lior Wolf(参考訳) 我々は,同じタイプのオブジェクトを描画する駆動ビデオにより,ソースイメージの画像アニメーションのための新しいアプローチを提案する。 我々はポーズモデルの存在を仮定せず、この手法はオブジェクトの構造を知らずに任意のオブジェクトをアニメーションすることができる。 さらに、駆動ビデオとソースイメージの両方がテスト時間中にのみ表示される。 提案手法は,フォアグラウンドオブジェクトと背景を分離し,オブジェクトの一般的なポーズと形状をキャプチャする共有マスク生成器をベースとする。 出力フレームのアイデンティティのソースを制御するために,ドライバのマスク上の不要なアイデンティティ情報を中断するために,摂動を用いた。 マスクリファインメントモジュールはドライバのIDをソースのIDに置き換える。 ソース画像に条件付けされた後、トランスフォーメーションされたマスクは、ドライブビデオのポーズによってソースフレームの内容がアニメーションされるリアルな画像をレンダリングするマルチスケールジェネレータによってデコードされる。 完全に監視されたデータがないため、ソースイメージが撮影された同じビデオからフレームを再構築するタスクをトレーニングします。 本手法は,複数のベンチマークにおいて最先端手法を大きく上回ることを示す。 私たちのコードとサンプルはhttps://github.com/itsyoavshalev/Image-Animation-with-Perturbed-Masks.comで公開されています。

We present a novel approach for image-animation of a source image by a driving video, both depicting the same type of object. We do not assume the existence of pose models and our method is able to animate arbitrary objects without the knowledge of the object's structure. Furthermore, both, the driving video and the source image are only seen during test-time. Our method is based on a shared mask generator, which separates the foreground object from its background, and captures the object's general pose and shape. To control the source of the identity of the output frame, we employ perturbations to interrupt the unwanted identity information on the driver's mask. A mask-refinement module then replaces the identity of the driver with the identity of the source. Conditioned on the source image, the transformed mask is then decoded by a multi-scale generator that renders a realistic image, in which the content of the source frame is animated by the pose in the driving video. Due to the lack of fully supervised data, we train on the task of reconstructing frames from the same video the source image is taken from. Our method is shown to greatly outperform the state-of-the-art methods on multiple benchmarks. Our code and samples are available at https://github.com/itsyoavshalev/Image-Animation-with-Perturbed-Masks.
翻訳日:2022-09-26 00:10:10 公開日:2022-03-29
# 3次元点雲上での深部マグニフィケーション・フレキシブルアップサンプリング

Deep Magnification-Flexible Upsampling over 3D Point Clouds ( http://arxiv.org/abs/2011.12745v4 )

ライセンス: Link先を確認
Yue Qian, Junhui Hou, Sam Kwong and Ying He(参考訳) 本稿では,オブジェクト/シーンの基底となる幾何学構造をモデル化するために,所定のスパース点雲から高密度点雲を生成する問題に対処する。 そこで本稿では,この課題に取り組むために,新しいエンドツーエンド学習ベースフレームワークを提案する。 具体的には、線形近似定理を利用して、まず問題を明示的に定式化し、補間重みと高次近似誤差を決定する。 そこで我々は,入力点雲の局所的幾何を解析することにより,統合された補間重みと高次改善を適応的に学習する軽量ニューラルネットワークを設計する。 提案手法は明示的な定式化によって解釈できるため,既存の方法よりもメモリ効率が高い。 事前定義された固定されたアップサンプリングファクタのみで動作する既存の方法とは対照的に、提案フレームワークは、現実世界のアプリケーションで非常に望まれる、典型的な範囲内でさまざまなアップサンプリングファクタを処理するために、ワンタイムトレーニングを備えた1つのニューラルネットワークのみを必要とする。 さらに,このような柔軟な能力を実現するための,シンプルかつ効果的なトレーニング戦略を提案する。 また,非一様分布および雑音データも良好に扱うことができる。 合成データと実世界のデータの両方に対する大規模な実験により,提案手法の定量的および定性的手法よりも優れていることが示された。

This paper addresses the problem of generating dense point clouds from given sparse point clouds to model the underlying geometric structures of objects/scenes. To tackle this challenging issue, we propose a novel end-to-end learning-based framework. Specifically, by taking advantage of the linear approximation theorem, we first formulate the problem explicitly, which boils down to determining the interpolation weights and high-order approximation errors. Then, we design a lightweight neural network to adaptively learn unified and sorted interpolation weights as well as the high-order refinements, by analyzing the local geometry of the input point cloud. The proposed method can be interpreted by the explicit formulation, and thus is more memory-efficient than existing ones. In sharp contrast to the existing methods that work only for a pre-defined and fixed upsampling factor, the proposed framework only requires a single neural network with one-time training to handle various upsampling factors within a typical range, which is highly desired in real-world applications. In addition, we propose a simple yet effective training strategy to drive such a flexible ability. In addition, our method can handle non-uniformly distributed and noisy data well. Extensive experiments on both synthetic and real-world data demonstrate the superiority of the proposed method over state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2022-09-21 03:03:52 公開日:2022-03-29
# 変圧器の高速後処理フレームワーク

A Fast Post-Training Pruning Framework for Transformers ( http://arxiv.org/abs/2204.09656v1 )

ライセンス: Link先を確認
Woosuk Kwon, Sehoon Kim, Michael W. Mahoney, Joseph Hassoun, Kurt Keutzer, Amir Gholami(参考訳) プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。 しかしながら、モデルプルーニングの事前作業には、モデルの再トレーニングが必要となる。 これにより、モデルデプロイメントにコストと複雑さが増し、多くの実践的な状況での使用が困難になります。 そこで本研究では,再学習を必要としないトランスフォーマーのための高速ポストトレーニングプルーニングフレームワークを提案する。 リソース制約とサンプルデータセットが与えられると、フレームワークは構造化スパーシティメソッドを使用して自動的にトランスフォーマモデルをプルする。 再トレーニングせずに高い精度を維持するために,我々は3つの新しい手法を紹介する。 (i)フィッシャー情報に基づいてどのヘッドとフィルターをプルーネにするかを検索する軽量マスク検索アルゴリズム (ii)探索アルゴリズムを補完するマスク配置、及び (iii)各レイヤの出力アクティベーションを再構築するマスクチューニング。 本手法をBERT-BASEおよびDistilBERTに適用し,GLUEおよびSQuADベンチマーク上での有効性を評価する。 提案フレームワークは, FLOPの最大2.0倍, 推論遅延の1.56倍の高速化を実現し, 精度1%の損失を維持した。 重要なことは、我々のフレームワークはトランスフォーマーを1つのGPU上で3分未満で実行し、これは再トレーニングする既存のプルーニングアプローチよりも2桁以上高速である。 私たちのコードは公開されています。

Pruning is an effective way to reduce the huge inference cost of large Transformer models. However, prior work on model pruning requires retraining the model. This can add high cost and complexity to model deployment, making it difficult to use in many practical situations. To address this, we propose a fast post-training pruning framework for Transformers that does not require any retraining. Given a resource constraint and a sample dataset, our framework automatically prunes the Transformer model using structured sparsity methods. To retain high accuracy without retraining, we introduce three novel techniques: (i) a lightweight mask search algorithm that finds which heads and filters to prune based on the Fisher information; (ii) mask rearrangement that complements the search algorithm; and (iii) mask tuning that reconstructs the output activations for each layer. We apply our method to BERT-BASE and DistilBERT, and we evaluate its effectiveness on GLUE and SQuAD benchmarks. Our framework achieves up to 2.0x reduction in FLOPs and 1.56x speedup in inference latency, while maintaining < 1% loss in accuracy. Importantly, our framework prunes Transformers in less than 3 minutes on a single GPU, which is over two orders of magnitude faster than existing pruning approaches that retrain. Our code is publicly available.
翻訳日:2022-04-24 16:47:34 公開日:2022-03-29
# (参考訳) 人間の作業記憶、心的イメージ、精神的連続性をシミュレートする人工知能ソフトウェア

Artificial Intelligence Software Structured to Simulate Human Working Memory, Mental Imagery, and Mental Continuity ( http://arxiv.org/abs/2204.05138v1 )

ライセンス: CC0 1.0
Jared Edward Reser(参考訳) 本稿では,人間の作業記憶システムと,それを反復的に更新する方法をシミュレートする人工知能(AI)アーキテクチャを提案する。 大脳皮質の特別なモジュールをエミュレートするために設計されたいくつかの相互接続ニューラルネットワークを備えている。 これらは階層的に構造化され、グローバルなワークスペースに統合される。 作業記憶に保持されている心理的項目に類似したハイレベルなパターンを一時的に維持することができる。 この維持は、持続的な神経活動によって、持続的な神経活動(注意を向けて)とシナプス増強(短期的な店舗で)の2つのモードで実現される。 この永続的なアクティビティは繰り返し更新され、作業メモリシステムの内容が漸進的に変化する。 ワーキングメモリに格納されたコンテンツが徐々に進化するにつれて、連続した状態は重なり、互いに連続する。 本稿では,このアーキテクチャが協調表現の分布を段階的に変化させ,最終的に処理状態間の精神的な連続性をもたらし,人間のような認知に繋がる方法について考察する。

This article presents an artificial intelligence (AI) architecture intended to simulate the human working memory system as well as the manner in which it is updated iteratively. It features several interconnected neural networks designed to emulate the specialized modules of the cerebral cortex. These are structured hierarchically and integrated into a global workspace. They are capable of temporarily maintaining high-level patterns akin to the psychological items maintained in working memory. This maintenance is made possible by persistent neural activity in the form of two modalities: sustained neural firing (resulting in a focus of attention) and synaptic potentiation (resulting in a short-term store). This persistent activity is updated iteratively resulting in incremental changes to the content of the working memory system. As the content stored in working memory gradually evolves, successive states overlap and are continuous with one another. The present article will explore how this architecture can lead to gradual shift in the distribution of coactive representations, ultimately leading to mental continuity between processing states, and thus to human-like cognition.
翻訳日:2022-04-17 08:56:28 公開日:2022-03-29
# 文BERTに基づくウィキペディアによる世界規模の都市交通型予測

Worldwide city transport typology prediction with sentence-BERT based supervised learning via Wikipedia ( http://arxiv.org/abs/2204.05193v1 )

ライセンス: Link先を確認
Srushti Rath and Joseph Y.J. Chow(参考訳) 世界の人口の圧倒的多数が都市部や都市に住んでいる。 都市の交通のタイプを理解することは、何百万人もの都市住民に影響を及ぼす可能性があるプランナーや政策立案者にとって非常に価値がある。 市の類型学を理解する価値はあるものの、ラベル付きデータ(都市とその類型学)は乏しく、現在の交通文献では少なくとも数百都市にまたがっている。 そこで,この障壁を克服するために,ウィキペディアのページにおいて,都市型を予測するための教師付き機械学習手法を提案する。 本手法は,近年の自然言語処理,すなわち文BERTの進歩を利用して,ウィキペディアからのテキストベースの情報を,世界中の2000以上の都市に適用可能な都市型予測タスクのデータソースとして有効に活用する方法を示す。 そこで本研究では, 数百個のラベル付きサンプルを用いても, 都市タイポロジーラベルの教師あり学習を可能にするwikipediaページを用いた低次元都市表現手法を提案する。 これらの特徴は、4つの異なる都市型についてバイナリ分類器(論理回帰)を訓練するためにラベル付き都市サンプルと共に使用される。 渋滞; 混雑; 混雑; 混雑 (二)オートヘビー (三)トランジットヘビー、及び (4)自転車フレンドリーな都市では,AUCスコアが0.87,0.86,0.61,0.94であった。 本手法は,都市型学モデルに追加変数を組み込むための十分な柔軟性を提供し,他の都市型学にも適用可能である。 交通・都市計画分野の多様な利害関係者を支援するとともに、wikipedia(または同様のプラットフォーム)からテキストベースの情報をその分野のデータソースとして利用するための新たな機会を開拓する。

An overwhelming majority of the world's human population lives in urban areas and cities. Understanding a city's transportation typology is immensely valuable for planners and policy makers whose decisions can potentially impact millions of city residents. Despite the value of understanding a city's typology, labeled data (city and it's typology) is scarce, and spans at most a few hundred cities in the current transportation literature. To break this barrier, we propose a supervised machine learning approach to predict a city's typology given the information in its Wikipedia page. Our method leverages recent breakthroughs in natural language processing, namely sentence-BERT, and shows how the text-based information from Wikipedia can be effectively used as a data source for city typology prediction tasks that can be applied to over 2000 cities worldwide. We propose a novel method for low-dimensional city representation using a city's Wikipedia page, which makes supervised learning of city typology labels tractable even with a few hundred labeled samples. These features are used with labeled city samples to train binary classifiers (logistic regression) for four different city typologies: (i) congestion, (ii) auto-heavy, (iii) transit-heavy, and (iv) bike-friendly cities resulting in reasonably high AUC scores of 0.87, 0.86, 0.61 and 0.94 respectively. Our approach provides sufficient flexibility for incorporating additional variables in the city typology models and can be applied to study other city typologies as well. Our findings can assist a diverse group of stakeholders in transportation and urban planning fields, and opens up new opportunities for using text-based information from Wikipedia (or similar platforms) as data sources in such fields.
翻訳日:2022-04-17 07:05:14 公開日:2022-03-29
# (参考訳) 4Weed Dataset: 注釈付き画像雑草データセット

4Weed Dataset: Annotated Imagery Weeds Dataset ( http://arxiv.org/abs/2204.00080v1 )

ライセンス: CC0 1.0
Varun Aggarwal, Aanis Ahmad, Aaron Etienne, Dharmendra Saraswat(参考訳) 雑草は作物にとって大きな脅威であり、世界中の収穫量を減らす責任がある。 悪影響を和らげるには、季節の早い段階で正確に識別し、フィールド全体に広がるのを防ぐのが有利である。 伝統的に、農家は手動で畑を偵察し、異なる雑草に除草剤を適用する。 しかし、生育初期の段階では雑草と作物を混同することが容易である。 近年、深層学習に基づく雑草識別が普及し、深層学習は雑草と作物の区別可能な重要な特徴を学習できる畳み込みニューラルネットワークに依存している。 しかしながら、堅牢なディープラーニングモデルのトレーニングには、大規模なイメージデータセットへのアクセスが必要だ。 そこで,早期シーズン雑草データセットをフィールド条件下で取得した。 このデータセットは159のコックルバー画像、139のキツネテール画像、170のレッドルートピグウィード画像、150の巨大なラグウィード画像からなり、トウモロコシと大豆の生産システムに見られる4つの一般的な雑草に対応する。 . 各画像にバウンディングボックスアノテーションを作成し、トウモロコシ畑や大豆畑の雑草を正確に特定できる画像分類と物体検出深層学習ネットワークの両方をトレーニングするためのデータセットを作成した。 (https://osf.io/w9v3j/)

Weeds are a major threat to crops and are responsible for reducing crop yield worldwide. To mitigate their negative effect, it is advantageous to accurately identify them early in the season to prevent their spread throughout the field. Traditionally, farmers rely on manually scouting fields and applying herbicides for different weeds. However, it is easy to confuse between crops with weeds during the early growth stages. Recently, deep learning-based weed identification has become popular as deep learning relies on convolutional neural networks that are capable of learning important distinguishable features between weeds and crops. However, training robust deep learning models requires access to large imagery datasets. Therefore, an early-season weeds dataset was acquired under field conditions. The dataset consists of 159 Cocklebur images, 139 Foxtail images, 170 Redroot Pigweed images and 150 Giant Ragweed images corresponding to four common weed species found in corn and soybean production systems.. Bounding box annotations were created for each image to prepare the dataset for training both image classification and object detection deep learning networks capable of accurately locating and identifying weeds within corn and soybean fields. (https://osf.io/w9v3j/)
翻訳日:2022-04-10 12:08:39 公開日:2022-03-29
# (参考訳) 量子ニューラルネットワーク(QNN)を用いたNEQR処理された古典画像の分類

Classification of NEQR Processed Classical Images using Quantum Neural Networks (QNN) ( http://arxiv.org/abs/2204.02797v1 )

ライセンス: CC BY 4.0
Santanu Ganguly(参考訳) 量子ニューラルネットワーク(QNN)は現在、トレーニング可能な連続パラメータを持つ任意の量子回路として解釈されている。 この研究は、著者らによる以前の研究に基づいており、同じ古典的データセットに対する量子優位性への道筋として、主成分分析(PCA)と投影量子カーネル機能(PQK)が以前に著者らによって調査されたNEQR(NEQR)処理された古典的データを用いた画像分類のためのQNNを基盤としている。 これらのケースのそれぞれに対して、Fashion-MNISTデータセットはPCAを使用してダウンスケールされ、古典的なNNがQNNに容易に勝る量子データに変換された。 しかし、PQKを用いて量子モデルが従来のトレーニングデータセットを上回り、90%以上の精度を達成した場合、量子優位性を実証した。 この作業では、QNNに入力された同じデータセットを使用して、従来のNNモデルのパフォーマンスと比較します。 我々は、同じデータを前処理し、画像をQNNに入力するNEQRモデル回路を構築した。 その結果,NEQRによるQNN性能がNEQRを使わずにQNNの性能を上回った際の限界改善(約5.0%)が認められた。 我々は、NEQRの実行に伴う計算コストと回路深度を考えると、この特定の量子画像処理(QIMP)アルゴリズムがもたらす利点は、少なくとも古典的な画像データセットに対して疑問である。 現在、我々のおもちゃの古典的データセットの縮小画像サイズであっても、NEQRの実行に必要な回路深度をサポートする実際の量子コンピューティングハードウェアプラットフォームは存在しない。

A quantum neural network (QNN) is interpreted today as any quantum circuit with trainable continuous parameters. This work builds on previous works by the authors and addresses QNN for image classification with Novel Enhanced Quantum Representation of (NEQR) processed classical data where Principal component analysis (PCA) and Projected Quantum Kernel features (PQK) were investigated previously by the authors as a path to quantum advantage for the same classical dataset. For each of these cases the Fashion-MNIST dataset was downscaled using PCA to convert into quantum data where the classical NN easily outperformed the QNN. However, we demonstrated quantum advantage by using PQK where quantum models achieved more than ~90% accuracy surpassing their classical counterpart on the same training dataset as in the first case. In this current work, we use the same dataset fed into a QNN and compare that with performance of a classical NN model. We built an NEQR model circuit to pre-process the same data and feed the images into the QNN. Our results showed marginal improvements (only about ~5.0%) where the QNN performance with NEQR exceeded the performance of QNN without NEQR. We conclude that given the computational cost and the massive circuit depth associated with running NEQR, the advantage offered by this specific Quantum Image Processing (QIMP) algorithm is questionable at least for classical image dataset. No actual quantum computing hardware platform exists today that can support the circuit depth needed to run NEQR even for the reduced image sizes of our toy classical dataset.
翻訳日:2022-04-10 12:05:38 公開日:2022-03-29
# 音声認識に必要なものは1つのスピーカーだけだ

A single speaker is almost all you need for automatic speech recognition ( http://arxiv.org/abs/2204.00618v1 )

ライセンス: Link先を確認
Edresson Casanova, Christopher Shulby, Alexander Korolev, Arnaldo Candido Junior, Anderson da Silva Soares, Sandra Alu\'isio and Moacir Antonelli Ponti(参考訳) 対象言語に1つの話者しか持たないシナリオにおいて、自動音声認識(ASR)システムのための拡張データセットに適用した音声合成と音声変換の利用について検討する。 広範にわたる実験により,本手法は最先端のSOTA (State-of-the-art) と比較して結果が得られ,音声合成/音声変換モデルトレーニングにおいて対象言語に1人の話者しか必要としないことを示す。 最後に,ASRモデルのトレーニングにおける有望な結果が,データ拡張法と,異なるターゲット言語における1つの実話者のみを用いて得られることを示す。

We explore the use of speech synthesis and voice conversion applied to augment datasets for automatic speech recognition (ASR) systems, in scenarios with only one speaker available for the target language. Through extensive experiments, we show that our approach achieves results compared to the state-of-the-art (SOTA) and requires only one speaker in the target language during speech synthesis/voice conversion model training. Finally, we show that it is possible to obtain promising results in the training of an ASR model with our data augmentation method and only a single real speaker in different target languages.
翻訳日:2022-04-10 11:14:11 公開日:2022-03-29
# (参考訳) 単眼深度推定はセマンティックセグメンテーションの分類よりも事前訓練が優れているか?

Does Monocular Depth Estimation Provide Better Pre-training than Classification for Semantic Segmentation? ( http://arxiv.org/abs/2203.13987v2 )

ライセンス: CC BY 4.0
Dong Lao, Alex Wong and Stefano Soatto(参考訳) セマンティックセグメンテーションのためのディープニューラルネットワークのトレーニングは、労力を要するため、別のタスクのために事前トレーニングし、小さな注釈付きデータセットで微調整するのが一般的です。 state-of-the-artメソッドは、未制御バイアスを導入する事前トレーニングに画像分類を使用する。 ラベルなしビデオからの深度推定が事前学習に役立てる可能性があるという仮説を検証した。 セマンティックな情報がないにもかかわらず、画像全体をセマンティッククラスに分類するよりも、シーン幾何学を推定することはセマンティックセマンティックセマンティクスの課題に近いと論じる。 解析的検証は難易度が高いため,分類に基づく事前学習よりも5.7% mIoU と4.1% の精度を向上する事前学習スキームを導入することにより,仮説を実証的に検証する。 事前トレーニングにはアノテーションは必要ありませんが、仮説をテストするには必要です。 その目的のために,kitti (outdoor) と nyu-v2 (indoor) ベンチマークを用い,既存の非教師なし,自己教師なし,半教師なしの事前学習プロトコルに関する提案手法の利点と限界について幅広い議論を行った。

Training a deep neural network for semantic segmentation is labor-intensive, so it is common to pre-train it for a different task, and then fine-tune it with a small annotated dataset. State-of-the-art methods use image classification for pre-training, which introduces uncontrolled biases. We test the hypothesis that depth estimation from unlabeled videos may provide better pre-training. Despite the absence of any semantic information, we argue that estimating scene geometry is closer to the task of semantic segmentation than classifying whole images into semantic classes. Since analytical validation is intractable, we test the hypothesis empirically by introducing a pre-training scheme that yields an improvement of 5.7% mIoU and 4.1% pixel accuracy over classification-based pre-training. While annotation is not needed for pre-training, it is needed for testing the hypothesis. We use the KITTI (outdoor) and NYU-V2 (indoor) benchmarks to that end, and provide an extensive discussion of the benefits and limitations of the proposed scheme in relation to existing unsupervised, self-supervised, and semi-supervised pre-training protocols.
翻訳日:2022-04-03 02:49:12 公開日:2022-03-29
# (参考訳) 深いAUROC最適化のベンチマーク: 損失関数とアルゴリズムの選択

Benchmarking Deep AUROC Optimization: Loss Functions and Algorithmic Choices ( http://arxiv.org/abs/2203.14177v2 )

ライセンス: CC BY 4.0
Dixian Zhu, Xiaodong Wu, Tianbao Yang(参考訳) ROC曲線(AUROC)の下の領域は、不均衡な分類に積極的に適用され、さらに深層学習技術と組み合わせられている。 しかし、ピアが適切な深度AUROCの最大化テクニックを選択するための音情報を提供する作業は存在しない。 この作業では、このギャップを3つの側面から埋めます。 (i)深いAUROC最適化問題に対するアルゴリズム選択の異なる様々な損失関数をベンチマークする。 本研究は, 対損失と複合損失の2つのカテゴリにおいて, 合計10個の損失関数を含む損失関数について検討する。 興味深いことに、複合損失は、革新的損失関数クラスとして、トレーニング収束とテスト一般化の両方の観点から、ペアによる損失よりも高い競争力を示す。 それにもかかわらず、より腐敗したラベルを持つデータは対対称的損失を好む。 さらに,正のサンプリング率,正規化,正規化/アクティベーション,オプティマイザなどのアルゴリズム選択をベンチマークし,強調する。 主な発見は次のとおりである: 高い正のサンプリングレートはAUROCの最大化に有用であり、異なるデータセットは正規化の重みを好み、シグモイドや$\ell_2$スコア正規化のような適切な正規化技術はモデル性能を向上させる。 3)最適化面では,SGD型,Momentum型およびAdam型オプティマイザをペアワイズと複合損失の両面でベンチマークする。 以上の結果から,adam型手法はトレーニングの観点からは競争力が高いが,テストの観点からは他の手法よりも優れていないことが示された。

The area under the ROC curve (AUROC) has been vigorously applied for imbalanced classification and moreover combined with deep learning techniques. However, there is no existing work that provides sound information for peers to choose appropriate deep AUROC maximization techniques. In this work, we fill this gap from three aspects. (i) We benchmark a variety of loss functions with different algorithmic choices for deep AUROC optimization problem. We study the loss functions in two categories: pairwise loss and composite loss, which includes a total of 10 loss functions. Interestingly, we find composite loss, as an innovative loss function class, shows more competitive performance than pairwise loss from both training convergence and testing generalization perspectives. Nevertheless, data with more corrupted labels favors a pairwise symmetric loss. (ii) Moreover, we benchmark and highlight the essential algorithmic choices such as positive sampling rate, regularization, normalization/activation, and optimizers. Key findings include: higher positive sampling rate is likely to be beneficial for deep AUROC maximization; different datasets favors different weights of regularizations; appropriate normalization techniques, such as sigmoid and $\ell_2$ score normalization, could improve model performance. (iii) For optimization aspect, we benchmark SGD-type, Momentum-type, and Adam-type optimizers for both pairwise and composite loss. Our findings show that although Adam-type method is more competitive from training perspective, but it does not outperform others from testing perspective.
翻訳日:2022-04-02 23:27:58 公開日:2022-03-29
# (参考訳) 映像領域にまたがる音声適応行動認識

Audio-Adaptive Activity Recognition Across Video Domains ( http://arxiv.org/abs/2203.14240v2 )

ライセンス: CC BY 4.0
Yunhua Zhang, Hazel Doughty, Ling Shao, Cees G. M. Snoek(参考訳) 本稿では,例えば景色の変化やカメラの視点の変化など,領域シフト下での活動認識について検討する。 指導的アプローチは、対人訓練と自己指導学習による活動の出現のシフトを減少させる。 これらの視覚に焦点を当てた作業と異なり、ドメイン間の差異が少なく、どのアクティビティが起こっていないかを確実に示すことができるため、ドメイン適応のためにアクティビティサウンドを利用する。 本稿では,視覚特徴表現を識別的に調整し,意味分布の変化に対応するオーディオ適応エンコーダと関連する学習手法を提案する。 ドメイン固有の特徴をさらに排除し、認識のためのドメイン不変活動音を含むために、ドメイン間のクロスモーダルインタラクションを効果的にモデル化するオーディオ干渉認識器を提案する。 また,アクタシフトの新たなタスクと対応する視聴覚データセットを導入し,アクティビティの出現が劇的に変化する状況で提案手法に挑戦する。 このデータセットの実験では、EPIC-KitchensとCharadesEgoが我々のアプローチの有効性を示している。

This paper strives for activity recognition under domain shift, for example caused by change of scenery or camera viewpoint. The leading approaches reduce the shift in activity appearance by adversarial training and self-supervised learning. Different from these vision-focused works we leverage activity sounds for domain adaptation as they have less variance across domains and can reliably indicate which activities are not happening. We propose an audio-adaptive encoder and associated learning methods that discriminatively adjust the visual feature representation as well as addressing shifts in the semantic distribution. To further eliminate domain-specific features and include domain-invariant activity sounds for recognition, an audio-infused recognizer is proposed, which effectively models the cross-modal interaction across domains. We also introduce the new task of actor shift, with a corresponding audio-visual dataset, to challenge our method with situations where the activity appearance changes dramatically. Experiments on this dataset, EPIC-Kitchens and CharadesEgo show the effectiveness of our approach.
翻訳日:2022-04-02 20:35:59 公開日:2022-03-29
# (参考訳) 自己教師付き対応学習のための位置認識型映像間再構成

Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised Correspondence Learning ( http://arxiv.org/abs/2203.14333v2 )

ライセンス: CC BY 4.0
Liulei Li, Tianfei Zhou, Wenguan Wang, Lu Yang, Jianwu Li, Yi Yang(参考訳) 私たちの目標は、ラベルのないビデオから視覚的対応を学ぶことです。 自己教師付き通信学習パズルの3つの欠片(例えば、識別、位置認識、空間コンパクト性)を満たした、局所性認識とビデオ内リコンストラクションフレームワークであるliirを開発した。 まず,映像内自己監督のみに焦点を当てた既存の取り組みではなく,映像間及び映像内再構成方式において,映像間の親和性を付加陰性サンプルとして活用する。 これにより、望まれる映像内関連と負の映像間対応とを対比することにより、インスタンス識別表現学習が可能となる。 第2に,位置情報を対応マッチングにマージし,映像間親和性計算における位置符号化の副作用を除去し,liir位置に敏感な位置シフト戦略を設計する。 第3に,ビデオデータの空間連続性特性をフル活用するために,対応マッチングにコンパクト性に基づく制約を課し,よりスパースで信頼性の高い解を得る。 学習された表現は、オブジェクト、意味部分、キーポイントを含むラベル伝搬タスクの自己教師あり状態を超える。

Our target is to learn visual correspondence from unlabeled videos. We develop LIIR, a locality-aware inter-and intra-video reconstruction framework that fills in three missing pieces, i.e., instance discrimination, location awareness, and spatial compactness, of self-supervised correspondence learning puzzle. First, instead of most existing efforts focusing on intra-video self-supervision only, we exploit cross video affinities as extra negative samples within a unified, inter-and intra-video reconstruction scheme. This enables instance discriminative representation learning by contrasting desired intra-video pixel association against negative inter-video correspondence. Second, we merge position information into correspondence matching, and design a position shifting strategy to remove the side-effect of position encoding during inter-video affinity computation, making our LIIR location-sensitive. Third, to make full use of the spatial continuity nature of video data, we impose a compactness-based constraint on correspondence matching, yielding more sparse and reliable solutions. The learned representation surpasses self-supervised state-of-the-arts on label propagation tasks including objects, semantic parts, and keypoints.
翻訳日:2022-04-02 18:09:00 公開日:2022-03-29
# (参考訳) 階層的セマンティックセマンティックセグメンテーション

Deep Hierarchical Semantic Segmentation ( http://arxiv.org/abs/2203.14335v2 )

ライセンス: CC BY 4.0
Liulei Li, Tianfei Zhou, Wenguan Wang, Jianwu Li, Yi Yang(参考訳) 人間は観察において構造化された関係を認識することができ、複雑なシーンをより単純な部分に分解し、視覚世界を複数のレベルで抽象化することができる。 しかしながら、人間の知覚のこのような階層的推論能力は、現在のセマンティックセグメンテーションの文献ではほとんど解明されていない。 既存の作業はしばしばラベルをフラットにし、各ピクセルに対してのみターゲットクラスを予測する。 本稿では,階層的セマンティクスセグメンテーション(hss)に代えて,階層的セマンティクス(階層的セグメンテーション,階層的セグメンテーション,階層的セグメンテーション,階層的セグメンテーション,階層的セグメンテーション,階層的セグメンテーション)について述べる。 このタスクにおいて2つの重要な問題に取り組む一般的なHSSフレームワークであるHSSNを考案する。 一 既存の階層に依存しないセグメンテーションネットワークをHSS設定に効率的に適応する方法及び 二 階層情報を利用してHSSネットワーク学習を正規化する方法。 宛て i) HSSN は HSS を画素単位のマルチラベル分類タスクとして直接キャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらす。 解決する ii)hssnは,階層構造に従うためにセグメント化予測を強制するトレーニング目標として,階層構造固有の特性を最初に検討する。 さらに階層的マージン制約により、hssnはピクセル埋め込み空間を再構成し、適切に構造化されたピクセル表現を生成し、最終的にはセグメンテーションを改善する。 我々は,4つのセマンティックセグメンテーションデータセット(Mapillary Vistas 2.0,Cityscapes,LIP,PASCAL-Person-Part)について,クラス階層,セグメンテーションネットワークアーキテクチャ,バックボーンを用いて実験を行い,HSSNの一般化と優位性を示した。

Humans are able to recognize structured relations in observation, allowing us to decompose complex scenes into simpler parts and abstract the visual world in multiple levels. However, such hierarchical reasoning ability of human perception remains largely unexplored in current literature of semantic segmentation. Existing work is often aware of flatten labels and predicts target classes exclusively for each pixel. In this paper, we instead address hierarchical semantic segmentation (HSS), which aims at structured, pixel-wise description of visual observation in terms of a class hierarchy. We devise HSSN, a general HSS framework that tackles two critical issues in this task: i) how to efficiently adapt existing hierarchy-agnostic segmentation networks to the HSS setting, and ii) how to leverage the hierarchy information to regularize HSS network learning. To address i), HSSN directly casts HSS as a pixel-wise multi-label classification task, only bringing minimal architecture change to current segmentation models. To solve ii), HSSN first explores inherent properties of the hierarchy as a training objective, which enforces segmentation predictions to obey the hierarchy structure. Further, with hierarchy-induced margin constraints, HSSN reshapes the pixel embedding space, so as to generate well-structured pixel representations and improve segmentation eventually. We conduct experiments on four semantic segmentation datasets (i.e., Mapillary Vistas 2.0, Cityscapes, LIP, and PASCAL-Person-Part), with different class hierarchies, segmentation network architectures and backbones, showing the generalization and superiority of HSSN.
翻訳日:2022-04-02 17:25:27 公開日:2022-03-29
# (参考訳) 化学応用のための既知の実験および設計制約を伴うベイズ最適化

Bayesian optimization with known experimental and design constraints for chemistry applications ( http://arxiv.org/abs/2203.17241v1 )

ライセンス: CC BY 4.0
Riley J. Hickman, Matteo Aldeghi, Florian H\"ase, Al\'an Aspuru-Guzik(参考訳) ベイジアン最適化のような機械学習によって駆動される最適化戦略は、従来の実験設計の代替として、実験科学で研究されている。 自動実験ハードウェアと高性能コンピューティングを組み合わせることで、これらの戦略は、自律的な実験のための次世代プラットフォームを可能にする。 しかし、これらのアプローチの実際的な応用は、化学研究のユニークな要求に合わせた柔軟なソフトウェアとアルゴリズムの欠如によって妨げられている。 そのような側面の1つは、化学過程やプロトコルを最適化する実験条件や、機能分子や材料を設計する際にアクセス可能な化学空間における制約が広く存在することである。 これらの制約の多くは優先順位として知られているが、相互依存的で非線形であり、非コンパクトな最適化領域となる。 本研究では,実験計画アルゴリズムであるphoenicsとgryffinを拡張し,任意の既知の制約を直感的で柔軟なインターフェースで処理できるようにする。 これらの拡張アルゴリズムを,さまざまな制約を持った連続的および離散的なテスト関数にベンチマークし,その柔軟性と堅牢性を示す。 さらに,オキシレニルBuckminsterfullerene付加体の流動条件下での合成の最適化と,合成アクセシビリティ制約下でのフローバッテリ用酸化還元活性分子の設計の2つのシミュレーション化学研究シナリオにおける実用性について述べる。 開発されたツールは、既知の実験的な制約でモデルベースの最適化を可能にするためのシンプルで汎用的な戦略を構成しており、科学的発見のための自律プラットフォームの中核コンポーネントとしての適用性に貢献している。

Optimization strategies driven by machine learning, such as Bayesian optimization, are being explored across experimental sciences as an efficient alternative to traditional design of experiment. When combined with automated laboratory hardware and high-performance computing, these strategies enable next-generation platforms for autonomous experimentation. However, the practical application of these approaches is hampered by a lack of flexible software and algorithms tailored to the unique requirements of chemical research. One such aspect is the pervasive presence of constraints in the experimental conditions when optimizing chemical processes or protocols, and in the chemical space that is accessible when designing functional molecules or materials. Although many of these constraints are known a priori, they can be interdependent, non-linear, and result in non-compact optimization domains. In this work, we extend our experiment planning algorithms Phoenics and Gryffin such that they can handle arbitrary known constraints via an intuitive and flexible interface. We benchmark these extended algorithms on continuous and discrete test functions with a diverse set of constraints, demonstrating their flexibility and robustness. In addition, we illustrate their practical utility in two simulated chemical research scenarios: the optimization of the synthesis of o-xylenyl Buckminsterfullerene adducts under constrained flow conditions, and the design of redox active molecules for flow batteries under synthetic accessibility constraints. The tools developed constitute a simple, yet versatile strategy to enable model-based optimization with known experimental constraints, contributing to its applicability as a core component of autonomous platforms for scientific discovery.
翻訳日:2022-04-02 15:06:18 公開日:2022-03-29
# 最適制御理論によるネステロフ加速度勾配アルゴリズムの導出

A Derivation of Nesterov's Accelerated Gradient Algorithm from Optimal Control Theory ( http://arxiv.org/abs/2203.17226v1 )

ライセンス: Link先を確認
I. M. Ross(参考訳) ネステロフの加速勾配アルゴリズムは第一原理から導かれる。 最初の原理は、最近開発された最適化のための最適制御理論に基づいている。 この理論は最適化問題を、軌道が様々な連続時間アルゴリズムを生成する最適制御問題として構成する。 アルゴリズム的軌道は最適制御に必要な条件を満たす。 必要な条件は、最適化を加速するための制御可能な動的システムを生成する。 このシステムを2次制御による安定化は、通常の微分方程式を生成する。 結果の微分方程式のオイラー離散化はネステロフのアルゴリズムを生成する。 この文脈では、この結果はアルゴリズムを取り巻く謎を解く。

Nesterov's accelerated gradient algorithm is derived from first principles. The first principles are founded on the recently-developed optimal control theory for optimization. This theory frames an optimization problem as an optimal control problem whose trajectories generate various continuous-time algorithms. The algorithmic trajectories satisfy the necessary conditions for optimal control. The necessary conditions produce a controllable dynamical system for accelerated optimization. Stabilizing this system via a quadratic control Lyapunov function generates an ordinary differential equation. An Euler discretization of the resulting differential equation produces Nesterov's algorithm. In this context, this result solves the purported mystery surrounding the algorithm.
翻訳日:2022-04-01 16:54:49 公開日:2022-03-29
# 対向攻撃に対するasrモデルの最近の改善

Recent improvements of ASR models in the face of adversarial attacks ( http://arxiv.org/abs/2203.16536v1 )

ライセンス: Link先を確認
Raphael Olivier, Bhiksha Raj(参考訳) ニューラルネットワークを含む他の多くのタスクと同様に、音声認識モデルは敵の攻撃に対して脆弱である。 しかし、最近の研究では、画像モデルと比較して、ASRモデルに対する攻撃と防御の違いが指摘されている。 asrモデルのロバスト性を改善するには、1つまたは複数のモデルに対する攻撃の評価からシステム的アプローチへのパラダイムシフトが必要である。 我々は,様々なアーキテクチャにおいて,ターゲットと非ターゲットの攻撃,最適化と音声処理に基づく最適化,ホワイトボックス,ブラックボックス,ターゲット攻撃の代表的なセットを評価することにより,このような研究の基盤を築いた。 その結果,モデルアーキテクチャを変更する場合,異なる攻撃アルゴリズムの相対的強みは著しく変化し,攻撃結果が盲目的に信頼されないことが明らかとなった。 彼らはまた、自己教師付き事前訓練のようなトレーニング選択は、移行可能な摂動を可能にすることによって、ロバスト性に大きな影響を与えることも示している。 当社はソースコードをパッケージとしてリリースし、攻撃や防御に関する今後の研究を支援する予定です。

Like many other tasks involving neural networks, Speech Recognition models are vulnerable to adversarial attacks. However recent research has pointed out differences between attacks and defenses on ASR models compared to image models. Improving the robustness of ASR models requires a paradigm shift from evaluating attacks on one or a few models to a systemic approach in evaluation. We lay the ground for such research by evaluating on various architectures a representative set of adversarial attacks: targeted and untargeted, optimization and speech processing-based, white-box, black-box and targeted attacks. Our results show that the relative strengths of different attack algorithms vary considerably when changing the model architecture, and that the results of some attacks are not to be blindly trusted. They also indicate that training choices such as self-supervised pretraining can significantly impact robustness by enabling transferable perturbations. We release our source code as a package that should help future research in evaluating their attacks and defenses.
翻訳日:2022-04-01 15:14:54 公開日:2022-03-29
# スマートセンサを用いたエネルギー分散のための高効率局所性変圧器

Efficient Localness Transformer for Smart Sensor-Based Energy Disaggregation ( http://arxiv.org/abs/2203.16537v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Ziyi Kou, Lanyu Shang, Dong Wang(参考訳) 現代のスマートセンサベースのエネルギー管理システムは、非侵入負荷監視(NILM)を利用して、アプライアンス負荷分布をリアルタイムで予測し、最適化する。 NILM(エネルギ・デアグリゲーション、英: Energy disaggregation)は、集約された電力信号(すなわちメインチャネル上のスマートセンサー)に条件付けられた電力使用量の分解である。 センサ技術を用いたリアルタイムアプライアンス電力予測により,エネルギーの分散化は電力効率の向上とエネルギー消費の削減に大きな可能性を秘めている。 トランスモデルの導入により、NILMはデバイスパワーリードの予測において大幅に改善されている。 しかしながら、トランスはO(l^2) の複雑さのため効率が良くない。 さらに、トランスフォーマは、局所的なコンテキストにおける帰納バイアスの欠如により、シーケンスからポイントへの設定で局所的な信号パターンをキャプチャできない可能性がある。 本研究では,非侵入負荷モニタリング(ELTransformer)のための効率的な局所性変換器を提案する。 具体的には正規化関数を活用し、行列乗算の順序を近似自己注意に切り替え、計算複雑性を低減する。 さらに,局所的注意の少ない局所性モデルと相対的位置エンコーディングを導入し,短期的局所パターン抽出におけるモデル能力を向上させる。 我々の知る限り、ELTransformer は NILM における計算複雑性と局所性モデリングに対処する最初の NILM モデルである。 広範な実験と定量的解析により,提案するeltransformerの効率と有効性が,最先端のベースラインと比較して大幅に向上した。

Modern smart sensor-based energy management systems leverage non-intrusive load monitoring (NILM) to predict and optimize appliance load distribution in real-time. NILM, or energy disaggregation, refers to the decomposition of electricity usage conditioned on the aggregated power signals (i.e., smart sensor on the main channel). Based on real-time appliance power prediction using sensory technology, energy disaggregation has great potential to increase electricity efficiency and reduce energy expenditure. With the introduction of transformer models, NILM has achieved significant improvements in predicting device power readings. Nevertheless, transformers are less efficient due to O(l^2) complexity w.r.t. sequence length l. Moreover, transformers can fail to capture local signal patterns in sequence-to-point settings due to the lack of inductive bias in local context. In this work, we propose an efficient localness transformer for non-intrusive load monitoring (ELTransformer). Specifically, we leverage normalization functions and switch the order of matrix multiplication to approximate self-attention and reduce computational complexity. Additionally, we introduce localness modeling with sparse local attention heads and relative position encodings to enhance the model capacity in extracting short-term local patterns. To the best of our knowledge, ELTransformer is the first NILM model that addresses computational complexity and localness modeling in NILM. With extensive experiments and quantitative analyses, we demonstrate the efficiency and effectiveness of the the proposed ELTransformer with considerable improvements compared to state-of-the-art baselines.
翻訳日:2022-04-01 14:11:00 公開日:2022-03-29
# 機械意識と人工超知能のための計算アーキテクチャ--作業記憶の反復更新

A Computational Architecture for Machine Consciousness and Artificial Superintelligence: Updating Working Memory Iteratively ( http://arxiv.org/abs/2203.17255v1 )

ライセンス: Link先を確認
Jared Edward Reser(参考訳) この理論論文は、コンピュータ内で人間のような作業記憶と思考プロセスを構築する方法について検討する。 動作メモリストアは2つあり、1つは結合皮質の持続的な燃焼に類似し、もう1つは大脳皮質のシナプス増強に類似している。 これらのストアは、環境刺激または内部処理から生じる新しい表現で常に更新されなければならない。 継続的に更新され、反復的な方法で、つまり次の状態において、協調アイテムのセット内のいくつかのアイテムは、常に保持されるべきである。 したがって、ワーキングメモリにおける一連の概念は、時間とともに徐々に徐々に進化していく。 これにより、各状態は前状態の修正反復であり、連続状態はそれらが含む表現の集合に関して重複して混在する。 新しい表現が追加され、古い表現が減算されるにつれて、これらの変更の過程で数秒間アクティブなものもある。 この永続的活動は、人工的なリカレントニューラルネットワークで使用されるものと同様、次の連想更新を探すために、グローバルワークスペース全体に活性化エネルギーを拡散するために使用される。 結果として、解または目標に向かって進むことができる結合的に連結された中間状態の連鎖となる。 反復更新は、情報処理戦略、思考の流れの計算と神経生理学的決定式、人工知能の設計とプログラミングのためのアルゴリズムとして概念化されている。

This theoretical article examines how to construct human-like working memory and thought processes within a computer. There should be two working memory stores, one analogous to sustained firing in association cortex, and one analogous to synaptic potentiation in the cerebral cortex. These stores must be constantly updated with new representations that arise from either environmental stimulation or internal processing. They should be updated continuously, and in an iterative fashion, meaning that, in the next state, some items in the set of coactive items should always be retained. Thus, the set of concepts coactive in working memory will evolve gradually and incrementally over time. This makes each state is a revised iteration of the preceding state and causes successive states to overlap and blend with respect to the set of representations they contain. As new representations are added and old ones are subtracted, some remain active for several seconds over the course of these changes. This persistent activity, similar to that used in artificial recurrent neural networks, is used to spread activation energy throughout the global workspace to search for the next associative update. The result is a chain of associatively linked intermediate states that are capable of advancing toward a solution or goal. Iterative updating is conceptualized here as an information processing strategy, a computational and neurophysiological determinant of the stream of thought, and an algorithm for designing and programming artificial intelligence.
翻訳日:2022-04-01 13:50:53 公開日:2022-03-29
# (参考訳) 5Gルーティング干渉環境

5G Routing Interfered Environment ( http://arxiv.org/abs/2203.14790v2 )

ライセンス: CC BY 4.0
Barak Gahtan(参考訳) 5gは次世代のセルラーネットワーク技術であり、高密度ユーザに対応するために必要となる帯域幅のクリティカルな要求を満たすことを目標としている。 高い密度に対応するために柔軟なアーキテクチャを採用している。 5Gは、30GHzから300GHzの周波数で動作するmmWave通信によって実現されている。 本稿では,ジムの手法に基づくpythonベースの環境である5gルーティング阻害環境(5grie)の設計について述べる。 この環境は、定式化された干渉モデルを用いて、パケットをソースと宛先ペアでルーティングするための異なるアルゴリズムを実行することができる。 安定ベースライン3とランダムやグリーディのようなヒューリスティックベースのアルゴリズムを使用するディープ強化学習アルゴリズムは、それ上で実行できる。 Profitableは、提供されるアルゴリズムである。

5G is the next-generation cellular network technology, with the goal of meeting the critical demand for bandwidth required to accommodate a high density of users. It employs flexible architectures to accommodate the high density. 5G is enabled by mmWave communication, which operates at frequencies ranging from 30 to 300 GHz. This paper describes the design of the 5G Routing Interfered Environment (5GRIE), a python-based environment based on Gym's methods. The environment can run different algorithms to route packets with source and destination pairs using a formulated interference model. Deep Reinforcement Learning algorithms that use Stable-Baselines 3, as well as heuristic-based algorithms like random or greedy, can be run on it. Profitable is an algorithm that is provided.
翻訳日:2022-04-01 10:49:13 公開日:2022-03-29
# (参考訳) 画素欠落を考慮した背景/フォアグラウンド分離のための滑らかなロバストテンソル補完:収束保証付き新しいアルゴリズム

Smooth Robust Tensor Completion for Background/Foreground Separation with Missing Pixels: Novel Algorithm with Convergence Guarantee ( http://arxiv.org/abs/2203.16328v1 )

ライセンス: CC BY 4.0
Bo Shen, Weijun Xie and Zhenyu Kong(参考訳) 本研究の目的は,映像取得,映像復元,背景/フォアグラウンド分離を1つのフレームワークに組み合わせることで,欠落画素と背景/フォアグラウンド分離の問題に対処することである。 これを実現するために,データを復元し,それぞれ静的背景とスムースフォアグラウンドに分解するために,滑らかなロバストテンソル補完(srtc)モデルを提案する。 具体的には、静的背景は低ランクタッカー分解によりモデル化され、滑らかな前景(移動物体)は時空間連続性によってモデル化され、全変動正規化によって強制される。 テンソル近位交互最小化(tenPAM)に基づく効率的なアルゴリズムを実装し, 非常に穏やかな条件下での大域収束を保証するモデルを提案する。 実データに対する大規模な実験により,提案手法は背景・地上分離と画素不足による最先端の手法を著しく上回ることを示した。

The objective of this study is to address the problem of background/foreground separation with missing pixels by combining the video acquisition, video recovery, background/foreground separation into a single framework. To achieve this, a smooth robust tensor completion (SRTC) model is proposed to recover the data and decompose it into the static background and smooth foreground, respectively. Specifically, the static background is modeled by the low-rank tucker decomposition and the smooth foreground (moving objects) is modeled by the spatiotemporal continuity, which is enforced by the total variation regularization. An efficient algorithm based on tensor proximal alternating minimization (tenPAM) is implemented to solve the proposed model with global convergence guarantee under very mild conditions. Extensive experiments on real data demonstrate that the proposed method significantly outperforms the state-of-the-art approaches for background/foreground separation with missing pixels.
翻訳日:2022-04-01 07:57:31 公開日:2022-03-29
# (参考訳) 視覚トランスフォーマのパラメータ効率の良い微調整

Parameter-efficient Fine-tuning for Vision Transformers ( http://arxiv.org/abs/2203.16329v1 )

ライセンス: CC BY 4.0
Xuehai He, Chunyuan Li, Pengchuan Zhang, Jianwei Yang, Xin Eric Wang(参考訳) コンピュータビジョンでは、大規模な事前訓練された視覚モデル(ビジョントランスフォーマーなど)を微調整で下流のタスクに適応させることに成功した。 微調整のための一般的なアプローチは、すべてのモデルパラメータを更新するか、線形プローブを利用する。 本稿では,視覚タスクにおける視覚変換器のパラメータ効率向上のための微調整戦略について検討する。 サブスペーストレーニング問題として効率的な微調整を定式化し、異なる効率の微調整方法に対して総合的なベンチマークを行う。 本研究は, パラメータコストと並行して, 効率の良い微調整法について実験的に検討する。 さらに,パラメータ効率のよい微調整フレームワークを提案する。このフレームワークは,まず局所固有次元を測定して部分加群を選択し,次に新しいKronecker Adaptation法による部分空間に投影する。 本手法を様々なベースライン微調整法(事前学習した言語モデルのための最先端法を含む)と比較した。 本手法は,3つの画像分類データセットにおいて,精度とパラメータ効率のトレードオフの観点から最良である。

In computer vision, it has achieved great success in adapting large-scale pretrained vision models (e.g., Vision Transformer) to downstream tasks via fine-tuning. Common approaches for fine-tuning either update all model parameters or leverage linear probes. In this paper, we aim to study parameter-efficient fine-tuning strategies for Vision Transformers on vision tasks. We formulate efficient fine-tuning as a subspace training problem and perform a comprehensive benchmarking over different efficient fine-tuning methods. We conduct an empirical study on each efficient fine-tuning method focusing on its performance alongside parameter cost. Furthermore, we also propose a parameter-efficient fine-tuning framework, which first selects submodules by measuring local intrinsic dimensions and then projects them into subspace for further decomposition via a novel Kronecker Adaptation method. We analyze and compare our method with a diverse set of baseline fine-tuning methods (including state-of-the-art methods for pretrained language models). Our method performs the best in terms of the tradeoff between accuracy and parameter efficiency across three commonly used image classification datasets.
翻訳日:2022-04-01 07:56:24 公開日:2022-03-29
# (参考訳) 本種等のための人工知能ブラウザアーキテクチャ(aiba)--ウェイク中立性と個人識別情報の保存-

An Artificial Intelligence Browser Architecture (AIBA) For Our Kind and Others: A Voice Name System Speech implementation with two warrants, Wake Neutrality and Value Preservation of Privately Identifiable Information ( http://arxiv.org/abs/2203.16497v1 )

ライセンス: CC BY 4.0
Brian Subirana(参考訳) appleのsiriが最初に開拓した会話型コマースは、5月最初のアプリケーションで、常時オンの人工知能システムに基づいて環境と対話する時間を決め、しばしばプライベートに識別可能な情報(pii)である24x7の縦断トレーニングデータを収集する。 Google Scholarの単純な検索によると、学術論文の膨大な部分は100万のオーダーで、他のドメインで発生したようなデータセットが十分に大きい場合(GPT3など)、COVID-19や認知症を含む多くの健康状態の治療は、このデータによって大幅に改善される可能性があることを示唆している。 対照的に、現在の支配的なシステムは、ウェイク中立性のないクローズドガーデンソリューションであり、irbとcohuesタイプの制約のためにpiiデータを十分に活用できない。 我々は,この2つの制約に対処すべく,ウェイク中立性を提供し,その価値を最大化しようとするpiiに対応可能な音声ブラウザとサーバアーキテクチャを提案する。 我々は、このブラウザを音声サンプルの収集のために実装し、20万件以上のCOVID-19コークスのサンプルをキャプチャできることを示した。 提案するアーキテクチャは,車からの音声サンプルの収集,自然からの映像の収集,摂取可能なロボット工学,マルチモーダル信号(EEG,EKG,...),さらには犬や猫などとの対話など,私たちの領域を超えて成長するように設計されている。

Conversational commerce, first pioneered by Apple's Siri, is the first of may applications based on always-on artificial intelligence systems that decide on its own when to interact with the environment, potentially collecting 24x7 longitudinal training data that is often Privately Identifiable Information (PII). A large body of scholarly papers, on the order of a million according to a simple Google Scholar search, suggests that the treatment of many health conditions, including COVID-19 and dementia, can be vastly improved by this data if the dataset is large enough as it has happened in other domains (e.g. GPT3). In contrast, current dominant systems are closed garden solutions without wake neutrality and that can't fully exploit the PII data they have because of IRB and Cohues-type constraints. We present a voice browser-and-server architecture that aims to address these two limitations by offering wake neutrality and the possibility to handle PII aiming to maximize its value. We have implemented this browser for the collection of speech samples and have successfully demonstrated it can capture over 200.000 samples of COVID-19 coughs. The architecture we propose is designed so it can grow beyond our kind into other domains such as collecting sound samples from vehicles, video images from nature, ingestible robotics, multi-modal signals (EEG, EKG,...), or even interacting with other kinds such as dogs and cats.
翻訳日:2022-04-01 07:41:32 公開日:2022-03-29
# (参考訳) いつ行くか、いつ探るか:本質的な動機づけにおける探索の恩恵

When to Go, and When to Explore: The Benefit of Post-Exploration in Intrinsic Motivation ( http://arxiv.org/abs/2203.16311v1 )

ライセンス: CC BY 4.0
Zhao Yang, Thomas M. Moerland, Mike Preuss and Aske Plaat(参考訳) Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。 Go-Exploreの重要な洞察は、調査に成功するには、エージェントが最初に興味深い状態("Go")に戻る必要があり、次に未知の地形("Explore")を探索する必要があることである。 目的が「爆発後」に到達した後にこのような探索を行う。 本稿では,Go-Explore論文がまだ答えていないオープンな疑問に答える,探索後の体系的な研究について述べる。 まず,同一アルゴリズム内でオン・オフすることで,爆発後の孤立ポテンシャルについて検討する。 続いて,爆発後の時期と爆発後の期間を適応的に決定する新しい手法を提案する。 様々なミニグリッド環境での実験では、爆発後の性能が(通常の探査パラメータのチューニングよりも大きな影響で)向上していることが示され、爆発後の時間と期間を適応的に決定することによって、この効果はさらに強化される。 まとめると、我々の研究は適応後探索をRL探査研究の有望な方向として認識している。

Go-Explore achieved breakthrough performance on challenging reinforcement learning (RL) tasks with sparse rewards. The key insight of Go-Explore was that successful exploration requires an agent to first return to an interesting state ('Go'), and only then explore into unknown terrain ('Explore'). We refer to such exploration after a goal is reached as 'post-exploration'. In this paper we present a systematic study of post-exploration, answering open questions that the Go-Explore paper did not answer yet. First, we study the isolated potential of post-exploration, by turning it on and off within the same algorithm. Subsequently, we introduce new methodology to adaptively decide when to post-explore and for how long to post-explore. Experiments on a range of MiniGrid environments show that post-exploration indeed boosts performance (with a bigger impact than tuning regular exploration parameters), and this effect is further enhanced by adaptively deciding when and for how long to post-explore. In short, our work identifies adaptive post-exploration as a promising direction for RL exploration research.
翻訳日:2022-04-01 07:34:38 公開日:2022-03-29
# (参考訳) 被験者の小規模データに対するゼロショットメタラーニング

Zero-shot meta-learning for small-scale data from human subjects ( http://arxiv.org/abs/2203.16309v1 )

ライセンス: CC BY 4.0
Julie Jiang, Kristina Lerman, Emilio Ferrara(参考訳) 機械学習の発展はビッグデータのパフォーマンス向上に繋がる一方で、多くの被験者のデータは、実際には小さく、まばらにラベル付けされている。 このようなデータに適用される既存の手法は、しばしば外サンプルの被験者に容易に一般化されない。 代わりに、モデルは異なる分布から引き出されるかもしれないテストデータ、すなわち \textit{zero-shot learning} の予測をしなければならない。 この課題に対処するために,我々はメタラーニング手法を用いたエンドツーエンドフレームワークを開発し,サンプル外テストデータに対するトレーニングデータに制限のある新しい予測タスクに迅速に適応することができる。 3つの実世界の小規模ヒト被験者データセット(ランダム化制御研究と1つの観察研究)を用いて,保留治療群に対する治療結果を予測する。 我々のモデルは各介入の潜在的な治療効果を学習し、設計により、自然にマルチタスク予測を処理できる。 我々は,本モデルが各保持グループ,特にテストグループがトレーニンググループと明確に異なる場合において,最善を尽くすことを示す。 本モデルは,より広い人口を対象とした小型ヒト研究の一般化に寄与する。

While developments in machine learning led to impressive performance gains on big data, many human subjects data are, in actuality, small and sparsely labeled. Existing methods applied to such data often do not easily generalize to out-of-sample subjects. Instead, models must make predictions on test data that may be drawn from a different distribution, a problem known as \textit{zero-shot learning}. To address this challenge, we develop an end-to-end framework using a meta-learning approach, which enables the model to rapidly adapt to a new prediction task with limited training data for out-of-sample test data. We use three real-world small-scale human subjects datasets (two randomized control studies and one observational study), for which we predict treatment outcomes for held-out treatment groups. Our model learns the latent treatment effects of each intervention and, by design, can naturally handle multi-task predictions. We show that our model performs the best holistically for each held-out group and especially when the test group is distinctly different from the training group. Our model has implications for improved generalization of small-size human studies to the wider population.
翻訳日:2022-04-01 07:22:20 公開日:2022-03-29
# (参考訳) LinkBERT: ドキュメントリンクによる言語モデルの事前トレーニング

LinkBERT: Pretraining Language Models with Document Links ( http://arxiv.org/abs/2203.15827v1 )

ライセンス: CC BY 4.0
Michihiro Yasunaga, Jure Leskovec, Percy Liang(参考訳) 言語モデル(LM)事前学習はテキストコーパスから様々な知識を学び、下流のタスクを支援する。 しかし、BERTのような既存のメソッドは単一のドキュメントをモデル化し、ドキュメントにまたがる依存関係や知識をキャプチャしない。 本稿では,文書間のリンク,例えばハイパーリンクを利用するLM事前学習手法であるLinkBERTを提案する。 テキストコーパスが与えられたら、それを文書のグラフとみなし、リンクされた文書を同じコンテキストに配置することでLM入力を生成する。 次に,マスク型言語モデリングと新たな提案である文書関係予測という2つの目標により,lmを事前学習した。 リンクバートは、一般ドメイン(wikipediaでハイパーリンクをプリトレーニング)と生物医学ドメイン(pubmed with citation linksでプリトレーニング)の2つのドメインにわたる様々な下流タスクでbertを上回っている。 LinkBERTは特にマルチホップ推論や少数ショットQA(HotpotQAとTriviaQAを+5%改善)に有効であり,我々のバイオメディカルLinkBERTは様々なBioNLPタスク(BioASQとUSMLEでは+7%)に新たな技術状態を設定する。 トレーニング済みのLinkBERTとBioLinkBERT、およびhttps://github.com/michiyasunaga/LinkBERTのコードとデータをリリースします。

Language model (LM) pretraining can learn various knowledge from text corpora, helping downstream tasks. However, existing methods such as BERT model a single document, and do not capture dependencies or knowledge that span across documents. In this work, we propose LinkBERT, an LM pretraining method that leverages links between documents, e.g., hyperlinks. Given a text corpus, we view it as a graph of documents and create LM inputs by placing linked documents in the same context. We then pretrain the LM with two joint self-supervised objectives: masked language modeling and our new proposal, document relation prediction. We show that LinkBERT outperforms BERT on various downstream tasks across two domains: the general domain (pretrained on Wikipedia with hyperlinks) and biomedical domain (pretrained on PubMed with citation links). LinkBERT is especially effective for multi-hop reasoning and few-shot QA (+5% absolute improvement on HotpotQA and TriviaQA), and our biomedical LinkBERT sets new states of the art on various BioNLP tasks (+7% on BioASQ and USMLE). We release our pretrained models, LinkBERT and BioLinkBERT, as well as code and data at https://github.com/michiyasunaga/LinkBERT.
翻訳日:2022-04-01 07:04:11 公開日:2022-03-29
# (参考訳) 感情分析のためのポーズと真正な顔動作を両立した脳波に基づくマルチモーダル感情データベース

An EEG-Based Multi-Modal Emotion Database with Both Posed and Authentic Facial Actions for Emotion Analysis ( http://arxiv.org/abs/2203.15829v1 )

ライセンス: CC BY 4.0
Xiaotian Li, Xiang Zhang, Huiyuan Yang, Wenna Duan, Weiying Dai and Lijun Yin(参考訳) 感情は、生理的、行動的、認知的な変化とともに、特定の生理的活動パターンに関連する経験である。 行動の変化の1つは表情であり、ここ数十年にわたって広く研究されてきた。 顔の行動は、文化、性格、年齢、文脈、環境の違いによって、人の感情によって異なる。 近年、感情反応の研究に生理的活動が用いられている。 典型的な信号は脳波(EEG)であり、脳活動を測定する。 既存の脳波に基づく感情分析のほとんどは、表情の変化の役割を見落としている。 脳波と顔面行動信号の両方を同時に測定するデータセットがないため、顔行動と脳信号の関係についてはほとんど研究されていない。 そこで本研究では,表情,行動単位,脳波を同時に収集し,新しいデータベースを構築することを提案する。 年齢,性別,民族的背景の異なる29人の顔行動と自発的な表情の脳波と顔映像を収録した。 既存のアプローチと異なり、参加者の個々のアクションユニットを明示的に呼び出すことで脳波信号を捕捉するプロトコルを設計した。 また,脳波信号と顔面行動単位との関係についても検討した。 データベースのベースラインとして,画像のみを用いたポーズ認識と自発感情認識,脳波のみ,脳波を画像と融合させた実験を行った。 データベースは研究コミュニティに公開され、自動感情認識のための最先端の技術を推進します。

Emotion is an experience associated with a particular pattern of physiological activity along with different physiological, behavioral and cognitive changes. One behavioral change is facial expression, which has been studied extensively over the past few decades. Facial behavior varies with a person's emotion according to differences in terms of culture, personality, age, context, and environment. In recent years, physiological activities have been used to study emotional responses. A typical signal is the electroencephalogram (EEG), which measures brain activity. Most of existing EEG-based emotion analysis has overlooked the role of facial expression changes. There exits little research on the relationship between facial behavior and brain signals due to the lack of dataset measuring both EEG and facial action signals simultaneously. To address this problem, we propose to develop a new database by collecting facial expressions, action units, and EEGs simultaneously. We recorded the EEGs and face videos of both posed facial actions and spontaneous expressions from 29 participants with different ages, genders, ethnic backgrounds. Differing from existing approaches, we designed a protocol to capture the EEG signals by evoking participants' individual action units explicitly. We also investigated the relation between the EEG signals and facial action units. As a baseline, the database has been evaluated through the experiments on both posed and spontaneous emotion recognition with images alone, EEG alone, and EEG fused with images, respectively. The database will be released to the research community to advance the state of the art for automatic emotion recognition.
翻訳日:2022-04-01 06:36:14 公開日:2022-03-29
# (参考訳) acr損失:適応座標に基づく顔アライメントの回帰損失

ACR Loss: Adaptive Coordinate-based Regression Loss for Face Alignment ( http://arxiv.org/abs/2203.15835v1 )

ライセンス: CC BY 4.0
Ali Pourramezan Fard, Mohammah H. Mahoor(参考訳) ディープニューラルネットワークは、顔のアライメントを解決する上で妥当な精度を実現していますが、特に顔画像、オクルージョン、極端な頭部ポーズを扱う場合には、依然として難しい作業です。 熱マップ型回帰 (hbr) と座標型回帰 (cbr) は, 主に顔アライメントの手法である。 cbrメソッドは、hbrメソッドよりも性能が低いが、コンピュータメモリを少なくする。 本稿では,顔アライメントのためのcbrの精度を向上させるために,適応座標ベース回帰(acr)損失を提案する。 Active Shape Model (ASM) にインスパイアされ, 顔のランドマーク点の集合であるSmooth-Faceオブジェクトを生成する。 次に、地上真理ランドマークポイントと対応する平滑面オブジェクトの分布を比較することにより、ネットワークにおける各ランドマークポイントの予測の難易度を推定する手法を提案する。 提案したACR損失は,顔の各目印点の予測の難易度に基づいて,その曲率と損失の影響を適応的に修正することができる。 したがって、acr損失は、より簡単な点よりもチャレンジポイントに向かってネットワークを誘導し、顔アライメントタスクの精度を向上させる。 本研究は,様々な顔画像における顔のランドマークポイントの予測における acr 損失の可能性を広範囲に評価した。

Although deep neural networks have achieved reasonable accuracy in solving face alignment, it is still a challenging task, specifically when we deal with facial images, under occlusion, or extreme head poses. Heatmap-based Regression (HBR) and Coordinate-based Regression (CBR) are among the two mainly used methods for face alignment. CBR methods require less computer memory, though their performance is less than HBR methods. In this paper, we propose an Adaptive Coordinate-based Regression (ACR) loss to improve the accuracy of CBR for face alignment. Inspired by the Active Shape Model (ASM), we generate Smooth-Face objects, a set of facial landmark points with less variations compared to the ground truth landmark points. We then introduce a method to estimate the level of difficulty in predicting each landmark point for the network by comparing the distribution of the ground truth landmark points and the corresponding Smooth-Face objects. Our proposed ACR Loss can adaptively modify its curvature and the influence of the loss based on the difficulty level of predicting each landmark point in a face. Accordingly, the ACR Loss guides the network toward challenging points than easier points, which improves the accuracy of the face alignment task. Our extensive evaluation shows the capabilities of the proposed ACR Loss in predicting facial landmark points in various facial images.
翻訳日:2022-04-01 06:24:51 公開日:2022-03-29
# (参考訳) トポロジカル体験リプレイ

Topological Experience Replay ( http://arxiv.org/abs/2203.15845v1 )

ライセンス: CC BY 4.0
Zhang-Wei Hong, Tao Chen, Yen-Chen Lin, Joni Pajarinen, Pulkit Agrawal(参考訳) 最先端のディープq-learningメソッドは、experience replayバッファからサンプリングされた状態遷移タプルを使用して、q値を更新する。 この戦略はしばしば、時間差(TD)誤差などの尺度に基づいて、一様かつランダムにデータサンプリングをサンプリングまたは優先順位付けする。 このようなサンプリング戦略は、状態のQ値が後続状態のQ値に依存するため、Q関数の学習において非効率である。 データサンプリング戦略が次の状態のQ値推定の精度を無視している場合、Q値に対する無駄でしばしば誤った更新につながる可能性がある。 この問題を軽減するため、エージェントの経験をグラフに整理し、状態のq値間の依存性を明示的に追跡する。 グラフの各エッジは、単一のアクションを実行することによって、2つの状態間の遷移を表す。 まず,端末状態の集合から始まるグラフの頂点を拡大し,連続的に後方に移動するような,幅優先探索による値バックアップを行う。 本手法は,多種多様な目標達成タスクにおいて,複数のベースラインよりもはるかにデータ効率が高いことを示す。 提案手法は,訓練経験のバッチを多く消費し,画像などの高次元観測データから操作するベースラインよりも優れている。

State-of-the-art deep Q-learning methods update Q-values using state transition tuples sampled from the experience replay buffer. This strategy often uniformly and randomly samples or prioritizes data sampling based on measures such as the temporal difference (TD) error. Such sampling strategies can be inefficient at learning Q-function because a state's Q-value depends on the Q-value of successor states. If the data sampling strategy ignores the precision of the Q-value estimate of the next state, it can lead to useless and often incorrect updates to the Q-values. To mitigate this issue, we organize the agent's experience into a graph that explicitly tracks the dependency between Q-values of states. Each edge in the graph represents a transition between two states by executing a single action. We perform value backups via a breadth-first search starting from that expands vertices in the graph starting from the set of terminal states and successively moving backward. We empirically show that our method is substantially more data-efficient than several baselines on a diverse range of goal-reaching tasks. Notably, the proposed method also outperforms baselines that consume more batches of training experience and operates from high-dimensional observational data such as images.
翻訳日:2022-04-01 06:02:45 公開日:2022-03-29
# (参考訳) 神経慣性局在

Neural Inertial Localization ( http://arxiv.org/abs/2203.15851v1 )

ライセンス: CC BY 4.0
Sachini Herath, David Caruso, Chen Liu, Yufan Chen, Yasutaka Furukawa(参考訳) 本稿では,慣性センサの連続測定から絶対位置を推定する課題である慣性局所化問題を提案する。 これは屋内ローカライゼーション研究のエキサイティングで未調査の領域であり、53時間の慣性センサーデータと関連する地上真実の場所を含む豊富なデータセットを提示する。 我々はNILOC(Neural Inertial Localization)と呼ばれるソリューションを開発した。 1)神経慣性ナビゲーション技術を用いて、慣性センサの履歴を一連の速度ベクトルに変換する。 2) 変圧器に基づくニューラルアーキテクチャを用いて、速度列からデバイスの位置を検出する。 IMUセンサーは、WiFiやカメラ、その他のデータソースと比べてエネルギー効率が高く、プライバシーを保護しています。 提案手法はフロアプランと20~30倍遅い動作を必要とする最先端の手法と比較して,極めて高速で,競争的な結果が得られる。 コード、モデル、データをhttps://sachini.github.io/nilocで共有しています。

This paper proposes the inertial localization problem, the task of estimating the absolute location from a sequence of inertial sensor measurements. This is an exciting and unexplored area of indoor localization research, where we present a rich dataset with 53 hours of inertial sensor data and the associated ground truth locations. We developed a solution, dubbed neural inertial localization (NILoc) which 1) uses a neural inertial navigation technique to turn inertial sensor history to a sequence of velocity vectors; then 2) employs a transformer-based neural architecture to find the device location from the sequence of velocities. We only use an IMU sensor, which is energy efficient and privacy preserving compared to WiFi, cameras, and other data sources. Our approach is significantly faster and achieves competitive results even compared with state-of-the-art methods that require a floorplan and run 20 to 30 times slower. We share our code, model and data at https://sachini.github.io/niloc.
翻訳日:2022-04-01 05:37:54 公開日:2022-03-29
# (参考訳) 3次元姿勢推定のための自己スーパービジョンとしての三角法について

On Triangulation as a Form of Self-Supervision for 3D Human Pose Estimation ( http://arxiv.org/abs/2203.15865v1 )

ライセンス: CC0 1.0
Soumava Kumar Roy, Leonardo Citraro, Sina Honari and Pascal Fua(参考訳) ラベル付きデータが豊富である場合, 単一の画像から3次元ポーズ推定を行う手法は極めて効果的である。 それゆえ、近年の注意の多くは、半および(または)弱い教師付き学習へと移っている。 少ないアノテーションで効果的な監督形式を生成することは、いまだに混み合ったシーンにおいて大きな課題となる。 しかし,複数のカメラからシーンを観察することは容易であるため,識別可能な三角測量を用いて多視点幾何学的制約を課し,ラベルがない場合の自己監督の形式として用いることを提案する。 そこで,三角測量された3次元画像の再投影と予測が一致するように2次元ポーズ推定器を訓練し,補助ネットワークを訓練して最終3次元ポーズを生成する。 我々は,自己閉塞や他者からの閉塞によるノイズ予測の影響を解消する重み付け機構で三角測量を補完する。 ヒト3.6mおよびmpi-inf-3dhpにおける実験結果は,半教師あり学習環境において最先端の成果を得るための重み付け戦略の意義を裏付けるものである。 また,オクルージョンを特徴とする新たなマルチプレイヤースポーツデータセットも提供し,ベースライン三角測量法よりもアルゴリズムの有効性を示す。

Supervised approaches to 3D pose estimation from single images are remarkably effective when labeled data is abundant. Therefore, much of the recent attention has shifted towards semi and (or) weakly supervised learning. Generating an effective form of supervision with little annotations still poses major challenges in crowded scenes. However, since it is easy to observe a scene from multiple cameras, we propose to impose multi-view geometrical constraints by means of a differentiable triangulation and to use it as form of self-supervision during training when no labels are available. We therefore train a 2D pose estimator in such a way that its predictions correspond to the re-projection of the triangulated 3D one and train an auxiliary network on them to produce the final 3D poses. We complement the triangulation with a weighting mechanism that nullify the impact of noisy predictions caused by self-occlusion or occlusion from other subjects. Our experimental results on Human3.6M and MPI-INF-3DHP substantiate the significance of our weighting strategy where we obtain state-of-the-art results in the semi and weakly supervised learning setup. We also contribute a new multi-player sports dataset that features occlusion, and show the effectiveness of our algorithm over baseline triangulation methods.
翻訳日:2022-04-01 05:29:36 公開日:2022-03-29
# (参考訳) 文脈記述からの画像検索

Image Retrieval from Contextual Descriptions ( http://arxiv.org/abs/2203.15867v1 )

ライセンス: CC BY 4.0
Benno Krojer, Vaibhav Adlakha, Vibhav Vineet, Yash Goyal, Edoardo Ponti, Siva Reddy(参考訳) 知覚的および時間的手がかりを含む文脈を統合する能力は、言語的発話の意味を基礎付ける上で重要な役割を果たす。 現在のビジョン・アンド・ランゲージモデルがこの能力をどの程度習得しているかを測定するために、新しいマルチモーダルチャレンジである Image Retrieval from Contextual Descriptions (ImageCoDe) を考案した。 特に、コンテキスト記述に基づいて、10の最小対比候補の集合から正しい画像を取得することが、モデルに課される。 そのため、各記述は画像の区別に役立つ詳細のみを含む。 このため、記述は構文や談話の点で複雑になりがちであり、実用的推論を描く必要がある。 画像は静的画像とビデオフレームの両方から生成される。 我々は、VLBERTのようなクロスエンコーダとCLIPのようなバイエンコーダの両方を含む最先端モデルをImageCoDe上でベンチマークする。 その結果、これらのモデルが人間のパフォーマンスよりも劇的に遅れていることが判明した。最も優れた変種はビデオフレームで20.9、静止画像で59.4の精度を実現し、人間では90.8である。 さらに,視覚的および時間的文脈を表現に組み込むのがより適した新しいモデル変形を実験し,その有効性を検証した。 ImageCoDEは、モデルにきめ細かい視覚的違いに焦点を合わせることで、基礎言語理解の進歩を促進することを願っています。

The ability to integrate context, including perceptual and temporal cues, plays a pivotal role in grounding the meaning of a linguistic utterance. In order to measure to what extent current vision-and-language models master this ability, we devise a new multimodal challenge, Image Retrieval from Contextual Descriptions (ImageCoDe). In particular, models are tasked with retrieving the correct image from a set of 10 minimally contrastive candidates based on a contextual description. As such, each description contains only the details that help distinguish between images. Because of this, descriptions tend to be complex in terms of syntax and discourse and require drawing pragmatic inferences. Images are sourced from both static pictures and video frames. We benchmark several state-of-the-art models, including both cross-encoders such as ViLBERT and bi-encoders such as CLIP, on ImageCoDe. Our results reveal that these models dramatically lag behind human performance: the best variant achieves an accuracy of 20.9 on video frames and 59.4 on static pictures, compared with 90.8 in humans. Furthermore, we experiment with new model variants that are better equipped to incorporate visual and temporal context into their representations, which achieve modest gains. Our hope is that ImageCoDE will foster progress in grounded language understanding by encouraging models to focus on fine-grained visual differences.
翻訳日:2022-04-01 05:28:33 公開日:2022-03-29
# (参考訳) シーケンス・ツー・シークエンス音声変換の概観と解析

An Overview & Analysis of Sequence-to-Sequence Emotional Voice Conversion ( http://arxiv.org/abs/2203.15873v1 )

ライセンス: CC BY 4.0
Zijiang Yang, Xin Jing, Andreas Triantafyllopoulos, Meishu Song, Ilhan Aslan, Bj\"orn W. Schuller(参考訳) 感情音声変換(EVC)は、ソースからターゲットの感情への発話を変換することに焦点を当てている。 しかし、ECVは未解決の研究問題であり、いくつかの課題がある。 特に、発話速度とリズムが感情変換の重要な2つの要因であるため、モデルは長さの異なる出力シーケンスを生成する必要がある。 シーケンス・ツー・シーケンス・モデリングは、これらの課題を克服できるモデルのための競争パラダイムとして最近登場しています。 この新たな方向性のさらなる研究を刺激するために,最近のsequence-to-sequence evc論文を,モチベーション,トレーニング戦略,モデルアーキテクチャ,データセット,モデル入力,評価方法という6つの視点から体系的に調査・レビューした。 この情報は研究コミュニティに現在の最先端の概要を簡単に理解できるように整理されている。 最後に,sequence-to-sequence evcの課題について述べる。

Emotional voice conversion (EVC) focuses on converting a speech utterance from a source to a target emotion; it can thus be a key enabling technology for human-computer interaction applications and beyond. However, EVC remains an unsolved research problem with several challenges. In particular, as speech rate and rhythm are two key factors of emotional conversion, models have to generate output sequences of differing length. Sequence-to-sequence modelling is recently emerging as a competitive paradigm for models that can overcome those challenges. In an attempt to stimulate further research in this promising new direction, recent sequence-to-sequence EVC papers were systematically investigated and reviewed from six perspectives: their motivation, training strategies, model architectures, datasets, model inputs, and evaluation methods. This information is organised to provide the research community with an easily digestible overview of the current state-of-the-art. Finally, we discuss existing challenges of sequence-to-sequence EVC.
翻訳日:2022-04-01 05:10:09 公開日:2022-03-29
# (参考訳) ラベルなしでLiDARスキャンから移動物体を検出する学習

Learning to Detect Mobile Objects from LiDAR Scans Without Labels ( http://arxiv.org/abs/2203.15882v1 )

ライセンス: CC BY 4.0
Yurong You, Katie Z Luo, Cheng Perng Phoo, Wei-Lun Chao, Wen Sun, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger(参考訳) 現在の3dオブジェクト検出器は、ほぼ完全に人間の注釈データに基づいて訓練されている。 高品質ではあるが、そのようなデータの生成は困難でコストがかかり、いくつかの特定の場所やオブジェクトタイプに制限される。 本稿では,地球上のほぼどこでも,安価かつ多量に収集できるラベルなしデータに基づく代替手法を提案する。 提案手法は,いくつかの単純な共通感覚ヒューリスティックを活用し,近似シードラベルの初期セットを作成する。 例えば、関連する交通参加者は、一般的に同じ経路の複数の経路にまたがって永続的ではなく、飛行せず、地上にいない。 これらのシードラベルは、人間の注釈付きラベルなしで繰り返し自己学習を行うことで、驚くほど正確な検出器をブートストラップするのに非常に効果的であることを示す。

Current 3D object detectors for autonomous driving are almost entirely trained on human-annotated data. Although of high quality, the generation of such data is laborious and costly, restricting them to a few specific locations and object types. This paper proposes an alternative approach entirely based on unlabeled data, which can be collected cheaply and in abundance almost everywhere on earth. Our approach leverages several simple common sense heuristics to create an initial set of approximate seed labels. For example, relevant traffic participants are generally not persistent across multiple traversals of the same route, do not fly, and are never under ground. We demonstrate that these seed labels are highly effective to bootstrap a surprisingly accurate detector through repeated self-training without a single human annotated label.
翻訳日:2022-04-01 04:56:26 公開日:2022-03-29
# (参考訳) 重み付き有限状態トランスデューサの浅い融合とテキスト正規化のための言語モデル

Shallow Fusion of Weighted Finite-State Transducer and Language Model for Text Normalization ( http://arxiv.org/abs/2203.15917v1 )

ライセンス: CC BY 4.0
Evelina Bakhturina, Yang Zhang, Boris Ginsburg(参考訳) テキスト正規化(TN)システムは主に、重み付き有限状態トランスデューサ(WFST)を用いたルールベースである。 しかし、WFSTベースのシステムは、正規化形式が文脈依存である場合、あいまいな入力に悩まされる。 一方、ニューラルネットワークの正規化システムはコンテキストを考慮に入れることができるが、回復不能なエラーに悩まされ、収集が困難であるラベル付き正規化データセットを必要とする。 ルールベースとニューラルシステムの利点を組み合わせた新しいハイブリッドアプローチを提案する。 まず、非決定論的WFSTはすべての正規化候補を出力し、次にニューラルネットワークモデルが最適なものを選ぶ。 WFSTは発見不可能なエラーを防ぐが、言語モデルは文脈の曖昧さを解決する。 このアプローチは簡単に拡張でき、効果的であることを示します。 既存の最先端のTNモデルと同等またはより良い結果が得られる。

Text normalization (TN) systems in production are largely rule-based using weighted finite-state transducers (WFST). However, WFST-based systems struggle with ambiguous input when the normalized form is context-dependent. On the other hand, neural text normalization systems can take context into account but they suffer from unrecoverable errors and require labeled normalization datasets, which are hard to collect. We propose a new hybrid approach that combines the benefits of rule-based and neural systems. First, a non-deterministic WFST outputs all normalization candidates, and then a neural language model picks the best one -- similar to shallow fusion for automatic speech recognition. While the WFST prevents unrecoverable errors, the language model resolves contextual ambiguity. The approach is easy to extend and we show it is effective. It achieves comparable or better results than existing state-of-the-art TN models.
翻訳日:2022-04-01 04:33:57 公開日:2022-03-29
# (参考訳) Disentangled3D: 単眼画像から形状と外観を持つ3次元生成モデルを学ぶ

Disentangled3D: Learning a 3D Generative Model with Disentangled Geometry and Appearance from Monocular Images ( http://arxiv.org/abs/2203.15926v1 )

ライセンス: CC BY 4.0
Ayush Tewari, Mallikarjun B R, Xingang Pan, Ohad Fried, Maneesh Agrawala, Christian Theobalt(参考訳) 単眼画像のデータセットから3次元生成モデルを学習することで、自己教師付き3次元推論と制御可能な合成が可能になる。 最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。 画像は、所定のカメラからボリュームをレンダリングすることで合成される。 これらのモデルは、生成された画像のカメラ視点から3Dシーンを遠ざけることができる。 しかし、ほとんどのモデルは、幾何学や外観など、画像形成の他の要因を歪めない。 本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。 私たちのモデルはシーンの幾何学と外観のバリエーションを分離することができ、つまり生成モデルの幾何学と外観空間から独立にサンプルすることができる。 これは、新しい非剛性変形可能なシーン定式化を用いて達成される。 オブジェクトインスタンスを表す3Dボリュームは、厳格に変形しない標準3Dボリュームとして計算される。 本手法は, 訓練中に協調して正準体積, 変形を学習する。 この定式化は, 3次元変形場で定義される新しいポーズ正規化損失を用いて, 3次元シーンとカメラ視点の絡み合いを改善するのにも有用である。 さらに, 逆変形をモデル化し, モデルが生成する画像間の密対応の計算を可能にする。 最後に,不連続生成モデルの潜在空間に実画像を埋め込む手法を考案し,実画像の編集を可能にした。

Learning 3D generative models from a dataset of monocular images enables self-supervised 3D reasoning and controllable synthesis. State-of-the-art 3D generative models are GANs which use neural 3D volumetric representations for synthesis. Images are synthesized by rendering the volumes from a given camera. These models can disentangle the 3D scene from the camera viewpoint in any generated image. However, most models do not disentangle other factors of image formation, such as geometry and appearance. In this paper, we design a 3D GAN which can learn a disentangled model of objects, just from monocular observations. Our model can disentangle the geometry and appearance variations in the scene, i.e., we can independently sample from the geometry and appearance spaces of the generative model. This is achieved using a novel non-rigid deformable scene formulation. A 3D volume which represents an object instance is computed as a non-rigidly deformed canonical 3D volume. Our method learns the canonical volume, as well as its deformations, jointly during training. This formulation also helps us improve the disentanglement between the 3D scene and the camera viewpoints using a novel pose regularization loss defined on the 3D deformation field. In addition, we further model the inverse deformations, enabling the computation of dense correspondences between images generated by our model. Finally, we design an approach to embed real images into the latent space of our disentangled generative model, enabling editing of real images.
翻訳日:2022-04-01 04:23:34 公開日:2022-03-29
# 超音波画像を用いた燃焼深度分類のための深層学習モデル

A deep learning model for burn depth classification using ultrasound imaging ( http://arxiv.org/abs/2203.15879v1 )

ライセンス: Link先を確認
Sangrock Lee, Rahul, James Lukan, Tatiana Boyko, Kateryna Zelenova, Basiel Makled, Conner Parsey, Jack Norfleet, and Suvranu De(参考訳) 十分な精度で燃焼深度を特定することは難しい問題である。 本稿では, 超音波画像のテクスチャパターンとして表される皮膚の組織形態の変化に基づいて, 燃焼深度を分類する深層畳み込みニューラルネットワークを提案する。 このネットワークは、まず、エンコーダデコーダアーキテクチャを用いて、焼いた皮膚の超音波画像から再構成した未焼成皮膚画像の低次元多様体を学習する。 エンコーダは、バーン深さを分類するために再訓練される。 エンコーダ−デコーダネットワークは、未燃焼のブタの皮膚サンプルのbモード超音波画像からなるデータセットを用いて訓練される。 本発明の分類器は、新発泡後ブタから得られた焼成 in situ 皮膚サンプルのBモード画像を用いて開発された。 20倍のクロスバリデーションから得られた評価値から, 臨床診断が最も困難である深部肉厚バーンを99%の精度, 98%の感度, 100%の特異性で同定できることが示唆された。 識別器の診断精度は、受信機動作特性および精度リコール曲線に対して、それぞれ0.99および0.95の曲線値の高面積でさらに示される。 ポストホック説明では,Bモード画像の識別的テクスチャ特徴を活性化し,バーン分類を行う。 提案モデルは,広く利用可能な臨床画像装置を用いて,燃焼深度の臨床評価を支援するための臨床応用の可能性を有する。

Identification of burn depth with sufficient accuracy is a challenging problem. This paper presents a deep convolutional neural network to classify burn depth based on altered tissue morphology of burned skin manifested as texture patterns in the ultrasound images. The network first learns a low-dimensional manifold of the unburned skin images using an encoder-decoder architecture that reconstructs it from ultrasound images of burned skin. The encoder is then re-trained to classify burn depths. The encoder-decoder network is trained using a dataset comprised of B-mode ultrasound images of unburned and burned ex vivo porcine skin samples. The classifier is developed using B-mode images of burned in situ skin samples obtained from freshly euthanized postmortem pigs. The performance metrics obtained from 20-fold cross-validation show that the model can identify deep-partial thickness burns, which is the most difficult to diagnose clinically, with 99% accuracy, 98% sensitivity, and 100% specificity. The diagnostic accuracy of the classifier is further illustrated by the high area under the curve values of 0.99 and 0.95, respectively, for the receiver operating characteristic and precision-recall curves. A post hoc explanation indicates that the classifier activates the discriminative textural features in the B-mode images for burn classification. The proposed model has the potential for clinical utility in assisting the clinical assessment of burn depths using a widely available clinical imaging device.
翻訳日:2022-03-31 16:31:47 公開日:2022-03-29
# 複雑な照明条件下での自己監督型葉分別

Self-Supervised Leaf Segmentation under Complex Lighting Conditions ( http://arxiv.org/abs/2203.15943v1 )

ライセンス: Link先を確認
Xufeng Lin, Chang-Tsun Li, Scott Adams, Abbas Kouzani, Richard Jiang, Ligang He, Yongjian Hu, Michael Vernon, Egan Doeven, Lawrence Webb, Todd Mcclellan, Adam Guskic(参考訳) 画像に基づく植物表現型形成における必須課題として,近年,葉分画が注目されている。 自己教師型学習は様々なコンピュータビジョンタスクの効果的な代替手段として現れつつあるが、イメージベースの植物表現への適応はいまだに未発見のままである。 本研究では,自己教師付意味セグメンテーションモデル,カラーベースリーフセグメンテーションアルゴリズム,自己教師付色補正モデルからなる自己教師付リーフセグメンテーションフレームワークを提案する。 自己教師付き意味セグメンテーションモデルは、自己完結した情報を反復的に参照することにより、意味的に類似した画素をグループ化し、同じ意味対象の画素を色に基づくリーフセグメンテーションアルゴリズムにより、リーフ領域を識別する。 また,複雑な照明条件下で撮影された画像に対して,自己教師付き色補正モデルを提案する。 異なる植物種のデータセットを用いた実験結果から,葉分画を効果的かつ一般化可能なものにするための自己監督型フレームワークの可能性が示された。

As an essential prerequisite task in image-based plant phenotyping, leaf segmentation has garnered increasing attention in recent years. While self-supervised learning is emerging as an effective alternative to various computer vision tasks, its adaptation for image-based plant phenotyping remains rather unexplored. In this work, we present a self-supervised leaf segmentation framework consisting of a self-supervised semantic segmentation model, a color-based leaf segmentation algorithm, and a self-supervised color correction model. The self-supervised semantic segmentation model groups the semantically similar pixels by iteratively referring to the self-contained information, allowing the pixels of the same semantic object to be jointly considered by the color-based leaf segmentation algorithm for identifying the leaf regions. Additionally, we propose to use a self-supervised color correction model for images taken under complex illumination conditions. Experimental results on datasets of different plant species demonstrate the potential of the proposed self-supervised framework in achieving effective and generalizable leaf segmentation.
翻訳日:2022-03-31 16:31:24 公開日:2022-03-29
# 多数の腕を持つ無限ホリゾンレストレストバンディットの近接最適性

Near-optimality for infinite-horizon restless bandits with many arms ( http://arxiv.org/abs/2203.15853v1 )

ライセンス: Link先を確認
Xiangyu Zhang, Peter I. Frazier(参考訳) restレスバンディット(restless bandits)は、レコメンダシステムやアクティブラーニング、収益管理などの分野におけるアプリケーションにおける重要な問題である。 我々は,各期間に一定数のアームを引っ張ることができ,アームが有限状態空間を共有するような多くのアームを持つ無限ホライゾンディスカウントレストレストバンディットを考える。 平均ケース最適ポリシーは確率的動的プログラミングによって計算できるが、必要な計算量は腕数$N$で指数関数的に増加する。 したがって、腕ごとの最適性ギャップ(つまり最適なポリシーに対する期待性能の喪失)が大きな$N$でなくなるという意味で、この体制において最も最適に近い、大規模な$N$で効率的に計算できるスケーラブルなポリシーを見つけることが重要である。 しかしながら、最も一般的なアプローチであるwhitle indexでは、検証の難しいインデクサビリティ条件が明確に定義され、またo(n)$の最適性ギャップを保証するための検証の難しい条件が必要である。 これらの課題を解決する方法を提案する。 ウィトル指数で用いられる大域ラグランジュ乗算器をラグランジアン乗算器の列に置き換えることにより、有限トランケート点までの時間周期に1つずつ、$O(\sqrt{N})$の最適性ギャップを持つ流体均衡ポリシと呼ばれるポリシーのクラスを導出する。 ウィットル・インデックスとは異なり、流体バランスのポリシーはインデクサビリティを適切に定義する必要がなく、その$o(\sqrt{n})$ の最適性ギャップは十分条件なしで普遍的に保持される。 また,流動バランスポリシーが特定の問題に対して最先端のパフォーマンスをもたらすことを実証的に示す。

Restless bandits are an important class of problems with applications in recommender systems, active learning, revenue management and other areas. We consider infinite-horizon discounted restless bandits with many arms where a fixed proportion of arms may be pulled in each period and where arms share a finite state space. Although an average-case-optimal policy can be computed via stochastic dynamic programming, the computation required grows exponentially with the number of arms $N$. Thus, it is important to find scalable policies that can be computed efficiently for large $N$ and that are near optimal in this regime, in the sense that the optimality gap (i.e. the loss of expected performance against an optimal policy) per arm vanishes for large $N$. However, the most popular approach, the Whittle index, requires a hard-to-verify indexability condition to be well-defined and another hard-to-verify condition to guarantee a $o(N)$ optimality gap. We present a method resolving these difficulties. By replacing a global Lagrange multiplier used by the Whittle index with a sequence of Lagrangian multipliers, one per time period up to a finite truncation point, we derive a class of policies, called fluid-balance policies, that have a $O(\sqrt{N})$ optimality gap. Unlike the Whittle index, fluid-balance policies do not require indexability to be well-defined and their $O(\sqrt{N})$ optimality gap bound holds universally without sufficient conditions. We also demonstrate empirically that fluid-balance policies provide state-of-the-art performance on specific problems.
翻訳日:2022-03-31 16:24:18 公開日:2022-03-29
# 音声認識のためのネイティブ量子化対応4ビットコンバータ

4-bit Conformer with Native Quantization Aware Training for Speech Recognition ( http://arxiv.org/abs/2203.15952v1 )

ライセンス: Link先を確認
Shaojin Ding, Phoenix Meadowlark, Yanzhang He, Lukasz Lew, Shivani Agrawal, Oleg Rybakov(参考訳) レイテンシとモデルサイズを減らすことは、ライブ自動音声認識(ASR)アプリケーションシナリオにおいて、常に重要な研究課題である。 この方向に沿って、モデル量子化は、ニューラルネットワークを圧縮し、計算コストを削減するための一般的なアプローチになりつつある。 既存のasrシステムのほとんどは、トレーニング後の8ビット量子化を適用する。 そこで本研究では,高い圧縮率を実現するために,ネイティブ量子化認識トレーニングを用いた4ビットasrモデルを開発し,ネイティブ整数演算を活用し,学習と推論の両方を効果的に最適化する。 提案手法を評価するために, 最先端コンフォーマーベースASRモデルに関する2つの実験を行った。 まず,librispeechデータセットにおける重みとアクティベーションの量子化の精度の違いについて検討し,float32モデルと比較して7.7倍サイズ削減したロスレス4ビットコンフォーメータモデルを得た。 そこで本研究では,大規模データセットで学習した実用asrシステムにおける4ビット量子化の有効性を初めて検証し,フロート32モデルと比較して5倍の大きさの4ビットと8ビットの重みを混合したロスレスコンフォーメータasrモデルを作成した。

Reducing the latency and model size has always been a significant research problem for live Automatic Speech Recognition (ASR) application scenarios. Along this direction, model quantization has become an increasingly popular approach to compress neural networks and reduce computation cost. Most of the existing practical ASR systems apply post-training 8-bit quantization. To achieve a higher compression rate without introducing additional performance regression, in this study, we propose to develop 4-bit ASR models with native quantization aware training, which leverages native integer operations to effectively optimize both training and inference. We conducted two experiments on state-of-the-art Conformer-based ASR models to evaluate our proposed quantization technique. First, we explored the impact of different precisions for both weight and activation quantization on the LibriSpeech dataset, and obtained a lossless 4-bit Conformer model with 7.7x size reduction compared to the float32 model. Following this, we for the first time investigated and revealed the viability of 4-bit quantization on a practical ASR system that is trained with large-scale datasets, and produced a lossless Conformer ASR model with mixed 4-bit and 8-bit weights that has 5x size reduction compared to the float32 model.
翻訳日:2022-03-31 16:23:45 公開日:2022-03-29
# 相互依存信号の深い平衡支援ブロックスパース符号化:ハイパースペクトルイメージングへの応用

Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent Signals: Application to Hyperspectral Imaging ( http://arxiv.org/abs/2203.15901v1 )

ライセンス: Link先を確認
Alexandros Gkillas, Dimitris Ampeliotis, Kostas Berberidis(参考訳) 本研究では,固定辞書が与えられた場合,相互依存信号のデータセットのスパース表現を計算する問題を考える。 相互依存信号のデータセットは、列が強い依存を示す行列として定義される。 計算効率のよいスパース符号化最適化問題は、興味のある信号の特性に適合する正規化項を用いて導出される。 学習可能な正規化手法の利点を生かして、ニューラルネットワークを構造として、基礎となる信号相互依存性を明らかにする。 そこで,Deep Unrolling と Deep equilibrium based algorithm が開発され,高度に解釈可能かつ簡潔なディープラーニングベースアーキテクチャが構築され,入力データセットをブロック単位で処理する。 ハイパースペクトル画像雑音化の文脈において,提案手法が他のスパース符号化手法をかなり上回っており,最新のディープラーニングに基づく雑音化モデルに対して優れた性能を示すことを示す,広範なシミュレーション結果が得られた。 より広い視点で見ると、我々の研究は、疎表現理論である古典的なアプローチと、ディープラーニングモデリングに基づく現代的な表現ツールとの間に独自の橋渡しを提供する。

In this study, the problem of computing a sparse representation for datasets of inter-dependent signals, given a fixed dictionary, is considered. A dataset of inter-dependent signals is defined as a matrix whose columns demonstrate strong dependencies. A computational efficient sparse coding optimization problem is derived by employing regularization terms that are adapted to the properties of the signals of interest. Exploiting the merits of the learnable regularization techniques, a neural network is employed to act as structure prior and reveal the underlying signal interdependencies. To solve the optimization problem Deep unrolling and Deep equilibrium based algorithms are developed, forming highly interpretable and concise deep-learning-based architectures, that process the input dataset in a block-by-block fashion. Extensive simulation results, in the context of hyperspectral image denoising, are provided, that demonstrate that the proposed algorithms outperform significantly other sparse coding approaches and exhibit superior performance against recent state-of-the-art deep-learning-based denoising models. In a wider perspective, our work provides a unique bridge between a classic approach, that is the sparse representation theory, and modern representation tools that are based on deep learning modeling.
翻訳日:2022-03-31 16:21:10 公開日:2022-03-29
# 足部装着型IMUを用いた室内SLAMと局所磁場

Indoor SLAM Using a Foot-mounted IMU and the local Magnetic Field ( http://arxiv.org/abs/2203.15866v1 )

ライセンス: Link先を確認
Mostafa Osman, Frida Viset and Manon Kok(参考訳) 本稿では,足載慣性測定ユニット(imu)を用いて歩行者の歩行を追跡する同時局所化マッピング(slam)アルゴリズムを提案する。 このアルゴリズムは、モーションマップと磁場マップという2つのマップを使用する。 モーションマップは、廊下やドアなどによって制約された建物の歩行者の典型的な動きパターンを捉えている。 磁場マップはガウス過程(GP)モデルを用いて環境中の局所磁場異常をモデル化し、位置情報として利用する。 これらのマップは、歩行者デッドレコニング(PDR)から歩行者の位置と方向を補正するために、ラオ・ブラックウェル化粒子フィルタ(RBPF)で使用される。 PDRはゼロ速度更新(ZUPT-EKF)を備えた拡張カルマンフィルタを用いて計算される。 本アルゴリズムは実際の実験シーケンスを用いて検証し,室内環境における歩行者の局所化におけるアルゴリズムの有効性を示す。

In this paper, a simultaneous localization and mapping (SLAM) algorithm for tracking the motion of a pedestrian with a foot-mounted inertial measurement unit (IMU) is proposed. The algorithm uses two maps, namely, a motion map and a magnetic field map. The motion map captures typical motion patterns of pedestrians in buildings that are constrained by e.g. corridors and doors. The magnetic map models local magnetic field anomalies in the environment using a Gaussian process (GP) model and uses them as position information. These maps are used in a Rao-Blackwellized particle filter (RBPF) to correct the pedestrian position and orientation estimates from the pedestrian dead-reckoning (PDR). The PDR is computed using an extended Kalman filter with zero-velocity updates (ZUPT-EKF). The algorithm is validated using real experimental sequences and the results show the efficacy of the algorithm in localizing pedestrians in indoor environments.
翻訳日:2022-03-31 15:51:56 公開日:2022-03-29
# seq-2-seqに基づく音声名取得のためのasr出力の改良

Seq-2-Seq based Refinement of ASR Output for Spoken Name Capture ( http://arxiv.org/abs/2203.15833v1 )

ライセンス: Link先を確認
Karan Singla, Shahab Jalalvand, Yeon-Jun Kim, Ryan Price, Daniel Pressel, Srinivas Bangalore(参考訳) 人間の話し言葉から人名を取り出すことは、人間と機械の会話において難しい作業である。 本稿では,「最初の/最後の名前を言い当てて綴る」というプロンプトに応答して,発信者発声者から人名を取り出す新しい手法を提案する。 スペル修正,不流動除去,テキスト正規化の作業から着想を得て,ユーザ入力から名前スペルを生成する軽量なseq-2-seqシステムを提案する。 提案手法は,lm-driven rule-basedアプローチに基づく強力なベースラインを上回っている。

Person name capture from human speech is a difficult task in human-machine conversations. In this paper, we propose a novel approach to capture the person names from the caller utterances in response to the prompt "say and spell your first/last name". Inspired from work on spell correction, disfluency removal and text normalization, we propose a lightweight Seq-2-Seq system which generates a name spell from a varying user input. Our proposed method outperforms the strong baseline which is based on LM-driven rule-based approach.
翻訳日:2022-03-31 15:41:14 公開日:2022-03-29
# Wav2vec2-based Momentum Pseudo-Labeling による誤認識検出の改善

Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment ( http://arxiv.org/abs/2203.15937v1 )

ライセンス: Link先を確認
Mu Yang, Kevin Hirschi, Stephen D. Looney, Okim Kang, John H. L. Hansen(参考訳) 現在の先行的誤発音検出・診断(MDD)システムは、エンドツーエンドの音素認識によって有望な性能を達成する。 このようなエンドツーエンドソリューションの課題の1つは、自然なl2音声に対する人間の注釈付き音素の不足である。 本研究では,擬似ラベル(pl)処理によるラベルなしl2音声の活用と,事前学習型自己教師付き学習(ssl)モデルに基づく微調整手法の拡張を行った。 具体的には、SSLモデルとしてWav2vec 2.0を使用し、オリジナルラベル付きL2音声サンプルと擬ラベル付きL2音声サンプルを使用して微調整する。 擬似ラベルは動的であり,オンラインモデルのオンザフライによるアンサンブルによって生成される。 擬似ラベルを用いた微調整では,5.35%の音素誤り率と2.48%のMDD F1スコアがラベル付きサンプルのみの微調整ベースラインよりも向上した。 また,提案手法は従来のオフラインPL法よりも優れていた。 現状のMDDシステムと比較して,我々のMDDソリューションはより正確で一貫した音声誤り診断を実現する。 さらに,utd-4accentsデータセットを分離してオープンテストを行い,アクセントと知性に基づいて,システム認識出力と人間の知覚との強い相関を示す。

Current leading mispronunciation detection and diagnosis (MDD) systems achieve promising performance via end-to-end phoneme recognition. One challenge of such end-to-end solutions is the scarcity of human-annotated phonemes on natural L2 speech. In this work, we leverage unlabeled L2 speech via a pseudo-labeling (PL) procedure and extend the fine-tuning approach based on pre-trained self-supervised learning (SSL) models. Specifically, we use Wav2vec 2.0 as our SSL model, and fine-tune it using original labeled L2 speech samples plus the created pseudo-labeled L2 speech samples. Our pseudo labels are dynamic and are produced by an ensemble of the online model on-the-fly, which ensures that our model is robust to pseudo label noise. We show that fine-tuning with pseudo labels gains a 5.35% phoneme error rate reduction and 2.48% MDD F1 score improvement over a labeled-samples-only fine-tuning baseline. The proposed PL method is also shown to outperform conventional offline PL methods. Compared to the state-of-the-art MDD systems, our MDD solution achieves a more accurate and consistent phonetic error diagnosis. In addition, we conduct an open test on a separate UTD-4Accents dataset, where our system recognition outputs show a strong correlation with human perception, based on accentedness and intelligibility.
翻訳日:2022-03-31 15:39:56 公開日:2022-03-29
# 半教師付き無線変調分類に基づく自己コントラスト学習

Self-Contrastive Learning based Semi-Supervised Radio Modulation Classification ( http://arxiv.org/abs/2203.15932v1 )

ライセンス: Link先を確認
Dongxin Liu, Peng Wang, Tianshi Wang, and Tarek Abdelzaher(参考訳) 本稿では,自動変調分類(amc)用に設計された半教師付き学習フレームワークを提案する。 自己教師付きコントラスト学習前学習ステップでラベルなし信号データを慎重に活用することにより、少ないラベル付きデータ量で高いパフォーマンスを実現し、ディープラーニングのラベル付け負担を大幅に軽減する。 我々は,公開データセット上での半教師付きフレームワークの性能評価を行う。 評価の結果, 半教師付きアプローチは教師付きフレームワークを著しく上回り, ラベルのないデータを活用する方法で, ディープニューラルネットワークによる自動変調分類の訓練能力を大幅に向上させることがわかった。

This paper presents a semi-supervised learning framework that is new in being designed for automatic modulation classification (AMC). By carefully utilizing unlabeled signal data with a self-supervised contrastive-learning pre-training step, our framework achieves higher performance given smaller amounts of labeled data, thereby largely reducing the labeling burden of deep learning. We evaluate the performance of our semi-supervised framework on a public dataset. The evaluation results demonstrate that our semi-supervised approach significantly outperforms supervised frameworks thereby substantially enhancing our ability to train deep neural networks for automatic modulation classification in a manner that leverages unlabeled data.
翻訳日:2022-03-31 15:39:32 公開日:2022-03-29
# IoTにおけるグラフニューラルネットワーク: サーベイ

Graph Neural Networks in IoT: A Survey ( http://arxiv.org/abs/2203.15935v1 )

ライセンス: Link先を確認
Guimin Dong, Mingyue Tang, Zhiyuan Wang, Jiechao Gao, Sikun Guo, Lihua Cai, Robert Gutierrez, Bradford Campbell, Laura E. Barnes, Mehdi Boukhechba(参考訳) IoT(Internet of Things)ブームは、医療、家庭、輸送、製造業、サプライチェーンなど、人々の日常生活のほぼすべてのコーナーに革命をもたらした。 近年のセンサと通信技術の発展により、スマートウェアラブル、カメラ、スマートウォッチ、自動運転車などのIoTデバイスは、周囲の環境を正確に測定し、知覚することができる。 継続的センシングは大量のデータを生成し、機械学習の課題を提示します。 ディープラーニングモデル(畳み込みニューラルネットワークやリカレントニューラルネットワークなど)は、マルチモーダル感覚データからパターンを学習することでIoTタスクの解決に広く利用されている。 Graph Neural Networks(GNN)は、センサートポロジ内の複雑なインタラクションをキャプチャし、多くのIoT学習タスクで最先端の結果を達成することが実証されている。 本調査では,さまざまなIoTセンサ環境におけるGNN設計の深層分析,収集した出版物の公開データとソースコードの網羅的リスト,今後の研究方向性など,GNNのIoT分野への応用の最近の進歩を概観する。 新たに公開された作品を追跡するために、代表論文とそのオープンソース実装を収集し、https://github.com/GuiminDong/GNN4IoT.comでGithubリポジトリを作成します。

The Internet of Things (IoT) boom has revolutionized almost every corner of people's daily lives: healthcare, home, transportation, manufacturing, supply chain, and so on. With the recent development of sensor and communication technologies, IoT devices including smart wearables, cameras, smartwatches, and autonomous vehicles can accurately measure and perceive their surrounding environment. Continuous sensing generates massive amounts of data and presents challenges for machine learning. Deep learning models (e.g., convolution neural networks and recurrent neural networks) have been extensively employed in solving IoT tasks by learning patterns from multi-modal sensory data. Graph Neural Networks (GNNs), an emerging and fast-growing family of neural network models, can capture complex interactions within sensor topology and have been demonstrated to achieve state-of-the-art results in numerous IoT learning tasks. In this survey, we present a comprehensive review of recent advances in the application of GNNs to the IoT field, including a deep dive analysis of GNN design in various IoT sensing environments, an overarching list of public data and source code from the collected publications, and future research directions. To keep track of newly published works, we collect representative papers and their open-source implementations and create a Github repository at https://github.com/GuiminDong/GNN4IoT.
翻訳日:2022-03-31 15:39:19 公開日:2022-03-29
# グラフマイズショット学習のための単純かつ効果的な事前学習戦略

A Simple Yet Effective Pretraining Strategy for Graph Few-shot Learning ( http://arxiv.org/abs/2203.15936v1 )

ライセンス: Link先を確認
Zhen Tan, Kaize Ding, Ruocheng Guo and Huan Liu(参考訳) 近年、グラフのマイノリティ学習問題に注目が集まっており、ターゲットとなる新規クラスは数個のラベル付きノードしか含んでいない。 既存の多くの取り組みの中で、エピソジックメタラーニングが最も普及しているパラダイムとなり、テスト環境のエピソジックエミュレーションはグラフニューラルネットワークモデルに新しいノードクラスへの適応性を提供すると考えられている。 しかし、画像領域では、最近の研究結果から、機能の再利用がメタラーニングの鍵となる可能性が示唆されている。 そこで本研究では,グラフによる数ショット学習のための新しいパラダイムとして,単純な微調整フレームワークを提案する。 提案するパラダイムでは,グラフエンコーダのバックボーンをベースクラスで事前訓練し,単純な線形分類器を少数のラベル付きサンプルで微調整し,ラベル付きでないものを分類する。 事前学習のために,GNNエンコーダの補間を改善するために,少数ショットノード分類に特有のデータ拡張戦略を備えた教師付きコントラスト学習フレームワークを提案する。 最後に、3つのベンチマークデータセットで実施された広範な実験は、最先端の手法よりもフレームワークの優位性を実証している。

Recently, increasing attention has been devoted to the graph few-shot learning problem, where the target novel classes only contain a few labeled nodes. Among many existing endeavors, episodic meta-learning has become the most prevailing paradigm, and its episodic emulation of the test environment is believed to equip the graph neural network models with adaptability to novel node classes. However, in the image domain, recent results have shown that feature reuse is more likely to be the key of meta-learning to few-shot extrapolation. Based on such observation, in this work, we propose a simple transductive fine-tuning based framework as a new paradigm for graph few-shot learning. In the proposed paradigm, a graph encoder backbone is pretrained with base classes, and a simple linear classifier is fine-tuned by the few labeled samples and is tasked to classify the unlabeled ones. For pretraining, we propose a supervised contrastive learning framework with data augmentation strategies specific for few-shot node classification to improve the extrapolation of a GNN encoder. Finally, extensive experiments conducted on three benchmark datasets demonstrate the superior advantage of our framework over the state-of-the-art methods.
翻訳日:2022-03-31 15:38:55 公開日:2022-03-29
# VPTR: ビデオ予測のための効率的なトランスフォーマー

VPTR: Efficient Transformers for Video Prediction ( http://arxiv.org/abs/2203.15836v1 )

ライセンス: Link先を確認
Xi Ye, Guillaume-Alexandre Bilodeau(参考訳) 本稿では,効率的な局所空間-時空間分離注意機構に基づく映像未来フレーム予測のための新しいトランスブロックを提案する。 この新しい変圧器ブロックに基づいて,完全自己回帰型ビデオフレーム予測トランスを提案する。 さらに,非自己回帰映像予測変換器も提案され,推論速度の向上と自己回帰映像の累積推定誤差の低減が図られた。 非常に類似した将来のフレームの予測を避けるために、予測されたフレーム特徴と地対的なフレーム特徴の相互情報を最大化するために、対照的な特徴損失が適用される。 この研究は、異なるシナリオにまたがる2種類の注意に基づくビデオフレーム予測モデルを公式比較した最初のものである。 提案されたモデルは、より複雑な最先端モデルと競合する性能に達する。 ソースコードは \emph{https://github.com/XiYe20/VPTR} で入手できる。

In this paper, we propose a new Transformer block for video future frames prediction based on an efficient local spatial-temporal separation attention mechanism. Based on this new Transformer block, a fully autoregressive video future frames prediction Transformer is proposed. In addition, a non-autoregressive video prediction Transformer is also proposed to increase the inference speed and reduce the accumulated inference errors of its autoregressive counterpart. In order to avoid the prediction of very similar future frames, a contrastive feature loss is applied to maximize the mutual information between predicted and ground-truth future frame features. This work is the first that makes a formal comparison of the two types of attention-based video future frames prediction models over different scenarios. The proposed models reach a performance competitive with more complex state-of-the-art models. The source code is available at \emph{https://github.com/XiYe20/VPTR}.
翻訳日:2022-03-31 14:40:35 公開日:2022-03-29
# odontoai: 人間の体内ラベル付きデータセットと、歯科用パノラマx線写真の研究を促進するオンラインプラットフォーム

OdontoAI: A human-in-the-loop labeled data set and an online platform to boost research on dental panoramic radiographs ( http://arxiv.org/abs/2203.15856v1 )

ライセンス: Link先を確認
Bernardo Silva, La\'is Pinheiro, Brenda Sobrinho, Fernanda Lima, Bruna Sobrinho, Kalyf Abdalla, Matheus Pithon, Patr\'icia Cury, Luciano Oliveira(参考訳) ディープラーニングはここ数年で著しく進歩し、大きなラベル付きデータセットがサポートしている。 これらのデータセットは、時間を要するラベリング手順のため、貴重なものだが不足している。 この不足は、深層学習の応用がまだ胚期にある歯学において特に顕著である。 この背景から,本研究では歯科用パノラマX線画像の公開データセットの構築について述べる。 興味のある対象は、パノラマx線撮影の際、歯科医にとって主要な標的となる、分断され番号付けされた歯です。 深層ニューラルネットワークの予測を暫定ラベルとして使用し,後に人間の注釈者によって検証されたhtl(human-in-the-loop)概念の恩恵を受けた。 この新規データセットの収集およびラベリング手順はすべて、徹底的に分析される。 各HITLイテレーションでは、モデル予測が改善された。 その結果, HITLを用いたラベル付け時間は51%減少し, 390時間以上の連続作業時間を節約できた。 OdontoAIと呼ばれる新しいオンラインプラットフォームでは、この新しいデータセットのタスク中心として機能し、4000枚の画像を公開し、2000枚のラベルをモデルフィッティング用に公開しました。 他の2000枚の画像のラベルはプライベートであり、インスタンスとセマンティックセグメンテーションと番号付けを考慮したモデル評価に使用される。 我々の知る限り、このデータセットはパノラマX線撮影のための最も大規模な公開データセットであり、OdontoAIはその歯学における最初のプラットフォームである。

Deep learning has remarkably advanced in the last few years, supported by large labeled data sets. These data sets are precious yet scarce because of the time-consuming labeling procedures, discouraging researchers from producing them. This scarcity is especially true in dentistry, where deep learning applications are still in an embryonic stage. Motivated by this background, we address in this study the construction of a public data set of dental panoramic radiographs. Our objects of interest are the teeth, which are segmented and numbered, as they are the primary targets for dentists when screening a panoramic radiograph. We benefited from the human-in-the-loop (HITL) concept to expedite the labeling procedure, using predictions from deep neural networks as provisional labels, later verified by human annotators. All the gathering and labeling procedures of this novel data set is thoroughly analyzed. The results were consistent and behaved as expected: At each HITL iteration, the model predictions improved. Our results demonstrated a 51% labeling time reduction using HITL, saving us more than 390 continuous working hours. In a novel online platform, called OdontoAI, created to work as task central for this novel data set, we released 4,000 images, from which 2,000 have their labels publicly available for model fitting. The labels of the other 2,000 images are private and used for model evaluation considering instance and semantic segmentation and numbering. To the best of our knowledge, this is the largest-scale publicly available data set for panoramic radiographs, and the OdontoAI is the first platform of its kind in dentistry.
翻訳日:2022-03-31 14:40:15 公開日:2022-03-29
# プロアクティブ画像操作検出

Proactive Image Manipulation Detection ( http://arxiv.org/abs/2203.15880v1 )

ライセンス: Link先を確認
Vishal Asnani, Xi Yin, Tal Hassner, Sijia Liu, Xiaoming Liu(参考訳) 画像操作検出アルゴリズムは、特定の生成モデル(gms)で操作された画像と実際の画像とを区別するように訓練されることが多いが、訓練中に認識されないgmsで操作された画像にはあまり一般化しない。 従来の検出アルゴリズムは受動的に入力画像を受け取る。 対照的に,画像操作検出のためのプロアクティブスキームを提案する。 私たちの重要な実現技術は、実際のイメージに追加されるとより正確な操作検出につながるテンプレートセットを見積もることです。 つまり、テンプレート保護実画像とその操作されたバージョンは、元の実画像と操作された画像の区別が優れている。 これらのテンプレートは、テンプレートの望ましい特性に基づいて、特定の制約を用いて推定される。 画像操作検出では,提案手法は,サイクルガンでは16%,ゴーガンでは32%の平均精度で先行手法を上回っている。 本手法は,12台のGMに対して平均10%の精度で先行作業よりも改善したことを示す様々なGMに対して一般化可能である。 私たちのコードはhttps://www.github.com/vishal3477/proactive_imdで利用可能です。

Image manipulation detection algorithms are often trained to discriminate between images manipulated with particular Generative Models (GMs) and genuine/real images, yet generalize poorly to images manipulated with GMs unseen in the training. Conventional detection algorithms receive an input image passively. By contrast, we propose a proactive scheme to image manipulation detection. Our key enabling technique is to estimate a set of templates which when added onto the real image would lead to more accurate manipulation detection. That is, a template protected real image, and its manipulated version, is better discriminated compared to the original real image vs. its manipulated one. These templates are estimated using certain constraints based on the desired properties of templates. For image manipulation detection, our proposed approach outperforms the prior work by an average precision of 16% for CycleGAN and 32% for GauGAN. Our approach is generalizable to a variety of GMs showing an improvement over prior work by an average precision of 10% averaged across 12 GMs. Our code is available at https://www.github.com/vishal3477/proactive_IMD.
翻訳日:2022-03-31 14:39:45 公開日:2022-03-29
# 階層型強化学習によるマルチエージェント非同期協調

Multi-Agent Asynchronous Cooperation with Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2203.15925v1 )

ライセンス: Link先を確認
Xubo Lyu, Amin Banitalebi-Dehkordi, Mo Chen, Yong Zhang(参考訳) 階層型マルチエージェント強化学習(MARL)は,高レベルかつ時間的に拡張された行動(オプション)を探索することで,学習効率が著しく向上した。 しかしながら、標準ポリシー勾配に基づくmarlメソッドは、マルチエージェントオプションの非同期実行のためにオプションベースのシナリオに一般化するのが困難である。 本研究では,オプションベースのポリシー分布と軌道確率を調整し,非同期マルチエージェントオプションに対するポリシー勾配最適化を可能にする数学的枠組みを提案する。 本手法は,相互依存度が異なるマルチエージェント協調作業のセットで検討し,提案手法が典型的なオプションベースのマルチエージェント協調作業に有効であるかを評価する。

Hierarchical multi-agent reinforcement learning (MARL) has shown a significant learning efficiency by searching policy over higher-level, temporally extended actions (options). However, standard policy gradient-based MARL methods have a difficulty generalizing to option-based scenarios due to the asynchronous executions of multi-agent options. In this work, we propose a mathematical framework to enable policy gradient optimization over asynchronous multi-agent options by adjusting option-based policy distribution as well as trajectory probability. We study our method under a set of multi-agent cooperative setups with varying inter-dependency levels, and evaluate the effectiveness of our method on typical option-based multi-agent cooperation tasks.
翻訳日:2022-03-31 14:24:04 公開日:2022-03-29
# ブラックボックス変分推論のロバスト、自動、高精度化

Robust, Automated, and Accurate Black-box Variational Inference ( http://arxiv.org/abs/2203.15945v1 )

ライセンス: Link先を確認
Manushi Welandawe, Michael Riis Andersen, Aki Vehtari, Jonathan H. Huggins(参考訳) Black-box Variational Inference (BBVI) は、マルコフ連鎖モンテカルロ法の高速かつ柔軟な代替手段として機械学習や統計学で広く使われている。 しかし、BBVIの確率的最適化手法は信頼性が低く、効果的に適用するにはかなりの専門知識と手作業が必要である。 本稿では,信頼性のあるBBVI最適化フレームワークであるRobust, Automated, and Accurate BBVI (RAABBVI)を提案する。 raabbviは厳密に正当化された自動化技術に基づいており、少数の直感的なチューニングパラメータを含み、最適な変分近似の不正確な推定を検出する。 RAABBVIは、固定学習率の反復率の収束を検出して学習率を適応的に減少させ、次に、現在の変動近似と最適な近似との対称性を推定する。 また、ユーザが求める精度と計算コストのバランスを比較できる、新しい最適化終了基準も採用している。 (i)より小さな学習を用いた場合の対称性kl発散の相対的減少の予測と予測 (ii)より少ない学習率で収束するために必要な予測計算。 本研究では, RAABBVIのロバスト性および精度を, 慎重に設計したシミュレーション研究と, 実世界モデルとデータ例の多種多様なセットに基づいて検証する。

Black-box variational inference (BBVI) now sees widespread use in machine learning and statistics as a fast yet flexible alternative to Markov chain Monte Carlo methods for approximate Bayesian inference. However, stochastic optimization methods for BBVI remain unreliable and require substantial expertise and hand-tuning to apply effectively. In this paper, we propose Robust, Automated, and Accurate BBVI (RAABBVI), a framework for reliable BBVI optimization. RAABBVI is based on rigorously justified automation techniques, includes just a small number of intuitive tuning parameters, and detects inaccurate estimates of the optimal variational approximation. RAABBVI adaptively decreases the learning rate by detecting convergence of the fixed--learning-rate iterates, then estimates the symmetrized Kullback--Leiber (KL) divergence between the current variational approximation and the optimal one. It also employs a novel optimization termination criterion that enables the user to balance desired accuracy against computational cost by comparing (i) the predicted relative decrease in the symmetrized KL divergence if a smaller learning were used and (ii) the predicted computation required to converge with the smaller learning rate. We validate the robustness and accuracy of RAABBVI through carefully designed simulation studies and on a diverse set of real-world model and data examples.
翻訳日:2022-03-31 14:22:51 公開日:2022-03-29
# NNLander-VeriF:視覚に基づく自律航空機着陸のためのニューラルネットワーク形式検証フレームワーク

NNLander-VeriF: A Neural Network Formal Verification Framework for Vision-Based Autonomous Aircraft Landing ( http://arxiv.org/abs/2203.15841v1 )

ライセンス: Link先を確認
Ulices Santa Cruz and Yasser Shoukry(参考訳) 本稿では,ニューラルネットワーク(NN)に基づく自律着陸システムについて,正式に検証する問題を考察する。 このようなシステムでは、NNコントローラがカメラからの画像を処理し、滑走路に接近しながら航空機を誘導する。 視覚ベースのクローズドループシステムの安全性と生存性検証の課題は、システム状態(例えば航空機の位置)とビジョンベースのNNコントローラによって処理された画像の関係を捉える数学的モデルがないことである。 もうひとつの課題は、最先端のNNモデルチェッカーの能力の制限だ。 このようなモデルチェッカーは、ニューラルネットワークの単純な入出力ロバスト性のみを推論することができる。 この制限により、NNモデルチェッカー能力と、航空機のダイナミックス、知覚コンポーネント、NNコントローラを考慮してクローズドループシステムを検証する必要性の間にギャップが生じる。 そこで本稿では,自律着陸に使用される視覚ベースのNNコントローラを検証するフレームワークであるNNLander-VeriFを提案する。 NNLander-VeriFは、視点カメラの幾何学的モデルを利用して、航空機の状態とNNコントローラへの入力の関係を捉える数学的モデルを得る。 このモデルを(手動で割り当てられた重量で)NNに変換し、NNコントローラで構成することにより、航空機の状態と制御行動の関係を1つの強化NNを使って捉えることができる。 このような拡張NNモデルは、クローズドループ検証をいくつかのNNロバストネスクエリに自然なエンコーディングをもたらす。 最後に、トレーニングされたNNの特性を正式に検証するためのフレームワークを評価し、その効率性を示す。

In this paper, we consider the problem of formally verifying a Neural Network (NN) based autonomous landing system. In such a system, a NN controller processes images from a camera to guide the aircraft while approaching the runway. A central challenge for the safety and liveness verification of vision-based closed-loop systems is the lack of mathematical models that captures the relation between the system states (e.g., position of the aircraft) and the images processed by the vision-based NN controller. Another challenge is the limited abilities of state-of-the-art NN model checkers. Such model checkers can reason only about simple input-output robustness properties of neural networks. This limitation creates a gap between the NN model checker abilities and the need to verify a closed-loop system while considering the aircraft dynamics, the perception components, and the NN controller. To this end, this paper presents NNLander-VeriF, a framework to verify vision-based NN controllers used for autonomous landing. NNLander-VeriF addresses the challenges above by exploiting geometric models of perspective cameras to obtain a mathematical model that captures the relation between the aircraft states and the inputs to the NN controller. By converting this model into a NN (with manually assigned weights) and composing it with the NN controller, one can capture the relation between aircraft states and control actions using one augmented NN. Such an augmented NN model leads to a natural encoding of the closed-loop verification into several NN robustness queries, which state-of-the-art NN model checkers can handle. Finally, we evaluate our framework to formally verify the properties of a trained NN and we show its efficiency.
翻訳日:2022-03-31 14:20:02 公開日:2022-03-29
# 離散音声表現学習のための自己回帰協調学習

Autoregressive Co-Training for Learning Discrete Speech Representations ( http://arxiv.org/abs/2203.15840v1 )

ライセンス: Link先を確認
Sung-Lin Yeh, Hao Tang(参考訳) 離散表現を学習するための自己教師型アプローチがいくつか提案されているが、これらの類似したアプローチが相互にどのように関係しているかは明らかでない。 本稿では,音声の離散表現を学習する離散潜在変数を持つ生成モデルについて考察する。 生成モデルを学習する目的は情報理論コトレーニングとして定式化される。 広義の一般性に加えて、目的はHuBERTのような訓練や離散表現学習のためのベクトル量子化など、いくつかのアプローチで最適化することができる。 実験により,提案手法は,HuBERTライクなトレーニングやベクトル量子化よりも高い相関性を持つ音素単位と高い相関性を持つ離散表現を学習することがわかった。

While several self-supervised approaches for learning discrete speech representation have been proposed, it is unclear how these seemingly similar approaches relate to each other. In this paper, we consider a generative model with discrete latent variables that learns a discrete representation for speech. The objective of learning the generative model is formulated as information-theoretic co-training. Besides the wide generality, the objective can be optimized with several approaches, subsuming HuBERT-like training and vector quantization for learning discrete representation. Empirically, we find that the proposed approach learns discrete representation that is highly correlated with phonetic units, more correlated than HuBERT-like training and vector quantization.
翻訳日:2022-03-31 14:19:34 公開日:2022-03-29
# 影からのニューラル表現の学習に向けて

Towards Learning Neural Representations from Shadows ( http://arxiv.org/abs/2203.15946v1 )

ライセンス: Link先を確認
Kushagra Tiwary, Tzofi Klinghoffer and Ramesh Raskar(参考訳) 本稿では,シーンに存在する影のみからニューラルシーン表現を学習する手法を提案する。 従来のシェードウ形状(SfS)アルゴリズムは影から幾何を再構成するが、固定された走査装置を仮定して複雑なシーンに一般化することができない。 一方、ニューラルレンダリングアルゴリズムはRGB画像間の光度整合性に依存しているが、シーンに関する貴重な情報を提供するために示される影のような物理的な手がかりをほとんど無視している。 影は、SfSを学習するために神経シーン表現を制約する強力なキューであり、他の隠れた幾何学を再構築するためにNeRFよりも優れています。 そこで本研究では,画像にインスパイアされた微分可能手法を用いて,正確な影をボリュームレンダリングでレンダリングし,地上の真実の影と比較可能な影マップを予測する。 二値影マップだけでも、ニューラルネットワークはオブジェクトをローカライズし、粗い幾何学を推定できることを示している。 提案手法は,画像中のスパースキューを用いて,可変ボリュームレンダリングを用いて幾何を推定できることを示す。 さらに,本フレームワークは高度に一般化可能であり,光度整合性のみを使用する既存の3次元再構成技術と併用することができる。 私たちのコードは補充資料で利用可能です。

We present a method that learns neural scene representations from only shadows present in the scene. While traditional shape-from-shadow (SfS) algorithms reconstruct geometry from shadows, they assume a fixed scanning setup and fail to generalize to complex scenes. Neural rendering algorithms, on the other hand, rely on photometric consistency between RGB images but largely ignore physical cues such as shadows, which have been shown to provide valuable information about the scene. We observe that shadows are a powerful cue that can constrain neural scene representations to learn SfS, and even outperform NeRF to reconstruct otherwise hidden geometry. We propose a graphics-inspired differentiable approach to render accurate shadows with volumetric rendering, predicting a shadow map that can be compared to the ground truth shadow. Even with just binary shadow maps, we show that neural rendering can localize the object and estimate coarse geometry. Our approach reveals that sparse cues in images can be used to estimate geometry using differentiable volumetric rendering. Moreover, our framework is highly generalizable and can work alongside existing 3D reconstruction techniques that otherwise only use photometric consistency. Our code is made available in our supplementary materials.
翻訳日:2022-03-31 13:53:30 公開日:2022-03-29
# 自動機械翻訳指標の評価におけるデータばらつきの検討

Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics ( http://arxiv.org/abs/2203.15858v1 )

ライセンス: Link先を確認
Jiannan Xiang, Huayang Li, Yahui Liu, Lemao Liu, Guoping Huang, Defu Lian, Shuming Shi(参考訳) メトリクス評価の現在のプラクティスは、例えば、毎年のWMT Metrics Shared TaskにおけるNewstestデータセットのように、1つのデータセットにフォーカスする。 しかし,本論文では,測定値のパフォーマンスがデータに敏感であることを質的に定量的に示す。 メトリクスのランク付けは、異なるデータセットで評価を行う際に異なる。 そこで本研究では,データ分散の問題に責任を負う可能性のある2つの仮説,すなわち重要データポイントと独立分散(Identically Distributed, Identically Distributed)仮定の逸脱について検討する。 結論として, 自動翻訳メトリクスを評価する場合, 研究者はデータのばらつきを考慮に入れ, 一つのデータセット上で結果の主張を慎重に行なわなければならない。

Current practices in metric evaluation focus on one single dataset, e.g., Newstest dataset in each year's WMT Metrics Shared Task. However, in this paper, we qualitatively and quantitatively show that the performances of metrics are sensitive to data. The ranking of metrics varies when the evaluation is conducted on different datasets. Then this paper further investigates two potential hypotheses, i.e., insignificant data points and the deviation of Independent and Identically Distributed (i.i.d) assumption, which may take responsibility for the issue of data variance. In conclusion, our findings suggest that when evaluating automatic translation metrics, researchers should take data variance into account and be cautious to claim the result on a single dataset, because it may leads to inconsistent results with most of other datasets.
翻訳日:2022-03-31 13:52:19 公開日:2022-03-29
# 符号化言語情報とタスクパフォーマンスの関係の可視化

Visualizing the Relationship Between Encoded Linguistic Information and Task Performance ( http://arxiv.org/abs/2203.15860v1 )

ライセンス: Link先を確認
Jiannan Xiang, Huayang Li, Defu Lian, Guoping Huang, Taro Watanabe, Lemao Liu(参考訳) 言語情報をよく訓練されたディープニューラルモデルで捉えることができるかどうかを探索することが一般的であるが、符号化された言語情報の変化がタスクのパフォーマンスにどのように影響するかは答えられない。 そこで本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。 その重要なアイデアは、両方の目的の観点でパレート最適である一連のモデルを得ることである。 この観点から,多目的最適化問題として定式化することでパレート最適モデルを最適化する手法を提案する。 我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。 実験の結果,提案手法はベースライン法よりも優れていることがわかった。 実験結果から,nlpタスクにはいくつかの構文情報が有効であることが示唆されたが,モデルアーキテクチャも重要な要素であるため,構文情報のエンコーディングが必ずしもパフォーマンスの向上につながるとは限らない。

Probing is popular to analyze whether linguistic information can be captured by a well-trained deep neural model, but it is hard to answer how the change of the encoded linguistic information will affect task performance. To this end, we study the dynamic relationship between the encoded linguistic information and task performance from the viewpoint of Pareto Optimality. Its key idea is to obtain a set of models which are Pareto-optimal in terms of both objectives. From this viewpoint, we propose a method to optimize the Pareto-optimal models by formalizing it as a multi-objective optimization problem. We conduct experiments on two popular NLP tasks, i.e., machine translation and language modeling, and investigate the relationship between several kinds of linguistic information and task performances. Experimental results demonstrate that the proposed method is better than a baseline method. Our empirical findings suggest that some syntactic information is helpful for NLP tasks whereas encoding more syntactic information does not necessarily lead to better performance, because the model architecture is also an important factor.
翻訳日:2022-03-31 13:52:06 公開日:2022-03-29
# WAVPROMPT:凍結言語モデルを用いた音声言語理解に向けて

WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models ( http://arxiv.org/abs/2203.15863v1 )

ライセンス: Link先を確認
Heting Gao, Junrui Ni, Kaizhi Qian, Yang Zhang, Shiyu Chang, Mark Hasegawa-Johnson(参考訳) 大規模なテキストで事前学習された大規模な自動回帰言語モデルでは、微調整を必要とせずに、少数のテキストサンプルで新しい自然言語タスクを実行する能力が実証されている。 近年の研究では、エンコーダを訓練して、言語モデルのテキスト埋め込みのように機能する埋め込みにエンコードすることで、このような数発の学習能力をテキストイメージ設定にまで拡張できることが示されている。 音声テキスト設定に数発の学習能力を移す可能性を探るため,我々は,wav2vecモデルを微調整し,言語モデルで理解された音声埋め込みを生成する,新しい音声理解フレームワークWavPromptを提案する。 その結果,wavprompt は音声理解タスクを,素直なテキストベースラインよりもうまく行うことのできる,少数の学習者であることが判明した。 各種成分およびハイパーパラメータに関する詳細なアブレーション研究を行い,最良のモデル構成を実証的に同定した。 さらに、WavPromptが単に書き起こし以上の情報を抽出できることを示す非音声理解実験を実施している。

Large-scale auto-regressive language models pretrained on massive text have demonstrated their impressive ability to perform new natural language tasks with only a few text examples, without the need for fine-tuning. Recent studies further show that such a few-shot learning ability can be extended to the text-image setting by training an encoder to encode the images into embeddings functioning like the text embeddings of the language model. Interested in exploring the possibility of transferring the few-shot learning ability to the audio-text setting, we propose a novel speech understanding framework, WavPrompt, where we finetune a wav2vec model to generate a sequence of audio embeddings understood by the language model. We show that WavPrompt is a few-shot learner that can perform speech understanding tasks better than a naive text baseline. We conduct detailed ablation studies on different components and hyperparameters to empirically identify the best model configuration. In addition, we conduct a non-speech understanding experiment to show WavPrompt can extract more information than just the transcriptions.
翻訳日:2022-03-31 13:50:07 公開日:2022-03-29
# 異常検出のためのラジアルオートエンコーダ

Radial Autoencoders for Enhanced Anomaly Detection ( http://arxiv.org/abs/2203.15884v1 )

ライセンス: Link先を確認
Mihai-Cezar Augustin, Vivien Bonvin, Regis Houssou, Efstratios Rappos and Stephan Robert-Nicoud(参考訳) 分類問題では、ニューラルネットワークが複雑なパターンを学習できるため、教師付き機械学習手法が従来のアルゴリズムより優れている。 しかしながら、異常や不正検出のような2つのクラス分類タスクでは、教師なしのメソッドは、以前学習したタイプの異常に限らないため、さらに優れている可能性がある。 異常検出の直感的なアプローチは、2つのクラスの質量の中心からの距離に基づいている。 オートエンコーダは、監視なしで訓練されるが、異常を検出できる: 正常点の質量の中心を考えると、再構築はradiiとなり、最大のradiiは異常点を示す可能性が高い。 もちろん、radiiベースの分類はすでにオートエンコーダを介さずに可能であった。 任意の空間において、ラジアル分類はある程度は操作できる。 それを上回るためには、データのラジアルな変形(軸中心の圧縮や拡大)とオートエンコーダのトレーニングに進む。 データセンターを利用するオートエンコーダは、ここで、中心的オートエンコーダ(cAE)を洗礼する。 特別なタイプは、cpAE (Centripetal autoencoder) と名付けられた一様に圧縮されたデータセットで訓練されたCAEである。 新しい概念はスキーマ的な人工データセットに関連して研究され、導出された手法は一貫したスコア改善を示す。 しかし、実際の銀行データを用いてテストしたところ、我々の放射状変形監視アルゴリズムだけでは、ほとんどの監督手法が期待するように、CAEよりも優れた性能を発揮する。 我々は、幾何学的アルゴリズムで自然に伸びる能力と未知の異常型を検出するネイティブ能力により、中心的なオートエンコーダが、幾何学に基づく異常なライブ検出において、置換不能なオブジェクトになることを期待する。

In classification problems, supervised machine-learning methods outperform traditional algorithms, thanks to the ability of neural networks to learn complex patterns. However, in two-class classification tasks like anomaly or fraud detection, unsupervised methods could do even better, because their prediction is not limited to previously learned types of anomalies. An intuitive approach of anomaly detection can be based on the distances from the centers of mass of the two respective classes. Autoencoders, although trained without supervision, can also detect anomalies: considering the center of mass of the normal points, reconstructions have now radii, with largest radii most likely indicating anomalous points. Of course, radii-based classification were already possible without interposing an autoencoder. In any space, radial classification can be operated, to some extent. In order to outperform it, we proceed to radial deformations of data (i.e. centric compression or expansions of axes) and autoencoder training. Any autoencoder that makes use of a data center is here baptized a centric autoencoder (cAE). A special type is the cAE trained with a uniformly compressed dataset, named the centripetal autoencoder (cpAE). The new concept is studied here in relation with a schematic artificial dataset, and the derived methods show consistent score improvements. But tested on real banking data, our radial deformation supervised algorithms alone still perform better that cAEs, as expected from most supervised methods; nonetheless, in hybrid approaches, cAEs can be combined with a radial deformation of space, improving its classification score. We expect that centric autoencoders will become irreplaceable objects in anomaly live detection based on geometry, thanks to their ability to stem naturally on geometrical algorithms and to their native capability of detecting unknown anomaly types.
翻訳日:2022-03-31 13:49:48 公開日:2022-03-29
# 少数ショットアナログ回路モデリングと設計のための事前学習グラフニューラルネットワーク

Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling and Design ( http://arxiv.org/abs/2203.15913v1 )

ライセンス: Link先を確認
Kourosh Hakhamaneshi, Marcel Nassar, Mariano Phielipp, Pieter Abbeel, Vladimir Stojanovi\'c(参考訳) 高価なシミュレーションを実行せずに回路の性能を予測できることは、自動設計を触媒する望ましい能力である。 本稿では,新しい回路トポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。 幅広い回路インスタンスの出力直流電圧を予測できるニューラルネットワーク(NN)をトレーニングすると、各回路要素の役割とそれらがどのように相互作用するかについて、一般化可能な知識を学習せざるを得なくなる、という仮説を立てる。 この教師付き学習対象のデータセットは、基底真理ラベルを得るために必要なDCシミュレーションが比較的安価であるため、大規模に容易に収集できる。 この表現は、接地トラスラベルを得るのにより多くの時間を費やすシミュレーションを必要とする未確認回路メトリクスへの数秒の一般化に役立ちます。 異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。 ノード電圧の予測に関するgnnの事前学習は、ランダム初期化モデルと比較して最大10倍のサンプル効率で新しい未知のトポロジや新しい回路レベルの特性の予測に適応できる学習表現を促進することができる。 さらに,従来のSoTAモデルに基づく最適化手法のサンプル効率を,事前学習したGNNを学習モデルの特徴抽出器として利用することにより,2倍に向上できることを示す。

Being able to predict the performance of circuits without running expensive simulations is a desired capability that can catalyze automated design. In this paper, we present a supervised pretraining approach to learn circuit representations that can be adapted to new circuit topologies or unseen prediction tasks. We hypothesize that if we train a neural network (NN) that can predict the output DC voltages of a wide range of circuit instances it will be forced to learn generalizable knowledge about the role of each circuit element and how they interact with each other. The dataset for this supervised learning objective can be easily collected at scale since the required DC simulation to get ground truth labels is relatively cheap. This representation would then be helpful for few-shot generalization to unseen circuit metrics that require more time consuming simulations for obtaining the ground-truth labels. To cope with the variable topological structure of different circuits we describe each circuit as a graph and use graph neural networks (GNNs) to learn node embeddings. We show that pretraining GNNs on prediction of output node voltages can encourage learning representations that can be adapted to new unseen topologies or prediction of new circuit level properties with up to 10x more sample efficiency compared to a randomly initialized model. We further show that we can improve sample efficiency of prior SoTA model-based optimization methods by 2x (almost as good as using an oracle model) via fintuning pretrained GNNs as the feature extractor of the learned models.
翻訳日:2022-03-31 13:49:18 公開日:2022-03-29
# NICGSlowDown:ニューラル画像キャプション生成モデルの効率ロバスト性の評価

NICGSlowDown: Evaluating the Efficiency Robustness of Neural Image Caption Generation Models ( http://arxiv.org/abs/2203.15859v1 )

ライセンス: Link先を確認
Simin Chen, Zihe Song, Mirazul Haque, Cong Liu, Wei Yang(参考訳) ニューラルイメージキャプション生成(nicg)モデルは、視覚理解の優れた性能により、研究コミュニティから大きな注目を集めている。 既存の研究はNICGモデルの精度の向上に重点を置いている。 しかし、多くの実世界のアプリケーションは、NICGモデルの効率に大きく依存するリアルタイムフィードバックを必要とする。 最近の研究では、NICGモデルの効率は異なる入力に対して異なる可能性がある。 この観察により、NICGモデルの新たな攻撃面、すなわち敵は、NICGモデルがより多くの計算資源を消費する原因となる入力をわずかに変更することができるかもしれない。 このような効率指向の脅威をさらに理解するために,NICGSlowDown という新たな攻撃手法を提案し,NICG モデルの有効性を評価する。 我々の実験結果から、NICGSlowDownは人間に知られない摂動で画像を生成することができ、NICGモデルのレイテンシは483.86%向上することが示された。 この研究がNICGモデルの効率性に対するコミュニティの関心を高めることを願っている。

Neural image caption generation (NICG) models have received massive attention from the research community due to their excellent performance in visual understanding. Existing work focuses on improving NICG model accuracy while efficiency is less explored. However, many real-world applications require real-time feedback, which highly relies on the efficiency of NICG models. Recent research observed that the efficiency of NICG models could vary for different inputs. This observation brings in a new attack surface of NICG models, i.e., An adversary might be able to slightly change inputs to cause the NICG models to consume more computational resources. To further understand such efficiency-oriented threats, we propose a new attack approach, NICGSlowDown, to evaluate the efficiency robustness of NICG models. Our experimental results show that NICGSlowDown can generate images with human-unnoticeable perturbations that will increase the NICG model latency up to 483.86%. We hope this research could raise the community's concern about the efficiency robustness of NICG models.
翻訳日:2022-03-31 13:22:31 公開日:2022-03-29
# 空中シーン分類のための多段二重融合コンベネット

A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification ( http://arxiv.org/abs/2203.16325v1 )

ライセンス: Link先を確認
Jingjun Yi and Beichen Zhou(参考訳) 既存のディープラーニングに基づく手法は,航空シーン分類の性能を効果的に促進する。 しかし、大量のパラメータと計算コストのため、ドローンや衛星上でのオンボードデータプリセプションのような複数のリアルタイムリモートセンシングアプリケーションにこれらの手法を適用することは比較的困難である。 本稿では,マルチステージ二重核融合ネットワーク (MSDF-Net) という軽量な ConvNet を開発した。 キーとなるアイデアは、可能な限り強力なシーン表現能力を得ながら、パラメータを可能な限り少なく使用することです。 この目的のために, パラメータを再使用しながら特徴伝播を極力高めるために, 残留密度二重核融合戦略を開発し, 我々の二重核融合ブロック(DFblock)により実現した。 具体的には,MSDF-NetはDFブロックを持つ多段構造からなる。 さらに, 抽出された畳み込み特徴からリモートセンシングシーン情報を抽出し, 意味記述のための2つの並列分岐を含むdsaモジュールを開発した。 広範に利用されている3つの航空シーン分類ベンチマークで大規模な実験を行い、MSDF-Netは、最新の最先端技術に対して最大80%のパラメータ数を削減しながら、競争性能を達成可能であることを反映した。 特に、92.96%の精度がAID上で0.49Mパラメータで達成されている。

Existing deep learning based methods effectively prompt the performance of aerial scene classification. However, due to the large amount of parameters and computational cost, it is rather difficult to apply these methods to multiple real-time remote sensing applications such as on-board data preception on drones and satellites. In this paper, we address this task by developing a light-weight ConvNet named multi-stage duplex fusion network (MSDF-Net). The key idea is to use parameters as little as possible while obtaining as strong as possible scene representation capability. To this end, a residual-dense duplex fusion strategy is developed to enhance the feature propagation while re-using parameters as much as possible, and is realized by our duplex fusion block (DFblock). Specifically, our MSDF-Net consists of multi-stage structures with DFblock. Moreover, duplex semantic aggregation (DSA) module is developed to mine the remote sensing scene information from extracted convolutional features, which also contains two parallel branches for semantic description. Extensive experiments are conducted on three widely-used aerial scene classification benchmarks, and reflect that our MSDF-Net can achieve a competitive performance against the recent state-of-art while reducing up to 80% parameter numbers. Particularly, an accuracy of 92.96% is achieved on AID with only 0.49M parameters.
翻訳日:2022-03-31 13:21:51 公開日:2022-03-29
# 画像操作検出およびローカライズのためのobjectformer

ObjectFormer for Image Manipulation Detection and Localization ( http://arxiv.org/abs/2203.14681v2 )

ライセンス: Link先を確認
Junke Wang, Zuxuan Wu, Jingjing Chen, Xintong Han, Abhinav Shrivastava, Ser-Nam Lim, and Yu-Gang Jiang(参考訳) 画像編集技術の最近の進歩はマルチメディアデータの信頼性に深刻な課題をもたらし、画像改ざん検出の研究が進められている。 本稿では,画像操作の検出とローカライズを行うobjectformerを提案する。 RGB領域では見えなくなった微妙な修正トレースをキャプチャするために、画像の高周波特徴を抽出し、マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。 さらに、学習可能なオブジェクトプロトタイプのセットを中レベル表現として使用し、異なる領域間のオブジェクトレベルのコンプリートをモデル化し、パッチレベルのコンプリートをキャプチャするためにパッチ埋め込みをさらに洗練するために使用します。 提案手法の有効性を検証するため,様々なデータセットを広範囲に実験し,提案手法の有効性を検証した。

Recent advances in image editing techniques have posed serious challenges to the trustworthiness of multimedia data, which drives the research of image tampering detection. In this paper, we propose ObjectFormer to detect and localize image manipulations. To capture subtle manipulation traces that are no longer visible in the RGB domain, we extract high-frequency features of the images and combine them with RGB features as multimodal patch embeddings. Additionally, we use a set of learnable object prototypes as mid-level representations to model the object-level consistencies among different regions, which are further used to refine patch embeddings to capture the patch-level consistencies. We conduct extensive experiments on various datasets and the results verify the effectiveness of the proposed method, outperforming state-of-the-art tampering detection and localization methods.
翻訳日:2022-03-31 11:43:22 公開日:2022-03-29
# (参考訳) ゼロショット学習の実践的側面

Practical Aspects of Zero-Shot Learning ( http://arxiv.org/abs/2203.15158v1 )

ライセンス: CC BY 4.0
Elie Saad, Marcin Paprzycki, Maria Ganzha(参考訳) 機械学習研究の重要な分野の1つはゼロショット学習である。 適切にラベル付けされたトレーニングデータセットが利用できない場合に適用される。 多くのゼロショットアルゴリズムが提案され、実験されている。 しかし、いずれも「全勝」とは言い難い。 このような状況下では、個々の分類器の「最良の側面」を結合し、それら全てを上回るメタ分類器を開発することができるかもしれない。 この文脈では、この貢献の目標は2つです。 まず、複数の最先端ゼロショット学習手法を標準ベンチマークデータセットと比較する。 次に、複数のメタ分類器が提案され、実験的に比較される(同じデータセットに対して)。

One of important areas of machine learning research is zero-shot learning. It is applied when properly labeled training data set is not available. A number of zero-shot algorithms have been proposed and experimented with. However, none of them seems to be the "overall winner". In situations like this, it may be possible to develop a meta-classifier that would combine "best aspects" of individual classifiers and outperform all of them. In this context, the goal of this contribution is twofold. First, multiple state-of-the-art zero-shot learning methods are compared for standard benchmark datasets. Second, multiple meta-classifiers are suggested and experimentally compared (for the same datasets).
翻訳日:2022-03-31 09:09:17 公開日:2022-03-29
# (参考訳) CAT-Net:MRIにおける前立腺偏位に対するクロススライス注意変換器モデル

CAT-Net: A Cross-Slice Attention Transformer Model for Prostate Zonal Segmentation in MRI ( http://arxiv.org/abs/2203.15163v1 )

ライセンス: CC BY 4.0
Alex Ling Yu Hung, Haoxin Zheng, Qi Miao, Steven S. Raman, Demetri Terzopoulos, Kyunghyun Sung(参考訳) 前立腺がんは、アメリカ合衆国における男性の2番目に多いがん死因である。 前立腺MRIの診断は、しばしば正確な前立腺帯分割に依存している。 しかし,前立腺MRIの特定のスライス(ベーススライスや頂点スライスなど)は,他のスライスよりもセグメント化が難しいため,最先端の自動セグメンテーション法では,前立腺領域の十分な容積セグメンテーションが得られないことが多い。 この難しさは、隣接するスライス間の交差スライス関係を考慮することで克服できるが、現在の手法ではそのような関係を完全に学習し活用することはできない。 本稿では,異なるスケールでクロススライス関係を体系的に学習するために,トランスフォーマーモジュールで使用する新しいクロススライスアテンション機構を提案する。 このモジュールは、スキップ接続を持つ既存の学習ベースのセグメンテーションフレームワークで利用できる。 実験により,前立腺領域分割におけるクロススライス情報を捕捉し,現在の最先端手法の性能を向上させることができることがわかった。 本手法は,すべての前立腺スライス(apex,mid-gland,base)において,セグメンテーション結果が整合するように周辺領域のセグメンテーション精度を大幅に向上させる。

Prostate cancer is the second leading cause of cancer death among men in the United States. The diagnosis of prostate MRI often relies on the accurate prostate zonal segmentation. However, state-of-the-art automatic segmentation methods often fail to produce well-contained volumetric segmentation of the prostate zones since certain slices of prostate MRI, such as base and apex slices, are harder to segment than other slices. This difficulty can be overcome by accounting for the cross-slice relationship of adjacent slices, but current methods do not fully learn and exploit such relationships. In this paper, we propose a novel cross-slice attention mechanism, which we use in a Transformer module to systematically learn the cross-slice relationship at different scales. The module can be utilized in any existing learning-based segmentation framework with skip connections. Experiments show that our cross-slice attention is able to capture the cross-slice information in prostate zonal segmentation and improve the performance of current state-of-the-art methods. Our method significantly improves segmentation accuracy in the peripheral zone, such that the segmentation results are consistent across all the prostate slices (apex, mid-gland, and base).
翻訳日:2022-03-31 08:57:10 公開日:2022-03-29
# (参考訳) エピポーラ平面画像を用いた自己監督光深度推定

Self-Supervised Light Field Depth Estimation Using Epipolar Plane Images ( http://arxiv.org/abs/2203.15171v1 )

ライセンス: CC BY 4.0
Kunyuan Li, Jun Zhang, Jun Gao, Meibin Qi(参考訳) 光場データを利用することで、密集した正確な深度マップを得ることができる。 しかし、異なる範囲の合成シーンは実際のシーンの多様性を含まない。 合成データのトレーニングによって、現在の学習手法は実際のシーンではうまく機能しない。 本稿では,光深度推定のための自己教師型学習フレームワークを提案する。 本手法は,1ピクセルあたりの差分ラベルを用いた既存のエンドツーエンドトレーニング方法と異なり,再焦点後のEPI差分シフトを推定してネットワークトレーニングを行う。 ノイズに対するEPIの感度を低減するため,ビュー次元にEPIを積み重ねるEPI-Stackと呼ばれる新しい入力モードを提案する。 本手法は従来の入力モードよりもノイズシーンに対する感度が低く,推定効率が向上する。 他の最先端手法と比較して,提案手法は実世界のシナリオ,特に複雑閉塞や深度不連続において,高品質な結果を得ることができる。

Exploiting light field data makes it possible to obtain dense and accurate depth map. However, synthetic scenes with limited disparity range cannot contain the diversity of real scenes. By training in synthetic data, current learning-based methods do not perform well in real scenes. In this paper, we propose a self-supervised learning framework for light field depth estimation. Different from the existing end-to-end training methods using disparity label per pixel, our approach implements network training by estimating EPI disparity shift after refocusing, which extends the disparity range of epipolar lines. To reduce the sensitivity of EPI to noise, we propose a new input mode called EPI-Stack, which stacks EPIs in the view dimension. This method is less sensitive to noise scenes than traditional input mode and improves the efficiency of estimation. Compared with other state-of-the-art methods, the proposed method can also obtain higher quality results in real-world scenarios, especially in the complex occlusion and depth discontinuity.
翻訳日:2022-03-31 08:32:14 公開日:2022-03-29
# (参考訳) 法的単語埋め込みのための評価データセット:中国語コーデックスを事例として

An Evaluation Dataset for Legal Word Embedding: A Case Study On Chinese Codex ( http://arxiv.org/abs/2203.15173v1 )

ライセンス: CC BY 4.0
Chun-Hsien Lin and Pu-Jen Cheng(参考訳) 単語埋め込みは、多くの自然言語処理タスクで広く使われている現代の分散語表現である。 法的文書の語彙を単語埋め込みモデルに変換することで、機械学習、ディープラーニング、その他のアルゴリズムに法的文書を従属させ、その後、自然言語処理の下流タスク、例えば文書分類、契約レビュー、機械翻訳を実行することができる。 単語埋め込みモデルによる精度評価の最も一般的かつ実践的なアプローチは、言語規則または単語間の関係を持つベンチマークセットを使用して、代数計算による類似推論を行う。 本稿では, 2,388中国語コーパスから, 5種類の法的関係を用いて1,134の法的アナロジカル推論質問セット(LARQS)を作成し, 中国語の単語埋め込みモデルの精度を評価する。 さらに,単語埋め込みモデルでは,法的関係がユビキタスであることを発見した。

Word embedding is a modern distributed word representations approach widely used in many natural language processing tasks. Converting the vocabulary in a legal document into a word embedding model facilitates subjecting legal documents to machine learning, deep learning, and other algorithms and subsequently performing the downstream tasks of natural language processing vis-\`a-vis, for instance, document classification, contract review, and machine translation. The most common and practical approach of accuracy evaluation with the word embedding model uses a benchmark set with linguistic rules or the relationship between words to perform analogy reasoning via algebraic calculation. This paper proposes establishing a 1,134 Legal Analogical Reasoning Questions Set (LARQS) from the 2,388 Chinese Codex corpus using five kinds of legal relations, which are then used to evaluate the accuracy of the Chinese word embedding model. Moreover, we discovered that legal relations might be ubiquitous in the word embedding model.
翻訳日:2022-03-31 08:16:37 公開日:2022-03-29
# (参考訳) 物体追跡のための統一トランストラッカー

Unified Transformer Tracker for Object Tracking ( http://arxiv.org/abs/2203.15175v1 )

ライセンス: CC BY-SA 4.0
Fan Ma, Mike Zheng Shou, Linchao Zhu, Haoqi Fan, Yilei Xu, Yi Yang, Zhicheng Yan(参考訳) コンピュータビジョンの重要な領域として、オブジェクトトラッキングは、それぞれSOT(Single Object Tracking)とMOT(Multiple Object Tracking)の2つの異なるコミュニティを形成している。 しかしながら、1つのトラッキングシナリオにおける現在のメソッドは、分岐したトレーニングデータセットと両方のタスクのオブジェクトを追跡するため、互いに容易に適応できない。 UniTrack \cite{wang2021different} は、複数のヘッドを持つ共有外観モデルが個々のトラッキングタスクに対処できることを示したが、トレーニングのために大規模なトラッキングデータセットを活用できず、単一のオブジェクトトラッキングでは不十分である。 本研究では,異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。 SOTとMOTの両方のターゲットを追跡するために,UTTでトラックトランスフォーマーを開発した。 ターゲットとトラッキングフレームの特徴の相関を利用して、ターゲットをローカライズする。 SOTとMOTの両方のタスクがこのフレームワーク内で解決できることを実証する。 モデルは、個々のタスクのデータセット上でSOTとMOTの目的を最適化することで、同時にエンドツーエンドでトレーニングすることができる。 SOTとMOTデータセットに基づいてトレーニングされた統一モデルを用いて、いくつかのベンチマークで大規模な実験を行う。 コードはhttps://github.com/flowerfan/trackronで入手できる。

As an important area in computer vision, object tracking has formed two separate communities that respectively study Single Object Tracking (SOT) and Multiple Object Tracking (MOT). However, current methods in one tracking scenario are not easily adapted to the other due to the divergent training datasets and tracking objects of both tasks. Although UniTrack \cite{wang2021different} demonstrates that a shared appearance model with multiple heads can be used to tackle individual tracking tasks, it fails to exploit the large-scale tracking datasets for training and performs poorly on single object tracking. In this work, we present the Unified Transformer Tracker (UTT) to address tracking problems in different scenarios with one paradigm. A track transformer is developed in our UTT to track the target in both SOT and MOT. The correlation between the target and tracking frame features is exploited to localize the target. We demonstrate that both SOT and MOT tasks can be solved within this framework. The model can be simultaneously end-to-end trained by alternatively optimizing the SOT and MOT objectives on the datasets of individual tasks. Extensive experiments are conducted on several benchmarks with a unified model trained on SOT and MOT datasets. Code will be available at https://github.com/Flowerfan/Trackron.
翻訳日:2022-03-31 07:58:45 公開日:2022-03-29
# (参考訳) 異種GNNを用いた長期視覚マップスカラー化

Long-term Visual Map Sparsification with Heterogeneous GNN ( http://arxiv.org/abs/2203.15182v1 )

ライセンス: CC BY 4.0
Ming-Fang Chang, Yipu Zhao, Rajvi Shah, Jakob J. Engel, Michael Kaess, and Simon Lucey(参考訳) 長期視定位における地図スパーシフィケーションの問題点について考察する。 マップスパシフィケーションでは、ビルド前マップと後にキャプチャされたローカライゼーションクエリが一貫性があるという仮定が一般的である。 しかし、この仮定は動的世界において容易に破ることができる。 さらに、新しいデータが蓄積するにつれてマップのサイズが増大し、長期的には大きなデータオーバーヘッドが発生します。 本稿では,環境変化を克服し,将来のローカライゼーションに有用な点を選択することで,地図サイズを同時に削減することを目的とする。 グラフニューラルネットワーク(GNN)の最近の進歩に触発されて、SfMマップを不均一なグラフとしてモデル化し、GNNで3Dポイント重要度を予測し、SfMマップグラフのリッチな情報を直接利用できるようにする。 2つの新しい監督が提案されている。 1) 訓練質問に基づく将来のローカライズに有用なポイントを選択するためのデータフィッティング用語 2)全地図カバレッジを持つスパースポイントを選択するK-Cover項。 実験により, 安定で広く見える構造上の地図ポイントと, ローカライズ性能に優れるベースラインを選定した。

We address the problem of map sparsification for long-term visual localization. For map sparsification, a commonly employed assumption is that the pre-build map and the later captured localization query are consistent. However, this assumption can be easily violated in the dynamic world. Additionally, the map size grows as new data accumulate through time, causing large data overhead in the long term. In this paper, we aim to overcome the environmental changes and reduce the map size at the same time by selecting points that are valuable to future localization. Inspired by the recent progress in Graph Neural Network(GNN), we propose the first work that models SfM maps as heterogeneous graphs and predicts 3D point importance scores with a GNN, which enables us to directly exploit the rich information in the SfM map graph. Two novel supervisions are proposed: 1) a data-fitting term for selecting valuable points to future localization based on training queries; 2) a K-Cover term for selecting sparse points with full map coverage. The experiments show that our method selected map points on stable and widely visible structures and outperformed baselines in localization performance.
翻訳日:2022-03-31 07:57:43 公開日:2022-03-29
# (参考訳) Stitched-EPIによる光深度推定

Light Field Depth Estimation Based on Stitched-EPI ( http://arxiv.org/abs/2203.15201v1 )

ライセンス: CC BY 4.0
Ping Zhou, Xiaoyang Liu, Jing Jin, Yuting Zhang, and Junhui Hou(参考訳) 深度推定は光電場応用において最も重要な問題の1つである。 EPI法では、スロープ計算は通常、離散化誤差と低角分解能のために低い精度で処理される。 さらに、最近の手法は、ほとんどの地域でうまく機能するが、隠された領域のぼやけた縁や、テクスチャのない領域の曖昧さに苦しむことが多い。 これらの課題に対処するために,我々はまず非閉塞領域と閉塞領域のステッチepiアルゴリズムとハーフステッチepiアルゴリズムを提案する。 アルゴリズムは、異なるEPIで線をシフト・連結することで斜面の計算を改善するが、3Dシーンでは同じ点と関連している。 提案する合同フォトコンシステンシーコストと組み合わせることで,オクルード領域と非オクルード領域の両方においてより高精度でロバストな深度マップが得られる。 さらに, テクスチャレス領域の深さ推定を改善するために, エッジからインテリアまで, 正確な領域から粗い領域まで, 深度を決定できる深さ伝搬戦略を提案する。 実験およびアブレーションの結果,提案手法は全領域の高精度で頑健な深度マップを効果的に実現することが示された。

Depth estimation is one of the most essential problems for light field applications. In EPI-based methods, the slope computation usually suffers low accuracy due to the discretization error and low angular resolution. In addition, recent methods work well in most regions but often struggle with blurry edges over occluded regions and ambiguity over texture-less regions. To address these challenging issues, we first propose the stitched-EPI and half-stitched-EPI algorithms for non-occluded and occluded regions, respectively. The algorithms improve slope computation by shifting and concatenating lines in different EPIs but related to the same point in 3D scene, while the half-stitched-EPI only uses non-occluded part of lines. Combined with the joint photo-consistency cost proposed by us, the more accurate and robust depth map can be obtained in both occluded and non-occluded regions. Furthermore, to improve the depth estimation in texture-less regions, we propose a depth propagation strategy that determines their depth from the edge to interior, from accurate regions to coarse regions. Experimental and ablation results demonstrate that the proposed method achieves accurate and robust depth maps in all regions effectively.
翻訳日:2022-03-31 07:41:49 公開日:2022-03-29
# (参考訳) SimT: ドメイン適応セマンティックセマンティックセグメンテーションのためのオープンセットノイズ処理

SimT: Handling Open-set Noise for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2203.15202v1 )

ライセンス: CC BY 4.0
Xiaoqing Guo, Jie Liu, Tongliang Liu and Yiyuan Yuan(参考訳) 本稿では,疑似ラベル付き対象データのみをブラックボックスモデルでアクセス可能な,実用的なドメイン適応型(da)意味セグメンテーション問題について検討する。 2つのドメイン間のドメインギャップとラベルシフトのため、疑似ラベルされたターゲットデータは、クローズドセットとオープンセットのラベルノイズを含む。 本稿では,da意味セグメンテーションにおける混合雑音分布をモデル化するシンプレックス雑音遷移行列(simt)を提案し,問題をsimt推定として定式化する。 セグメンテーションの計算幾何学的解析と特性を利用して、正則化、アンカーガイダンス、凸保証という3つの相補正規化器を設計し、真のSimTを近似する。 具体的には、体積正規化は非二乗SimTの行によって形成される単純度の体積を最小化し、セグメント化モデルの出力を基底真理ラベル分布に適合させる。 オープンセット知識の欠如を補うため、アンカーガイダンスと凸保証を考案し、オープンセットノイズ分布のモデリングを容易にし、クローズドセットおよびオープンセットクラス間の識別的特徴学習を強化する。 さらに、推定simtを用いて擬似ラベルのノイズ問題を補正し、対象領域データに対するセグメンテーションモデルの一般化を促進する。 実験結果から,提案したSimTを既存のDA法に柔軟に接続して性能を向上できることが示された。 ソースコードは \url{https://github.com/CityU-AIM-Group/SimT} で入手できる。

This paper studies a practical domain adaptive (DA) semantic segmentation problem where only pseudo-labeled target data is accessible through a black-box model. Due to the domain gap and label shift between two domains, pseudo-labeled target data contains mixed closed-set and open-set label noises. In this paper, we propose a simplex noise transition matrix (SimT) to model the mixed noise distributions in DA semantic segmentation and formulate the problem as estimation of SimT. By exploiting computational geometry analysis and properties of segmentation, we design three complementary regularizers, i.e. volume regularization, anchor guidance, convex guarantee, to approximate the true SimT. Specifically, volume regularization minimizes the volume of simplex formed by rows of the non-square SimT, which ensures outputs of segmentation model to fit into the ground truth label distribution. To compensate for the lack of open-set knowledge, anchor guidance and convex guarantee are devised to facilitate the modeling of open-set noise distribution and enhance the discriminative feature learning among closed-set and open-set classes. The estimated SimT is further utilized to correct noise issues in pseudo labels and promote the generalization ability of segmentation model on target domain data. Extensive experimental results demonstrate that the proposed SimT can be flexibly plugged into existing DA methods to boost the performance. The source code is available at \url{https://github.com/CityU-AIM-Group/SimT}.
翻訳日:2022-03-31 07:16:01 公開日:2022-03-29
# (参考訳) OrphicX:グラフニューラルネットワークを解釈するための因果性に着想を得た潜在変数モデル

OrphicX: A Causality-Inspired Latent Variable Model for Interpreting Graph Neural Networks ( http://arxiv.org/abs/2203.15209v1 )

ライセンス: CC BY 4.0
Wanyu Lin, Hao Lan, Hao Wang and Baochun Li(参考訳) 本稿では,学習遅延因果因子に基づくグラフニューラルネットワーク(GNN)の因果説明を生成するための,OrphicXと呼ばれる新しいeXplanationフレームワークを提案する。 具体的には、別個の生成モデルを構築し、生成モデルに因果的、コンパクトで忠実な説明を与える目的関数を設計する。 これは、情報フローの測定を最大化し、グラフの潜在空間における因果因子を分離することで達成される。 提案する因果グラフの因果関係を理論的に解析し,ノード属性をグラフとgnn予測の共起者として同定し,バックドア調整式を用いて共起効果を回避する。 我々のフレームワークは任意のGNNと互換性があり、ターゲットのGNNが予測を生成するプロセスにアクセスする必要はない。 さらに、説明されている特徴の線形独立性仮定に依存せず、グラフ学習タスクに関する事前知識も必要としない。 グラフデータ上の正準分類問題に対するOrphicXの概念実証を示す。 特に,分子グラフ(mutag)の説明から得られた説明サブグラフを分析し,頻発するサブグラフパターンを用いて説明性能を定量的に評価する。 実験により,OrphicXは因果的説明を生成するための因果的意味論を効果的に同定し,その代替案を著しく上回ることを示す。

This paper proposes a new eXplanation framework, called OrphicX, for generating causal explanations for any graph neural networks (GNNs) based on learned latent causal factors. Specifically, we construct a distinct generative model and design an objective function that encourages the generative model to produce causal, compact, and faithful explanations. This is achieved by isolating the causal factors in the latent space of graphs by maximizing the information flow measurements. We theoretically analyze the cause-effect relationships in the proposed causal graph, identify node attributes as confounders between graphs and GNN predictions, and circumvent such confounder effect by leveraging the backdoor adjustment formula. Our framework is compatible with any GNNs, and it does not require access to the process by which the target GNN produces its predictions. In addition, it does not rely on the linear-independence assumption of the explained features, nor require prior knowledge on the graph learning tasks. We show a proof-of-concept of OrphicX on canonical classification problems on graph data. In particular, we analyze the explanatory subgraphs obtained from explanations for molecular graphs (i.e., Mutag) and quantitatively evaluate the explanation performance with frequently occurring subgraph patterns. Empirically, we show that OrphicX can effectively identify the causal semantics for generating causal explanations, significantly outperforming its alternatives.
翻訳日:2022-03-31 06:53:22 公開日:2022-03-29
# (参考訳) 孤立型カメラ監視者再識別のためのカメラコンディショニング安定特徴生成

Camera-Conditioned Stable Feature Generation for Isolated Camera Supervised Person Re-IDentification ( http://arxiv.org/abs/2203.15210v1 )

ライセンス: CC BY 4.0
Chao Wu, Wenhang Ge, Ancong Wu, Xiaobin Chang(参考訳) 人物再識別のためのカメラビュー不変特徴(re-id)を学習するために、各人物のクロスカメラ画像対が重要な役割を果たす。 しかし、このようなクロスビュートレーニングサンプルは、例えば遠方のシーンに展開する監視システムなど、孤立したカメラ監視(isc)設定下では使用できない可能性があり、この課題に対処するために、モデルトレーニングのための機能空間におけるクロスカメラサンプルを合成することで、新たなパイプラインを導入する。 特に、特徴エンコーダ及びジェネレータは、カメラコンディネート安定特徴生成(ccsfg)という新しい方法の下でエンドツーエンドに最適化される。 その共同学習手順は、生成モデルトレーニングの安定性を懸念する。 従って、新しい機能ジェネレータである$\sigma$-Regularized Conditional Variational Autoencoder($\sigma$-Reg)がある。 CVAE) は, その堅牢性に関する理論的および実験的解析によって提案されている。 ISCSの2つのRe-IDデータセットに対する大規模な実験は、競合相手に対するCCSFGの優位性を実証している。

To learn camera-view invariant features for person Re-IDentification (Re-ID), the cross-camera image pairs of each person play an important role. However, such cross-view training samples could be unavailable under the ISolated Camera Supervised (ISCS) setting, e.g., a surveillance system deployed across distant scenes.To handle this challenging problem, a new pipeline is introduced by synthesizing the cross-camera samples in the feature space for model training. Specifically, the feature encoder and generator are end-to-end optimized under a novel method, Camera-Conditioned Stable Feature Generation (CCSFG). Its joint learning procedure raises concern on the stability of generative model training. Therefore, a new feature generator, $\sigma$-Regularized Conditional Variational Autoencoder ($\sigma$-Reg.~CVAE), is proposed with theoretical and experimental analysis on its robustness. Extensive experiments on two ISCS person Re-ID datasets demonstrate the superiority of our CCSFG to the competitors.
翻訳日:2022-03-31 06:52:26 公開日:2022-03-29
# (参考訳) ビデオに基づく人文推定のための時間的特徴アライメントと相互情報の最大化

Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation ( http://arxiv.org/abs/2203.15227v1 )

ライセンス: CC BY 4.0
Zhenguang Liu, Runyang Feng, Haoming Chen, Shuang Wu, Yixing Gao, Yunjun Gao, Xiang Wang(参考訳) マルチフレームの人間のポーズ推定は長い間、コンピュータビジョンにおいて説得力があり基本的な問題であった。 この課題は、動画で頻繁に発生する速い動きとポーズのオクルージョンのために難しい。 最先端の手法では、隣接するフレーム(支持フレーム)から追加の視覚的証拠を取り込み、現在のフレーム(キーフレーム)のポーズ推定を容易にする。 これまで省略された側面の1つは、現在のメソッドがフレーム間で非整合なコンテキストを直接集約するという事実である。 現在のフレームと隣り合うフレームのポーズ特徴の空間的不一致は、不十分な結果をもたらす可能性がある。 より重要なことに、既存のアプローチは素直なポーズ推定損失に基づいているため、残念ながらネットワークが隣のフレームから有用な情報を完全に活用することを制限できない。 これらの問題に対処するために, 粗大な変形を利用して隣接するフレームを段階的に更新し, 現在のフレームを特徴レベルで整合させる新しい階層的アライメントフレームワークを提案する。 さらに,隣接フレームからの知識抽出を明示的に監督し,有用な補足手がかりを抽出することを提案する。 この目的を達成するために、理論的にフレーム間の相互情報を解析し、タスク関連相互情報を最大化する損失に到達した。 これにより、ベンチマークデータセットPoseTrack2017のマルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track2018で最先端のパフォーマンスを得ることができます。 私たちのコードはhttps://github.orgで公開されています。 コミュニティにとって有益になることを期待している。

Multi-frame human pose estimation has long been a compelling and fundamental problem in computer vision. This task is challenging due to fast motion and pose occlusion that frequently occur in videos. State-of-the-art methods strive to incorporate additional visual evidences from neighboring frames (supporting frames) to facilitate the pose estimation of the current frame (key frame). One aspect that has been obviated so far, is the fact that current methods directly aggregate unaligned contexts across frames. The spatial-misalignment between pose features of the current frame and neighboring frames might lead to unsatisfactory results. More importantly, existing approaches build upon the straightforward pose estimation loss, which unfortunately cannot constrain the network to fully leverage useful information from neighboring frames. To tackle these problems, we present a novel hierarchical alignment framework, which leverages coarse-to-fine deformations to progressively update a neighboring frame to align with the current frame at the feature level. We further propose to explicitly supervise the knowledge extraction from neighboring frames, guaranteeing that useful complementary cues are extracted. To achieve this goal, we theoretically analyzed the mutual information between the frames and arrived at a loss that maximizes the task-relevant mutual information. These allow us to rank No.1 in the Multi-frame Person Pose Estimation Challenge on benchmark dataset PoseTrack2017, and obtain state-of-the-art performance on benchmarks Sub-JHMDB and Pose-Track2018. Our code is released at https://github. com/Pose-Group/FAMI-Pose, hoping that it will be useful to the community.
翻訳日:2022-03-31 06:51:22 公開日:2022-03-29
# (参考訳) ポーリングされたニューロイメージングデータセットの解析における複数のニュアンス変数の対応性

Equivariance Allows Handling Multiple Nuisance Variables When Analyzing Pooled Neuroimaging Datasets ( http://arxiv.org/abs/2203.15234v1 )

ライセンス: CC BY 4.0
Vishnu Suresh Lokhande, Rudrasis Chakraborty, Sathya N. Ravi, Vikas Singh(参考訳) 組織にまたがる複数の神経画像データセットをプールすることで、関係性(例えば、リスク要因と疾患の結果の間の関係)を評価するとき、統計力の向上が可能になる。 可変性の源(例えば、異なるスキャナ)しか存在しない場合、ドメイン適応と表現の分布のマッチングは、多くのシナリオにおいて十分である。 しかし、測定に同時に影響を及ぼす1つ以上のニュアンス変数が存在する場合、プールデータセットは、例えば、データのバリエーションは、取得方法と、参加者の人口統計(性別、年齢)の両方から生じる、ユニークな課題を生じさせる。 不変表現学習自体は、データ生成プロセスを完全にモデル化するのに不適当である。 本稿では,構造化空間上での同変表現学習(ニューラルネットワークにおける対称性の研究)に関する最近の結果と,因果推論における古典的結果の簡易利用が,効果的な実用的解決策となることを示す。 特に、いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分が取り除かれるシナリオにおいて、プールされた科学データセットの分析を可能にする。

Pooling multiple neuroimaging datasets across institutions often enables improvements in statistical power when evaluating associations (e.g., between risk factors and disease outcomes) that may otherwise be too weak to detect. When there is only a {\em single} source of variability (e.g., different scanners), domain adaptation and matching the distributions of representations may suffice in many scenarios. But in the presence of {\em more than one} nuisance variable which concurrently influence the measurements, pooling datasets poses unique challenges, e.g., variations in the data can come from both the acquisition method as well as the demographics of participants (gender, age). Invariant representation learning, by itself, is ill-suited to fully model the data generation process. In this paper, we show how bringing recent results on equivariant representation learning (for studying symmetries in neural networks) instantiated on structured spaces together with simple use of classical results on causal inference provides an effective practical solution. In particular, we demonstrate how our model allows dealing with more than one nuisance variable under some assumptions and can enable analysis of pooled scientific datasets in scenarios that would otherwise entail removing a large portion of the samples.
翻訳日:2022-03-31 06:33:32 公開日:2022-03-29
# (参考訳) レスレスマルコフ多関節バンドにおけるベストアーム識別

Best Arm Identification in Restless Markov Multi-Armed Bandits ( http://arxiv.org/abs/2203.15236v1 )

ライセンス: CC BY 4.0
P. N. Karthik, Kota Srinivas Reddy, Vincent Y. F. Tan(参考訳) 各アームが共通な有限状態空間上の時間均質かつエルゴード離散時間マルコフ過程である場合、マルチアームバンディット環境で最適なアームを識別する問題を考察する。 各腕の状態進化は、腕の遷移確率行列(TPM)によって制御される。 アーム tpm のセットを知っているが、tpm の腕への正確なマッピングではない決定エンティティは、エラー確率の上限を条件として、できるだけ早く最良アームの指標を見つけることを望んでいる。 決定機関は、連続して1つの腕を選択し、選択されていないすべての腕は、状態の進化を継続する。 そこで本研究では, 最良アームの指数を求めるのに必要な所要時間の増加率について, 第一の既知の問題インスタンス依存漸近下限を導出する。 さらに,入力パラメータ $r$ に対して,$r$ の連続時間インスタントに対して選択されていない arm を強制的に選択するシーケンシャルポリシーを提案する。 このポリシーは、$R$に依存する上限に達し、$R\to\infty$として単調に増加しないことを示す。 一般に、上界の制限値である$R\to\infty$が下界と一致するかどうかという問題は開のままである。 上界と下界が一致する特別な場合を特定する。 腕の識別に関する先行研究が対処した a) 腕から独立かつ同一に分布した観察,及び b) マルコフの腕を休ませる一方、我々の仕事はマルコフの腕を休めるのがより難しい。

We study the problem of identifying the best arm in a multi-armed bandit environment when each arm is a time-homogeneous and ergodic discrete-time Markov process on a common, finite state space. The state evolution on each arm is governed by the arm's transition probability matrix (TPM). A decision entity that knows the set of arm TPMs but not the exact mapping of the TPMs to the arms, wishes to find the index of the best arm as quickly as possible, subject to an upper bound on the error probability. The decision entity selects one arm at a time sequentially, and all the unselected arms continue to undergo state evolution ({\em restless} arms). For this problem, we derive the first-known problem instance-dependent asymptotic lower bound on the growth rate of the expected time required to find the index of the best arm, where the asymptotics is as the error probability vanishes. Further, we propose a sequential policy that, for an input parameter $R$, forcibly selects an arm that has not been selected for $R$ consecutive time instants. We show that this policy achieves an upper bound that depends on $R$ and is monotonically non-increasing as $R\to\infty$. The question of whether, in general, the limiting value of the upper bound as $R\to\infty$ matches with the lower bound, remains open. We identify a special case in which the upper and the lower bounds match. Prior works on best arm identification have dealt with (a) independent and identically distributed observations from the arms, and (b) rested Markov arms, whereas our work deals with the more difficult setting of restless Markov arms.
翻訳日:2022-03-31 06:09:24 公開日:2022-03-29
# (参考訳) 手首縫い装置における手指ジェスチャーのカスタマイズ

Enabling hand gesture customization on wrist-worn devices ( http://arxiv.org/abs/2203.15239v1 )

ライセンス: CC BY 4.0
Xuhai Xu, Jun Gong, Carolina Brum, Lilian Liang, Bongsoo Suh, Kumar Gupta, Yash Agarwal, Laurence Lindsey, Runchang Kang, Behrooz Shahsavari, Tu Nguyen, Heriberto Nieto, Scott E. Hudson, Charlie Maalouf, Seyed Mousavi, Gierad Laput(参考訳) 既存のジェスチャーセットの性能を劣化させることなく、ユーザから最小限のサンプルを必要とするジェスチャーカスタマイズのためのフレームワークを提案する。 これを実現するために,まず大規模研究(n=500+)を実施し,加速度計・ジャイロスコープ認識モデルを95.7%,偽陽性率0.6/hで訓練した。 次に,事前学習したモデルから軽量モデルを導出して,性能低下を伴わずに知識伝達を実現する,数ショット学習フレームワークを設計した。 提案手法は,12種類のジェスチャからデバイス上でのカスタマイズを検証したユーザ調査(n=20)によって検証され,既存のジェスチャセットと同一の認識精度と偽陽性率を維持しつつ,新たなジェスチャを追加する場合,平均精度55.3%,83.1%,87.2%の精度が得られた。 ユーザエクスペリエンススタディ(N=20)により,リアルタイム実装のユーザビリティをさらに評価する。 その結果,カスタマイズフレームワークの有効性,学習性,ユーザビリティが明らかになった。 われわれのアプローチは、ユーザーが既存のジェスチャーに縛られない未来への道を切り開いて、自分の好みや能力に合わせた新しいジェスチャーを創造的に導入する。

We present a framework for gesture customization requiring minimal examples from users, all without degrading the performance of existing gesture sets. To achieve this, we first deployed a large-scale study (N=500+) to collect data and train an accelerometer-gyroscope recognition model with a cross-user accuracy of 95.7% and a false-positive rate of 0.6 per hour when tested on everyday non-gesture data. Next, we design a few-shot learning framework which derives a lightweight model from our pre-trained model, enabling knowledge transfer without performance degradation. We validate our approach through a user study (N=20) examining on-device customization from 12 new gestures, resulting in an average accuracy of 55.3%, 83.1%, and 87.2% on using one, three, or five shots when adding a new gesture, while maintaining the same recognition accuracy and false-positive rate from the pre-existing gesture set. We further evaluate the usability of our real-time implementation with a user experience study (N=20). Our results highlight the effectiveness, learnability, and usability of our customization framework. Our approach paves the way for a future where users are no longer bound to pre-existing gestures, freeing them to creatively introduce new gestures tailored to their preferences and abilities.
翻訳日:2022-03-31 06:08:05 公開日:2022-03-29
# (参考訳) 階層型深層畳み込みニューラルネットワークを用いた顕微鏡画像からの剥離グラフェンフレークの同定と分類

Identification and classification of exfoliated graphene flakes from microscopy images using a hierarchical deep convolutional neural network ( http://arxiv.org/abs/2203.15252v1 )

ライセンス: CC BY-SA 4.0
Soroush Mahjoubi, Fan Ye, Yi Bao, Weina Meng, Xian Zhang(参考訳) 機械的に剥離したグラフェンフレークの同定と厚さの分類は、ムーアの法則のボトルネックを克服する次世代材料や装置のナノ製造において重要である。 現在, 光学顕微鏡画像の検査により, 剥離したグラフェンフレークの同定と分類が行われている。 機械学習による既存の最先端の自動識別は、異なる背景を持つ画像に対応できないが、異なる背景は実験では避けられない。 本稿では,Si/SiO2基板上の剥離グラフェンフレークの厚さを,様々な設定と背景色で光学顕微鏡画像から自動的に識別し,分類する深層学習手法を提案する。 提案手法は階層的深層畳み込みニューラルネットワークを用いて,従来画像からの知識を保存しつつ,新たな画像の学習を可能にする。 深層学習モデルを用いて, 抽出したグラフェンフレークを単層 (1L), 二層 (2L), 三層 (3L), 4層 (4-6L), 7層 (7-10L), バルクカテゴリに分類した。 既存の機械学習手法と比較すると,提案手法は画像の背景や解像度に対する堅牢性に加えて,高い精度と効率性を有する。 その結果, 深層学習モデルでは, 抽出したグラフェンフレークの識別と分類に最大99%の精度が得られた。 この研究は、グラフェンの高機能材料とデバイスのためのスケールアップ製造とキャラクタリゼーションに光を当てる。

Identification of the mechanically exfoliated graphene flakes and classification of the thickness is important in the nanomanufacturing of next-generation materials and devices that overcome the bottleneck of Moore's Law. Currently, identification and classification of exfoliated graphene flakes are conducted by human via inspecting the optical microscope images. The existing state-of-the-art automatic identification by machine learning is not able to accommodate images with different backgrounds while different backgrounds are unavoidable in experiments. This paper presents a deep learning method to automatically identify and classify the thickness of exfoliated graphene flakes on Si/SiO2 substrates from optical microscope images with various settings and background colors. The presented method uses a hierarchical deep convolutional neural network that is capable of learning new images while preserving the knowledge from previous images. The deep learning model was trained and used to classify exfoliated graphene flakes into monolayer (1L), bi-layer (2L), tri-layer (3L), four-to-six-layer (4-6L), seven-to-ten-layer (7-10L), and bulk categories. Compared with existing machine learning methods, the presented method possesses high accuracy and efficiency as well as robustness to the backgrounds and resolutions of images. The results indicated that our deep learning model has accuracy as high as 99% in identifying and classifying exfoliated graphene flakes. This research will shed light on scaled-up manufacturing and characterization of graphene for advanced materials and devices.
翻訳日:2022-03-31 05:39:06 公開日:2022-03-29
# (参考訳) NeuraGen - ジェンダー分類のための低リソースニューラルネットワークによるアプローチ

NeuraGen-A Low-Resource Neural Network based approach for Gender Classification ( http://arxiv.org/abs/2203.15253v1 )

ライセンス: CC BY 4.0
Shankhanil Ghosh (1), Chhanda Saha (1) and Naagamani Molakathaala (1) ((1) School of Computer and Information Sciences, University of Hyderabad, Hyderabad, India)(参考訳) 人間の声はいくつかの重要な情報の源です。 これは特徴の形式です。 これらの特徴は、話者と音声に関連する様々な特徴を解釈するのに役立つ。 話者依存型作業研究者は、話者識別、話者認証、話者生体計測、特徴を用いた法医学、および音声および顔画像によるクロスモーダルマッチングを対象とする。 このような文脈研究において、クリーンで、注釈付きで公開されている音声コーパスをデータセットとして扱うことは非常に困難である。 このようなデータセットを生成するためのボランティアの獲得も非常に費用がかかり、研究者がデータ収集に費やす膨大な労力と時間も言うまでもない。 本稿では,低リソースのANNアーキテクチャであるNeuraGenによるニューラルネットワークの提案について述べる。 音声記録から話者の性別を分類するためのツールが提案されている。 我々は,ELSDSRから収集した音声記録と限定TIMITデータセットを用いて,前処理した8つの音声特徴を抽出し,その後NeuraGenに入力して性別を特定した。 NeuraGenは90.7407%、F1スコア91.227%、20倍のクロス検証データセットを達成している。

Human voice is the source of several important information. This is in the form of features. These Features help in interpreting various features associated with the speaker and speech. The speaker dependent work researchersare targeted towards speaker identification, Speaker verification, speaker biometric, forensics using feature, and cross-modal matching via speech and face images. In such context research, it is a very difficult task to come across clean, and well annotated publicly available speech corpus as data set. Acquiring volunteers to generate such dataset is also very expensive, not to mention the enormous amount of effort and time researchers spend to gather such data. The present paper work, a Neural Network proposal as NeuraGen focused which is a low-resource ANN architecture. The proposed tool used to classify gender of the speaker from the speech recordings. We have used speech recordings collected from the ELSDSR and limited TIMIT datasets, from which we extracted 8 speech features, which were pre-processed and then fed into NeuraGen to identify the gender. NeuraGen has successfully achieved accuracy of 90.7407% and F1 score of 91.227% in train and 20-fold cross validation dataset.
翻訳日:2022-03-31 05:19:09 公開日:2022-03-29
# (参考訳) 固有輪郭:低ランク近似に基づく新しい輪郭記述子

Eigencontours: Novel Contour Descriptors Based on Low-Rank Approximation ( http://arxiv.org/abs/2203.15259v1 )

ライセンス: CC BY 4.0
Wonhui Park, Dongkwon Jin, Chang-Su Kim(参考訳) 本稿では,低位近似に基づく固有輪郭と呼ばれる新しい輪郭ディスクリプタを提案する。 まず、トレーニングセット内のすべてのオブジェクト境界を含む輪郭行列を構築する。 第二に、等角行列を最高階数-M近似により固有等角行列に分解する。 第三に、M 固有輪郭の線型結合によって対象の境界を表す。 また、インスタンスセグメンテーションフレームワークにeigencontoursを組み込んでいます。 実験の結果, 提案する固有輪郭は, 既存の低次元空間のディスクリプタよりも効率的に, 効率的に表現できることがわかった。 さらに,提案アルゴリズムは,インスタンスセグメンテーションデータセット上で有意義な性能を与える。

Novel contour descriptors, called eigencontours, based on low-rank approximation are proposed in this paper. First, we construct a contour matrix containing all object boundaries in a training set. Second, we decompose the contour matrix into eigencontours via the best rank-M approximation. Third, we represent an object boundary by a linear combination of the M eigencontours. We also incorporate the eigencontours into an instance segmentation framework. Experimental results demonstrate that the proposed eigencontours can represent object boundaries more effectively and more efficiently than existing descriptors in a low-dimensional space. Furthermore, the proposed algorithm yields meaningful performances on instance segmentation datasets.
翻訳日:2022-03-31 05:09:31 公開日:2022-03-29
# (参考訳) k-meansクラスタリングの選択的推論

Selective inference for k-means clustering ( http://arxiv.org/abs/2203.15267v1 )

ライセンス: CC BY 4.0
Yiqun T. Chen, Daniela M. Witten(参考訳) k-meansクラスタリングによって特定された観測クラスタ間の方法の違いに対するテストの問題を考える。 この設定では、古典的な仮説テストはタイプiのエラー率を膨らませる。 この問題を克服するため、選択的推論アプローチを採る。 そこで本研究では,k-meansクラスタリングを用いて得られたクラスタのペア間の差分に対する選択型I誤差を制御する有限サンプルp値を提案し,効率よく計算可能であることを示す。 本提案はシミュレーションと手書き桁データと単細胞rnaシーケンシングデータに適用する。

We consider the problem of testing for a difference in means between clusters of observations identified via k-means clustering. In this setting, classical hypothesis tests lead to an inflated Type I error rate. To overcome this problem, we take a selective inference approach. We propose a finite-sample p-value that controls the selective Type I error for a test of the difference in means between a pair of clusters obtained using k-means clustering, and show that it can be efficiently computed. We apply our proposal in simulation, and on hand-written digits data and single-cell RNA-sequencing data.
翻訳日:2022-03-31 05:08:50 公開日:2022-03-29
# (参考訳) 医療用コンピュータビジョンにおける視覚トランスフォーマー -- 仮説的振り返り

Vision Transformers in Medical Computer Vision -- A Contemplative Retrospection ( http://arxiv.org/abs/2203.15269v1 )

ライセンス: CC BY 4.0
Arshi Parvaiz, Muhammad Anwaar Khalid, Rukhsana Zafar, Huma Ameer, Muhammad Ali, Muhammad Moazam Fraz(参考訳) コンピュータビジョンの分野における近年のエスカレーションは、画像に含まれる情報を解き明かす素晴らしいポテンシャルを持つアルゴリズムの群れを支えている。 これらのコンピュータビジョンアルゴリズムは医用画像解析で実践されており、画像データの知覚と解釈を変換している。 これらのアルゴリズムの中で、視覚変換器はコンピュータビジョンの分野で使われている最も現代的で支配的なアーキテクチャの1つとして進化している。 これらは多くの研究者によって、新しい実験や以前の実験に利用されています。 本稿では,ビジョントランスフォーマーと医用画像の交わりについて検討し,異なる研究者によって使用されている様々なViTsベースのフレームワークの概要を明らかにし,医用コンピュータビジョンの障害を解明する。 画像に基づく疾患分類,解剖学的構造区分,登録,領域的病変検出,キャプション作成,レポート生成,医療診断と治療プロセスに大きく寄与する複数の医用画像モダリティを用いた再構築など,医療用コンピュータビジョンにおける視覚トランスフォーマの応用について検討した。 これに加えて、医療コンピュータビジョンで使用されるいくつかの画像モダリティをデミスティフィケートする。 さらに、より深く理解するために、トランスフォーマの自己着脱機構についても簡単に説明する。 結論としては、利用可能なデータセット、採用方法論、パフォーマンス対策、課題、ソリューションについても、議論の形で光を当てています。 このレビュー記事が、医療コンピュータビジョンの研究者の今後の方向性を開くことを願っている。

Recent escalation in the field of computer vision underpins a huddle of algorithms with the magnificent potential to unravel the information contained within images. These computer vision algorithms are being practised in medical image analysis and are transfiguring the perception and interpretation of Imaging data. Among these algorithms, Vision Transformers are evolved as one of the most contemporary and dominant architectures that are being used in the field of computer vision. These are immensely utilized by a plenty of researchers to perform new as well as former experiments. Here, in this article we investigate the intersection of Vision Transformers and Medical images and proffered an overview of various ViTs based frameworks that are being used by different researchers in order to decipher the obstacles in Medical Computer Vision. We surveyed the application of Vision transformers in different areas of medical computer vision such as image-based disease classification, anatomical structure segmentation, registration, region-based lesion Detection, captioning, report generation, reconstruction using multiple medical imaging modalities that greatly assist in medical diagnosis and hence treatment process. Along with this, we also demystify several imaging modalities used in Medical Computer Vision. Moreover, to get more insight and deeper understanding, self-attention mechanism of transformers is also explained briefly. Conclusively, we also put some light on available data sets, adopted methodology, their performance measures, challenges and their solutions in form of discussion. We hope that this review article will open future directions for researchers in medical computer vision.
翻訳日:2022-03-31 05:06:54 公開日:2022-03-29
# (参考訳) 移動ロボットの正確な位置決めの必要性を緩和するスパース画像に基づくナビゲーションアーキテクチャ

Sparse Image based Navigation Architecture to Mitigate the need of precise Localization in Mobile Robots ( http://arxiv.org/abs/2203.15272v1 )

ライセンス: CC BY 4.0
Pranay Mathur, Rajesh Kumar, Sarthak Upadhyay(参考訳) 従来のSLAM法は、環境下でのロボットのローカライゼーションの改善とセンサの不確実性に焦点を当てている。 しかし,本稿は,スパース画像を用いた自律走行を追求する移動ロボットの正確な位置決めの必要性を軽減することに焦点を当てている。 提案手法は,非教師なし学習のためのroomnetというモデルアーキテクチャから成り,環境の粗い識別と,局所的識別とナビゲーションのための個別の局所的ナビゲーションポリシが実現されている。 前者は、ロボットが見ている短期画像シーケンスと、長期画像シーケンスを用いた遷移画像シナリオに基づいて、シーンを学習し、予測する。 後者はスパース画像マッチングを用いて、マッピングおよびトレーニング段階においてロボットが見たフレームをvis-a-visで達成したフレームの類似性を特徴付ける。 画像シーケンスのスパースグラフが作成され、視覚目標に基づいて純粋にロバストなナビゲーションを実行するために使用される。 提案手法はテスト環境における2つのロボット上で評価され,ランドマークが曖昧で古典的なローカライゼーション手法が失敗する動的環境をナビゲートする能力を示す。

Traditional simultaneous localization and mapping (SLAM) methods focus on improvement in the robot's localization under environment and sensor uncertainty. This paper, however, focuses on mitigating the need for exact localization of a mobile robot to pursue autonomous navigation using a sparse set of images. The proposed method consists of a model architecture - RoomNet, for unsupervised learning resulting in a coarse identification of the environment and a separate local navigation policy for local identification and navigation. The former learns and predicts the scene based on the short term image sequences seen by the robot along with the transition image scenarios using long term image sequences. The latter uses sparse image matching to characterise the similarity of frames achieved vis-a-vis the frames viewed by the robot during the mapping and training stage. A sparse graph of the image sequence is created which is then used to carry out robust navigation purely on the basis of visual goals. The proposed approach is evaluated on two robots in a test environment and demonstrates the ability to navigate in dynamic environments where landmarks are obscured and classical localization methods fail.
翻訳日:2022-03-31 05:05:34 公開日:2022-03-29
# (参考訳) マルチサイズカーネルに基づくベアリング故障診断のための適応畳み込みニューラルネットワーク

A Multi-size Kernel based Adaptive Convolutional Neural Network for Bearing Fault Diagnosis ( http://arxiv.org/abs/2203.15275v1 )

ライセンス: CC BY 4.0
Guangwei Yu, Gang Li, Xingtong Si, and Zhuoyuan Song(参考訳) 軸受故障の同定と解析は機械故障診断の分野で重要な研究分野である。 転がり軸受の共通の欠点に着目し,マルチサイズカーネルを用いた適応畳み込みニューラルネットワーク(MSKACNN)と呼ばれる軸受振動の特性に基づくデータ駆動型診断アルゴリズムを提案する。 入力として生軸受振動信号を使用し、mskacnnは振動特徴学習と信号分類機能を提供し、軸受故障を識別および解析する。 ボール混合は, 従来の周波数領域分析法では, 計測信号の高周波分解能が必要であり, 分析時間も長いため識別が難しいボール軸受生産品質問題である。 提案したMSKACNNはボールミキシング診断の効率と精度を向上させる。 軸受故障同定におけるmskacnnの有効性をさらに実証するため,軸受振動データ取得システムを開発し,ボール混合を含む5つの異なる故障条件下で転がり軸受の振動信号取得を行った。 得られたデータセットを用いて,提案モデルの性能分析を行った。 また,MSKACNNの適応性を検証するために,ケース・ウェスタン・リザーブ大学軸受データセンターの故障試験データを用いた。 実験結果から,MSKACNNは各軸受条件を高精度かつ高一般化能で識別できることがわかった。 我々は,実運用に適したリアルタイム軸受故障診断システムのための軽量モジュールとしてmskacnnを実装した。

Bearing fault identification and analysis is an important research area in the field of machinery fault diagnosis. Aiming at the common faults of rolling bearings, we propose a data-driven diagnostic algorithm based on the characteristics of bearing vibrations called multi-size kernel based adaptive convolutional neural network (MSKACNN). Using raw bearing vibration signals as the inputs, MSKACNN provides vibration feature learning and signal classification capabilities to identify and analyze bearing faults. Ball mixing is a ball bearing production quality problem that is difficult to identify using traditional frequency domain analysis methods since it requires high frequency resolutions of the measurement signals and results in a long analyzing time. The proposed MSKACNN is shown to improve the efficiency and accuracy of ball mixing diagnosis. To further demonstrate the effectiveness of MSKACNN in bearing fault identification, a bearing vibration data acquisition system was developed, and vibration signal acquisition was performed on rolling bearings under five different fault conditions including ball mixing. The resulting datasets were used to analyze the performance of our proposed model. To validate the adaptive ability of MSKACNN, fault test data from the Case Western Reserve University Bearing Data Center were also used. Test results show that MSKACNN can identify the different bearing conditions with high accuracy with high generalization ability. We presented an implementation of the MSKACNN as a lightweight module for a real-time bearing fault diagnosis system that is suitable for production.
翻訳日:2022-03-31 04:53:07 公開日:2022-03-29
# (参考訳) 深層学習による地下水ヒートポンプの熱プルーム予測

A Deep Learning Approach for Thermal Plume Prediction of Groundwater Heat Pumps ( http://arxiv.org/abs/2203.14961v1 )

ライセンス: CC BY 4.0
Raphael Leiteritz, Kyle Davis, Miriam Schulte, Dirk Pfl\"uger(参考訳) 建物の気候管理は世界のエネルギー消費の大きな部分を占めており、地下水ヒートポンプが適切な代替手段となっている。 都市全体のヒートポンプ間の負の相互作用を防ぐため、都市計画者は将来の配置を最適化する必要がある。 地下水ヒートポンプで発生する熱水プルームをモデル化する小型サーロゲートを構築するための新しいデータ駆動手法を開発した。 2次元数値シミュレーションから生成されたデータセットに基づいて,畳み込みニューラルネットワークを訓練し,与えられた地下速度場から定常地下温度場を予測する。 既存のモデルと比較して、計算が迅速でありながら、より複雑なダイナミクスを捉えることができる。 その結果生まれたsurrogateは、都市計画者によるインタラクティブなデザインツールに適している。

Climate control of buildings makes up a significant portion of global energy consumption, with groundwater heat pumps providing a suitable alternative. To prevent possibly negative interactions between heat pumps throughout a city, city planners have to optimize their layouts in the future. We develop a novel data-driven approach for building small-scale surrogates for modelling the thermal plumes generated by groundwater heat pumps in the surrounding subsurface water. Building on a data set generated from 2D numerical simulations, we train a convolutional neural network for predicting steady-state subsurface temperature fields from a given subsurface velocity field. We show that compared to existing models ours can capture more complex dynamics while still being quick to compute. The resulting surrogate is thus well-suited for interactive design tools by city planners.
翻訳日:2022-03-31 04:40:16 公開日:2022-03-29
# (参考訳) ゼロショット学習のためのハイブリッドルーティングトランス

Hybrid Routing Transformer for Zero-Shot Learning ( http://arxiv.org/abs/2203.15310v1 )

ライセンス: CC BY 4.0
De Cheng, Gerong Wang, Bo Wang, Qiang Zhang, Jungong Han, Dingwen Zhang(参考訳) zero-shot learning (zsl) は、見えない画像の意味を認識できるモデルを学習することを目的としている。 近年の研究では、グローバルイメージの特徴や、抽出された視覚的特徴とセマンティック属性を関連付けるために、局所パッチの特徴をマイニングする。 しかしながら、実際の属性相関領域にモデルが確実に従うために必要なトップダウンガイダンスやセマンティクスアライメントが欠如しているため、これらの手法は依然として視覚的モダリティと属性モダリティの間に重大な意味的ギャップに遭遇しており、セマンティクスの認識できない予測は信頼できない。 この問題を解決するために,Hybrid routing transformer (HRT) と呼ばれる新しいトランス変換器デコーダモデルを構築した。 HRTエンコーダには、ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションが組み込まれ、属性に沿った視覚的特徴が生成される。 HRTデコーダでは,属性に沿った視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終的なクラスラベル予測を生成する。 この設計は、提示されたトランスフォーマーモデルをハイブリッドにする 1)トップダウン及びボトムアップ注意経路 2)動的および静的なルーティング経路。 CUB, SUN, AWA2という, 広く使用されている3つのベンチマークデータセットに関する総合実験を行った。 その結果,提案手法の有効性が実証された。

Zero-shot learning (ZSL) aims to learn models that can recognize unseen image semantics based on the training of data with seen semantics. Recent studies either leverage the global image features or mine discriminative local patch features to associate the extracted visual features to the semantic attributes. However, due to the lack of the necessary top-down guidance and semantic alignment for ensuring the model attending to the real attribute-correlation regions, these methods still encounter a significant semantic gap between the visual modality and the attribute modality, which makes their prediction on unseen semantics unreliable. To solve this problem, this paper establishes a novel transformer encoder-decoder model, called hybrid routing transformer (HRT). In HRT encoder, we embed an active attention, which is constructed by both the bottom-up and the top-down dynamic routing pathways to generate the attribute-aligned visual feature. While in HRT decoder, we use static routing to calculate the correlation among the attribute-aligned visual features, the corresponding attribute semantics, and the class attribute vectors to generate the final class label predictions. This design makes the presented transformer model a hybrid of 1) top-down and bottom-up attention pathways and 2) dynamic and static routing pathways. Comprehensive experiments on three widely-used benchmark datasets, namely CUB, SUN, and AWA2, are conducted. The obtained experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2022-03-31 04:31:33 公開日:2022-03-29
# (参考訳) 非教師付きビデオセグメンテーションのためのin-N-Out生成学習

In-N-Out Generative Learning for Dense Unsupervised Video Segmentation ( http://arxiv.org/abs/2203.15312v1 )

ライセンス: CC BY 4.0
Xiao Pan, Peike Li, Zongxin Yang, Huiling Zhou, Chang Zhou, Hongxia Yang, Jingren Zhou, Yi Yang(参考訳) 本稿では,ラベルのないビデオから視覚的対応を学習する,教師なしビデオオブジェクトセグメンテーション(VOS)タスクに焦点を当てる。 従来の手法は主に、画素レベルまたは画像レベルを最適化し、不満足なスケーラビリティを示す、対照的な学習パラダイムに基づいている。 画像レベルの最適化は暗黙的に画素単位の情報を学習するので、そのような高密度な予測タスクにはサブ最適である。 そこで本研究では,視覚トランスフォーマー (vit) の構造的優位性を活かし,より優れたスケーラビリティを実現することによって,高レベルおよび細粒度のセマンティクスを捉える純粋生成的視点から,これら2つのレベルの情報を相補的に学習する。 具体的には、生成学習はその微細な意味構造を推論して画像の破損部分を復元し、生成学習はランダムな断片のみを与えられた画像の全体情報を想像して高レベルな意味をキャプチャする。 時間的情報を見出すため、機能レベルと親和性マトリックスレベルの両方からフレーム間の一貫性を強制する。 DAVIS-2017 val と YouTube-VOS 2018 val の大規模な実験は、私たちの INO が過去の最先端の手法をかなり上回っていることを示している。

In this paper, we focus on the unsupervised Video Object Segmentation (VOS) task which learns visual correspondence from unlabeled videos. Previous methods are mainly based on the contrastive learning paradigm, which optimize either in pixel level or image level and show unsatisfactory scalability. Image-level optimization learns pixel-wise information implicitly therefore is sub-optimal for such dense prediction task, while pixel-level optimization ignores the high-level semantic scope for capturing object deformation. To complementarily learn these two levels of information in an unified framework, we propose the In-aNd-Out (INO) generative learning from a purely generative perspective, which captures both high-level and fine-grained semantics by leveraging the structural superiority of Vision Transformer (ViT) and achieves better scalability. Specifically, the in-generative learning recovers the corrupted parts of an image via inferring its fine-grained semantic structure, while the out-generative learning captures high-level semantics by imagining the global information of an image given only random fragments. To better discover the temporal information, we additionally force the inter-frame consistency from both feature level and affinity matrix level. Extensive experiments on DAVIS-2017 val and YouTube-VOS 2018 val show that our INO outperforms previous state-of-the-art methods by significant margins.
翻訳日:2022-03-31 04:09:02 公開日:2022-03-29
# (参考訳) 耐雑音性相互学習における合意・否認

Agreement or Disagreement in Noise-tolerant Mutual Learning? ( http://arxiv.org/abs/2203.15317v1 )

ライセンス: CC BY 4.0
Jiarun Liu, Daguang Jiang, Yukun Yang, Ruirui Li(参考訳) ディープラーニングは多くの分野で大きな成果を上げているが、データセットのノイズの多いラベルに苦しめられている。 ノイズラベル法とコティーチング+を用いた最先端学習は、デュアルネットワーク間の相互情報によってノイズラベルに直面する。 しかし、デュアルネットワークは常に収束し、ノイズラベルに抵抗する双対ネットワーク機構が弱まる傾向にある。 本稿では,MLCという耐雑音性フレームワークをエンドツーエンドに提案する。 二重ネットワークを分岐正則化で調整し、機構の有効性を保証する。 さらに,デュアルネットワーク間の合意に基づいてラベル分布を補正する。 提案手法は,ノイズデータを用いてネットワークの精度,一般化,堅牢性を向上させる。 提案手法は,シミュレートされたノイズデータセットmnist,cifar-10,実世界のノイズデータセットwearing1mを用いて検証する。 実験の結果,本手法は従来の最先端手法よりも優れていた。 また,本手法はネットワークフリーであり,多くのタスクに適用可能である。

Deep learning has made many remarkable achievements in many fields but suffers from noisy labels in datasets. The state-of-the-art learning with noisy label method Co-teaching and Co-teaching+ confronts the noisy label by mutual-information between dual-network. However, the dual network always tends to convergent which would weaken the dual-network mechanism to resist the noisy labels. In this paper, we proposed a noise-tolerant framework named MLC in an end-to-end manner. It adjusts the dual-network with divergent regularization to ensure the effectiveness of the mechanism. In addition, we correct the label distribution according to the agreement between dual-networks. The proposed method can utilize the noisy data to improve the accuracy, generalization, and robustness of the network. We test the proposed method on the simulate noisy dataset MNIST, CIFAR-10, and the real-world noisy dataset Clothing1M. The experimental result shows that our method outperforms the previous state-of-the-art method. Besides, our method is network-free thus it is applicable to many tasks.
翻訳日:2022-03-31 03:54:14 公開日:2022-03-29
# (参考訳) 進化するマルチラベルファジィ分類器

Evolving Multi-Label Fuzzy Classifier ( http://arxiv.org/abs/2203.15318v1 )

ライセンス: CC BY 4.0
Edwin Lughofer(参考訳) 複数ラベルの分類は、複数のクラスに単一のサンプルを同時に割り当てる問題に対処するために、機械学習コミュニティで多くの注目を集めている。 本稿では,新たなマルチラベルサンプルをインクリメンタルかつシングルパスで自己適応・自己展開可能な多ラベルファジィ分類器(EFC-ML)を提案する。 これは多出力のタカギ・スジェノ型アーキテクチャに基づいており、各クラスごとに別の連続超平面が定義される。 学習手順は局所的に重み付けされた漸進的相関に基づくアルゴリズムと(従来の)再帰的ファジィ重み付き最小二乗法とラッソベースの正規化を組み込む。 相関に基づく部は、性能向上のための多ラベル分類において特によく知られているクラスラベル間の相互関係を適切に保存し、より多くの入力の場合の次元効果の呪いを軽減する。 先行学習は、積空間クラスタリングによって達成され、すべてのクラスラベルを合わせて実行され、単一のルールベースとなり、コンパクトな知識ビューを可能にする。 さらに、オンラインアクティブラーニング(al)戦略では、選択したサンプル数で分類器を更新することにより、アノテーションの労力が一般的に高価であるアプリケーション内のラベル付きストリームに適用できる。 提案手法は,mulanリポジトリのいくつかのデータセット上で評価され,(進化) one-versus-rest や classifier chaining の概念と比較して,分類精度が有意に向上した。 オンライン al 法により,分類器更新に用いるサンプル数の 90 % 削減が,データ集合の場合の完全更新に比べ,累積精度の傾向線に対してほとんど影響を及ぼさなかった。

Multi-label classification has attracted much attention in the machine learning community to address the problem of assigning single samples to more than one class at the same time. We propose an evolving multi-label fuzzy classifier (EFC-ML) which is able to self-adapt and self-evolve its structure with new incoming multi-label samples in an incremental, single-pass manner. It is based on a multi-output Takagi-Sugeno type architecture, where for each class a separate consequent hyper-plane is defined. The learning procedure embeds a locally weighted incremental correlation-based algorithm combined with (conventional) recursive fuzzily weighted least squares and Lasso-based regularization. The correlation-based part ensures that the interrelations between class labels, a specific well-known property in multi-label classification for improved performance, are preserved properly; the Lasso-based regularization reduces the curse of dimensionality effects in the case of a higher number of inputs. Antecedent learning is achieved by product-space clustering and conducted for all class labels together, which yields a single rule base, allowing a compact knowledge view. Furthermore, our approach comes with an online active learning (AL) strategy for updating the classifier on just a number of selected samples, which in turn makes the approach applicable for scarcely labelled streams in applications, where the annotation effort is typically expensive. Our approach was evaluated on several data sets from the MULAN repository and showed significantly improved classification accuracy compared to (evolving) one-versus-rest or classifier chaining concepts. A significant result was that, due to the online AL method, a 90\% reduction in the number of samples used for classifier updates had little effect on the accumulated accuracy trend lines compared to a full update in most data set cases.
翻訳日:2022-03-31 03:43:30 公開日:2022-03-29
# (参考訳) NMTは私を理解できますか? 摂動に基づくコード生成のためのNMTモデルの評価に向けて

Can NMT Understand Me? Towards Perturbation-based Evaluation of NMT Models for Code Generation ( http://arxiv.org/abs/2203.15319v1 )

ライセンス: CC BY 4.0
Pietro Liguori, Cristina Improta, Simona De Vivo, Roberto Natella, Bojan Cukic and Domenico Cotroneo(参考訳) ニューラルマシン翻訳(nmt)は、異なる言語間の翻訳の第一の方法として認識されるレベルに達し、ソフトウェア工学を含む様々な研究分野への関心を喚起した。 nmtモデルのロバスト性を検証するための重要なステップは、逆入力(すなわち、少量の摂動を加えることで元の入力から得られる入力)におけるモデルの性能を評価することである。 しかしながら、コード生成の特定のタスク(すなわち自然言語による記述から始まるコードの生成)を扱う場合、NMTモデルの堅牢性を検証するアプローチがまだ定義されていない。 本研究では,このようなモデルのロバスト性評価に適した摂動とメトリクスのセットを特定することで,この問題に対処する。 そこで本研究では,摂動のタイプがモデルに最も影響を与えていることを示す予備的な実験評価を行い,今後の方向性について有用な知見を導出する。

Neural Machine Translation (NMT) has reached a level of maturity to be recognized as the premier method for the translation between different languages and aroused interest in different research areas, including software engineering. A key step to validate the robustness of the NMT models consists in evaluating the performance of the models on adversarial inputs, i.e., inputs obtained from the original ones by adding small amounts of perturbation. However, when dealing with the specific task of the code generation (i.e., the generation of code starting from a description in natural language), it has not yet been defined an approach to validate the robustness of the NMT models. In this work, we address the problem by identifying a set of perturbations and metrics tailored for the robustness assessment of such models. We present a preliminary experimental evaluation, showing what type of perturbations affect the model the most and deriving useful insights for future directions.
翻訳日:2022-03-31 03:42:14 公開日:2022-03-29
# (参考訳) 10分間のドメイン内データによるノイズロスト音声認識

Noise-robust Speech Recognition with 10 Minutes Unparalleled In-domain Data ( http://arxiv.org/abs/2203.15321v1 )

ライセンス: CC0 1.0
Chen Chen, Nana Hou, Yuchen Hu, Shashank Shirol, Eng Siong Chng(参考訳) 騒音障害音声認識システムでは,様々な実践環境下での最先端の性能を達成するために,雑音の多い音声データや対応する文字起こしを含む大量の訓練データを必要とする。 しかし、そのようなドメイン内のデータは現実の世界では必ずしも利用できない。 そこで,本稿では,クリーンスペクトル(simu-gan)からのノイズスペクトルをシミュレートする生成型逆ネットワークを提案する。 さらに,雑音条件下でのシステムの堅牢性を改善するために,デュアルパス音声認識システムを提案する。 実験結果から,Simu-GANによる雑音データを用いて,単語誤り率(WER)の基準値に対して7.3%の絶対的な改善が得られた。

Noise-robust speech recognition systems require large amounts of training data including noisy speech data and corresponding transcripts to achieve state-of-the-art performances in face of various practical environments. However, such plenty of in-domain data is not always available in the real-life world. In this paper, we propose a generative adversarial network to simulate noisy spectrum from the clean spectrum (Simu-GAN), where only 10 minutes of unparalleled in-domain noisy speech data is required as labels. Furthermore, we also propose a dual-path speech recognition system to improve the robustness of the system under noisy conditions. Experimental results show that the proposed speech recognition system achieves 7.3% absolute improvement with simulated noisy data by Simu-GAN over the best baseline in terms of word error rate (WER).
翻訳日:2022-03-31 03:21:20 公開日:2022-03-29
# (参考訳) データ拡張によるペルシャ関係抽出モデルの改善

Improving Persian Relation Extraction Models by Data Augmentation ( http://arxiv.org/abs/2203.15323v1 )

ライセンス: CC BY 4.0
Moein Salimi Sartakhti, Romina Etezadi, Mehrnoush Shamsfard(参考訳) 文や文書のエンティティ間の意味関係型を予測するタスクである関係抽出は、自然言語処理において重要なタスクである。 英語には多くの研究やデータセットがあるが、ペルシャ語は十分な研究と包括的なデータセットに苦しむ。 このタスクで利用可能なペルシアのデータセットは、SemEval-2010-Task-8データセットのペルシアの専門家翻訳版であるPERLEXのみである。 本稿では, NSURL 2021ワークショップにおいて, ペルシャ関係抽出共有タスクに参加した, 拡張データセットとシステムの結果と結果について述べる。 PERLEXをベースデータセットとして使用し,テキスト前処理ステップを適用し,データ拡張技術を用いてサイズを拡大することにより,応用モデルの一般化と堅牢性を向上させる。 次に、拡張PERLEXデータセット上の関係抽出にParsBERTとmultilingual BERTの2つの異なるモデルを用いる。 我々の最良のモデルはコンテストの試験段階でマクロF1の64.67%を獲得し、PERLEXのテストセットでマクロF1の83.68%を達成した。

Relation extraction that is the task of predicting semantic relation type between entities in a sentence or document is an important task in natural language processing. Although there are many researches and datasets for English, Persian suffers from sufficient researches and comprehensive datasets. The only available Persian dataset for this task is PERLEX, which is a Persian expert-translated version of the SemEval-2010-Task-8 dataset. In this paper, we present our augmented dataset and the results and findings of our system, participated in the Persian relation Extraction shared task of NSURL 2021 workshop. We use PERLEX as the base dataset and enhance it by applying some text preprocessing steps and by increasing its size via data augmentation techniques to improve the generalization and robustness of applied models. We then employ two different models including ParsBERT and multilingual BERT for relation extraction on the augmented PERLEX dataset. Our best model obtained 64.67% of Macro-F1 on the test phase of the contest and it achieved 83.68% of Macro-F1 on the test set of PERLEX.
翻訳日:2022-03-31 03:12:23 公開日:2022-03-29
# (参考訳) マルチレベル音響情報を用いた音声感情認識

Speech Emotion Recognition with Co-Attention based Multi-level Acoustic Information ( http://arxiv.org/abs/2203.15326v1 )

ライセンス: CC0 1.0
Heqing Zou, Yuke Si, Chen Chen, Deepu Rajan, Eng Siong Chng(参考訳) 音声感情認識(SER)は、人間の主観的感情を音声情報のみから理解することを目的としている。 しかし,包括的オーディオ情報の抽出と活用は依然として困難な課題である。 本稿では,マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。 まず, cnn, bilstm, wav2vec2を用いて, mfcc, spectrogram, embedded high-level acoustic informationを含む多レベル音響情報を抽出する。 次に、抽出された特徴をマルチモーダル入力として処理し、提案するコアテンション機構により融合する。 実験はIEMOCAPデータセット上で行われ、我々のモデルは2つの異なる話者独立型クロスバリデーション戦略による競合性能を達成する。 コードはgithubから入手できます。

Speech Emotion Recognition (SER) aims to help the machine to understand human's subjective emotion from only audio information. However, extracting and utilizing comprehensive in-depth audio information is still a challenging task. In this paper, we propose an end-to-end speech emotion recognition system using multi-level acoustic information with a newly designed co-attention module. We firstly extract multi-level acoustic information, including MFCC, spectrogram, and the embedded high-level acoustic information with CNN, BiLSTM and wav2vec2, respectively. Then these extracted features are treated as multimodal inputs and fused by the proposed co-attention mechanism. Experiments are carried on the IEMOCAP dataset, and our model achieves competitive performance with two different speaker-independent cross-validation strategies. Our code is available on GitHub.
翻訳日:2022-03-31 03:07:29 公開日:2022-03-29
# (参考訳) anyface: フリースタイルテキスト対面合成と操作

AnyFace: Free-style Text-to-Face Synthesis and Manipulation ( http://arxiv.org/abs/2203.15334v1 )

ライセンス: CC BY 4.0
Jianxin Sun, Qiyao Deng, Qi Li, Muyi Sun, Min Ren, Zhenan Sun(参考訳) 既存のテキスト・画像合成法は訓練データセットの単語にのみ適用できる。 しかし、人間の顔は限定的な言葉で説明できるほど多様である。 そこで本稿では, メタバース, ソーシャルメディア, 化粧品, 法医学など, より広いオープンワールド応用を可能にする最初のフリースタイルテキスト対面手法であるanyfaceを提案する。 AnyFaceには、人間の顔の任意の記述を与えられた顔画像合成と操作のための新しい2ストリームフレームワークがある。 具体的には、あるストリームがテキスト対面生成を行い、もう一方が顔画像再構成を行う。 CLIP(Contrastive Language- Image Pre-training)エンコーダを用いて、顔文字と画像の特徴を抽出する。 また、CMD(Cross Modal Distillation)モジュールは、これらの2つのストリームの言語的特徴と視覚的特徴を一致させるように設計されている。 さらに,細粒度特徴をモデル化し,顔の多様性を改善するために,多種多様なトリプルトロス(dt損失)が開発されている。 マルチモーダルCelebA-HQとCelebAText-HQの大規模な実験は、AnyFaceの最先端手法に対する大きな利点を示している。 anyfaceは、入力キャプションの数と内容に制約なく、高品質、高解像度、高多様性の顔合成と操作結果を達成することができる。

Existing text-to-image synthesis methods generally are only applicable to words in the training dataset. However, human faces are so variable to be described with limited words. So this paper proposes the first free-style text-to-face method namely AnyFace enabling much wider open world applications such as metaverse, social media, cosmetics, forensics, etc. AnyFace has a novel two-stream framework for face image synthesis and manipulation given arbitrary descriptions of the human face. Specifically, one stream performs text-to-face generation and the other conducts face image reconstruction. Facial text and image features are extracted using the CLIP (Contrastive Language-Image Pre-training) encoders. And a collaborative Cross Modal Distillation (CMD) module is designed to align the linguistic and visual features across these two streams. Furthermore, a Diverse Triplet Loss (DT loss) is developed to model fine-grained features and improve facial diversity. Extensive experiments on Multi-modal CelebA-HQ and CelebAText-HQ demonstrate significant advantages of AnyFace over state-of-the-art methods. AnyFace can achieve high-quality, high-resolution, and high-diversity face synthesis and manipulation results without any constraints on the number and content of input captions.
翻訳日:2022-03-31 02:59:51 公開日:2022-03-29
# (参考訳) 汎用イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習

End-to-End Compressed Video Representation Learning for Generic Event Boundary Detection ( http://arxiv.org/abs/2203.15336v1 )

ライセンス: CC BY 4.0
Congcong Li, Xinyao Wang, Longyin Wen, Dexiang Hong, Tiejian Luo, Libo Zhang(参考訳) ジェネリックイベント境界検出は、ビデオをチャンクに分割する、ジェネリックで分類のないイベント境界をローカライズすることを目的としている。 既存の方法では、ネットワークに送信する前にビデオフレームをデコードする必要があるため、計算能力とストレージスペースが必要となる。 そこで本研究では,圧縮領域のリッチな情報,すなわちRGB,運動ベクトル,残差,および内部画像群(GOP)構造を完全復号化せずに活用する,イベント境界検出のための新しいエンドツーエンド圧縮ビデオ表現学習を提案する。 具体的には、まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。 その後、従属iフレームの運動ベクトル、残差、表現に基づいて、pフレームの特徴表現を計算するために軽量な空間チャネル圧縮エンコーダが設計される。 ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。 アノテーションの曖昧さを軽減し、トレーニングプロセスを高速化するために、Gaussianカーネルを使用して、基幹のイベント境界を前処理する。 Kinetics-GEBDデータセットで行った大規模な実験により,提案手法は動作速度が4.5\times$の最先端手法に匹敵する結果が得られることを示した。

Generic event boundary detection aims to localize the generic, taxonomy-free event boundaries that segment videos into chunks. Existing methods typically require video frames to be decoded before feeding into the network, which demands considerable computational power and storage space. To that end, we propose a new end-to-end compressed video representation learning for event boundary detection that leverages the rich information in the compressed domain, i.e., RGB, motion vectors, residuals, and the internal group of pictures (GOP) structure, without fully decoding the video. Specifically, we first use the ConvNets to extract features of the I-frames in the GOPs. After that, a light-weight spatial-channel compressed encoder is designed to compute the feature representations of the P-frames based on the motion vectors, residuals and representations of their dependent I-frames. A temporal contrastive module is proposed to determine the event boundaries of video sequences. To remedy the ambiguities of annotations and speed up the training process, we use the Gaussian kernel to preprocess the ground-truth event boundaries. Extensive experiments conducted on the Kinetics-GEBD dataset demonstrate that the proposed method achieves comparable results to the state-of-the-art methods with $4.5\times$ faster running speed.
翻訳日:2022-03-31 02:58:28 公開日:2022-03-29
# (参考訳) ドメイン適応オブジェクト検出のためのタスク固有不整合アライメント

Task-specific Inconsistency Alignment for Domain Adaptive Object Detection ( http://arxiv.org/abs/2203.15345v1 )

ライセンス: CC BY 4.0
Liang Zhao and Limin Wang(参考訳) 大量のラベル付きデータで訓練された検出器は、データ分散ギャップのある特定のシナリオにおいて、しばしば劇的なパフォーマンス低下を示す。 ドメインシフトのこの問題を緩和するために、従来の知恵は、一般的には、結合されたドメイン分類器を介してソースとターゲットドメイン間の不一致を減らすことに集中するが、オブジェクト検出における分類とローカライズの両方のサブタスクに対処する際に、移行可能な特徴の難しさを無視する。 本稿では,タスク固有の不整合アライメント(TIA)を提案し,タスク空間に新たなアライメント機構を構築し,両方のサブタスクにおける検出器の性能を向上させる。 具体的には,分類と局所化を両立させる補助予測器を付加し,その動作の不整合を細かな粒度のドメイン特化指標として活用する。 そして、タスク固有の損失を考案し、両方のサブタスクのクロスドメイン不一致を整合させる。 それらを個別に最適化することで、各タスク空間におけるカテゴリと境界の相違をうまく近似することができ、したがってそれらを疎結合に絞り込むことができる。 TIAは従来の最先端手法よりも,様々なシナリオにおいて優れた結果を示す。 また,検出器の分類と局所化能力が十分に強化され,TAA法の有効性が実証された。 コードとトレーニングされたモデルはhttps://github.com/MCG-NJU/TIA.comで公開されている。

Detectors trained with massive labeled data often exhibit dramatic performance degradation in some particular scenarios with data distribution gap. To alleviate this problem of domain shift, conventional wisdom typically concentrates solely on reducing the discrepancy between the source and target domains via attached domain classifiers, yet ignoring the difficulty of such transferable features in coping with both classification and localization subtasks in object detection. To address this issue, in this paper, we propose Task-specific Inconsistency Alignment (TIA), by developing a new alignment mechanism in separate task spaces, improving the performance of the detector on both subtasks. Specifically, we add a set of auxiliary predictors for both classification and localization branches, and exploit their behavioral inconsistencies as finer-grained domain-specific measures. Then, we devise task-specific losses to align such cross-domain disagreement of both subtasks. By optimizing them individually, we are able to well approximate the category- and boundary-wise discrepancies in each task space, and therefore narrow them in a decoupled manner. TIA demonstrates superior results on various scenarios to the previous state-of-the-art methods. It is also observed that both the classification and localization capabilities of the detector are sufficiently strengthened, further demonstrating the effectiveness of our TIA method. Code and trained models are publicly available at https://github.com/MCG-NJU/TIA.
翻訳日:2022-03-31 02:57:34 公開日:2022-03-29
# (参考訳) 擬似健康合成のための病理および正常画素の調和

Harmonizing Pathological and Normal Pixels for Pseudo-healthy Synthesis ( http://arxiv.org/abs/2203.15347v1 )

ライセンス: CC BY 4.0
Yunlong Zhang and Xin Lin and Yihong Zhuang and LiyanSun and Yue Huang and Xinghao Ding and Guisheng Wang and Lin Yang and Yizhou Yu(参考訳) 病理像から対象特異的な病理像を合成することは、アルゴリズムの開発と臨床実践に有用である。 近年,GAN(Generative Adversarial Network)に基づくいくつかのアプローチが疑似健康合成において有望な成果を上げている。 しかし、ganの判別器(すなわち分類器)は、病変を正確に識別できず、さらに、賞賛できる擬似健康画像の生成を阻害する。 そこで本研究では,新しいタイプの判別器であるセグメンタを用いて病変を正確に同定し,擬似健康画像の視覚的品質を向上させる。 次に, 医用画像の強調に生成画像を適用し, その拡張結果を利用して, 医用画像セグメンテーションに存在する低コントラスト問題に対処する。 さらに,合成画像の健全性を測定するためにラベルノイズの2つの特性を用いて,信頼性の高い指標を提案する。 ブラッツのt2モード性に関する包括的実験は,提案手法が最先端手法を実質的に上回っていることを示している。 この方法は、トレーニングデータの30\%しか持たない既存の方法よりも優れた性能を達成する。 提案手法の有効性は,BraTSのLiTSおよびT1モダリティにも示されている。 この研究のコードと事前トレーニングされたモデルはhttps://github.com/Au3C2/Generator-Versus-Segmentor.comで公開されている。

Synthesizing a subject-specific pathology-free image from a pathological image is valuable for algorithm development and clinical practice. In recent years, several approaches based on the Generative Adversarial Network (GAN) have achieved promising results in pseudo-healthy synthesis. However, the discriminator (i.e., a classifier) in the GAN cannot accurately identify lesions and further hampers from generating admirable pseudo-healthy images. To address this problem, we present a new type of discriminator, the segmentor, to accurately locate the lesions and improve the visual quality of pseudo-healthy images. Then, we apply the generated images into medical image enhancement and utilize the enhanced results to cope with the low contrast problem existing in medical image segmentation. Furthermore, a reliable metric is proposed by utilizing two attributes of label noise to measure the health of synthetic images. Comprehensive experiments on the T2 modality of BraTS demonstrate that the proposed method substantially outperforms the state-of-the-art methods. The method achieves better performance than the existing methods with only 30\% of the training data. The effectiveness of the proposed method is also demonstrated on the LiTS and the T1 modality of BraTS. The code and the pre-trained model of this study are publicly available at https://github.com/Au3C2/Generator-Versus-Segmentor.
翻訳日:2022-03-31 02:56:31 公開日:2022-03-29
# (参考訳) 学術的検索における言語モデルの非効率性:実験的ウォークスルー

The Inefficiency of Language Models in Scholarly Retrieval: An Experimental Walk-through ( http://arxiv.org/abs/2203.15364v1 )

ライセンス: CC BY 4.0
Shruti Singh and Mayank Singh(参考訳) 言語モデルは、AIを使った科学IRシステムでますます人気が高まっている。 本稿では,一般的な科学的言語モデルについて評価する。 (i)短文及び (ii)テキストの隣人。 実験では,最もリラックスした条件下であっても,関連文書を短時間で検索できないことを示した。 さらに、元のテキストに小さな摂動によって生成されたテキスト隣り合いを利用して、すべての摂動が埋め込み空間に近接した隣人をもたらすわけではないことを示す。 さらに、排他的分類は、直交的かつ意味的に関連し、部分的に関連し、完全に無関係な近傍のいくつかのクラスを与える。 検索性能はテキストのセマンティクスよりも表面形状の影響を受けやすいことが判明した。

Language models are increasingly becoming popular in AI-powered scientific IR systems. This paper evaluates popular scientific language models in handling (i) short-query texts and (ii) textual neighbors. Our experiments showcase the inability to retrieve relevant documents for a short-query text even under the most relaxed conditions. Additionally, we leverage textual neighbors, generated by small perturbations to the original text, to demonstrate that not all perturbations lead to close neighbors in the embedding space. Further, an exhaustive categorization yields several classes of orthographically and semantically related, partially related, and completely unrelated neighbors. Retrieval performance turns out to be more influenced by the surface form rather than the semantics of the text.
翻訳日:2022-03-31 02:34:17 公開日:2022-03-29
# (参考訳) AIと自律システムのための原理に基づく倫理的保証

A Principle-based Ethical Assurance Argument for AI and Autonomous Systems ( http://arxiv.org/abs/2203.15370v1 )

ライセンス: CC BY 4.0
Zoe Porter, Ibrahim Habli and John McDermid(参考訳) 保証ケースは、特定の文脈で意図されたようにシステムが動作するという証拠によって支持される明確かつ防御可能な主張を示す。 保証ケースは、しばしばシステムの第三者認証を通知します。 信頼できるaiおよび自律システム(as)研究コミュニティにおける新たな提案の一つは、特定の状況においてシステムが倫理的に許容されるという正当化された信頼を達成するために、保証ケース方法論を拡張して適用することである。 本稿では,倫理的保証事例の考え方を生かすために,本提案を発展させ,さらに前進させる。 まず,保証事例を記録・提示するために広く用いられている図式表記法である保証事例方法論と目標構造化表記法(gsn)について述べる。 第2に、AI/ASの設計と展開を導くための4つの中核的倫理原則について説明する。 第3に,これら2つのコンポーネントを組み合わせることで,倫理的保証の議論パターン – 倫理的保証ケースの再利用可能なテンプレート – を,4つの倫理的原則に基づいて構築する。 これを原則に基づく倫理保証のパターンと呼ぶ。 全体として、議論のステージをAI/ASアプリケーションやコンテキストの例に結びつける。 これは提案手法の最初の妥当性を示すのに役立つ。

An assurance case presents a clear and defensible argument, supported by evidence, that a system will operate as intended in a particular context. Assurance cases often inform third party certification of a system. One emerging proposal within the trustworthy AI and Autonomous Systems (AS) research community is to extend and apply the assurance case methodology to achieve justified confidence that a system will be ethically acceptable when used in a particular context. In this paper, we develop and further advance this proposal, in order to bring the idea of ethical assurance cases to life. First, we discuss the assurance case methodology and the Goal Structuring Notation (GSN), which is a graphical notation that is widely used to record and present assurance cases. Second, we describe four core ethical principles to guide the design and deployment of AI/AS: justice; beneficence; non-maleficence; and respect for personal autonomy. Third, we bring these two components together and structure an ethical assurance argument pattern - a reusable template for ethical assurance cases - on the basis of the four ethical principles. We call this a Principle-based Ethical Assurance Argument pattern. Throughout, we connect stages of the argument to examples of AI/AS applications and contexts. This helps to show the initial plausibility of the proposed methodology.
翻訳日:2022-03-31 02:13:36 公開日:2022-03-29
# (参考訳) マルチレベル融合によるスプーフィングアウェア話者照合

Spoofing-Aware Speaker Verification by Multi-Level Fusion ( http://arxiv.org/abs/2203.15377v1 )

ライセンス: CC0 1.0
Haibin Wu, Lingwei Meng, Jiawen Kang, Jinchao Li, Xu Li, Xixin Wu, Hung-yi Lee, Helen Meng(参考訳) 近年,スプーフィング攻撃に対処し,有望な対策(CM)を実現する新しい手法が数多く導入されている。 しかし、これらの作品は単独のcmモデルのみを考慮に入れている。 近年,統合型CMモデルとASVモデルの研究を促進することを目的とした,認識型話者検証(SASV)の課題が表面化しており,CMモデルとASVモデルの共同最適化がパフォーマンスの向上につながると主張している。 本稿では,SASVタスクに取り組むための新しいマルチモデルとマルチレベル融合戦略を提案する。 このフレームワークは、純粋にスコアリングされた融合および埋め込み融合法と比較して、まずCMモデルからの埋め込みを利用し、CMブロックにCM埋め込みを伝播してCMスコアを得る。 第2レベル融合では、ASVシステムから直接CMスコアとASVスコアが最終決定の予測ブロックに連結される。 その結果、最高の単核融合系は、評価セットで0.97%のSASV-EERを達成した。 その後、トップ5核融合系を組み立て、最終的なSASV-EERは0.89%に達した。

Recently, many novel techniques have been introduced to deal with spoofing attacks, and achieve promising countermeasure (CM) performances. However, these works only take the stand-alone CM models into account. Nowadays, a spoofing aware speaker verification (SASV) challenge which aims to facilitate the research of integrated CM and ASV models, arguing that jointly optimizing CM and ASV models will lead to better performance, is taking place. In this paper, we propose a novel multi-model and multi-level fusion strategy to tackle the SASV task. Compared with purely scoring fusion and embedding fusion methods, this framework first utilizes embeddings from CM models, propagating CM embeddings into a CM block to obtain a CM score. In the second-level fusion, the CM score and ASV scores directly from ASV systems will be concatenated into a prediction block for the final decision. As a result, the best single fusion system has achieved the SASV-EER of 0.97% on the evaluation set. Then by ensembling the top-5 fusion systems, the final SASV-EER reached 0.89%.
翻訳日:2022-03-31 02:12:32 公開日:2022-03-29
# (参考訳) ゼロショット映像分類のためのアライメント一様性を考慮した表現学習

Alignment-Uniformity aware Representation Learning for Zero-shot Video Classification ( http://arxiv.org/abs/2203.15381v1 )

ライセンス: CC BY 4.0
Shi Pu and Kaili Zhao and Mao Zheng(参考訳) ほとんどの手法は、目に見えないクラスに一般化を制限する視覚意味表現をアライメントすることで、ゼロショットビデオ分類に取り組む。 モデル一般化性を高めるため,両クラスにおける表現のアライメントと一様性を保持するエンドツーエンドフレームワークを提案する。 具体的には、教師付きコントラスト損失を定式化し、視覚的意味的特徴(すなわち、アライメント)を同時に整列させ、学習した特徴を均一に分配することを奨励する。 このアライメントのみを考慮した既存手法とは異なり、既存の特徴の最大インフォ保存のための均一性を提案し、観測されたデータに観測されない特徴が出現する確率を改善する。 さらに,見掛けたクラスの特徴を補間し外挿するクラスジェネレータを提案することで,見受けられないクラスの特徴を合成する。 さらに, 近接性と分散性という2つの指標を導入し, 2つの特性を定量化し, モデル一般化可能性の新しい尺度として機能する。 実験の結果,UCF101では28.1%,HMDB51では27.0%,SOTAでは28.1%が有意に向上した。 コードは利用可能。

Most methods tackle zero-shot video classification by aligning visual-semantic representations within seen classes, which limits generalization to unseen classes. To enhance model generalizability, this paper presents an end-to-end framework that preserves alignment and uniformity properties for representations on both seen and unseen classes. Specifically, we formulate a supervised contrastive loss to simultaneously align visual-semantic features (i.e., alignment) and encourage the learned features to distribute uniformly (i.e., uniformity). Unlike existing methods that only consider the alignment, we propose uniformity to preserve maximal-info of existing features, which improves the probability that unobserved features fall around observed data. Further, we synthesize features of unseen classes by proposing a class generator that interpolates and extrapolates the features of seen classes. Besides, we introduce two metrics, closeness and dispersion, to quantify the two properties and serve as new measurements of model generalizability. Experiments show that our method significantly outperforms SoTA by relative improvements of 28.1% on UCF101 and 27.0% on HMDB51. Code is available.
翻訳日:2022-03-31 01:59:19 公開日:2022-03-29
# (参考訳) ReIL: インターベンションに基づく模倣学習のためのフレームワーク

ReIL: A Framework for Reinforced Intervention-based Imitation Learning ( http://arxiv.org/abs/2203.15390v1 )

ライセンス: CC BY 4.0
Rom Parnichkun, Matthew N. Dailey, Atsushi Yamashita(参考訳) DAggerやDARTのような従来の模倣学習手法と比較して、介入に基づく模倣はより便利でサンプルの効率的なデータ収集プロセスを提供する。 本稿では,Reinforced Intervention-based Learning(ReIL)について紹介する。Reinforced Intervention-based Learning(ReIL)は,一般の介入に基づく学習アルゴリズムと,非エキスパートユーザによる実環境におけるエージェントの訓練を,監督や微調整がほとんどないマルチタスク模倣学習モデルである。 ReILはこれを、模倣学習と強化学習の利点と、実証、過去の経験、現在の観察を同時に処理できるモデルを組み合わせたアルゴリズムで実現している。 実世界の移動ロボットナビゲーションの課題から,HG-Dagger や IWR などの教師あり学習法の特徴である性能の劣化に悩まされることなく,ReIL はスパーススーパーバイザ補正から急速に学習することを示す。 また、IARLやEGPOのような介入に基づく他の手法とは対照的に、ReILは任意の報酬関数を追加のヒューリスティクスを使わずにトレーニングに利用できることを示した。

Compared to traditional imitation learning methods such as DAgger and DART, intervention-based imitation offers a more convenient and sample efficient data collection process to users. In this paper, we introduce Reinforced Intervention-based Learning (ReIL), a framework consisting of a general intervention-based learning algorithm and a multi-task imitation learning model aimed at enabling non-expert users to train agents in real environments with little supervision or fine tuning. ReIL achieves this with an algorithm that combines the advantages of imitation learning and reinforcement learning and a model capable of concurrently processing demonstrations, past experience, and current observations. Experimental results from real world mobile robot navigation challenges indicate that ReIL learns rapidly from sparse supervisor corrections without suffering deterioration in performance that is characteristic of supervised learning-based methods such as HG-Dagger and IWR. The results also demonstrate that in contrast to other intervention-based methods such as IARL and EGPO, ReIL can utilize an arbitrary reward function for training without any additional heuristics.
翻訳日:2022-03-31 01:42:12 公開日:2022-03-29
# (参考訳) 効率的なハイブリッドネットワーク:散乱特性の誘導

Efficient Hybrid Network: Inducting Scattering Features ( http://arxiv.org/abs/2203.15392v1 )

ライセンス: CC BY-SA 4.0
Dmitry Minskiy, Miroslaw Bober(参考訳) 最近の研究によると、単一のアーキテクチャ内で事前定義されたフィルタと学習されたフィルタを組み合わせたハイブリッドネットワークは、理論的解析に適しており、データ制限シナリオの過度な適合性が低い。 しかし、その性能は、十分な量のトレーニングデータが利用可能である場合、従来のものとは競合していない。 現在のハイブリッドネットワークのこの中核的限界に対処するために,効率的なハイブリッドネットワーク(E-HybridNet)を導入する。 様々なデータセットにおいて従来の手法を一貫して上回り、散乱に基づく最初のアプローチであることを示す。 ハイブリッド融合ブロックを用いたネットワークフローに散乱機能を組み込んだ,新しいインダクティブアーキテクチャによって実現されている。 また,提案手法が先行するハイブリッドネットワークの重要な特性を継承していることを示す。 私たちのアプローチは、学習特徴の柔軟性とパワー、散乱表現の安定性と予測可能性という2つの世界のベストをうまく組み合わせています。

Recent work showed that hybrid networks, which combine predefined and learnt filters within a single architecture, are more amenable to theoretical analysis and less prone to overfitting in data-limited scenarios. However, their performance has yet to prove competitive against the conventional counterparts when sufficient amounts of training data are available. In an attempt to address this core limitation of current hybrid networks, we introduce an Efficient Hybrid Network (E-HybridNet). We show that it is the first scattering based approach that consistently outperforms its conventional counterparts on a diverse range of datasets. It is achieved with a novel inductive architecture that embeds scattering features into the network flow using Hybrid Fusion Blocks. We also demonstrate that the proposed design inherits the key property of prior hybrid networks -- an effective generalisation in data-limited scenarios. Our approach successfully combines the best of the two worlds: flexibility and power of learnt features and stability and predictability of scattering representations.
翻訳日:2022-03-31 01:27:43 公開日:2022-03-29
# (参考訳) 行動への学習: ベストな次のアクティビティを推奨する強化学習アプローチ

Learning to act: a Reinforcement Learning approach to recommend the best next activities ( http://arxiv.org/abs/2203.15398v1 )

ライセンス: CC BY 4.0
Stefano Branchi, Chiara Di Francescomarino, Chiara Ghidini, David Massimo, Francesco Ricci and Massimiliano Ronzani(参考訳) プロセスデータ可用性の上昇は、過去10年間にいくつかのデータ駆動学習アプローチの開発につながった。 しかしながら、これらのアプローチのほとんどは、進行中のプロセス実行の将来を予測するために学習モデルを使用することに制限されている。 本研究の目的は、パフォーマンスの指標を最適化するために、ユーザに最良戦略を推奨することで、行動を学ぶことを目的として、一歩前進し、データを活用することである。 本稿では,1つのプロセスアクターの(最適化)視点を捉え,外因性要因を制御できない複雑な外部環境において何が起こるかに応じて,次に実行する最善のアクティビティを推奨する。 本研究の目的は,過去の実行を観察する上で最適な政策である強化学習を用いて学習し,重要なパフォーマンス指標を最適化するための最善の行動を提案するアプローチを検討することである。 このアプローチの可能性は、実生活データから得られた2つのシナリオで実証されている。

The rise of process data availability has led in the last decade to the development of several data-driven learning approaches. However, most of these approaches limit themselves to use the learned model to predict the future of ongoing process executions. The goal of this paper is moving a step forward and leveraging data with the purpose of learning to act by supporting users with recommendations for the best strategy to follow, in order to optimize a measure of performance. In this paper, we take the (optimization) perspective of one process actor and we recommend the best activities to execute next, in response to what happens in a complex external environment, where there is no control on exogenous factors. To this aim, we investigate an approach that learns, by means of Reinforcement Learning, an optimal policy from the observation of past executions and recommends the best activities to carry on for optimizing a Key Performance Indicator of interest. The potentiality of the approach has been demonstrated on two scenarios taken from real-life data.
翻訳日:2022-03-31 01:17:41 公開日:2022-03-29
# (参考訳) 動的に変化する環境における短期単語学習

Short-Term Word-Learning in a Dynamically Changing Environment ( http://arxiv.org/abs/2203.15404v1 )

ライセンス: CC BY-SA 4.0
Christian Huber, Rishu Kumar, Ond\v{r}ej Bojar, Alexander Waibel(参考訳) 適切なモデリングユニットを使用する場合、ニューラルネットワークのシーケンスからシーケンスへの自動音声認識(asr)システムは原則としてオープンボキャブラリシステムである。 しかし実際には、訓練中に見られない単語、例えば名前付きエンティティ、番号、技術的用語を認識できないことが多い。 この問題を軽減するため、huberらは、単語/フレーズメモリとこのメモリにアクセスして単語やフレーズを正しく認識するメカニズムをエンドツーエンドのasrシステムで補うことを提案した。 本稿では,研究する。 a) この記憶の重要な単語を動的かつ動的に取得する方法 b)新規単語の認識精度の向上と追加単語に対する誤報の危険性とのトレードオフ 適切な数の新しい単語を使用すると、誤報がわずかに増加する(f1 スコア 0.30$\rightarrow$ 0.80)だけで、新しい単語の検出速度が著しく改善する。 さらに,支援文書から重要なキーワードを抽出し,効果的に活用できることを示す。

Neural sequence-to-sequence automatic speech recognition (ASR) systems are in principle open vocabulary systems, when using appropriate modeling units. In practice, however, they often fail to recognize words not seen during training, e.g., named entities, numbers or technical terms. To alleviate this problem, Huber et al. proposed to supplement an end-to-end ASR system with a word/phrase memory and a mechanism to access this memory to recognize the words and phrases correctly. In this paper we study, a) methods to acquire important words for this memory dynamically and, b) the trade-off between improvement in recognition accuracy of new words and the potential danger of false alarms for those added words. We demonstrate significant improvements in the detection rate of new words with only a minor increase in false alarms (F1 score 0.30 $\rightarrow$ 0.80), when using an appropriate number of new words. In addition, we show that important keywords can be extracted from supporting documents and used effectively.
翻訳日:2022-03-31 01:01:48 公開日:2022-03-29
# (参考訳) TransGAN:ノベルティ検出のためのトランスダクティブ・逆数モデル

TransGAN: a Transductive Adversarial Model for Novelty Detection ( http://arxiv.org/abs/2203.15406v1 )

ライセンス: CC BY-SA 4.0
Najiba Toron, Janaina Mourao-Miranda, John Shawe-Taylor(参考訳) 機械学習において広く研究されているノベルティ検出は、これまで観測されていない新しい種類のデータを検出する問題である。 ノベルティ検出の一般的な設定は、トレーニング期間中に負のクラスの例のみが利用可能となる誘導的である。 一方、トランスダクティブノベルティ検出は、最近の関心の高まりを目撃したばかりでなく、トレーニング中に負のクラスを利用するだけでなく、新しい例を検出するための(ラベルのない)テストセットも組み込んでいる。 いくつかの研究がトランスダクティブ・セッティング・傘の下に現れ、インダクティブ・セッティング・傘よりも優位性を示している。 データに関する仮定によっては、これらの手法は異なる名前(トランスダクティブ・ノベルティ検出、半教師付きノベルティ検出、ポジティブ・ラベル付き学習、分布外検出など)で行われる。 generative adversarial network (gan) の使用により、これらの研究のセグメントは、新しいクラスの例を生成する方法を学ぶために、トランスダクティブな設定を採用した。 本研究では, 潜在空間における2つのガウス系を混合することにより, 新規クラスと負クラスの両方から画像例を生成する方法を学習しようとする, トランスダクティブ生成逆ネットワークであるtransganを提案する。 GANネットワークに対向オートエンコーダを組み込むことで、新しいデータポイントの例を生成する能力は、新規性の視覚的表現を提供するだけでなく、決定規則レベルでモデルハイパーパラメータをチューニングする方法の多くの誘導的手法が直面するハードルを克服する。 我々のモデルは最先端のインダクティブ法やトランスダクティブ法よりも優れた性能を示した。 私たちの研究は完全に再現可能で、コードは公開されています。

Novelty detection, a widely studied problem in machine learning, is the problem of detecting a novel class of data that has not been previously observed. A common setting for novelty detection is inductive whereby only examples of the negative class are available during training time. Transductive novelty detection on the other hand has only witnessed a recent surge in interest, it not only makes use of the negative class during training but also incorporates the (unlabeled) test set to detect novel examples. Several studies have emerged under the transductive setting umbrella that have demonstrated its advantage over its inductive counterpart. Depending on the assumptions about the data, these methods go by different names (e.g. transductive novelty detection, semi-supervised novelty detection, positive-unlabeled learning, out-of-distribution detection). With the use of generative adversarial networks (GAN), a segment of those studies have adopted a transductive setup in order to learn how to generate examples of the novel class. In this study, we propose TransGAN, a transductive generative adversarial network that attempts to learn how to generate image examples from both the novel and negative classes by using a mixture of two Gaussians in the latent space. It achieves that by incorporating an adversarial autoencoder with a GAN network, the ability to generate examples of novel data points offers not only a visual representation of novelties, but also overcomes the hurdle faced by many inductive methods of how to tune the model hyperparameters at the decision rule level. Our model has shown superior performance over state-of-the-art inductive and transductive methods. Our study is fully reproducible with the code available publicly.
翻訳日:2022-03-31 00:55:23 公開日:2022-03-29
# (参考訳) Ptychographyにおけるデータ駆動型適応走査のための深層強化学習

Deep Reinforcement Learning for Data-Driven Adaptive Scanning in Ptychography ( http://arxiv.org/abs/2203.15413v1 )

ライセンス: CC BY 4.0
Marcel Schloz, Johannes M\"uller, Thomas C. Pekin, Wouter Van den Broek, Christoph T. Koch(参考訳) そこで本研究では,標本を適応的に走査することにより,ptychographyの再構築に必要な線量を削減する手法を提案する。 提案手法は,学習データセットから標本構造の事前知識を用いて,強化学習(RL)により訓練された深層学習モデルに基づいて構築される。 適応型スキャンによる同等の低用量実験は, 再現能の点で従来のポチトグラフィー実験より優れていた。

We present a method that lowers the dose required for a ptychographic reconstruction by adaptively scanning the specimen, thereby providing the required spatial information redundancy in the regions of highest importance. The proposed method is built upon a deep learning model that is trained by reinforcement learning (RL), using prior knowledge of the specimen structure from training data sets. We show that equivalent low-dose experiments using adaptive scanning outperform conventional ptychography experiments in terms of reconstruction resolution.
翻訳日:2022-03-31 00:38:14 公開日:2022-03-29
# (参考訳) 英名多元化の意味的特性:単語埋め込みからの考察

Semantic properties of English nominal pluralization: Insights from word embeddings ( http://arxiv.org/abs/2203.15424v1 )

ライセンス: CC BY 4.0
Elnaz Shafaei-Bajestan, Masoumeh Moradipour-Tari, Peter Uhrig, R. Harald Baayen(参考訳) 名目多元化の意味分化は多くの言語で文法化されている。 例えば、複数のマーカーは人間の名詞にのみ関連がある。 英語はそのような区別をしていないようだ。 分布的意味論を用いて,英語の公称多重化が意味クラスタを示すことを示す。 例えば、果実語の多重化は互いに似ており、他の意味クラスの多重化とは似ていない。 したがって、抽象的な複数の意味の追加による複数の形成における意味のシフトの減少は単純すぎる。 CosClassAvgと呼ばれるセマンティックインフォームドメソッドは、複数の生成量を仮定する分布意味論において、固定された複数ベクトルの追加に対して、多重化方法より優れる。 提案手法と比較して,FRACSSと呼ばれる構成分布意味論の手法は,コーパス抽出された複数のベクトルとよりよく似ているがベクトル長ではない複数のベクトルを予測した。 CosClassAvg と FRACSS による2つの予測意味空間の観測結果の違いは、リスナーの計算モデルがこれまで説明されていなかった複数の形式をいかにうまく理解できるかを物語っている。 cosclassavg生成意味ベクトルをfracss生成ベクトルの代わりにゴールド標準ベクトルとして使う場合、三音ベクトルで表される単語形式から予測意味ベクトルへのマッピングはより生産的になる。

Semantic differentiation of nominal pluralization is grammaticalized in many languages. For example, plural markers may only be relevant for human nouns. English does not appear to make such distinctions. Using distributional semantics, we show that English nominal pluralization exhibits semantic clusters. For instance, pluralization of fruit words is more similar to one another and less similar to pluralization of other semantic classes. Therefore, reduction of the meaning shift in plural formation to the addition of an abstract plural meaning is too simplistic. A semantically informed method, called CosClassAvg, is introduced that outperforms pluralization methods in distributional semantics which assume plural formation amounts to the addition of a fixed plural vector. In comparison with our approach, a method from compositional distributional semantics, called FRACSS, predicted plural vectors that were more similar to the corpus-extracted plural vectors in terms of direction but not vector length. A modeling study reveals that the observed difference between the two predicted semantic spaces by CosClassAvg and FRACSS carries over to how well a computational model of the listener can understand previously unencountered plural forms. Mappings from word forms, represented with triphone vectors, to predicted semantic vectors are more productive when CosClassAvg-generated semantic vectors are employed as gold standard vectors instead of FRACSS-generated vectors.
翻訳日:2022-03-31 00:17:51 公開日:2022-03-29
# (参考訳) 強化学習,エフェクトハンドラー,国家モナドについて

On Reinforcement Learning, Effect Handlers, and the State Monad ( http://arxiv.org/abs/2203.15426v1 )

ライセンス: CC BY 4.0
Ugo Dal Lago, Francesco Gavazzo and Alexis Ghyselen(参考訳) 関数型プログラムにおける意思決定抽象化を支援する方法として代数的効果とハンドラを検討した。一方,ユーザは学習アルゴリズムに選択機構を実装せずに選択の解決を依頼し,報酬の方法によるフィードバックを与えることができる。 選択モナド(Abadi and Plotkin, LICS 2021)に基づく問題に対する最近提案されたアプローチとは違って、我々は、選択と報酬を含む代数的操作のハンドラセットとして実装された強化学習アルゴリズムとして、基礎となるインテリジェンスを表現する。 私たちは実際に、プログラミング言語effで利用可能な代数演算とハンドラを使用して、学習アルゴリズムをその環境から明確に分離し、適切なレベルのモジュール化を可能にする方法を示します。 次に、ホスト言語をハンドラを備えたラムダ計算として捉える方法を示し、本質的な言語的特徴が何であるかを示す。 我々は、タイプとエフェクトシステムがいかに安全性を確保できるかを示唆するとともに、さらなる作業の方向性を指摘することで結論付けた。

We study the algebraic effects and handlers as a way to support decision-making abstractions in functional programs, whereas a user can ask a learning algorithm to resolve choices without implementing the underlying selection mechanism, and give a feedback by way of rewards. Differently from some recently proposed approach to the problem based on the selection monad [Abadi and Plotkin, LICS 2021], we express the underlying intelligence as a reinforcement learning algorithm implemented as a set of handlers for some of these algebraic operations, including those for choices and rewards. We show how we can in practice use algebraic operations and handlers -- as available in the programming language EFF -- to clearly separate the learning algorithm from its environment, thus allowing for a good level of modularity. We then show how the host language can be taken as a lambda-calculus with handlers, this way showing what the essential linguistic features are. We conclude by hinting at how type and effect systems could ensure safety properties, at the same time pointing at some directions for further work.
翻訳日:2022-03-31 00:16:47 公開日:2022-03-29
# (参考訳) 特徴伝搬による長期ビデオフレーム補間

Long-term Video Frame Interpolation via Feature Propagation ( http://arxiv.org/abs/2203.15427v1 )

ライセンス: CC BY 4.0
Dawit Mureja Argaw and In So Kweon(参考訳) ビデオフレーム補間(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間に出力することで、中間フレーム(s)を予測する。 しかし、既存の動き推定モジュールが大きな動きを効果的に扱えないため、入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。 したがって、VFI作業は小さなフレームギャップに対して良好に動作し、フレームギャップが増加するにつれて性能が低下する。 本稿では,この問題に対処するための新しい枠組みを提案する。 入力の間に大きなギャップがある場合、最終的に不正確な補間につながる不正確な動きを見積もる代わりに、入力の一方からもう一方の入力を基準として信頼できる時間枠まで安全に伝播することができると論じる。 そして、時間的ギャップが狭まるにつれて、他の中間フレームを標準アプローチで補間することができる。 そこで本研究では,従来の特徴量予測を新しい動きから特徴へのアプローチで拡張し,伝播ネットワーク(pnet)を提案する。 徹底的に言うと、私たちはPNetとともに単純な補間モデルを採用し、エンドツーエンドでモデル全体をトレーニングするための簡単な手順を設計します。 いくつかのベンチマークデータセットによる実験結果から,本手法の長期VFIに対する有効性が確認された。

Video frame interpolation (VFI) works generally predict intermediate frame(s) by first estimating the motion between inputs and then warping the inputs to the target time with the estimated motion. This approach, however, is not optimal when the temporal distance between the input sequence increases as existing motion estimation modules cannot effectively handle large motions. Hence, VFI works perform well for small frame gaps and perform poorly as the frame gap increases. In this work, we propose a novel framework to address this problem. We argue that when there is a large gap between inputs, instead of estimating imprecise motion that will eventually lead to inaccurate interpolation, we can safely propagate from one side of the input up to a reliable time frame using the other input as a reference. Then, the rest of the intermediate frames can be interpolated using standard approaches as the temporal gap is now narrowed. To this end, we propose a propagation network (PNet) by extending the classic feature-level forecasting with a novel motion-to-feature approach. To be thorough, we adopt a simple interpolation model along with PNet as our full model and design a simple procedure to train the full model in an end-to-end manner. Experimental results on several benchmark datasets confirm the effectiveness of our method for long-term VFI compared to state-of-the-art approaches.
翻訳日:2022-03-30 23:34:14 公開日:2022-03-29
# (参考訳) WeNet 2.0: より生産的なエンドツーエンド音声認識ツールキット

WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit ( http://arxiv.org/abs/2203.15455v1 )

ライセンス: CC BY 4.0
Binbin Zhang, Di Wu, Zhendong Peng, Xingchen Song, Zhuoyuan Yao, Hang Lv, Lei Xie, Chao Yang, Fuping Pan, Jianwei Niu(参考訳) 近年,製品指向のエンドツーエンド音声認識ツールキットであるWeNetが利用可能となり,統一された2パス(U2)フレームワークと,単一モデルにおけるストリーミングおよび非ストリーミングデコーディングモードに対応する組込みランタイムが導入された。 本稿では,asrの性能をさらに向上し,様々な生産要件を容易にするために,4つの重要なアップデートを含むwenet 2.0を提案する。 1) 双方向注意デコーダを備えた統合型2パスフレームワークであるu2++を提案し, 共有エンコーダの代表的能力とリコーダ時の性能を向上させるため, 右から左への注意デコーダによる将来の文脈情報を含む。 2) n-gramベースの言語モデルとWFSTベースのデコーダをWeNet 2.0に導入し,実運用シナリオにおけるリッチテキストデータの利用を促進する。 (3) ユーザ固有のコンテキスト(連絡先リストなど)を活用する統合コンテキストバイアスフレームワークを設計し、生産に迅速に適応し、with-LMシナリオとless-LMシナリオの両方においてASR精度を向上させる。 (4) モデル学習に有効な大規模データをサポートする統合IOを設計する。 まとめると、新しいWeNet 2.0は、様々なコーパス上のオリジナルのWeNetよりも最大10%の相対的な認識性能向上を実現し、いくつかの重要なプロダクション指向の機能を提供している。

Recently, we made available WeNet, a production-oriented end-to-end speech recognition toolkit, which introduces a unified two-pass (U2) framework and a built-in runtime to address the streaming and non-streaming decoding modes in a single model. To further improve ASR performance and facilitate various production requirements, in this paper, we present WeNet 2.0 with four important updates. (1) We propose U2++, a unified two-pass framework with bidirectional attention decoders, which includes the future contextual information by a right-to-left attention decoder to improve the representative ability of the shared encoder and the performance during the rescoring stage. (2) We introduce an n-gram based language model and a WFST-based decoder into WeNet 2.0, promoting the use of rich text data in production scenarios. (3) We design a unified contextual biasing framework, which leverages user-specific context (e.g., contact lists) to provide rapid adaptation ability for production and improves ASR accuracy in both with-LM and without-LM scenarios. (4) We design a unified IO to support large-scale data for effective model training. In summary, the brand-new WeNet 2.0 achieves up to 10\% relative recognition performance improvement over the original WeNet on various corpora and makes available several important production-oriented features.
翻訳日:2022-03-30 23:33:11 公開日:2022-03-29
# (参考訳) 複数配列アライメントを訓練したタンパク質言語モデルは系統関係を学習する

Protein language models trained on multiple sequence alignments learn phylogenetic relationships ( http://arxiv.org/abs/2203.15465v1 )

ライセンス: CC BY 4.0
Umberto Lupo, Damiano Sgarbossa, Anne-Florence Bitbol(参考訳) 近年,注目される自己教師付きニューラルネットワークモデルが,生物配列データ,構造,機能,突然変異効果予測に応用されている。 msaトランスフォーマーやalphafold's evoformerを含むいくつかのタンパク質言語モデルは、進化的に関連するタンパク質の多重配列アライメント(msas)を入力とする。 MSAトランスフォーマーの行アテンションの単純な組み合わせは、最先端の非教師なし構造接触予測に繋がった。 同様に単純で普遍的なMSAトランスフォーマーのカラムアテンションの組み合わせは、MSAのシーケンス間のハミング距離と強く相関していることを示す。 したがって、MSAに基づく言語モデルは、詳細な系統関係を符号化する。 これにより、機能的および構造的制約をコードする共進化的シグナルと、歴史的な偶然から生じる系統学的相関を分離することができる。 この仮説をテストするために、自然のMSAで訓練されたPottsモデルから、植物学の有無にかかわらず、合成MSAを生成する。 我々は,MSA変換器と推定ポッツモデルを用いた場合,教師なし接触予測は系統的ノイズに対して極めて耐性が高いことを示した。

Self-supervised neural language models with attention have recently been applied to biological sequence data, advancing structure, function and mutational effect prediction. Some protein language models, including MSA Transformer and AlphaFold's EvoFormer, take multiple sequence alignments (MSAs) of evolutionarily related proteins as inputs. Simple combinations of MSA Transformer's row attentions have led to state-of-the-art unsupervised structural contact prediction. We demonstrate that similarly simple, and universal, combinations of MSA Transformer's column attentions strongly correlate with Hamming distances between sequences in MSAs. Therefore, MSA-based language models encode detailed phylogenetic relationships. This could aid them to separate coevolutionary signals encoding functional and structural constraints from phylogenetic correlations arising from historical contingency. To test this hypothesis, we generate synthetic MSAs, either without or with phylogeny, from Potts models trained on natural MSAs. We demonstrate that unsupervised contact prediction is indeed substantially more resilient to phylogenetic noise when using MSA Transformer versus inferred Potts models.
翻訳日:2022-03-30 23:16:06 公開日:2022-03-29
# (参考訳) エンドツーエンド音声翻訳のためのセグメンテーションバイリンガル音声コーパスを用いた音声分割最適化

Speech Segmentation Optimization using Segmented Bilingual Speech Corpus for End-to-end Speech Translation ( http://arxiv.org/abs/2203.15479v1 )

ライセンス: CC BY 4.0
Ryo Fukuda, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 長い音声を短いセグメントに分割する音声セグメント化は、音声翻訳(ST)に必須である。 WebRTC VADのような一般的なVADツールは、一般的に停止ベースのセグメンテーションに依存している。 残念なことに、音声のポーズは必ずしも文の境界と一致せず、文はvadによって検出するのが難しい非常に短いポーズで繋がることができる。 本研究では,二言語音声コーパスを用いた二分分類モデルを用いた音声セグメンテーション手法を提案する。 また,vadと上記音声セグメンテーションを組み合わせたハイブリッド手法を提案する。 実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。 ハイブリッドアプローチは翻訳性能をさらに向上させた。

Speech segmentation, which splits long speech into short segments, is essential for speech translation (ST). Popular VAD tools like WebRTC VAD have generally relied on pause-based segmentation. Unfortunately, pauses in speech do not necessarily match sentence boundaries, and sentences can be connected by a very short pause that is difficult to detect by VAD. In this study, we propose a speech segmentation method using a binary classification model trained using a segmented bilingual speech corpus. We also propose a hybrid method that combines VAD and the above speech segmentation method. Experimental results revealed that the proposed method is more suitable for cascade and end-to-end ST systems than conventional segmentation methods. The hybrid approach further improved the translation performance.
翻訳日:2022-03-30 22:46:53 公開日:2022-03-29
# (参考訳) What you say」と「What you say」を表わす : 英語のコーパスとそれに対応する意味を反映したテキスト

Representing `how you say' with `what you say': English corpus of focused speech and text reflecting corresponding implications ( http://arxiv.org/abs/2203.15483v1 )

ライセンス: CC BY 4.0
Naoaki Suzuki, Satoshi Nakamura(参考訳) 音声コミュニケーションにおいて、何を言うか(パラ言語情報)は、何を言うか(言語情報)と同じくらい重要である。 パラ言語情報の一種として、英語の音声は、強調を伝えるために、文内の最も重い発音である文ストレスを使用する。 文ストレスの異なる配置は、異なる強調的意味を伝達するが、現在の音声翻訳システムは、発話が言語的に同一であれば、同じ翻訳を返す。 フォーカスを重視し,語彙的および文法的装置を用いて,言語的情報をソース言語内の言語領域にマッピングすることを提案する。 本手法により,原文の書き起こしに代えて言い換え文の表現を翻訳し,パラ言語情報を保持する翻訳を得ることができる。 第一段階として,音声の暗黙的意味を反映するように設計された対応するテキストとともに,焦点配置が異なる音声を含む英語コーパスの収集について述べる。 また, コーパスの分析では, パラ言語領域から言語領域への焦点のマッピングには様々な語彙的, 文法的手法が関係していた。 我々の分析から得られたデータと洞察は、パラ言語翻訳の研究をさらに進める。 コーパスはlcc経由で公開される。

In speech communication, how something is said (paralinguistic information) is as crucial as what is said (linguistic information). As a type of paralinguistic information, English speech uses sentence stress, the heaviest prominence within a sentence, to convey emphasis. While different placements of sentence stress communicate different emphatic implications, current speech translation systems return the same translations if the utterances are linguistically identical, losing paralinguistic information. Concentrating on focus, a type of emphasis, we propose mapping paralinguistic information into the linguistic domain within the source language using lexical and grammatical devices. This method enables us to translate the paraphrased text representations instead of the transcription of the original speech and obtain translations that preserve paralinguistic information. As a first step, we present the collection of an English corpus containing speech that differed in the placement of focus along with the corresponding text, which was designed to reflect the implied meaning of the speech. Also, analyses of our corpus demonstrated that mapping of focus from the paralinguistic domain into the linguistic domain involved various lexical and grammatical methods. The data and insights from our analysis will further advance research into paralinguistic translation. The corpus will be published via LDC.
翻訳日:2022-03-30 22:33:52 公開日:2022-03-29
# (参考訳) 時間最適定数加速度ランデブーの神経表現

Neural representation of a time optimal, constant acceleration rendezvous ( http://arxiv.org/abs/2203.15490v1 )

ライセンス: CC BY 4.0
Dario Izzo and Sebastien Origer(参考訳) 我々は、最適政策(すなわち最適な推力方向)と値関数(すなわち飛行時間)の両方を表現するために、時間最適で一定加速度の低推力ランデブーをニューラルネットワークで訓練する。 いずれの場合も、データ拡張技術を開発し、利用し、最適な例を後方に生成する。 これにより、大規模なデータセットを作成して作業し、ディープラーニングフレームワークを使用するメリットを完全に活用することができます。 いずれの場合も、ランデブー(学習した方針に従ってシミュレーションされる)と飛行予測(学習された価値関数を使用して)を成功させる確率を達成する。 我々は、残りが数m/sほど小さく、そのため宇宙船の航法予算である\delta v$ がランデブーの速度で達成可能であることを発見した。 また、平均して、小惑星帯の任意の軌道から地球に似た軌道にランデブーする最適飛行時間を予測する絶対誤差は(4\%未満)小さく、例えば予備ミッション設計段階での実用的利用にも興味がある。

We train neural models to represent both the optimal policy (i.e. the optimal thrust direction) and the value function (i.e. the time of flight) for a time optimal, constant acceleration low-thrust rendezvous. In both cases we develop and make use of the data augmentation technique we call backward generation of optimal examples. We are thus able to produce and work with large dataset and to fully exploit the benefit of employing a deep learning framework. We achieve, in all cases, accuracies resulting in successful rendezvous (simulated following the learned policy) and time of flight predictions (using the learned value function). We find that residuals as small as a few m/s, thus well within the possibility of a spacecraft navigation $\Delta V$ budget, are achievable for the velocity at rendezvous. We also find that, on average, the absolute error to predict the optimal time of flight to rendezvous from any orbit in the asteroid belt to an Earth-like orbit is small (less than 4\%) and thus also of interest for practical uses, for example, during preliminary mission design phases.
翻訳日:2022-03-30 22:22:45 公開日:2022-03-29
# (参考訳) 半自動APIラッピングによる機械学習APIの学習性向上

Improving the Learnability of Machine Learning APIs by Semi-Automated API Wrapping ( http://arxiv.org/abs/2203.15491v1 )

ライセンス: CC BY 4.0
Lars Reimann, G\"unter Kniesel-W\"unsche(参考訳) 機械学習(ML)の世界に参入したい学生やプロのソフトウェア開発者にとって、大きなハードルは、科学的なバックグラウンドだけでなく、利用可能なML APIも習得することだ。 したがって、学習や使用が容易なAPI、特に初心者によるAPI作成の課題に対処する。 しかし, 表現性を損なうことなく, どのように実現できるかは明らかでない。 本稿では,広く使用されているML APIである \skl{} について検討する。 本稿では,kaggleコミュニティによる利用状況を分析し,クライアントプログラムに影響を与えずに削除できるapiの未使用で明らかに役に立たない部分を特定する。 さらに、残りの部分におけるユーザビリティの問題について議論し、関連する設計改善を提案し、既存のサードパーティAPIを半自動でラップして実装する方法を示す。

A major hurdle for students and professional software developers who want to enter the world of machine learning (ML), is mastering not just the scientific background but also the available ML APIs. Therefore, we address the challenge of creating APIs that are easy to learn and use, especially by novices. However, it is not clear how this can be achieved without compromising expressiveness. We investigate this problem for \skl{}, a widely used ML API. In this paper, we analyze its use by the Kaggle community, identifying unused and apparently useless parts of the API that can be eliminated without affecting client programs. In addition, we discuss usability issues in the remaining parts, propose related design improvements and show how they can be implemented by semi-automated wrapping of the existing third-party API.
翻訳日:2022-03-30 22:07:55 公開日:2022-03-29
# (参考訳) ソフトウェア工学技術による応用機械学習における指導の達成

Achieving Guidance in Applied Machine Learning through Software Engineering Techniques ( http://arxiv.org/abs/2203.15510v1 )

ライセンス: CC BY 4.0
Lars Reimann, G\"unter Kniesel-W\"unsche(参考訳) 機械学習(ML)アプリケーションの開発は難しい。 成功したアプリケーションを作るには、様々な複雑で迅速に進化するアプリケーションプログラミングインターフェース(api)に精通する必要がある。 したがって、開発者がこれらのapiを学べない理由を理解し、開発時に適切に使用し、デバッグに関して何がうまくいかなかったのかを理解することが重要です。 私たちは、現在開発環境とML APIを使っている(多くの)ガイダンスを、MLアプリケーションの開発者に提供し、これらをソフトウェアエンジニアリングのベストプラクティスと対比し、最先端技術におけるギャップを特定します。 現在のMLツールは、いくつかの基本的なソフトウェアエンジニアリング標準を満たすには足りず、ソフトウェアエンジニアリングの概念、ツール、テクニックをMLアプリケーション開発の特別なニーズに合わせて拡張し、適応させる必要がある方法を指摘する。 この結果から,ML固有のソフトウェア工学の研究に十分な機会があることが示唆された。

Development of machine learning (ML) applications is hard. Producing successful applications requires, among others, being deeply familiar with a variety of complex and quickly evolving application programming interfaces (APIs). It is therefore critical to understand what prevents developers from learning these APIs, using them properly at development time, and understanding what went wrong when it comes to debugging. We look at the (lack of) guidance that currently used development environments and ML APIs provide to developers of ML applications, contrast these with software engineering best practices, and identify gaps in the current state of the art. We show that current ML tools fall short of fulfilling some basic software engineering gold standards and point out ways in which software engineering concepts, tools and techniques need to be extended and adapted to match the special needs of ML application development. Our findings point out ample opportunities for research on ML-specific software engineering.
翻訳日:2022-03-30 21:58:20 公開日:2022-03-29
# (参考訳) 多様なルールセットによるランダム森林予測の解説

Explaining random forest prediction through diverse rulesets ( http://arxiv.org/abs/2203.15511v1 )

ライセンス: CC BY 4.0
Klest Dedja, Felipe Kenji Nakano, Konstantinos Pliakos, Celine Vens(参考訳) ランダムフォレストのようなツリーアンサンブルアルゴリズムは、柔軟性、高いパフォーマンス、過度な適合に対する堅牢性で人気のある機械学習手法である。 しかし、複数の学習者が組み合わさっているため、単一の決定木ほど解釈できない。 本研究では,各テストインスタンスの森林予測を多種多様なルールで説明できるLocal Tree eXtractor (LTreeX) という方法論を提案する。 ランダム・フォレストが生成した決定木を出発点として 1) サブセットを事前に選択する。 2)ベクトル表現を作成し、 3) 最終的にそのような表現をクラスタ化する。 各クラスタプロトタイプは、テストインスタンスの予測を説明するルールを実行します。 実世界の71のデータセット上でのLTreeXの有効性を検証し、バイナリ分類、回帰、複数ラベル分類、時間対イベントタスクに対する我々のアプローチの有効性を示す。 また,本提案手法は,森林全体から数本の樹木のみを選択しながら,対応するアンサンブルモデルの性能を近似できることを示すとともに,提案手法が予測性能の点で,他の説明可能な手法を大幅に上回ることを示した。

Tree-ensemble algorithms, such as random forest, are effective machine learning methods popular for their flexibility, high performance, and robustness to overfitting. However, since multiple learners are combined,they are not as interpretable as a single decision tree. In this work we propose a methodology, called Local Tree eXtractor (LTreeX) which is able to explain the forest prediction for a given test instance with a few diverse rules. Starting from the decision trees generated by a random forest, our method 1) pre-selects a subset of them, 2) creates a vector representation, and 3) eventually clusters such a representation. Each cluster prototype results in a rule that explains the test instance prediction. We test the effectiveness of LTreeX on 71 real-world datasets and we demonstrate the validity of our approach for binary classification, regression, multi-label classification and time-to-event tasks. In all set-ups, we show that our extracted surrogate model manages to approximate the performance of the corresponding ensemble model, while selecting only few trees from the whole forest.We also show that our proposed approach substantially outperforms other explainable methods in terms of predictive performance.
翻訳日:2022-03-30 21:47:51 公開日:2022-03-29
# (参考訳) 進化的対称性ニューラルネットワークを用いた衝突フリーナビゲーション

Collision-Free Navigation using Evolutionary Symmetrical Neural Networks ( http://arxiv.org/abs/2203.15522v1 )

ライセンス: CC BY 4.0
Hesham M. Eraqi, Mena Nagiub, Peter Sidra(参考訳) 衝突回避システムは、車両事故の数を減らし、人命を救う上で重要な役割を果たす。 本稿では,反応的衝突回避のための進化的ニューラルネットワークを用いた先行研究を拡張した。 我々は対称ニューラルネットワークと呼ばれる新しい手法を提案している。 本手法は、モデル最適化探索空間を小さくするネットワーク重み間の制約を強制することにより、モデルの性能を向上させるため、車両ステアリングのより正確な制御を学習する。 トレーニングと検証はシミュレーション環境を使って行われ、コードベースは公開されている。 提案手法を解析し,その性能を評価するための実験を行った。 この方法はいくつかのシミュレートされた運転シナリオでテストされる。 さらに,反応衝突回避の全体的な目標に対するレンジファインダーセンサの分解能とノイズの影響を解析した。 最後に,提案手法の一般化を検証した。 提案手法は,学習シナリオの学習曲線を改善し,新たなテストシナリオへの一般化を行った。 制約重みの使用により、遺伝的アルゴリズムの最適化に必要な世代数を大幅に改善した。

Collision avoidance systems play a vital role in reducing the number of vehicle accidents and saving human lives. This paper extends the previous work using evolutionary neural networks for reactive collision avoidance. We are proposing a new method we have called symmetric neural networks. The method improves the model's performance by enforcing constraints between the network weights which reduces the model optimization search space and hence, learns more accurate control of the vehicle steering for improved maneuvering. The training and validation processes are carried out using a simulation environment - the codebase is publicly available. Extensive experiments are conducted to analyze the proposed method and evaluate its performance. The method is tested in several simulated driving scenarios. In addition, we have analyzed the effect of the rangefinder sensor resolution and noise on the overall goal of reactive collision avoidance. Finally, we have tested the generalization of the proposed method. The results are encouraging; the proposed method has improved the model's learning curve for training scenarios and generalization to the new test scenarios. Using constrained weights has significantly improved the number of generations required for the Genetic Algorithm optimization.
翻訳日:2022-03-30 21:46:11 公開日:2022-03-29
# (参考訳) コントラスト学習による音声自動キャプションのための対話型音声テキスト表現

Interactive Audio-text Representation for Automated Audio Captioning with Contrastive Learning ( http://arxiv.org/abs/2203.15526v1 )

ライセンス: CC BY 4.0
Chen Chen, Nana Hou, Yuchen Hu, Heqing Zou, Xiaofeng Qi, Eng Siong Chng(参考訳) 自動音声キャプション(automated audio captioning, aac)は、入力音声の内容を記述する自然言語を生成するクロスモーダルタスクである。 ほとんどの先行研究は、通常単一モード音響特性を抽出し、従ってクロスモーダル復号処理に準最適である。 本研究では,音響情報とテキスト情報の両方を用いた対話型クロスモダリティ表現を学習するための新しいaacシステム clip-aacを提案する。 提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。 さらに,音声信号と対字キャプションの対応を学習することにより,領域差を狭めるためにコントラスト学習を適用する。 実験結果から,提案手法はCLIP-AAC法よりも,NLP評価指標においてClothoデータセットの差が大きいことがわかった。 アブレーション研究は,事前学習モデルとコントラスト学習がともにaacモデルの性能向上に寄与することを示す。

Automated Audio captioning (AAC) is a cross-modal task that generates natural language to describe the content of input audio. Most prior works usually extract single-modality acoustic features and are therefore sub-optimal for the cross-modal decoding task. In this work, we propose a novel AAC system called CLIP-AAC to learn interactive cross-modality representation with both acoustic and textual information. Specifically, the proposed CLIP-AAC introduces an audio-head and a text-head in the pre-trained encoder to extract audio-text information. Furthermore, we also apply contrastive learning to narrow the domain difference by learning the correspondence between the audio signal and its paired captions. Experimental results show that the proposed CLIP-AAC approach surpasses the best baseline by a significant margin on the Clotho dataset in terms of NLP evaluation metrics. The ablation study indicates that both the pre-trained model and contrastive learning contribute to the performance gain of the AAC model.
翻訳日:2022-03-30 21:36:00 公開日:2022-03-29
# (参考訳) 教師なしポイントクラウド補完のための構造化潜在空間の学習

Learning a Structured Latent Space for Unsupervised Point Cloud Completion ( http://arxiv.org/abs/2203.15580v1 )

ライセンス: CC BY 4.0
Yingjie Cai, Kwan-Yee Lin, Chao Zhang, Qiang Wang, Xiaogang Wang and Hongsheng Li(参考訳) unsupervised point cloud completionは、部分的ポイントクラウドの対応する完全ポイントクラウドを非ペアで推定することを目的としている。 これは重要な問題であるが、直接的に悪用できる一対の部分完全監督は存在しないため、難しい問題である。 本研究では,部分的および完全的点クラウドを符号化する統一的かつ構造化された潜在空間を学習する新しいフレームワークを提案する。 具体的には,関連する部分的点群を複数の完全形状と咬合符号ペアにマッピングし,それらの表現を融合して統一潜在空間に表現する。 このような構造化潜在空間の学習を強制するために,提案手法では,構造化ランキング正規化,潜在コードスワップ制約,関連する部分点雲の分布監督といった一連の制約を採用する。 このような統一かつ構造化された潜在空間を確立することにより、より優れた部分完備な幾何整合性と形状完備化の精度が得られる。 実験の結果,提案手法は,合成ShapeNet,実世界のKITTI,ScanNet,およびMatterport3Dデータセットにおいて,最先端の教師なし手法より一貫して優れていることがわかった。

Unsupervised point cloud completion aims at estimating the corresponding complete point cloud of a partial point cloud in an unpaired manner. It is a crucial but challenging problem since there is no paired partial-complete supervision that can be exploited directly. In this work, we propose a novel framework, which learns a unified and structured latent space that encoding both partial and complete point clouds. Specifically, we map a series of related partial point clouds into multiple complete shape and occlusion code pairs and fuse the codes to obtain their representations in the unified latent space. To enforce the learning of such a structured latent space, the proposed method adopts a series of constraints including structured ranking regularization, latent code swapping constraint, and distribution supervision on the related partial point clouds. By establishing such a unified and structured latent space, better partial-complete geometry consistency and shape completion accuracy can be achieved. Extensive experiments show that our proposed method consistently outperforms state-of-the-art unsupervised methods on both synthetic ShapeNet and real-world KITTI, ScanNet, and Matterport3D datasets.
翻訳日:2022-03-30 21:24:42 公開日:2022-03-29
# (参考訳) 不変性を用いた機械学習による統治方程式の発見

Discovering Governing Equations by Machine Learning implemented with Invariance ( http://arxiv.org/abs/2203.15586v1 )

ライセンス: CC BY 4.0
Chao Chen, Xiaowei Jin, Hui Li(参考訳) 偏微分方程式(PDE)は多くの科学・工学分野において重要な役割を果たす。 従来のpdeの導出は、主に第一原理と経験的観察に依存している。 しかし、機械学習技術の開発により、膨大な量の蓄積データから潜在的な制御方程式を新しい方法で掘り出すことができる。 データ駆動によるPDEの発見にはかなりの進展があったが、現存する文献は主に発見方法の改善に焦点を当てており、発見プロセス自体に重大なブレークスルーはなく、候補の構築の原則や物理的な先行事項の組み入れ方などが含まれる。 本稿では, 公式の厳密な導出を通じて, 制御方程式の物理的拡張型加工学習発見法について, ガリレオ不変性とロレンツ不変性に基づいてgsnn (galileo symbolic neural network) とlsnn (lorentz symbolic neural network) が提案され, 方程式発見の候補を構築するためのガイドラインが策定された。 物理的制約の強制的な埋め込みは、損失関数の形でPINNと根本的に異なるため、設計されたニューラルネットワークは、ネットワークの不変性の物理的優先に厳密に従い、解釈可能性を高める。 バーガース方程式とSine-Gordon方程式の数値実験におけるPDE-NETとの比較により, 本研究で提示した手法は精度, パーシモニー, 解釈可能性に優れていた。

The partial differential equation (PDE) plays a significantly important role in many fields of science and engineering. The conventional case of the derivation of PDE mainly relies on first principles and empirical observation. However, the development of machine learning technology allows us to mine potential control equations from the massive amounts of stored data in a fresh way. Although there has been considerable progress in the data-driven discovery of PDE, the extant literature mostly focuses on the improvements of discovery methods, without substantial breakthroughs in the discovery process itself, including the principles for the construction of candidates and how to incorporate physical priors. In this paper, through rigorous derivation of formulas, novel physically enhanced machining learning discovery methods for control equations: GSNN (Galileo Symbolic Neural Network) and LSNN (Lorentz Symbolic Neural Network) are firstly proposed based on Galileo invariance and Lorentz invariance respectively, setting forth guidelines for building the candidates of discovering equations. The adoption of mandatory embedding of physical constraints is fundamentally different from PINN in the form of the loss function, thus ensuring that the designed Neural Network strictly obeys the physical prior of invariance and enhancing the interpretability of the network. By comparing the results with PDE-NET in numerical experiments of Burgers equation and Sine-Gordon equation, it shows that the method presented in this study has better accuracy, parsimony, and interpretability.
翻訳日:2022-03-30 21:03:15 公開日:2022-03-29
# (参考訳) 制約付きカーネル化マルチアーマッドバンドについて

On Kernelized Multi-Armed Bandits with Constraints ( http://arxiv.org/abs/2203.15589v1 )

ライセンス: CC BY 4.0
Xingyu Zhou and Bo Ji(参考訳) 一般未知の報酬関数と一般未知の制約関数を持つ確率的バンディット問題について検討する。 どちらの関数も非線型(非凸でさえ)であり、有界ノルムを持つ再生核ヒルベルト空間(RKHS)にあると仮定される。 このカーネル化されたバンディット設定は、標準のマルチアームバンディットと線形バンディットを厳密に一般化する。 従来の研究で研究された安全型ハード制約とは対照的に,累積的違反が小さい限り,任意のラウンドで違反される可能性のあるソフト制約は,様々な実用的応用に動機づけられる。 究極の目標は、ソフト制約の性質をいかに活用して、カーネル化されたバンディット設定におけるより細かい複雑さと制約のトレードオフを達成するかを研究することです。 そこで本研究では,アルゴリズム設計と性能解析の両方のための汎用フレームワークを提案する。 この枠組みは、新しい十分条件に基づいているが、これは一般的な探索戦略の下で満足されるだけでなく、例えば \emph{upper confidence bound} (ucb)、 \emph{thompson sampling} (ts)、および \emph{random exploration} に基づく新しい条件も含む。 本研究では,合成データと実世界データの両方に基づく数値実験により,提案アルゴリズムの優れた性能を示す。 また,本研究では,制約付きバンディットとマルコフ決定プロセス(mdps)の分析方法について,コミュニティに独立した関心を抱く分析における重要な違いと若干の微妙な点を考察し,最初の比較を行った。

We study a stochastic bandit problem with a general unknown reward function and a general unknown constraint function. Both functions can be non-linear (even non-convex) and are assumed to lie in a reproducing kernel Hilbert space (RKHS) with a bounded norm. This kernelized bandit setup strictly generalizes standard multi-armed bandits and linear bandits. In contrast to safety-type hard constraints studied in prior works, we consider soft constraints that may be violated in any round as long as the cumulative violations are small, which is motivated by various practical applications. Our ultimate goal is to study how to utilize the nature of soft constraints to attain a finer complexity-regret-constraint trade-off in the kernelized bandit setting. To this end, leveraging primal-dual optimization, we propose a general framework for both algorithm design and performance analysis. This framework builds upon a novel sufficient condition, which not only is satisfied under general exploration strategies, including \emph{upper confidence bound} (UCB), \emph{Thompson sampling} (TS), and new ones based on \emph{random exploration}, but also enables a unified analysis for showing both sublinear regret and sublinear or even zero constraint violation. We demonstrate the superior performance of our proposed algorithms via numerical experiments based on both synthetic and real-world datasets. Along the way, we also make the first detailed comparison between two popular methods for analyzing constrained bandits and Markov decision processes (MDPs) by discussing the key difference and some subtleties in the analysis, which could be of independent interest to the communities.
翻訳日:2022-03-30 20:34:36 公開日:2022-03-29
# (参考訳) 3次元畳み込みオートエンコーダを用いた拡散MRIの角超解像

Angular Super-Resolution in Diffusion MRI with a 3D Recurrent Convolutional Autoencoder ( http://arxiv.org/abs/2203.15598v1 )

ライセンス: CC BY 4.0
Matthew Lyon, Paul Armitage, Mauricio A. \'Alvarez(参考訳) 高分解能拡散MRI(dMRI)データはしばしば臨床環境での走査時間制限によって制限されるため、ダウンストリーム解析技術の使用が制限される。 本研究では,3次元反復畳み込みニューラルネットワーク(RCNN)を開発した。 提案手法は,目標bベクトルに条件付き3次元オートエンコーダを用いて,角度分解能のタスクをパッチワイド回帰として定式化する。 ネットワーク内では畳み込み型long short term memory(convlstm)セルを使用して、q空間サンプル間の関係をモデル化します。 モデル性能を,ベースライン球面調和補間とモデルアーキテクチャの1次元不変量と比較する。 3dモデルは,様々なサブサンプリングスキームとb値において,最も低い誤差率を示す。 3D RCNNの相対的な性能は、非常に低い角分解能領域で最大である。 このプロジェクトのコードはhttps://github.com/m-lyon/dMRI-RCNNで公開されている。

High resolution diffusion MRI (dMRI) data is often constrained by limited scanning time in clinical settings, thus restricting the use of downstream analysis techniques that would otherwise be available. In this work we develop a 3D recurrent convolutional neural network (RCNN) capable of super-resolving dMRI volumes in the angular (q-space) domain. Our approach formulates the task of angular super-resolution as a patch-wise regression using a 3D autoencoder conditioned on target b-vectors. Within the network we use a convolutional long short term memory (ConvLSTM) cell to model the relationship between q-space samples. We compare model performance against a baseline spherical harmonic interpolation and a 1D variant of the model architecture. We show that the 3D model has the lowest error rates across different subsampling schemes and b-values. The relative performance of the 3D RCNN is greatest in the very low angular resolution domain. Code for this project is available at https://github.com/m-lyon/dMRI-RCNN.
翻訳日:2022-03-30 19:46:39 公開日:2022-03-29
# (参考訳) Emformerを用いたCTCに基づく音声認識における動的レイテンシ

Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition With Emformer ( http://arxiv.org/abs/2203.15613v1 )

ライセンス: CC BY 4.0
Jingyu Sun, Guiping Zhong, Dinghao Zhou, Baoxiang Li(参考訳) ストリーミング自動音声認識モデルと非ストリーミングモデルでは,将来的な文脈がないため,性能が劣ることが多い。 ストリーミングモデルの性能向上と計算複雑性の低減を図るため,本論文では,効率的な拡張メモリ変換器ブロックと動的遅延学習手法を用いたフレームレベルモデルを用いて,自動音声認識のストリーミングを行う。 長距離履歴コンテキストはエンコーダで使用される制限された履歴コンテキストの補完として拡張メモリバンクに格納される。 キーと値はキャッシュ機構によってキャッシュされ、次のチャンクのために再利用される。 その後,性能向上と低レイテンシと高レイテンシの同時推論をサポートするために,動的遅延学習法を提案する。 ベンチマーク960h LibriSpeechデータセットを用いて実験を行った。 平均遅延は640msであり,テストクリーンでは6.0%,他では3.0%,チャンクワイドトランスでは3.0%となる。

An inferior performance of the streaming automatic speech recognition models versus non-streaming model is frequently seen due to the absence of future context. In order to improve the performance of the streaming model and reduce the computational complexity, a frame-level model using efficient augment memory transformer block and dynamic latency training method is employed for streaming automatic speech recognition in this paper. The long-range history context is stored into the augment memory bank as a complement to the limited history context used in the encoder. Key and value are cached by a cache mechanism and reused for next chunk to reduce computation. Afterwards, a dynamic latency training method is proposed to obtain better performance and support low and high latency inference simultaneously. Our experiments are conducted on benchmark 960h LibriSpeech data set. With an average latency of 640ms, our model achieves a relative WER reduction of 6.0% on test-clean and 3.0% on test-other versus the truncate chunk-wise Transformer.
翻訳日:2022-03-30 19:36:14 公開日:2022-03-29
# (参考訳) NL-FCOS:オブジェクト検出のための非ローカルモジュールによるFCOSの改善

NL-FCOS: Improving FCOS through Non-Local Modules for Object Detection ( http://arxiv.org/abs/2203.15638v1 )

ライセンス: CC BY 4.0
Lukas Pavez, Jose M. Saavedra Rondo(参考訳) 近年,畳み込みニューラルネットワークの性能向上が主な原因として,物体検出タスクの大幅な進歩が見られた。 この分野では、アンカーベースのモデルが最も良い結果を得た。 しかしながら、これらのモデルは対象オブジェクトのアスペクトとスケールに関する事前情報を必要とし、適合するハイパーパラメータを必要とする。 さらに、バウンディングボックスにアンカーを使用することは、ビジュアルシステムが同じビジュアルタスクを実行する方法とは程遠いように思えます。 その代わり、視覚システムは異なるシーンの相互作用を使って、知覚的グループ化と呼ばれるオブジェクトを意味的に識別します。 自然モデルに近い物体検出手法として、FCOSやCenternetのようなモデルが競合する結果を示したアンカーフリー検出があるが、これらはまだ知覚的グループ化の概念を利用していない。 そこで, 推定時間を低く保ちながらアンカーフリーモデルの有効性を高めるため, 非局所アテンションモジュール(NLモジュール)を追加して, 基礎となるバックボーンの特徴マップを強化することを提案する。 nlモジュールは知覚的グループ化機構を実装し、受容的フィールドが視覚表現学習で協調できるようにする。 FCOSヘッドと組み合わせた非局所モジュール(NL-FCOS)は実用的で効率的であることを示す。 そこで我々は,衣服検出と手書き量認識問題における最先端性能を確立する。

During the last years, we have seen significant advances in the object detection task, mainly due to the outperforming results of convolutional neural networks. In this vein, anchor-based models have achieved the best results. However, these models require prior information about the aspect and scales of target objects, needing more hyperparameters to fit. In addition, using anchors to fit bounding boxes seems far from how our visual system does the same visual task. Instead, our visual system uses the interactions of different scene parts to semantically identify objects, called perceptual grouping. An object detection methodology closer to the natural model is anchor-free detection, where models like FCOS or Centernet have shown competitive results, but these have not yet exploited the concept of perceptual grouping. Therefore, to increase the effectiveness of anchor-free models keeping the inference time low, we propose to add non-local attention (NL modules) modules to boost the feature map of the underlying backbone. NL modules implement the perceptual grouping mechanism, allowing receptive fields to cooperate in visual representation learning. We show that non-local modules combined with an FCOS head (NL-FCOS) are practical and efficient. Thus, we establish state-of-the-art performance in clothing detection and handwritten amount recognition problems.
翻訳日:2022-03-30 19:23:58 公開日:2022-03-29
# (参考訳) パラメータ付き一貫性学習に基づく深層多相カオスニューラルネットワークによる航空宇宙工学の信頼性解析

Parameterized Consistency Learning-based Deep Polynomial Chaos Neural Network Method for Reliability Analysis in Aerospace Engineering ( http://arxiv.org/abs/2203.15655v1 )

ライセンス: CC0 1.0
Xiaohu Zheng, Wen Yao, Yunyang Zhang, Xiaoya Zhang(参考訳) ポリノミアルカオス展開(PCE)は航空宇宙工学における強力な代理モデルに基づく信頼性解析手法である。 一般に、拡張順序の高いPCEモデルは、通常、非線形複素確率系の正確な代理モデルを得るために必要である。 しかし、高次PCEは、拡張係数を解くためのラベル付きトレーニングデータコストを増加させる。 本稿では,この問題を解決するために,低次適応pceモデル(補助モデル)と高次多項式カオスニューラルネットワーク(主モデル)を含む,パラメタライズド一貫性学習に基づく深部多項式カオスニューラルネットワーク(deep pcnn)法を提案する。 高次主モデルの拡張係数は、多項式カオスニューラルネットワークの学習可能な重みにパラメータ化される。 補助モデルは、主モデルのトレーニングを支援するために提案されている教師なし一貫性損失関数を使用する。 Deep PCNN法は,少数のラベル付きデータと多数のラベル付きデータを用いて,サロゲートモデルの精度を損なうことなく,高次PCEモデルを構築する際のトレーニングデータコストを大幅に削減することができる。 数値的な例はDeep PCNN法の有効性を検証し、Deep PCNN法を適用して2つの航空宇宙工学システムの信頼性を解析する。

Polynomial chaos expansion (PCE) is a powerful surrogate model-based reliability analysis method in aerospace engineering. Generally, a PCE model with a higher expansion order is usually required to obtain an accurate surrogate model for some non-linear complex stochastic systems. However, the high-order PCE increases the labeled training data cost for solving the expansion coefficients. To alleviate this problem, this paper proposes a parameterized consistency learning-based deep polynomial chaos neural network (Deep PCNN) method, including the low-order adaptive PCE model (the auxiliary model) and the high-order polynomial chaos neural network (the main model). The expansion coefficients of the high-order main model are parameterized into the learnable weights of the polynomial chaos neural network. The auxiliary model uses a proposed unsupervised consistency loss function to assist in training the main model. The Deep PCNN method can significantly reduce the training data cost in constructing a high-order PCE model without losing surrogate model accuracy by using a small amount of labeled data and many unlabeled data. A numerical example validates the effectiveness of the Deep PCNN method, and the Deep PCNN method is applied to analyze the reliability of two aerospace engineering systems.
翻訳日:2022-03-30 19:10:13 公開日:2022-03-29
# (参考訳) MAP-Gen:マルチモーダルアテンションポイントジェネレータを用いた自動3Dボックスアノテーションフロー

MAP-Gen: An Automated 3D-Box Annotation Flow with Multimodal Attention Point Generator ( http://arxiv.org/abs/2203.15700v1 )

ライセンス: CC BY 4.0
Chang Liu, Xiaoyan Qian, Xiaojuan Qi, Edmund Y. Lam, Siew-Chong Tan, Ngai Wong(参考訳) 3dポイントクラウドを手動でアノテートするのは手間とコストがかかり、現実世界のオブジェクト検出におけるディープラーニングのためのトレーニングデータ準備が制限される。 2dボックスのような弱いラベルから3dバウンディングボックスを自動生成する試みはいくつかあるが、人間のアノテーションと比べて品質は最適ではない。 本研究では,弱い2Dボックスから高品質な3Dラベルを生成するマルチモーダルアテンションポイントジェネレータ(MAP-Gen)を提案する。 密度の高い画像情報を利用して3dポイント雲のスパーシティ問題に対処し、ラベルの品質を向上させる。 各2dピクセルについて、map-genはその2d意味的または幾何学的関係に基づいてコンテキストポイントを参照することで対応する3d座標を予測する。 生成された3Dポイントは、元のスパースポイントの雲を密度化し、続いてエンコーダが3Dバウンディングボックスを補強する。 MAP-Genを用いて、2Dボックスで弱制御されたオブジェクト検出ネットワークは、3Dアノテーションで完全に教師されたオブジェクトの94~99%のパフォーマンスを達成することができる。 新たに提案されたMAP-Genオートラベリングフローは、スパース点雲の濃縮にマルチモーダル情報を利用することで、新たな光を放つことが期待できる。

Manually annotating 3D point clouds is laborious and costly, limiting the training data preparation for deep learning in real-world object detection. While a few previous studies tried to automatically generate 3D bounding boxes from weak labels such as 2D boxes, the quality is sub-optimal compared to human annotators. This work proposes a novel autolabeler, called multimodal attention point generator (MAP-Gen), that generates high-quality 3D labels from weak 2D boxes. It leverages dense image information to tackle the sparsity issue of 3D point clouds, thus improving label quality. For each 2D pixel, MAP-Gen predicts its corresponding 3D coordinates by referencing context points based on their 2D semantic or geometric relationships. The generated 3D points densify the original sparse point clouds, followed by an encoder to regress 3D bounding boxes. Using MAP-Gen, object detection networks that are weakly supervised by 2D boxes can achieve 94~99% performance of those fully supervised by 3D annotations. It is hopeful this newly proposed MAP-Gen autolabeling flow can shed new light on utilizing multimodal information for enriching sparse point clouds.
翻訳日:2022-03-30 18:30:47 公開日:2022-03-29
# (参考訳) 動的システムの長期予測のための安定化型神経常微分方程式

Stabilized Neural Ordinary Differential Equations for Long-Time Forecasting of Dynamical Systems ( http://arxiv.org/abs/2203.15706v1 )

ライセンス: CC BY 4.0
Alec J. Linot, Josh W. Burby, Qi Tang, Prasanna Balaprakash, Michael D. Graham, Romit Maulik(参考訳) データ駆動による時空間現象のモデリングでは、高波数のダイナミクスを捉えるためには、しばしば慎重に考慮する必要がある。 この問題は、興味のあるシステムが衝撃やカオスダイナミクスを示すとき、特に困難になる。 本稿では,新しいアーキテクチャである安定化型ニューラル常微分方程式(ode)を提案することにより,衝撃やカオスダイナミクスを正確に捉えたデータ駆動モデリング手法を提案する。 提案アーキテクチャでは,線形項を学習し,非線形項を学習する2つのNNの出力を追加することで,ODEの右辺(RHS)を学習する。 具体的には、疎線形畳み込みNNを訓練して線形項と高密度完全連結非線形NNを学習し、非線形項を学習する。 これは、RTSを学習するための1つのNNのみをトレーニングする標準的なニューラルODEとは対照的である。 この設定を衝撃的な挙動を示す粘性バーガース方程式に適用し、標準のニューラルODEよりも高波数での短時間の追跡とエネルギースペクトルの予測が優れていることを示す。 また、安定化されたニューラルODEモデルは、標準的なニューラルODEアプローチよりもノイズの多い初期条件に対してより堅牢であることがわかった。 また,この手法を倉本-シヴァシンスキー方程式のカオス軌道に適用する。 この場合、安定化されたニューラル ODE はアトラクタに長時間の軌道を保持し、ノイズの多い初期条件に対して非常に堅牢であるが、通常のニューラル ODE はどちらの結果も達成できない。 線形項の固有ベクトルにダイナミクスを投影することにより、ニューラルネットワークの安定化が低次モデリングにおける自然な拡張を提供することを示す。

In data-driven modeling of spatiotemporal phenomena careful consideration often needs to be made in capturing the dynamics of the high wavenumbers. This problem becomes especially challenging when the system of interest exhibits shocks or chaotic dynamics. We present a data-driven modeling method that accurately captures shocks and chaotic dynamics by proposing a novel architecture, stabilized neural ordinary differential equation (ODE). In our proposed architecture, we learn the right-hand-side (RHS) of an ODE by adding the outputs of two NN together where one learns a linear term and the other a nonlinear term. Specifically, we implement this by training a sparse linear convolutional NN to learn the linear term and a dense fully-connected nonlinear NN to learn the nonlinear term. This is in contrast with the standard neural ODE which involves training only a single NN for learning the RHS. We apply this setup to the viscous Burgers equation, which exhibits shocked behavior, and show better short-time tracking and prediction of the energy spectrum at high wavenumbers than a standard neural ODE. We also find that the stabilized neural ODE models are much more robust to noisy initial conditions than the standard neural ODE approach. We also apply this method to chaotic trajectories of the Kuramoto-Sivashinsky equation. In this case, stabilized neural ODEs keep long-time trajectories on the attractor, and are highly robust to noisy initial conditions, while standard neural ODEs fail at achieving either of these results. We conclude by demonstrating how stabilizing neural ODEs provide a natural extension for use in reduced-order modeling by projecting the dynamics onto the eigenvectors of the learned linear term.
翻訳日:2022-03-30 18:11:59 公開日:2022-03-29
# (参考訳) 分類とセグメンテーションのための統合的Few-Shot学習

Integrative Few-Shot Learning for Classification and Segmentation ( http://arxiv.org/abs/2203.15712v1 )

ライセンス: CC BY 4.0
Dahyun Kang, Minsu Cho(参考訳) ターゲットクラスがいくつかの例で与えられる場合,クエリ画像内の対象オブジェクトの分類とセグメント化を目標とする,マイショット分類とセグメント化(fs-cs)の統合タスクを導入する。 このタスクは、従来の2つのマイナショット学習問題、マイナショット分類とセグメンテーションを組み合わせる。 FS-CSはそれらを任意のイメージペアでより現実的なエピソードに一般化する。 この課題に対処するために,FS-CS のための統合的数ショット学習フレームワークを提案する。 我々はまた、深い意味的相関とグローバルな自己意識を利用して信頼性の高いフォアグラウンドマップを生成する効果的なiFSLモデルASNetを開発した。 実験において,提案手法はfs-csタスクにおいて有望な性能を示すとともに,標準のマイナショットセグメンテーションベンチマークにおける最先端技術を実現する。

We introduce the integrative task of few-shot classification and segmentation (FS-CS) that aims to both classify and segment target objects in a query image when the target classes are given with a few examples. This task combines two conventional few-shot learning problems, few-shot classification and segmentation. FS-CS generalizes them to more realistic episodes with arbitrary image pairs, where each target class may or may not be present in the query. To address the task, we propose the integrative few-shot learning (iFSL) framework for FS-CS, which trains a learner to construct class-wise foreground maps for multi-label classification and pixel-wise segmentation. We also develop an effective iFSL model, attentive squeeze network (ASNet), that leverages deep semantic correlation and global self-attention to produce reliable foreground maps. In experiments, the proposed method shows promising performance on the FS-CS task and also achieves the state of the art on standard few-shot segmentation benchmarks.
翻訳日:2022-03-30 17:59:42 公開日:2022-03-29
# (参考訳) 時空間交通時系列予測に向けて-フルバージョン

Towards Spatio-Temporal Aware Traffic Time Series Forecasting--Full Version ( http://arxiv.org/abs/2203.15737v1 )

ライセンス: CC0 1.0
Razvan-Gabriel Cirstea, Bin Yang, Chenjuan Guo, Tung Kieu, Shirui Pan(参考訳) 交通時系列の予測は、異なる場所からの複雑な時空間の動的時系列は、しばしば異なるパターンを持つため困難であり、同時に、パターンは時間によって異なる可能性がある。 最近の予測モデル、特に深層学習に基づくモデルは有望な結果を示すが、時空間非依存である。 このような時空間非依存モデルは、時系列の位置や期間に関係なく共有パラメータ空間を採用しており、時空間パターンは場所間で類似しており、時間を超えて進化しないと仮定している。 本研究では,時空間非依存モデルから時空間認識モデルへの変換を目的としたフレームワークを提案する。 そのため、異なる位置からの時系列を確率変数にエンコードし、そこから位置特化および時間変動モデルパラメータを生成し、時空間力学をよりよく捉える。 時空間的注意力を高めるために,フレームワークを標準的注意力と統合する方法を示す。 次に、時空間認識モデルパラメータ生成プロセスによってもたらされる追加のオーバーヘッドを補うために、二次から線形までの複雑さを低減し、時空間認識の注意を競争力のあるものにする新しいウィンドウアテンションスキームを提案する。 提案手法は,4つの交通時系列データセットに対して強い実証的証拠を示し,その精度と効率の点で,時空間的注意が最先端の手法より優れていることを示す。 この写本は[1]の完全なバージョンを提供する。

Traffic time series forecasting is challenging due to complex spatio-temporal dynamics-time series from different locations often have distinct patterns; and for the same time series, patterns may vary across time, where, for example, there exist certain periods across a day showing stronger temporal correlations. Although recent forecasting models, in particular deep learning based models, show promising results, they suffer from being spatio-temporal agnostic. Such spatio-temporal agnostic models employ a shared parameter space irrespective of the time series locations and the time periods and they assume that the temporal patterns are similar across locations and do not evolve across time, which may not always hold, thus leading to sub-optimal results. In this work, we propose a framework that aims at turning spatio-temporal agnostic models to spatio-temporal aware models. To do so, we encode time series from different locations into stochastic variables, from which we generate location-specific and time-varying model parameters to better capture the spatio-temporal dynamics. We show how to integrate the framework with canonical attentions to enable spatio-temporal aware attentions. Next, to compensate for the additional overhead introduced by the spatio-temporal aware model parameter generation process, we propose a novel window attention scheme, which helps reduce the complexity from quadratic to linear, making spatio-temporal aware attentions also have competitive efficiency. We show strong empirical evidence on four traffic time series datasets, where the proposed spatio-temporal aware attentions outperform state-of-the-art methods in term of accuracy and efficiency. This manuscript provides a full version of [1].
翻訳日:2022-03-30 17:58:42 公開日:2022-03-29
# (参考訳) 協調フィルタリングのための近傍リンク予測の再検討

Revisiting Neighborhood-based Link Prediction for Collaborative Filtering ( http://arxiv.org/abs/2203.15789v1 )

ライセンス: CC BY 4.0
Hao-Ming Fu, Patrick Poirson, Kwot Sin Lee, Chen Wang(参考訳) 協調フィルタリング(CF)はレコメンデーションシステムにおいて最も成功し、基本的な技術の一つである。 近年,NGCF[31],LightGCN[10],GTN[9]など,グラフニューラルネットワーク(GNN)ベースのCFモデルは大きな成功を収め,最先端の進歩を遂げている。 ユーザとアイテムの表現を個別に学習するための高度なモデルを用いた研究は豊富な文献があるが、基本的にはユーザとアイテム間のリンク予測問題である。 さらに, 協調フィルタリングにリンク予測を用いた初期の研究もあるが, この傾向は, 直接リンクをモデル化するのではなく, ユーザノードやアイテムノードからの情報を集約する作業に大きく寄与している。 本稿では,二部グラフの新しいリンク(接続性)スコアを提案し,複数の標準リンク予測手法を一般化する。 我々は,この新たなスコアとユーザ-イムインタラクションバイパートグラフの反復的な更新プロセスを組み合わせることで,ノードをモデル化せずに局所グラフ構造を利用する。 結果は6つの学習可能なパラメータしか持たない単純で非深度学習モデルである。 その単純さにもかかわらず、我々はこのアプローチが4つの広く使われているベンチマークで既存のgnnベースのcfアプローチを大きく上回っていることを実証する。 特にAmazon-Bookでは、RecallとNDCGの両方で60%以上の改善が示されています。 私たちは、リンク予測とアイテムレコメンデーションの整合によって大きなパフォーマンス向上が達成できる、コラボレーティブフィルタリングのリンク予測の側面を再考することをコミュニティに求めています。

Collaborative filtering (CF) is one of the most successful and fundamental techniques in recommendation systems. In recent years, Graph Neural Network (GNN)-based CF models, such as NGCF [31], LightGCN [10] and GTN [9] have achieved tremendous success and significantly advanced the state-of-the-art. While there is a rich literature of such works using advanced models for learning user and item representations separately, item recommendation is essentially a link prediction problem between users and items. Furthermore, while there have been early works employing link prediction for collaborative filtering [5, 6], this trend has largely given way to works focused on aggregating information from user and item nodes, rather than modeling links directly. In this paper, we propose a new linkage (connectivity) score for bipartite graphs, generalizing multiple standard link prediction methods. We combine this new score with an iterative degree update process in the user-item interaction bipartite graph to exploit local graph structures without any node modeling. The result is a simple, non-deep learning model with only six learnable parameters. Despite its simplicity, we demonstrate our approach significantly outperforms existing state-of-the-art GNN-based CF approaches on four widely used benchmarks. In particular, on Amazon-Book, we demonstrate an over 60% improvement for both Recall and NDCG. We hope our work would invite the community to revisit the link prediction aspect of collaborative filtering, where significant performance gains could be achieved through aligning link prediction with item recommendations.
翻訳日:2022-03-30 17:27:50 公開日:2022-03-29
# エッジ検出と深層学習に基づくSETI信号分類法

Edge Detection and Deep Learning Based SETI Signal Classification Method ( http://arxiv.org/abs/2203.15229v1 )

ライセンス: Link先を確認
Zhewei Chen, Sami Ahmed Haider(参考訳) バークレーSETI研究センターの科学者は、電波信号をフーリエ変換を通じて分光器に変換し、2次元の時間周波数スペクトルで表される信号を分類し、信号分類問題を画像分類タスクに変換する新しい信号検出方法により、地球外知能探索を行っている。 本稿では,背景雑音がスペクトログラム分類の精度に与える影響について考察し,新しい手法を提案する。 ガウス畳み込みが信号を平滑化した後、エッジ検出関数を適用して信号のエッジを検出し、信号の輪郭を強化し、処理されたスペクトログラムを用いてディープニューラルネットワークを訓練し、様々な画像分類ネットワークの分類精度を比較する。 提案手法はSETIスペクトルの分類精度を効果的に向上できることを示す。

Scientists at the Berkeley SETI Research Center are Searching for Extraterrestrial Intelligence (SETI) by a new signal detection method that converts radio signals into spectrograms through Fourier transforms and classifies signals represented by two-dimensional time-frequency spectrums, which successfully converts a signal classification problem into an image classification task. In view of the negative impact of background noises on the accuracy of spectrograms classification, a new method is introduced in this paper. After Gaussian convolution smoothing the signals, edge detection functions are applied to detect the edge of the signals and enhance the outline of the signals, then the processed spectrograms are used to train the deep neural network to compare the classification accuracy of various image classification networks. The results show that the proposed method can effectively improve the classification accuracy of SETI spectrums.
翻訳日:2022-03-30 17:11:32 公開日:2022-03-29
# シルエット画像から多角形メッシュ構築シーケンスを予測するAutoPoly

AutoPoly: Predicting a Polygonal Mesh Construction Sequence from a Silhouette Image ( http://arxiv.org/abs/2203.15233v1 )

ライセンス: Link先を確認
I-Chao Shen, Yu Ju Chen, Oliver van Kaick, Takeo Igarashi(参考訳) 多角形モデリングはコンピュータグラフィックスにおけるコンテンツ作成のコアタスクである。 モデリングの複雑さは、それらを実行するのに必要な操作の数と順序と時間の観点から、学習と実行が難しくなります。 我々の目標は、与えられた対象に対する多角形モデリングシーケンスを自動的に導出することです。 そして、結果のシーケンスを観察して多角形モデリングを学習し、自動生成結果から始めることでモデリングプロセスを高速化する。 今後,3次元モデリングシステムを構築するための出発点として,2次元形状モデリングの問題に取り組み,シルエット画像から多角メッシュ構築シーケンスを生成するハイブリッド手法であるautopolyを提案する。 本手法の重要な考え方はモンテカルロ木探索(mcts)アルゴリズムと微分可能レンダリングを用いて逐次位相的作用と幾何作用を別々に予測することである。 ハイブリッド法はトポロジーを変えることができるが、最近提案された微分可能レンダリングを用いた逆形状推定手法は固定トポロジーのみを扱うことができる。 我々の新しい報酬関数は、MCTSが自己切断なしでより単純な形状に導くトポロジカルな行動を選択することを奨励する。 我々はさらに,MCTSの探索プロセスにおける拡張とシミュレーションのステップを改善するための2つの深層学習ベースの手法を設計した: 潜在的なトポロジカルな行動の候補を生成するための$n$step "future action prediction" network (nFAP-Net) と,予測された画像とトポロジ的行動から多角形を予測するための形状ワープネットワーク (WarpNet) である。 複数の人工物カテゴリの2次元多角形状に対する本手法の有効性を示す。

Polygonal modeling is a core task of content creation in Computer Graphics. The complexity of modeling, in terms of the number and the order of operations and time required to execute them makes it challenging to learn and execute. Our goal is to automatically derive a polygonal modeling sequence for a given target. Then, one can learn polygonal modeling by observing the resulting sequence and also expedite the modeling process by starting from the auto-generated result. As a starting point for building a system for 3D modeling in the future, we tackle the 2D shape modeling problem and present AutoPoly, a hybrid method that generates a polygonal mesh construction sequence from a silhouette image. The key idea of our method is the use of the Monte Carlo tree search (MCTS) algorithm and differentiable rendering to separately predict sequential topological actions and geometric actions. Our hybrid method can alter topology, whereas the recently proposed inverse shape estimation methods using differentiable rendering can only handle a fixed topology. Our novel reward function encourages MCTS to select topological actions that lead to a simpler shape without self-intersection. We further designed two deep learning-based methods to improve the expansion and simulation steps in the MCTS search process: an $n$-step "future action prediction" network (nFAP-Net) to generate candidates for potential topological actions, and a shape warping network (WarpNet) to predict polygonal shapes given the predicted rendered images and topological actions. We demonstrate the efficiency of our method on 2D polygonal shapes of multiple man-made object categories.
翻訳日:2022-03-30 17:11:16 公開日:2022-03-29
# 共同登録による適応型空間優先画像分割

Image Segmentation with Adaptive Spatial Priors from Joint Registration ( http://arxiv.org/abs/2203.15548v1 )

ライセンス: Link先を確認
Haifeng Li, Weihong Guo, Jun Liu, Li Cui, and Dongxing Xie(参考訳) イメージセグメンテーションは多くのアプリケーションを持つ重要なタスクですが、難しい作業です。 例えば医療画像では、強度の不均一性とノイズが一般的である。 大腿筋の画像では、異なる筋肉が閉じられ、その間に明確な境界が存在しないことが多い。 強度に基づくセグメンテーションモデルは、ある筋肉と別の筋肉を分離することはできない。 そこで本研究では,ジョイント・レジストレーションから適応的な空間先行を持つセグメンテーションモデルを提案する。 このモデルは、セグメンテーションと登録を統一した枠組みで組み合わせ、それらのポジティブな相互影響を活用する。 このセグメンテーションは改良されたガウス混合モデル(GMM)に基づいており、これは強度の不均一性と空間的滑らかさを統合する。 登録は、以前の形を提供する役割を担います。 我々は,2乗差分(SSD)の正則項とチホノフ正則項の修正和を登録に適用し,ガウスピラミッドとパラメトリック法を用いてロバスト性を評価する。 セグメンテーションと登録の間の接続は、セグメンテーションマップ(セグメンテーションから)とデフォルムアトラス(登録から)を可能な限り類似させることを目的としたクロスエントロピー計量によって保証される。 この統合フレームワークは制約最適化フレームワーク内に実装され、効率的なアルゴリズムに繋がる。 人工大腿筋MR画像における提案モデルの評価を行った。 数値計算の結果, 分割と登録を別々に行い, 他の関節モデルと比較した。

Image segmentation is a crucial but challenging task that has many applications. In medical imaging for instance, intensity inhomogeneity and noise are common. In thigh muscle images, different muscles are closed packed together and there are often no clear boundaries between them. Intensity based segmentation models cannot separate one muscle from another. To solve such problems, in this work we present a segmentation model with adaptive spatial priors from joint registration. This model combines segmentation and registration in a unified framework to leverage their positive mutual influence. The segmentation is based on a modified Gaussian mixture model (GMM), which integrates intensity inhomogeneity and spacial smoothness. The registration plays the role of providing a shape prior. We adopt a modified sum of squared difference (SSD) fidelity term and Tikhonov regularity term for registration, and also utilize Gaussian pyramid and parametric method for robustness. The connection between segmentation and registration is guaranteed by the cross entropy metric that aims to make the segmentation map (from segmentation) and deformed atlas (from registration) as similar as possible. This joint framework is implemented within a constraint optimization framework, which leads to an efficient algorithm. We evaluate our proposed model on synthetic and thigh muscle MR images. Numerical results show the improvement as compared to segmentation and registration performed separately and other joint models.
翻訳日:2022-03-30 17:10:49 公開日:2022-03-29
# syslrn: 効率的な異常検出のための監視方法を学ぶ

syslrn: Learning What to Monitor for Efficient Anomaly Detection ( http://arxiv.org/abs/2203.15324v1 )

ライセンス: Link先を確認
Davide Sanvito, Giuseppe Siracusano, Sharan Santhanam, Roberto Gonzalez, Roberto Bifulco(参考訳) 異常や障害を検出するためのシステム動作の監視は重要であるが、ログ分析に基づく既存の手法は、ログに含まれる情報に匹敵するだけでなく、OSレベルのソフトウェア状態に目を向ける他のアプローチにも高いオーバーヘッドが伴う。 我々は、まずターゲットシステムの理解をオフラインで構築するシステムであるsyslrnに対処し、学習した通常の振る舞いの識別子に基づいてオンライン監視機器を調整する。 私たちのsyslrnプロトタイプはまだ予備的な段階ですが、多くの機能が欠けていますが、OpenStackの障害監視のケーススタディでは、最先端のログ分析システムよりもオーバーヘッドがほとんどありません。

While monitoring system behavior to detect anomalies and failures is important, existing methods based on log-analysis can only be as good as the information contained in the logs, and other approaches that look at the OS-level software state introduce high overheads. We tackle the problem with syslrn, a system that first builds an understanding of a target system offline, and then tailors the online monitoring instrumentation based on the learned identifiers of normal behavior. While our syslrn prototype is still preliminary and lacks many features, we show in a case study for the monitoring of OpenStack failures that it can outperform state-of-the-art log-analysis systems with little overhead.
翻訳日:2022-03-30 17:09:27 公開日:2022-03-29
# 神経多目的組合せ最適化のためのパレート集合学習

Pareto Set Learning for Neural Multi-objective Combinatorial Optimization ( http://arxiv.org/abs/2203.15386v1 )

ライセンス: Link先を確認
Xi Lin, Zhiyuan Yang, Qingfu Zhang(参考訳) 多目的組合せ最適化(MOCO)問題は多くの実世界のアプリケーションで見られる。 しかし、これらの問題を正確に解くことは、特にNPハードの場合、非常に難しい。 過去数十年にわたり、様々なMOCO問題に取り組むために、手作りのヒューリスティック手法が提案されてきた。 本研究では, ニューラル組合せ最適化の考え方を一般化し, 与えられたMOCO問題に対するパレート集合全体を, さらなる探索手順なしで近似する学習ベースアプローチを開発する。 我々は,任意のトレードオフ選好に対して近似pareto解を直接生成する単一選好条件モデルを提案し,このモデルを学習するための効率的な多目的強化学習アルゴリズムを設計する。 提案手法は、広く使われている分解型多目的進化アルゴリズム(MOEA/D)の学習ベース拡張として扱うことができる。 他の手法ではパレート集合を近似するために有限個の解を用いるのに対し、単一のモデルを使って全ての可能な選好を満たしている。 実験の結果,提案手法は,多目的走行セールスマン問題,多目的車両ルーティング問題,多目的クナップサック問題において,解の質,速度,モデル効率の点で有意な差を示した。

Multiobjective combinatorial optimization (MOCO) problems can be found in many real-world applications. However, exactly solving these problems would be very challenging, particularly when they are NP-hard. Many handcrafted heuristic methods have been proposed to tackle different MOCO problems over the past decades. In this work, we generalize the idea of neural combinatorial optimization, and develop a learning-based approach to approximate the whole Pareto set for a given MOCO problem without further search procedure. We propose a single preference-conditioned model to directly generate approximate Pareto solutions for any trade-off preference, and design an efficient multiobjective reinforcement learning algorithm to train this model. Our proposed method can be treated as a learning-based extension for the widely-used decomposition-based multiobjective evolutionary algorithm (MOEA/D). It uses a single model to accommodate all the possible preferences, whereas other methods use a finite number of solution to approximate the Pareto set. Experimental results show that our proposed method significantly outperforms some other methods on the multiobjective traveling salesman problem, multiobjective vehicle routing problem and multiobjective knapsack problem in terms of solution quality, speed, and model efficiency.
翻訳日:2022-03-30 17:08:34 公開日:2022-03-29
# トポロジカルデータ解析とニューラルネットワークによる韓国音楽の機械構成

Machine Composition of Korean Music via Topological Data Analysis and Artificial Neural Network ( http://arxiv.org/abs/2203.15468v1 )

ライセンス: Link先を確認
Mai Lan Tran and Dongjin Lee and Jae-Hun Jung(参考訳) ニューラルネットワークに基づく一般的なai音楽合成アルゴリズムは、大量の楽曲を供給して機械を訓練し、入力された音楽データに似た音楽を生成できる人工ニューラルネットワークを作成する。 このアプローチはブラックボックス最適化であり、基礎となる合成アルゴリズムは一般にユーザには知られていない。 本稿では,楽曲を直接供給するのではなく,与えられた音楽データに埋め込まれた作曲原理を機械に教える機械合成法を提案する。 提案手法は, \cite{TPJ} で提案された {\color{black}{Overlap}} 行列の概念を用いて提案する。 韓国音楽の一種である \cite{tpj} では、suyeonjangjigok などの「it dodeuri」音楽が位相データ解析(topological data analysis, tda)によって分析され、特に永続ホモロジーを用いて分析されている。 生の音楽データがTDA解析に適さないため、まず、音楽データをグラフとして再構成する。 グラフのノードは、各音符のピッチと持続時間からなる2次元ベクトルとして定義される。 これらのノードが音楽フローに連続して現れると、2つのノード間のエッジが生成される。 このような出現頻度に基づいて距離が定義される。 構築されたグラフ上のTDAを通して、与えられた音楽に対してユニークなサイクルの集合が見つかる。 \cite{tpj} では、行列形式で音楽の流れ上でそれらのサイクルがどのように相互接続されるかを視覚化する、 {\it {\color{black}{overlap}} matrix} の新しい概念が提案されている。 本稿では,機械合成に {\color{black}{Overlap}} 行列をどのように利用するかを説明する。 {\color{black}{Overlap}}行列は、新しい楽曲をアルゴリズムで合成することができ、また、所望の人工ニューラルネットワークに向けてシード音楽を提供する。 本稿では,「it dodeuri」の音楽を用いて,詳細な手順について述べる。

Common AI music composition algorithms based on artificial neural networks are to train a machine by feeding a large number of music pieces and create artificial neural networks that can produce music similar to the input music data. This approach is a blackbox optimization, that is, the underlying composition algorithm is, in general, not known to users. In this paper, we present a way of machine composition that trains a machine the composition principle embedded in the given music data instead of directly feeding music pieces. We propose this approach by using the concept of {\color{black}{Overlap}} matrix proposed in \cite{TPJ}. In \cite{TPJ}, a type of Korean music, so-called the {\it Dodeuri} music such as Suyeonjangjigok has been analyzed using topological data analysis (TDA), particularly using persistent homology. As the raw music data is not suitable for TDA analysis, the music data is first reconstructed as a graph. The node of the graph is defined as a two-dimensional vector composed of the pitch and duration of each music note. The edge between two nodes is created when those nodes appear consecutively in the music flow. Distance is defined based on the frequency of such appearances. Through TDA on the constructed graph, a unique set of cycles is found for the given music. In \cite{TPJ}, the new concept of the {\it {\color{black}{Overlap}} matrix} has been proposed, which visualizes how those cycles are interconnected over the music flow, in a matrix form. In this paper, we explain how we use the {\color{black}{Overlap}} matrix for machine composition. The {\color{black}{Overlap}} matrix makes it possible to compose a new music piece algorithmically and also provide a seed music towards the desired artificial neural network. In this paper, we use the {\it Dodeuri} music and explain detailed steps.
翻訳日:2022-03-30 17:08:15 公開日:2022-03-29
# ガウス制御バリア機能 : 安全のための非パラメトリックパラダイム

Gaussian Control Barrier Functions : A Non-Parametric Paradigm to Safety ( http://arxiv.org/abs/2203.15474v1 )

ライセンス: Link先を確認
Mouhyemen Khan, Tatsuya Ibuki, Abhijit Chatterjee(参考訳) 安全対策における制御障壁関数(CBF)の成功とモデリング機能のためのデータ駆動手法の台頭に着想を得て,ガウス過程(GP)を用いたCBFのオンライン合成のための非パラメトリックアプローチを提案する。 CBFのような数学的構造は、候補関数を事前設計することで安全性を達成している。 しかし、そのような候補関数を設計することは困難である。 そのような設定の実践的な例は、安全で航行可能な地域を決定する必要がある災害復旧シナリオでCBFを設計することである。 このような例における安全のための決定境界は未知であり、事前設計はできない。 提案手法では,これらの試料に先立ってフレキシブルGPを仮定し,安全試料や観測値を用いてCBFをオンライン構築し,ガウス型CBFと表現する。 GPは解析的トラクタビリティやロバストな不確実性推定などの非パラメトリック性に加えて、好ましい性質を持つ。 これにより、分散推定を取り入れた後続成分を高い安全性で実現でき、また、クローズド形式の部分微分を計算して安全に制御できる。 さらに,本手法から合成した安全関数は,データに基づいて対応するセーフセットを任意に変更できるため,非凸セーフセットを許容する。 本手法は, オンライン上で安全なセットが構築されている場合の衝突回避と, 固定セットに対する安全な制御を実証することにより, クオータ上で実験的に検証する。 最後に,ガウスのCBFを正規のCBFと混同し,ノイズに対する柔軟性と堅牢性を強調する。 実験ビデオは、https://youtu.be/hx6uokvcigkで見ることができる。

Inspired by the success of control barrier functions (CBFs) in addressing safety, and the rise of data-driven techniques for modeling functions, we propose a non-parametric approach for online synthesis of CBFs using Gaussian Processes (GPs). Mathematical constructs such as CBFs have achieved safety by designing a candidate function a priori. However, designing such a candidate function can be challenging. A practical example of such a setting would be to design a CBF in a disaster recovery scenario where safe and navigable regions need to be determined. The decision boundary for safety in such an example is unknown and cannot be designed a priori. In our approach, we work with safety samples or observations to construct the CBF online by assuming a flexible GP prior on these samples, and term our formulation as a Gaussian CBF. GPs have favorable properties, in addition to being non-parametric, such as analytical tractability and robust uncertainty estimation. This allows realizing the posterior components with high safety guarantees by incorporating variance estimation, while also computing associated partial derivatives in closed-form to achieve safe control. Moreover, the synthesized safety function from our approach allows changing the corresponding safe set arbitrarily based on the data, thus allowing non-convex safe sets. We validate our approach experimentally on a quadrotor by demonstrating safe control for fixed but arbitrary safe sets and collision avoidance where the safe set is constructed online. Finally, we juxtapose Gaussian CBFs with regular CBFs in the presence of noisy states to highlight its flexibility and robustness to noise. The experiment video can be seen at: https://youtu.be/HX6uokvCiGk
翻訳日:2022-03-30 17:07:45 公開日:2022-03-29
# 2次最適化によるオーバーザ・エアフェデレート学習

Over-the-Air Federated Learning via Second-Order Optimization ( http://arxiv.org/abs/2203.15488v1 )

ライセンス: Link先を確認
Peng Yang, Yuning Jiang, Ting Wang, Yong Zhou, Yuanming Shi, Colin N. Jones(参考訳) フェデレーション学習(federated learning, fl)は,プライバシとセキュリティの保証をユーザのデータをローカルに保持しながら,分離したデータ島の問題に対処可能な,有望な学習パラダイムである。 しかし、flは無線リソースが限られている無線ネットワーク上でタスク指向のデータトラフィックフローをもたらす可能性がある。 通信効率のよいflを設計するために、既存の研究のほとんどは、収束率の遅い一階フェデレート最適化アプローチを採用している。 これにより、エッジデバイスとエッジサーバ間のローカルモデル更新に対する過剰な通信ラウンドが発生する。 そこで本稿では,通信ラウンドを同時に削減し,低レイテンシなグローバルモデルアグリゲーションを実現するために,空対2次フェデレーション最適化アルゴリズムを提案する。 これは、マルチアクセスチャネルの波形重畳特性を利用して、無線ネットワーク上の分散二階最適化アルゴリズムを実装する。 提案アルゴリズムの収束挙動はさらに特徴付けられ,各繰り返しにおける累積誤差項による線形2次収束率を明らかにする。 そこで本研究では,デバイス選択とビームフォーミング設計による累積誤差ギャップを最小化するシステム最適化手法を提案する。 計算結果から,システムと通信効率を最先端手法と比較した。

Federated learning (FL) is a promising learning paradigm that can tackle the increasingly prominent isolated data islands problem while keeping users' data locally with privacy and security guarantees. However, FL could result in task-oriented data traffic flows over wireless networks with limited radio resources. To design communication-efficient FL, most of the existing studies employ the first-order federated optimization approach that has a slow convergence rate. This however results in excessive communication rounds for local model updates between the edge devices and edge server. To address this issue, in this paper, we instead propose a novel over-the-air second-order federated optimization algorithm to simultaneously reduce the communication rounds and enable low-latency global model aggregation. This is achieved by exploiting the waveform superposition property of a multi-access channel to implement the distributed second-order optimization algorithm over wireless networks. The convergence behavior of the proposed algorithm is further characterized, which reveals a linear-quadratic convergence rate with an accumulative error term in each iteration. We thus propose a system optimization approach to minimize the accumulated error gap by joint device selection and beamforming design. Numerical results demonstrate the system and communication efficiency compared with the state-of-the-art approaches.
翻訳日:2022-03-30 17:07:17 公開日:2022-03-29
# 監視なしで学習するニューラルオーディオ

Learning neural audio features without supervision ( http://arxiv.org/abs/2203.15519v1 )

ライセンス: Link先を確認
Sarthak Yadav, Neil Zeghidour(参考訳) deep audio classificationは、メルフィルターバンク上にディープニューラルネットワークをトレーニングするのが伝統的だが、最近は2つの独立した作業の恩恵を受けている。 最初のものは"学習可能なフロントエンド"、すなわち学習可能な時間周波数表現を生成するニューラルネットワークモジュールを探索し、固定された機能の制限を克服する。 2つめは、自己教師付き学習を使用して、前例のない事前トレーニングデータのスケールを活用することだ。 本研究では、下流分類の主アーキテクチャと協調して学習可能なフロントエンドを事前学習する両手法を組み合わせる可能性について検討する。 まず,従来提案されていた2つのフロントエンド(SincNetとLEAF)をAudioset上で事前学習することで,固定されたメルフィルタバンクよりも線形プローブ性能が大幅に向上することを示す。 驚くべきことに、ランダムに初期化される学習可能なフィルタバンクは、学習可能なフィルタを設計する際の強い事前の適切性に疑問を呈する、自己教師付き設定におけるメルスケールの初期化よりも優れている。 学習済みフロントエンドコンポーネントの探索的解析により,教師あり・自己教師あり設定,特に自己教師ありフィルタの親和性がメルスケールから大きく異なっており,より広い周波数範囲のモデル化が可能であることを明らかにする。

Deep audio classification, traditionally cast as training a deep neural network on top of mel-filterbanks in a supervised fashion, has recently benefited from two independent lines of work. The first one explores "learnable frontends", i.e., neural modules that produce a learnable time-frequency representation, to overcome limitations of fixed features. The second one uses self-supervised learning to leverage unprecedented scales of pre-training data. In this work, we study the feasibility of combining both approaches, i.e., pre-training learnable frontend jointly with the main architecture for downstream classification. First, we show that pretraining two previously proposed frontends (SincNet and LEAF) on Audioset drastically improves linear-probe performance over fixed mel-filterbanks, suggesting that learnable time-frequency representations can benefit self-supervised pre-training even more than supervised training. Surprisingly, randomly initialized learnable filterbanks outperform mel-scaled initialization in the self-supervised setting, a counter-intuitive result that questions the appropriateness of strong priors when designing learnable filters. Through exploratory analysis of the learned frontend components, we uncover crucial differences in properties of these frontends when used in a supervised and self-supervised setting, especially the affinity of self-supervised filters to diverge significantly from the mel-scale to model a broader range of frequencies.
翻訳日:2022-03-30 17:06:56 公開日:2022-03-29
# 制御多体ダイナミクスに基づく効率的な量子コンピューティングのための回路カプセル化

Circuit encapsulation for efficient quantum computing based on controlled many-body dynamics ( http://arxiv.org/abs/2203.15574v1 )

ライセンス: Link先を確認
Ying Lu, Peng-Fei Zhou, Shao-Ming Fei, Shi-Ju Ran(参考訳) 相互作用するスピンシステムの時間進化を制御することは、量子コンピューティングを実装する重要なアプローチである。 本稿では、回路を複数の基本ゲートの積にコンパイルする手法と異なり、回路を異なる部品にカプセル化する量子回路カプセル化(qce)を提案し、時間発展によって各部品のユニタリ変換を実現するために磁場を最適化する。 qceは、目標ユニタリへの最短経路を見つけることでエラーの蓄積を回避し、適切に制御されたエラーと時間コストを持つことが示されている。 我々は,量子イジングチェーンの時間発展を制御し,マルチ量子ビット量子フーリエ変換を実現するために4つの異なるカプセル化手法をテストした。 2ビット制御ゲート数に対する時間コストと誤差のスケーリング挙動を実証した。 QCEは、回路を量子多体ダイナミクスに基づいて物理的に実行可能な形式に変換する代替のコンパイルスキームを提供する。

Controlling the time evolution of interacting spin systems is an important approach of implementing quantum computing. Different from the approaches by compiling the circuits into the product of multiple elementary gates, we here propose the quantum circuit encapsulation (QCE), where we encapsulate the circuits into different parts, and optimize the magnetic fields to realize the unitary transformation of each part by the time evolution. The QCE is demonstrated to possess well-controlled error and time cost, which avoids the error accumulations by aiming at finding the shortest path directly to the target unitary. We test four different encapsulation ways to realize the multi-qubit quantum Fourier transformations by controlling the time evolution of the quantum Ising chain. The scaling behaviors of the time costs and errors against the number of two-qubit controlled gates are demonstrated. The QCE provides an alternative compiling scheme that translates the circuits into a physically-executable form based on the quantum many-body dynamics, where the key issue becomes the encapsulation way to balance between the efficiency and flexibility.
翻訳日:2022-03-30 17:06:11 公開日:2022-03-29
# ニューラルオーディオコーデックにおける周囲からの発話の遠ざかる

Disentangling speech from surroundings in a neural audio codec ( http://arxiv.org/abs/2203.15578v1 )

ライセンス: Link先を確認
Ahmed Omran, Neil Zeghidour, Zal\'an Borsos, F\'elix de Chaumont Quitry, Malcolm Slaney, Marco Tagliasacchi(参考訳) 本稿では,ニューラルオーディオコーデックの圧縮領域における雑音環境から音声信号を分離する手法を提案する。 そこで本研究では,組込みベクトルが音声信号であり,残りが環境を表す,組込みベクトルによって与えられる音声波形の構造化符号化を実現するための新しい学習手順を提案する。 異なる入力波形の埋め込みを分割し、混合したパーティションから音声を忠実に再構築するためにモデルをトレーニングすることで、各パーティションが別のオーディオ属性を符号化できるようにする。 使用例として,背景雑音や残響特性からの音声の分離を示す。 また,音声出力特性を目標に調整することも可能である。

We present a method to separate speech signals from noisy environments in the compressed domain of a neural audio codec. We introduce a new training procedure that allows our model to produce structured encodings of audio waveforms given by embedding vectors, where one part of the embedding vector represents the speech signal, and the rest represents the environment. We achieve this by partitioning the embeddings of different input waveforms and training the model to faithfully reconstruct audio from mixed partitions, thereby ensuring each partition encodes a separate audio attribute. As use cases, we demonstrate the separation of speech from background noise or from reverberation characteristics. Our method also allows for targeted adjustments of the audio output characteristics.
翻訳日:2022-03-30 17:04:59 公開日:2022-03-29
# 野生における迷路型物体検出

Gaze-based Object Detection in the Wild ( http://arxiv.org/abs/2203.15651v1 )

ライセンス: Link先を確認
Daniel Weber, Wolfgang Fuhl, Andreas Zell, Enkelejda Kasneci(参考訳) 人間とロボットのコラボレーションでは、ロボットに新しい未知の物体を教えることが難しい。 これにより、視線は貴重な情報を含むことができる。 本研究では,視線データから物体(物体の有無)を検出し,境界ボックスパラメータを決定することができるか検討する。 この目的のために,時間窓の大きさの異なる時間窓を探索し,熱マップ,すなわち視線データの空間分布の計算の基盤となる。 さらに,これらヒートマップのグリッドサイズを解析し,様々な機械学習手法を適用した。 このデータを生成するために,自由移動が可能な5名の被験者を対象に,任意の対象へ向けて小さな調査を行った。 このようにして、私たちは可能な限り現実的なデータ収集のシナリオを選択しました。 被験者は対象を向いたまま移動するため、ヒートマップには視線データトラジェクトリが含まれており、検出とパラメータ回帰が複雑になる。

In human-robot collaboration, one challenging task is to teach a robot new yet unknown objects. Thereby, gaze can contain valuable information. We investigate if it is possible to detect objects (object or no object) from gaze data and determine their bounding box parameters. For this purpose, we explore different sizes of temporal windows, which serve as a basis for the computation of heatmaps, i.e., the spatial distribution of the gaze data. Additionally, we analyze different grid sizes of these heatmaps, and various machine learning techniques are applied. To generate the data, we conducted a small study with five subjects who could move freely and thus, turn towards arbitrary objects. This way, we chose a scenario for our data collection that is as realistic as possible. Since the subjects move while facing objects, the heatmaps also contain gaze data trajectories, complicating the detection and parameter regression.
翻訳日:2022-03-30 17:04:48 公開日:2022-03-29
# 低線量ctのための物理モデルとデータ駆動法の融合

Synergizing Physics/Model-based and Data-driven Methods for Low-Dose CT ( http://arxiv.org/abs/2203.15725v1 )

ライセンス: Link先を確認
Wenjun Xia, Hongming Shan, Ge Wang and Yi Zhang(参考訳) 2016年以降,低線量CT(LDCT)画像において,深部CT(Deep Learning, DL)が顕著な成功を収めている。 LDCTはビッグデータによって駆動されているにもかかわらず、ブラックボックスの性質や不安定性などの大きな問題に悩まされることが多く、低用量CTアプリケーションにディープラーニングを適用する上で大きな障壁となっている。 新たなトレンドは、イメージング物理学とモデルをディープネットワークに統合し、物理/モデルベースおよびデータ駆動要素のハイブリッド化を可能にすることだ。 本稿では,LDCTの物理モデルに基づくデータ駆動方式を体系的に検討し,損失関数とトレーニング戦略を要約し,異なる手法の性能評価を行い,関連する課題と今後の方向性について議論する。

Since 2016, deep learning (DL) has advanced tomographic imaging with remarkable successes, especially in low-dose computed tomography (LDCT) imaging. Despite being driven by big data, the LDCT denoising and pure end-to-end reconstruction networks often suffer from the black box nature and major issues such as instabilities, which is a major barrier to apply deep learning methods in low-dose CT applications. An emerging trend is to integrate imaging physics and model into deep networks, enabling a hybridization of physics/model-based and data-driven elements. In this paper, we systematically review the physics/model-based data-driven methods for LDCT, summarize the loss functions and training strategies, evaluate the performance of different methods, and discuss relevant issues and future directions
翻訳日:2022-03-30 17:04:33 公開日:2022-03-29
# 変分オートエンコーダのためのスパルシリティ・プロモーティング辞書モデル

A Sparsity-promoting Dictionary Model for Variational Autoencoders ( http://arxiv.org/abs/2203.15758v1 )

ライセンス: Link先を確認
Mostafa Sadeghi, Paul Magron(参考訳) 確率的深層生成モデル(例えば、変分オートエンコーダ(VAE))における潜伏空間の構造化は、より表現力のあるモデルや解釈可能な表現を導き、過度な適合を避けるために重要である。 この目的を達成する方法の1つは、遅延変数(例えば、Laplaceを前もって)にスパーシティ制約を課すことである。 しかし、そのようなアプローチはトレーニングフェーズを複雑にし、スパーシティを促進するために再構築品質を犠牲にする。 本稿では,各潜在コードを辞書の列のスパース線形結合として書くことができることを前提として,スパルシティ・プロモーティング・ディクショナリモデルを用いて,潜在空間を構成する簡易かつ効果的な手法を提案する。 特に,学習可能な分散を持つゼロ平均ガウス的潜在性に先行する計算効率とチューニングフリーの手法を活用した。 モデルを訓練するための変分推論スキームを導出する。 音声生成モデル実験は、出力音声品質を損なうことなくスパーシティを促進するため、競合技術に対する提案手法の利点を実証する。

Structuring the latent space in probabilistic deep generative models, e.g., variational autoencoders (VAEs), is important to yield more expressive models and interpretable representations, and to avoid overfitting. One way to achieve this objective is to impose a sparsity constraint on the latent variables, e.g., via a Laplace prior. However, such approaches usually complicate the training phase, and they sacrifice the reconstruction quality to promote sparsity. In this paper, we propose a simple yet effective methodology to structure the latent space via a sparsity-promoting dictionary model, which assumes that each latent code can be written as a sparse linear combination of a dictionary's columns. In particular, we leverage a computationally efficient and tuning-free method, which relies on a zero-mean Gaussian latent prior with learnable variances. We derive a variational inference scheme to train the model. Experiments on speech generative modeling demonstrate the advantage of the proposed approach over competing techniques, since it promotes sparsity while not deteriorating the output speech quality.
翻訳日:2022-03-30 17:04:18 公開日:2022-03-29
# 確率ブロックモデルにおける厳密なコミュニティ回復

Exact Community Recovery in Correlated Stochastic Block Models ( http://arxiv.org/abs/2203.15736v1 )

ライセンス: Link先を確認
Julia Gaudio, Miklos Z. Racz, Anirudh Sridhar(参考訳) 複数の相関ネットワークから潜在コミュニティ構造を学習する問題を考察する。 2つのバランスの取れたコミュニティを持つエッジ関連確率ブロックモデルについて検討し,平均次数が頂点数で対数となる状況に着目した。 本研究の主な結果は,複数の相関グラフを用いた正確なコミュニティ回復のための正確な情報理論閾値を導出する。 このしきい値は、コミュニティリカバリとグラフマッチングタスクの間の相互作用を捉えます。 特に,(1)単一グラフでは情報理論上不可能であり,(2)正確なグラフマッチングも情報理論上不可能であるにもかかわらず,複数の相関グラフを用いて正確なコミュニティ回復が可能なパラメータ空間の領域を明らかにする。 本研究では,コミュニティ・リカバリとグラフマッチングの文献からアルゴリズムを注意深く合成する新しいアルゴリズムを開発した。

We consider the problem of learning latent community structure from multiple correlated networks. We study edge-correlated stochastic block models with two balanced communities, focusing on the regime where the average degree is logarithmic in the number of vertices. Our main result derives the precise information-theoretic threshold for exact community recovery using multiple correlated graphs. This threshold captures the interplay between the community recovery and graph matching tasks. In particular, we uncover and characterize a region of the parameter space where exact community recovery is possible using multiple correlated graphs, even though (1) this is information-theoretically impossible using a single graph and (2) exact graph matching is also information-theoretically impossible. In this regime, we develop a novel algorithm that carefully synthesizes algorithms from the community recovery and graph matching literatures.
翻訳日:2022-03-30 17:03:56 公開日:2022-03-29
# (参考訳) DRaCoN-Articulated Avatar用ラスタ化条件ニューラル放射場

DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance Fields for Articulated Avatars ( http://arxiv.org/abs/2203.15798v1 )

ライセンス: CC BY 4.0
Amit Raj, Umar Iqbal, Koki Nagano, Sameh Khamis, Pavlo Molchanov, James Hays, Jan Kautz(参考訳) デジタル人間のアバターの獲得と作成は、仮想テレプレゼンス、ゲーム、人間モデリングへの応用において重要な問題である。 現代のアバター生成のアプローチのほとんどは、マルチビューデータを用いて外観(メッシュ、暗黙の面、ボリュームなど)で3D表現を学習する3Dベースの手法や、アバターのフォトリアリスティックレンダリングを学習するが正確な3D表現を欠く2Dベースの手法と見ることができる。 本稿では,2次元および3次元のニューラルレンダリング技術の利点を生かしたフルボディボリュームアバターを学習するためのフレームワークであるdraconについて述べる。 それは微分可能なラスタライゼーションモジュールDiffRasで構成されており、ターゲット画像の低解像度バージョンを合成し、パラメトリックボディモデルによってガイドされる追加の潜伏特徴を合成する。 次に、DiffRasの出力を条件付き3D表現モジュール(c-NeRF)の条件付けとして使用し、ボリュームレンダリングを用いて最終高解像度画像を生成する。 DiffRasは3D表現に符号付き距離場(SDF)を用いるc-NeRFは、3Dの幾何学的詳細を得るのに役立ちます。 挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNがエラーメトリクスと視覚的品質の両方で最先端の手法より優れていることを示している。

Acquisition and creation of digital human avatars is an important problem with applications to virtual telepresence, gaming, and human modeling. Most contemporary approaches for avatar generation can be viewed either as 3D-based methods, which use multi-view data to learn a 3D representation with appearance (such as a mesh, implicit surface, or volume), or 2D-based methods which learn photo-realistic renderings of avatars but lack accurate 3D representations. In this work, we present, DRaCoN, a framework for learning full-body volumetric avatars which exploits the advantages of both the 2D and 3D neural rendering techniques. It consists of a Differentiable Rasterization module, DiffRas, that synthesizes a low-resolution version of the target image along with additional latent features guided by a parametric body model. The output of DiffRas is then used as conditioning to our conditional neural 3D representation module (c-NeRF) which generates the final high-res image along with body geometry using volumetric rendering. While DiffRas helps in obtaining photo-realistic image quality, c-NeRF, which employs signed distance fields (SDF) for 3D representations, helps to obtain fine 3D geometric details. Experiments on the challenging ZJU-MoCap and Human3.6M datasets indicate that DRaCoN outperforms state-of-the-art methods both in terms of error metrics and visual quality.
翻訳日:2022-03-30 17:02:51 公開日:2022-03-29
# 認知サービスにおけるレコメンデーションの要求事項

Requirements Elicitation in Cognitive Service for Recommendation ( http://arxiv.org/abs/2203.14958v1 )

ライセンス: Link先を確認
Bolin Zhang, Zhiying Tu, Yunzhe Xu, Dianhui Chu and Xiaofei Xu(参考訳) 現在、cognitive serviceは、人間と機械の会話を通じてユーザーの要求を理解するよりインタラクティブな方法を提供する。 言い換えれば、発話からユーザの要求を捕捉し、関連する適切なサービスリソースで対応する必要があります。 この目的のために、I.Sequence Planning と Real-time Detection of user requirements, II.Service Resource selection と Response Generation の2つのフェーズを適用する必要がある。 既存の作品はこれら2つの相の間の潜在的なつながりを無視している。 接続をモデル化するために,二相要求導出法が提案されている。 本稿では,会話の前に,ユーザプロファイルと個人知識ベースに基づく潜在的な要件シーケンスを計画するためのユーザ要件抽出フレームワーク(uref)を提案する。 また、ユーザの真の要求を予測し、会話中のユーザの発話に基づいて要求が完了したかどうかを判断することもできる。 フェーズIIでは,注意に基づく応答生成モデルSaRSNetを提案する。 URefが予測した要件に従って適切なリソース(すなわち知識3倍)を選択し、推奨のために適切な応答を生成する。 オープンデータセット \emph{durecdial} の実験結果は,提案手法の有効性を示すベースラインと比較して有意に改善されている。

Nowadays, cognitive service provides more interactive way to understand users' requirements via human-machine conversation. In other words, it has to capture users' requirements from their utterance and respond them with the relevant and suitable service resources. To this end, two phases must be applied: I.Sequence planning and Real-time detection of user requirement, II.Service resource selection and Response generation. The existing works ignore the potential connection between these two phases. To model their connection, Two-Phase Requirement Elicitation Method is proposed. For the phase I, this paper proposes a user requirement elicitation framework (URef) to plan a potential requirement sequence grounded on user profile and personal knowledge base before the conversation. In addition, it can also predict user's true requirement and judge whether the requirement is completed based on the user's utterance during the conversation. For the phase II, this paper proposes a response generation model based on attention, SaRSNet. It can select the appropriate resource (i.e. knowledge triple) in line with the requirement predicted by URef, and then generates a suitable response for recommendation. The experimental results on the open dataset \emph{DuRecDial} have been significantly improved compared to the baseline, which proves the effectiveness of the proposed methods.
翻訳日:2022-03-30 16:47:23 公開日:2022-03-29
# ディープハッシュとコード分類によるコード検索の高速化

Accelerating Code Search with Deep Hashing and Code Classification ( http://arxiv.org/abs/2203.15287v1 )

ライセンス: Link先を確認
Wenchao Gu, Yanlin Wang, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, and Michael R. Lyu(参考訳) コード検索は、自然言語クエリに基づいてソースコードコーパスから再利用可能なコードスニペットを検索する。 深層学習に基づくコード検索手法は有望な結果を示している。 しかし,従来の手法は検索精度に重点を置いていたが,検索効率に注意が払わなかった。 本研究では,コード探索の精度を犠牲にすることなく,効率的なコード探索を実現することを目的とした,ディープハッシュとコード分類によるコード探索を高速化する新しい手法であるcoshcを提案する。 CoSHCの有効性を評価するため,提案手法を5つのコード検索モデルに適用した。 その結果,CoSHCは検索時間の90%以上を節約できる一方で,検索精度の99%は保存できることがわかった。

Code search is to search reusable code snippets from source code corpus based on natural languages queries. Deep learning-based methods of code search have shown promising results. However, previous methods focus on retrieval accuracy but lacked attention to the efficiency of the retrieval process. We propose a novel method CoSHC to accelerate code search with deep hashing and code classification, aiming to perform an efficient code search without sacrificing too much accuracy. To evaluate the effectiveness of CoSHC, we apply our method to five code search models. Extensive experimental results indicate that compared with previous code search baselines, CoSHC can save more than 90% of retrieval time meanwhile preserving at least 99% of retrieval accuracy.
翻訳日:2022-03-30 16:46:17 公開日:2022-03-29
# Eコマース検索におけるクリックスルーレート予測のためのユーザコンテキスト化ページワイズフィードバックのモデル化

Modeling Users' Contextualized Page-wise Feedback for Click-Through Rate Prediction in E-commerce Search ( http://arxiv.org/abs/2203.15542v1 )

ライセンス: Link先を確認
Zhifang Fan, Dan Ou, Yulong Gu, Bairan Fu, Xiang Li, Wentian Bao, Xin-Yu Dai, Xiaoyi Zeng, Tao Zhuang, Qingwen Liu(参考訳) ユーザの履歴フィードバックのモデル化は、パーソナライズされた検索とレコメンデーションにおけるクリックスルー率予測に不可欠である。 既存の手法は通常、フィードバックのコンテキスト情報を無視するクリックシーケンスのようなユーザのポジティブなフィードバック情報をモデル化する。 本稿では、ページワイズされた製品全体とそれに対応するフィードバックをコンテキスト化されたページワイズフィードバックシーケンスとして含み、コンテキスト対応ユーザ行動モデリングの新しい視点を提案する。 ページ内コンテキスト情報とページ間関心の進化は、より特定のユーザーの好みを学ぶためにキャプチャできる。 我々は,ページ内コンテキストをモデル化するために,ページコンテキストに注意を払う新しいニューラルネットワークランキングモデルRACP(Recurrent Attention over Contextualized Page sequence)を設計する。 繰り返しアテンションプロセスを用いて、ページ間の関心収束進化を、前のページの関心を認知するものとしてモデル化する。 パブリックおよび実世界の産業データセットの実験は、我々のモデルの有効性を検証する。

Modeling user's historical feedback is essential for Click-Through Rate Prediction in personalized search and recommendation. Existing methods usually only model users' positive feedback information such as click sequences which neglects the context information of the feedback. In this paper, we propose a new perspective for context-aware users' behavior modeling by including the whole page-wisely exposed products and the corresponding feedback as contextualized page-wise feedback sequence. The intra-page context information and inter-page interest evolution can be captured to learn more specific user preference. We design a novel neural ranking model RACP(i.e., Recurrent Attention over Contextualized Page sequence), which utilizes page-context aware attention to model the intra-page context. A recurrent attention process is used to model the cross-page interest convergence evolution as denoising the interest in the previous pages. Experiments on public and real-world industrial datasets verify our model's effectiveness.
翻訳日:2022-03-30 16:46:05 公開日:2022-03-29
# 深層言語モデルに基づくクロスメディア科学研究成果検索

Cross-Media Scientific Research Achievements Retrieval Based on Deep Language Model ( http://arxiv.org/abs/2203.15595v1 )

ライセンス: Link先を確認
Benzhi Wang, Meiyu Liang, Feifei Kou and Mingying Xu(参考訳) 科学と技術 ビッグデータには、多くのクロスメディア情報が含まれている。科学論文には画像とテキストがある。s ingle modal search methodは、科学研究者のニーズを十分に満たさない。本論文は、深層言語モデル(deep language model:cardl)に基づく、クロスメディア科学研究成果検索手法を提案する。 異なるモーダルデータ間の意味関係を学習し、科学研究成果のテキスト意味ベクトル生成に適用し、異なるモーダルデータ間の意味類似性マッチングにより、メディア横断検索を実現することにより、統一的なクロスメディア意味表現を実現する。 キーワード科学と技術ビッグデータ ; クロスメディア検索; クロスメディアセマンティックアソシエーション学習; ディープ言語モデル; セマンティック類似性

Science and technology big data contain a lot of cross-media information.There are images and texts in the scientific paper.The s ingle modal search method cannot well meet the needs of scientific researchers.This paper proposes a cross-media scientific research achievements retrieval method based on deep language model (CARDL).It achieves a unified cross-media semantic representation by learning the semantic association between different modal data, and is applied to the generation of text semantic vector of scientific research achievements, and then cross-media retrieval is realized through semantic similarity matching between different modal data.Experimental results show that the proposed CARDL method achieves better cross-modal retrieval performance than existing methods. Key words science and technology big data ; cross-media retrieval; cross-media semantic association learning; deep language model; semantic similarity
翻訳日:2022-03-30 16:44:05 公開日:2022-03-29
# 生成的逆ネットワークを用いたコミュニケーションロボット運動の合成と実行

Synthesis and Execution of Communicative Robotic Movements with Generative Adversarial Networks ( http://arxiv.org/abs/2203.15640v1 )

ライセンス: Link先を確認
Linda Lastrico, Luca Garello, Alessandra Sciutti, Nicoletta Noceti, Fulvio Mastrogiovanni and Francesco Rea(参考訳) オブジェクト操作は私たちが毎日実行する自然なアクティビティです。 人間がどのようにオブジェクトを扱うかは、行動の意志や操作するコンテキストの重要な側面だけでなく、明示的な言語記述を必要とせずに、関連するオブジェクトの特性を伝達することができる。 人間の知性はコンテキストを読み取る能力を備えているため、ロボットはこのような情報を直感的に伝達するアクションを実行できる。 本研究では、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当て、ロボットに動きに注意を示す能力を与える。 我々は、ロボットのエンドエフェクタが採用する速度プロファイルを、異なる特性を持つ物体を輸送する際に人間が何をするかに触発されて調整する。 我々は、人間の運動学の例で訓練された、新しい生成的敵対的ネットワークアーキテクチャを利用して、それらを一般化し、注意深い態度または注意深い態度に関連づけられた、新しい有意義な速度プロファイルを生成する。 このアプローチにより、次世代ロボットは知覚された文脈に応じて最も適切な動作スタイルを選択し、自律的に運動の実行を生成することができる。

Object manipulation is a natural activity we perform every day. How humans handle objects can communicate not only the willfulness of the acting, or key aspects of the context where we operate, but also the properties of the objects involved, without any need for explicit verbal description. Since human intelligence comprises the ability to read the context, allowing robots to perform actions that intuitively convey this kind of information would greatly facilitate collaboration. In this work, we focus on how to transfer on two different robotic platforms the same kinematics modulation that humans adopt when manipulating delicate objects, aiming to endow robots with the capability to show carefulness in their movements. We choose to modulate the velocity profile adopted by the robots' end-effector, inspired by what humans do when transporting objects with different characteristics. We exploit a novel Generative Adversarial Network architecture, trained with human kinematics examples, to generalize over them and generate new and meaningful velocity profiles, either associated with careful or not careful attitudes. This approach would allow next generation robots to select the most appropriate style of movement, depending on the perceived context, and autonomously generate their motor action execution.
翻訳日:2022-03-30 16:43:50 公開日:2022-03-29
# 視線追跡による日常的バーチャルリアリティ

Towards Everyday Virtual Reality through Eye Tracking ( http://arxiv.org/abs/2203.15703v1 )

ライセンス: Link先を確認
Efe Bozkir(参考訳) コンピュータグラフィックス、ハードウェア技術、知覚工学、人間とコンピュータのインタラクションの発展に伴い、仮想現実と仮想環境は私たちの日常生活にますます統合されつつある。 しかし、ヘッドマウントディスプレイは、スマートフォンやウォッチのような他のモバイルデバイスほど頻繁には使われていない。 この技術の利用の増加と、人間の仮想アプリケーションシナリオへの適応により、近い将来、日常的なバーチャルリアリティパラダイムが実現される可能性がある。 日常のバーチャルリアリティとヘッドマウントディスプレイの融合を考えると、アイトラッキングは人間の行動をリアルタイムで非意図的に評価する新しい技術だ。 それでも、これらの技術が日常生活で広く利用できるようになる前に、複数の側面を研究する必要がある。 第一に、日常のシナリオにおける注意と認知モデルを完全に理解する必要がある。 第二に、視覚バイオメトリックスに関連するため、プライバシー保護手法が必要である。 最後に、比較的均質な特徴を持つ限られた人間の参加者を利用する研究や応用ではなく、そのような技術をよりアクセスしやすいものにするためのプロトコルやユースケースが不可欠である。 本研究は、上記の点を考慮し、日常的なバーチャルリアリティーへの大きな科学的取り組みが、3つの主要な研究成果とともに完了している。

With developments in computer graphics, hardware technology, perception engineering, and human-computer interaction, virtual reality and virtual environments are becoming more integrated into our daily lives. Head-mounted displays, however, are still not used as frequently as other mobile devices such as smart phones and watches. With increased usage of this technology and the acclimation of humans to virtual application scenarios, it is possible that in the near future an everyday virtual reality paradigm will be realized. When considering the marriage of everyday virtual reality and head-mounted displays, eye tracking is an emerging technology that helps to assess human behaviors in a real time and non-intrusive way. Still, multiple aspects need to be researched before these technologies become widely available in daily life. Firstly, attention and cognition models in everyday scenarios should be thoroughly understood. Secondly, as eyes are related to visual biometrics, privacy preserving methodologies are necessary. Lastly, instead of studies or applications utilizing limited human participants with relatively homogeneous characteristics, protocols and use-cases for making such technology more accessible should be essential. In this work, taking the aforementioned points into account, a significant scientific push towards everyday virtual reality has been completed with three main research contributions.
翻訳日:2022-03-30 16:43:28 公開日:2022-03-29
# 教師なし自動音声認識による教師なし音声合成

Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech Recognition ( http://arxiv.org/abs/2203.15796v1 )

ライセンス: Link先を確認
Junrui Ni, Liming Wang, Heting Gao, Kaizhi Qian, Yang Zhang, Shiyu Chang, Mark Hasegawa-Johnson(参考訳) 教師なしテキスト-音声合成(tts)システムは、言語内の任意の文に対応する音声波形を観察して生成する。 1) その言語における未翻訳の音声波形の収集 2) その言語で書かれたテキストの集まりは,転写された音声にアクセスできない。 このようなシステムの開発は、大量の並列音声やテキストデータを使わずに、言語への音声技術の利用を大幅に改善することができる。 本稿では,教師なし自動音声認識(asr)の最近の進歩を活用して,教師なしttsシステムを提案する。 教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。 また,教師なしtts性能に影響を及ぼす要因をよりよく理解するために,テキスト単位とボコーダの効果に関する慎重な研究も行われている。 私たちのモデルで生成されたサンプルは、https://cactuswith Thoughts.github.io/UnsupTTS-Demo.orgにある。

An unsupervised text-to-speech synthesis (TTS) system learns to generate the speech waveform corresponding to any written sentence in a language by observing: 1) a collection of untranscribed speech waveforms in that language; 2) a collection of texts written in that language without access to any transcribed speech. Developing such a system can significantly improve the availability of speech technology to languages without a large amount of parallel speech and text data. This paper proposes an unsupervised TTS system by leveraging recent advances in unsupervised automatic speech recognition (ASR). Our unsupervised system can achieve comparable performance to the supervised system in seven languages with about 10-20 hours of speech each. A careful study on the effect of text units and vocoders has also been conducted to better understand what factors may affect unsupervised TTS performance. The samples generated by our models can be found at https://cactuswiththoughts.github.io/UnsupTTS-Demo.
翻訳日:2022-03-30 16:42:39 公開日:2022-03-29
# 部分観測可能性下におけるトポロジ推論のための非バイアス対称行列推定器

An Unbiased Symmetric Matrix Estimator for Topology Inference under Partial Observability ( http://arxiv.org/abs/2203.15500v1 )

ライセンス: Link先を確認
Yupeng Chen and Zhiguo Wang and Xiaojing Shen(参考訳) ネットワークトポロジ推論は、フェイクニュースのソースの特定、脳接続ネットワークの検出など、ネットワーク科学の多くの応用における基本的な問題である。 多くの現実世界の状況は、観測のごく一部しか利用できない重大な問題に悩まされている。 このレターは、部分可観測性の枠組みの下でのネットワークトポロジー推論の問題を考察する。 ベクトル自己回帰モデルに基づいて、ガウス雑音とラプラシアン結合則を持つ対称ネットワークトポロジーのための新しい非バイアス推定器を提案する。 理論的には、確率でネットワーク結合行列に収束することが証明される。 さらに、ガウス混合モデルアルゴリズムを用いて、ネットワーク構造を推測するネットワーク推論ガウスアルゴリズムと呼ばれる効果的なアルゴリズムを開発した。 最後に, 従来の手法と比較して, 提案アルゴリズムはサンプルサイズが小さければ性能がよいことを示す数値実験を行った。

Network topology inference is a fundamental problem in many applications of network science, such as locating the source of fake news, brain connectivity networks detection, etc. Many real-world situations suffer from a critical problem that only a limited part of observations are available. This letter considers the problem of network topology inference under the framework of partial observability. Based on the vector autoregressive model, we propose a novel unbiased estimator for the symmetric network topology with the Gaussian noise and the Laplacian combination rule. Theoretically, we prove that it converges to the network combination matrix in probability. Furthermore, by utilizing the Gaussian mixture model algorithm, an effective algorithm called network inference Gauss algorithm is developed to infer the network structure. Finally, compared with the state-of-the-art methods, numerical experiments demonstrate the proposed algorithm enjoys better performance in the case of small sample sizes.
翻訳日:2022-03-30 16:42:25 公開日:2022-03-29
# wav2vec 2.0 特徴に基づくbag-of-audio-words アプローチによる家族性発声の複雑なシーケンスの可視化

Visualizations of Complex Sequences of Family-Infant Vocalizations Using Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features ( http://arxiv.org/abs/2203.15183v1 )

ライセンス: Link先を確認
Jialu Li, Mark Hasegawa-Johnson, Nancy L. McElwain(参考訳) 米国では、2-8歳児の約15-17%が少なくとも1人の精神障害、行動障害、発達障害と診断されている。 しかし、そのような疾患はしばしば診断されず、初年の障害を評価し治療する能力は限られている。 幼児の発達変化を分析するために、これまでの研究では、lenaのような携帯電話、ビデオ、音声のみの記録装置を用いて収集された幼児および/または親の発声の分類に優れた高度なmlモデルが示されている。 本研究では,LittleBeats (LB) と呼ばれる乳幼児用ウェアラブルマルチモーダルデバイスの音声成分を試験的に検討した。 LBオーディオパイプラインは、話者ダイアリゼーションと発声分類の両方に信頼性の高いラベルを提供するのに対し、他のプラットフォームではオーディオと/または話者ダイアリゼーションラベルのみを記録できる。 我々は,wav2vec 2.0を用いて,lbファミリーオーディオストリームを用いたより優れたニュアンス結果を得る。 我々は,wav2vec 2.0機能を用いた音声のバガ-オブ-audio-words法を用いて,家族間音声の対話を理解するための高レベル可視化を行う。 我々の高品質な可視化は、ラベル付きLBオーディオとラベルなしLBオーディオの両方において、精神、行動、発達の健康を表わすカテゴリーにおいて、家族の発声相互作用の主要なタイプを捉えている。

In the U.S., approximately 15-17% of children 2-8 years of age are estimated to have at least one diagnosed mental, behavioral or developmental disorder. However, such disorders often go undiagnosed, and the ability to evaluate and treat disorders in the first years of life is limited. To analyze infant developmental changes, previous studies have shown advanced ML models excel at classifying infant and/or parent vocalizations collected using cell phone, video, or audio-only recording device like LENA. In this study, we pilot test the audio component of a new infant wearable multi-modal device that we have developed called LittleBeats (LB). LB audio pipeline is advanced in that it provides reliable labels for both speaker diarization and vocalization classification tasks, compared with other platforms that only record audio and/or provide speaker diarization labels. We leverage wav2vec 2.0 to obtain superior and more nuanced results with the LB family audio stream. We use a bag-of-audio-words method with wav2vec 2.0 features to create high-level visualizations to understand family-infant vocalization interactions. We demonstrate that our high-quality visualizations capture major types of family vocalization interactions, in categories indicative of mental, behavioral, and developmental health, for both labeled and unlabeled LB audio.
翻訳日:2022-03-30 16:40:55 公開日:2022-03-29
# 変圧器を用いたエンドツーエンドストリーミングasr用シフトチャンクエンコーダ

Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR ( http://arxiv.org/abs/2203.15206v1 )

ライセンス: Link先を確認
Fangyuan Wang and Bo Xu(参考訳) 現在、主に3つのTransformer Encoderベースのストリーミング End to End (E2E) Automatic Speech Recognition (ASR)アプローチ、すなわち時間制限法、チャンクワイズ法、メモリベース手法がある。 しかし、これらはすべて、大域的文脈モデリング、線形計算複雑性、モデル並列性といった側面にいくつかの制限がある。 本研究では,E2E ASRをストリーミングする3つの側面の利点を享受するために,単一のモデルを構築することを目的とする。 特に,変換器と変換器をストリーミングする従来のチャンク機構の代わりに,シフトチャンク機構を提案する。 このシフトしたチャンク機構は、局所的なチャンクをまたいでグローバルなコンテキストを捉えながら、線形計算の複雑さと並列トレーニングを可能にすることで、モデリング能力を大幅に向上させることができる。 我々はShifted Chunk TransformerとConformerをそれぞれSChunk-TransofromerとSChunk-Conformerと命名した。 そして、広く使われているaishell-1 benckmarkでパフォーマンスを検証する。 実験の結果、SChunk-TransformerとSChunk-ConformerはそれぞれCER 6.43%と5.77%を達成した。 これは既存のチャンクワイドおよびメモリベースの手法を大きなマージンで上回り、2次計算複雑性を持つ最先端の時間制限手法と比較しても競争力がある。

Currently, there are mainly three Transformer encoder based streaming End to End (E2E) Automatic Speech Recognition (ASR) approaches, namely time-restricted methods, chunk-wise methods, and memory based methods. However, all of them have some limitations in aspects of global context modeling, linear computational complexity, and model parallelism. In this work, we aim to build a single model to achieve the benefits of all the three aspects for streaming E2E ASR. Particularly, we propose to use a shifted chunk mechanism instead of the conventional chunk mechanism for streaming Transformer and Conformer. This shifted chunk mechanism can significantly enhance modeling power through allowing chunk self-attention to capture global context across local chunks, while keeping linear computational complexity and parallel trainable. We name the Shifted Chunk Transformer and Conformer as SChunk-Transofromer and SChunk-Conformer, respectively. And we verify their performance on the widely used AISHELL-1 benckmark. Experiments show that the SChunk-Transformer and SChunk-Conformer achieve CER 6.43% and 5.77%, respectively. That surpasses the existing chunk-wise and memory based methods by a large margin, and is competitive even compared with the state-of-the-art time-restricted methods which have quadratic computational complexity.
翻訳日:2022-03-30 16:40:30 公開日:2022-03-29
# 構文$\unicode{x2013}$prosody mapping hypothesis と韻律的 well-formedness constraints のニューラルネットワーク合成への応用

Applying Syntax$\unicode{x2013}$Prosody Mapping Hypothesis and Prosodic Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis ( http://arxiv.org/abs/2203.15276v1 )

ライセンス: Link先を確認
Kei Furukawa, Takeshi Kishiyama, and Satoshi Nakamura(参考訳) テキストや音素の文字列から直接音声を生成するtts(end-to-end text-to-speech synthesis)は,従来のttsよりも音声合成の質を改善した。 しかし、従来の研究は主観的自然性に基づいて評価されており、日本語の構文構造を反映したダウンステップ、リズムアップ、初期低下といった音韻現象のピッチパターンを再現できるかどうかを客観的に検討していない。 これらの現象は音韻論的制約と構文$\unicode{x2013}$prosody mapping hypothesis (spmh) によって言語的に説明され、構文構造から音韻階層への射影を仮定する。 精神言語学のいくつかの実験では、SPMHの有効性が検証されているが、TSに実装できるかどうかを調べることが重要である。 統語的制約や音韻的制約を含む言語現象を合成するために,SPMHと韻律的健全性制約に基づく音韻記号を用いたモデルを提案する。 実験結果から,本手法は初期下降現象とリズミカル昇降現象について,言語実験で報告されたようなピッチパターンを合成した。 提案モデルは,学習データに明示的に含まれないテストデータ中の音韻現象を効率的に合成する。

End-to-end text-to-speech synthesis (TTS), which generates speech sounds directly from strings of texts or phonemes, has improved the quality of speech synthesis over the conventional TTS. However, most previous studies have been evaluated based on subjective naturalness and have not objectively examined whether they can reproduce pitch patterns of phonological phenomena such as downstep, rhythmic boost, and initial lowering that reflect syntactic structures in Japanese. These phenomena can be linguistically explained by phonological constraints and the syntax$\unicode{x2013}$prosody mapping hypothesis (SPMH), which assumes projections from syntactic structures to phonological hierarchy. Although some experiments in psycholinguistics have verified the validity of the SPMH, it is crucial to investigate whether it can be implemented in TTS. To synthesize linguistic phenomena involving syntactic or phonological constraints, we propose a model using phonological symbols based on the SPMH and prosodic well-formedness constraints. Experimental results showed that the proposed method synthesized similar pitch patterns to those reported in linguistics experiments for the phenomena of initial lowering and rhythmic boost. The proposed model efficiently synthesizes phonological phenomena in the test data that were not explicitly included in the training data.
翻訳日:2022-03-30 16:40:05 公開日:2022-03-29
# エンドツーエンド音声認識への格子フリーMMIの統合

Integrate Lattice-Free MMI into End-to-End Speech Recognition ( http://arxiv.org/abs/2203.15614v1 )

ライセンス: Link先を確認
Jinchuan Tian, Jianwei Yu, Chao Weng, Yuexian Zou and Dong Yu(参考訳) 音声認識(ASR)研究において,識別基準はDNN-HMMシステムにおいて優れた性能を示した。 この成功を踏まえ、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。 この動機により、以前の研究は最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入した。 しかし、mbrベースの手法の有効性と効率は損なわれ、mbrの基準はシステムトレーニングにのみ用いられ、トレーニングとデコードの間にミスマッチが生じ、mbrベースの手法のオン・ザ・フライのデコーディングプロセスは、事前訓練されたモデルが必要となり、トレーニング速度が遅くなる。 この目的のために、この研究で広く使われている差別的基準である、格子フリーの最大相互情報(LF-MMI)を、訓練段階だけでなく復号過程においてもE2E ASRシステムに統合する新しいアルゴリズムを提案する。 lf-mmiのトレーニングとデコード手法は、注意に基づくエンコーダデコーダ(aeds)とニューラルトランスデューサ(nts)という2つの広く使われているe2eフレームワークの有効性を示している。 mbr法と比較して、lf-mmi法はトレーニングと復号の一貫性を維持し、オンザフライの復号処理を回避し、トレーニング効率に優れたランダム初期化モデルから列車を分離する。 実験の結果、LF-MMI法はMBR法よりも優れており、様々なフレームワークやデータセットの性能が30時間から14.3k時間に統計的に大幅に向上したことが示唆された。 提案手法は, Aishell-1 (CER 4.10%) と Aishell-2 (CER 5.02%) のデータセットを用いて, 最先端(SOTA) 結果を実現する。 コードはリリースされます。

In automatic speech recognition (ASR) research, discriminative criteria have achieved superior performance in DNN-HMM systems. Given this success, the adoption of discriminative criteria is promising to boost the performance of end-to-end (E2E) ASR systems. With this motivation, previous works have introduced the minimum Bayesian risk (MBR, one of the discriminative criteria) into E2E ASR systems. However, the effectiveness and efficiency of the MBR-based methods are compromised: the MBR criterion is only used in system training, which creates a mismatch between training and decoding; the on-the-fly decoding process in MBR-based methods results in the need for pre-trained models and slow training speeds. To this end, novel algorithms are proposed in this work to integrate another widely used discriminative criterion, lattice-free maximum mutual information (LF-MMI), into E2E ASR systems not only in the training stage but also in the decoding process. The proposed LF-MMI training and decoding methods show their effectiveness on two widely used E2E frameworks: Attention-Based Encoder-Decoders (AEDs) and Neural Transducers (NTs). Compared with MBR-based methods, the proposed LF-MMI method: maintains the consistency between training and decoding; eschews the on-the-fly decoding process; trains from randomly initialized models with superior training efficiency. Experiments suggest that the LF-MMI method outperforms its MBR counterparts and consistently leads to statistically significant performance improvements on various frameworks and datasets from 30 hours to 14.3k hours. The proposed method achieves state-of-the-art (SOTA) results on Aishell-1 (CER 4.10%) and Aishell-2 (CER 5.02%) datasets. Code is released.
翻訳日:2022-03-30 16:39:40 公開日:2022-03-29
# 高速カスケードエンコーダを用いたストリーミング並列トランスデューサビーム探索

Streaming parallel transducer beam search with fast-slow cascaded encoders ( http://arxiv.org/abs/2203.15773v1 )

ライセンス: Link先を確認
Jay Mahadeokar, Yangyang Shi, Ke Li, Duc Le, Jiedan Zhu, Vikas Chandra, Ozlem Kalinli, Michael L Seltzer(参考訳) 多くの音声認識アプリケーションでは、厳格なレイテンシ制限付きストリーミングasrが必要である。 必要なレイテンシを実現するために、ストリーミングasrモデルは、将来の入力コンテキストの欠如による非ストリーミングasrモデルに比べて精度を犠牲にしている。 従来の研究では、RNNトランスデューサのストリーミングおよび非ストリーミングASRは因果エンコーダと非因果エンコーダをカスケードすることで統一可能であることが示されている。 この作業は、異なるオーディオ間隔(例えば、高速と遅い)で出力を生成できる可変入力コンテキストサイズの2つのストリーミング非コーダを活用することで、このカスケードエンコーダフレームワークを改善している。 本稿では,高速エンコーダから復号するトランスデューサに対して,高速エンコーダから発生する誤りを高速エンコーダから補正する並列時間同期ビーム探索アルゴリズムを提案する。 提案アルゴリズムは,公開Librispeechデータセットと社内データセットのトークン放出遅延をわずかに増加させ,最大20%のWER削減を実現する。 また,高速エンコーダと低速エンコーダの間で処理を分散することにより,計算量を削減する手法も検討する。 最後に、メモリフットプリントを削減するために、高速エンコーダのパラメータを共有することを検討する。 これにより、計算コストが低くメモリフットプリントの少ないエッジデバイスでの低レイテンシ処理が可能になる。

Streaming ASR with strict latency constraints is required in many speech recognition applications. In order to achieve the required latency, streaming ASR models sacrifice accuracy compared to non-streaming ASR models due to lack of future input context. Previous research has shown that streaming and non-streaming ASR for RNN Transducers can be unified by cascading causal and non-causal encoders. This work improves upon this cascaded encoders framework by leveraging two streaming non-causal encoders with variable input context sizes that can produce outputs at different audio intervals (e.g. fast and slow). We propose a novel parallel time-synchronous beam search algorithm for transducers that decodes from fast-slow encoders, where the slow encoder corrects the mistakes generated from the fast encoder. The proposed algorithm, achieves up to 20% WER reduction with a slight increase in token emission delays on the public Librispeech dataset and in-house datasets. We also explore techniques to reduce the computation by distributing processing between the fast and slow encoders. Lastly, we explore sharing the parameters in the fast encoder to reduce the memory footprint. This enables low latency processing on edge devices with low computation cost and a low memory footprint.
翻訳日:2022-03-30 16:39:10 公開日:2022-03-29
# Min-Max類似性: 手術ツールセグメンテーションのためのコントラスト学習に基づく半教師付き学習ネットワーク

Min-Max Similarity: A Contrastive Learning Based Semi-Supervised Learning Network for Surgical Tools Segmentation ( http://arxiv.org/abs/2203.15177v1 )

ライセンス: Link先を確認
Ange Lou, Xing Yao, Ziteng Liu and Jack Noble(参考訳) 画像のセグメンテーションは、医療AIにおいて一般的なトピックである。 これは主に、ニューラルネットワークをトレーニングするために大量のピクセルレベルの注釈データを取得することが難しいためである。 そこで本研究では,コントラスト学習に基づく半教師ありセグメンテーションネットワークを提案する。 従来の最先端技術とは対照的に,分類器とプロジェクタを併用して,全負,正,負の特徴対を構築し,学習問題をmin-max類似性問題の解法として定式化する。 全負対は、異なる視点から学習したネットワークを監督し、一般的な特徴を捉えるために使用され、ラベルなし予測の一貫性は、正対と負対の間の画素方向のコントラスト損失によって測定される。 提案法を定量的に評価するために,2つの公開内視鏡手術用ツールセグメンテーションデータセットと1つの人工内耳手術データセットを用いて,手動で人工内耳を注記した。 セグメンテーション性能(ディックス係数)は,提案手法が最先端の半教師付きおよび完全教師付きセグメンテーションアルゴリズムを一貫して上回ることを示す。 コードは、https://github.com/AngeLouCN/Min_Max_Similarityで公開されている。

Segmentation of images is a popular topic in medical AI. This is mainly due to the difficulty to obtain a significant number of pixel-level annotated data to train a neural network. To address this issue, we proposed a semi-supervised segmentation network based on contrastive learning. In contrast to the previous state-of-the-art, we introduce a contrastive learning form of dual-view training by employing classifiers and projectors to build all-negative, and positive and negative feature pairs respectively to formulate the learning problem as solving min-max similarity problem. The all-negative pairs are used to supervise the networks learning from different views and make sure to capture general features, and the consistency of unlabeled predictions is measured by pixel-wise contrastive loss between positive and negative pairs. To quantitative and qualitative evaluate our proposed method, we test it on two public endoscopy surgical tool segmentation datasets and one cochlear implant surgery dataset which we manually annotate the cochlear implant in surgical videos. The segmentation performance (dice coefficients) indicates that our proposed method outperforms state-of-the-art semi-supervised and fully supervised segmentation algorithms consistently. The code is publicly available at: https://github.com/AngeLouCN/Min_Max_Similarity
翻訳日:2022-03-30 16:36:48 公開日:2022-03-29
# 深層混合実験による効率的な反射率キャプチャ

Efficient Reflectance Capture with a Deep Gated Mixture-of-Experts ( http://arxiv.org/abs/2203.15258v1 )

ライセンス: Link先を確認
Xiaohe Ma, Yaxin Yu, Hongzhi Wu, Kun Zhou(参考訳) 本稿では, 深層ゲート混合実験を用いて, 近接平面異方性反射率を画素非依存で効率的に取得する新しい枠組みを提案する。 既存の作業では,可能なすべての入力を処理するために統一的なネットワークを採用しているが,ネットワークは自動的に入力の条件を学習して再構築を行う。 我々は、反射率再構成のための多くの特殊なデコーダのうちの1つを選択するためにゲーティングモジュールをトレーニングした。 より多くのデコーダの負担を相殺するため、各デコーダに共通の事前学習された潜在変換モジュールが付加される。 また、取得時の照明条件を共同最適化することができる。 本フレームワークの有効性を,近距離場光ステージを用いた多種多様な課題試料で検証した。 最先端技術と比較すると,同じ入力帯域幅で結果が改善され,同等品質の場合,帯域幅が約1/3に低減できる。

We present a novel framework to efficiently acquire near-planar anisotropic reflectance in a pixel-independent fashion, using a deep gated mixtureof-experts. While existing work employs a unified network to handle all possible input, our network automatically learns to condition on the input for enhanced reconstruction. We train a gating module to select one out of a number of specialized decoders for reflectance reconstruction, based on photometric measurements, essentially trading generality for quality. A common, pre-trained latent transform module is also appended to each decoder, to offset the burden of the increased number of decoders. In addition, the illumination conditions during acquisition can be jointly optimized. The effectiveness of our framework is validated on a wide variety of challenging samples using a near-field lightstage. Compared with the state-of-the-art technique, our results are improved at the same input bandwidth, and our bandwidth can be reduced to about 1/3 for equal-quality results.
翻訳日:2022-03-30 16:36:23 公開日:2022-03-29
# MRIにおける脳腫瘍切除のためのカテゴリー誘導注意ネットワーク

Category Guided Attention Network for Brain Tumor Segmentation in MRI ( http://arxiv.org/abs/2203.15383v1 )

ライセンス: Link先を確認
Jiangyun Li, Hong Yu, Chen Chen, Meng Ding, Sen Zha(参考訳) 目的:MRIは脳疾患の分析と診断に広く用いられている。 放射線治療において, 正確な脳腫瘍分離が重要である。 しかし,腫瘍領域における組織コントラストの低さが課題となり,我々はCGA U-Net(Caegory Guided Attention U-Net)という新たなセグメンテーションネットワークを提案する。 本モデルでは,より正確かつ安定した特徴写像の長距離依存性を計算コストを伴わずに捉えることのできる,注意機構に基づくスーパービジョン注意モジュール(SAM)を設計する。 さらに,同一カテゴリの画素を集約して特徴マップを再構築するクラス内更新手法を提案する。 主な結果: BraTS 2019データセットの実験結果は、提案手法がセグメンテーション性能と計算複雑性の両方において最先端のアルゴリズムより優れていることを示している。 意義: CGA U-NetはSAMモジュールを用いてMRI画像のグローバルな意味情報を効果的にキャプチャし、計算コストを大幅に削減する。 コードはhttps://github.com/delugewalker/cga-u-netで入手できる。

Objective: Magnetic resonance imaging (MRI) has been widely used for the analysis and diagnosis of brain diseases. Accurate and automatic brain tumor segmentation is of paramount importance for radiation treatment. However, low tissue contrast in tumor regions makes it a challenging task.Approach: We propose a novel segmentation network named Category Guided Attention U-Net (CGA U-Net). In this model, we design a Supervised Attention Module (SAM) based on the attention mechanism, which can capture more accurate and stable long-range dependency in feature maps without introducing much computational cost. Moreover, we propose an intra-class update approach to reconstruct feature maps by aggregating pixels of the same category. Main results: Experimental results on the BraTS 2019 datasets show that the proposed method outperformers the state-of-the-art algorithms in both segmentation performance and computational complexity. Significance: The CGA U-Net can effectively capture the global semantic information in the MRI image by using the SAM module, while significantly reducing the computational cost. Code is available at https://github.com/delugewalker/CGA-U-Net.
翻訳日:2022-03-30 16:35:56 公開日:2022-03-29
# 画像キャプションにおける社会バイアス増幅の定量化

Quantifying Societal Bias Amplification in Image Captioning ( http://arxiv.org/abs/2203.15395v1 )

ライセンス: Link先を確認
Yusuke Hirota, Yuta Nakashima, Noa Garcia(参考訳) 画像キャプションにおける社会バイアスの増幅について検討した。 イメージキャプションモデルは、性別や人種的偏見を永久に表しているが、キャプションの社会的偏見を測定し、定量化し、評価する指標はまだ標準化されていない。 我々は,各指標の強みと限界に関する包括的研究を行い,キャプションのバイアス増幅を研究するための指標であるlicを提案する。 画像キャプションに関しては、保護された属性の正しい予測に焦点を合わせるだけでは不十分であり、コンテキスト全体を考慮に入れる必要がある、と主張する。 従来の画像キャプションモデルや最先端画像キャプションモデルについて広範な評価を行い,保護属性予測のみに注目することで,バイアス緩和モデルが予期せぬほどバイアスを増幅していることに驚いた。

We study societal bias amplification in image captioning. Image captioning models have been shown to perpetuate gender and racial biases, however, metrics to measure, quantify, and evaluate the societal bias in captions are not yet standardized. We provide a comprehensive study on the strengths and limitations of each metric, and propose LIC, a metric to study captioning bias amplification. We argue that, for image captioning, it is not enough to focus on the correct prediction of the protected attribute, and the whole context should be taken into account. We conduct extensive evaluation on traditional and state-of-the-art image captioning models, and surprisingly find that, by only focusing on the protected attribute prediction, bias mitigation models are unexpectedly amplifying bias.
翻訳日:2022-03-30 16:35:40 公開日:2022-03-29
# ノイズ2次元STEM画像からのクリーンインプリシト3次元構造

Clean Implicit 3D Structure from Noisy 2D STEM Images ( http://arxiv.org/abs/2203.15434v1 )

ライセンス: Link先を確認
Hannah Kniesel, Timo Ropinski, Tim Bergner, Kavitha Shaga Devan, Clarissa Read, Paul Walther, Tobias Ritschel and Pedro Hermosilla(参考訳) 走査透過電子顕微鏡(STEM)は、個々の細胞成分のスケールで3Dサンプルの2D画像を取得する。 残念なことに、これらの2dイメージはノイズが多すぎて有用な3d構造に融合できない場合があり、クリーンなノイズのペアがないため、良いデノワザの促進が難しい。 さらに、通常の3Dグリッドを使用する場合、クリーンなデータであっても詳細な3D構造を表現することは困難である。 これら2つの制約に対処するため、STEMの異なる画像形成モデルを提案し、暗黙の3次元モデルとともにSTEMにおける2次元センサノイズのジョイントモデルを学ぶことができる。 これらのモデルの組み合わせによって、3d信号とノイズを監視せずにうまく分離でき、合成データと実データで複数のベースラインを上回ることができることを示す。

Scanning Transmission Electron Microscopes (STEMs) acquire 2D images of a 3D sample on the scale of individual cell components. Unfortunately, these 2D images can be too noisy to be fused into a useful 3D structure and facilitating good denoisers is challenging due to the lack of clean-noisy pairs. Additionally, representing a detailed 3D structure can be difficult even for clean data when using regular 3D grids. Addressing these two limitations, we suggest a differentiable image formation model for STEM, allowing to learn a joint model of 2D sensor noise in STEM together with an implicit 3D model. We show, that the combination of these models are able to successfully disentangle 3D signal and noise without supervision and outperform at the same time several baselines on synthetic and real data.
翻訳日:2022-03-30 16:33:55 公開日:2022-03-29
# Eventor:FPGAプラットフォーム上での効率的なイベントベース単眼単眼ステレオアクセラレータ

Eventor: An Efficient Event-Based Monocular Multi-View Stereo Accelerator on FPGA Platform ( http://arxiv.org/abs/2203.15439v1 )

ライセンス: Link先を確認
Mingjun Li, Jianlei Yang, Yingjie Qi, Meng Dong, Yuhao Yang, Runze Liu, Weitao Pan, Bei Yu, Weisheng Zhao(参考訳) イベントカメラはバイオインスパイアされた視覚センサーで、イベントストリームとしてピクセルレベルの明るさ変化を非同期に表現する。 Event-based monocular multi-view stereo (EMVS) は、イベントストリームを利用して、既知の軌道で半密度の3D構造を推定する手法である。 これはイベントベースの単分子SLAMにとって重要なタスクである。 しかし、必要な計算負荷は組み込みプラットフォームでのリアルタイムデプロイを困難にしている。 本稿では,イベントバックプロジェクションやFPGA上での体積線カウントなど,最も重要かつ時間を要するステージを実現することにより,高速かつ効率的なEMVSアクセラレータとしてEventorを提案する。 並列処理と完全パイプライン処理の要素はFPGAで特別に設計され、組み込みARMと不均一なシステムとして統合され、スループットを改善しメモリフットプリントを削減する。 一方、EMVSアルゴリズムは、スケジューリング、近似計算、ハイブリッドデータ量子化により、よりハードウェアフレンドリな方法で再構成される。 DAVISデータセットの評価結果によると、EventorはIntel i5 CPUプラットフォームと比較して、最大24ドル以上のエネルギー効率の向上を実現している。

Event cameras are bio-inspired vision sensors that asynchronously represent pixel-level brightness changes as event streams. Event-based monocular multi-view stereo (EMVS) is a technique that exploits the event streams to estimate semi-dense 3D structure with known trajectory. It is a critical task for event-based monocular SLAM. However, the required intensive computation workloads make it challenging for real-time deployment on embedded platforms. In this paper, Eventor is proposed as a fast and efficient EMVS accelerator by realizing the most critical and time-consuming stages including event back-projection and volumetric ray-counting on FPGA. Highly paralleled and fully pipelined processing elements are specially designed via FPGA and integrated with the embedded ARM as a heterogeneous system to improve the throughput and reduce the memory footprint. Meanwhile, the EMVS algorithm is reformulated to a more hardware-friendly manner by rescheduling, approximate computing and hybrid data quantization. Evaluation results on DAVIS dataset show that Eventor achieves up to $24\times$ improvement in energy efficiency compared with Intel i5 CPU platform.
翻訳日:2022-03-30 16:33:41 公開日:2022-03-29
# UnShadowNet:照明批判的指導によるシャドー除去のためのコントラスト学習

UnShadowNet: Illumination Critic Guided Contrastive Learning For Shadow Removal ( http://arxiv.org/abs/2203.15441v1 )

ライセンス: Link先を確認
Subhrajyoti Dasgupta, Arindam Das, Sudip Das, Andrei Bursuc, Ujjwal Bhattacharya and Senthil Yogamani(参考訳) シャドウはしばしば自然現象に遭遇し、例えば自動運転のような実用的な環境でのコンピュータビジョン知覚システムの性能を著しく阻害する。 これに対する解決策は、知覚系の処理の前に画像から影領域を取り除くことである。 しかし、そのようなソリューションのトレーニングには、取得が難しいアライメントされたシャドウ画像と非シャドウ画像のペアが必要となる。 対照学習を用いて訓練した弱教師付きシャドウ除去フレームワークUnShadowNetを導入する。 本発明は、照明評論家に逆らって訓練された照明ネットワークの指導の下、抽出した影を除去するDeShadowerネットワークと、アーティファクトをさらに除去するRefinementネットワークとから構成される。 我々は,unshadownet を完全な教師付き設定に拡張して,利用可能であれば基盤を活用できることを示した。 UnShadowNetは、3つの公開シャドウデータセット(ISTD、調整されたISTD、SRD)に対して、弱い設定と完全に管理された設定の両方において、既存の最先端のアプローチより優れている。

Shadows are frequently encountered natural phenomena that significantly hinder the performance of computer vision perception systems in practical settings, e.g., autonomous driving. A solution to this would be to eliminate shadow regions from the images before the processing of the perception system. Yet, training such a solution requires pairs of aligned shadowed and non-shadowed images which are difficult to obtain. We introduce a novel weakly supervised shadow removal framework UnShadowNet trained using contrastive learning. It comprises of a DeShadower network responsible for removal of the extracted shadow under the guidance of an Illumination network which is trained adversarially by the illumination critic and a Refinement network to further remove artifacts. We show that UnShadowNet can also be easily extended to a fully-supervised setup to exploit the ground-truth when available. UnShadowNet outperforms existing state-of-the-art approaches on three publicly available shadow datasets (ISTD, adjusted ISTD, SRD) in both the weakly and fully supervised setups.
翻訳日:2022-03-30 16:33:24 公開日:2022-03-29
# Visual Backboneにもっと注意を移す: エンドツーエンドのビジュアルグラウンドのためのクエリ修飾リファインメントネットワーク

Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding ( http://arxiv.org/abs/2203.15442v1 )

ライセンス: Link先を確認
Jiabo Ye, Junfeng Tian, Ming Yan, Xiaoshan Yang, Xuwu Wang, Ji Zhang, Liang He, Xin Lin(参考訳) 視覚グランドニングは、マルチモーダル推論システムにおいて必須の応用がある視覚と自然言語の間の細かなアライメントを確立することに焦点を当てている。 既存の方法は、事前訓練されたクエリに依存しないビジュアルバックボーンを使用して、クエリ情報を考慮せずに視覚特徴マップを独立に抽出する。 視覚的バックボーンから抽出した視覚的特徴と,マルチモーダル推論に必要な特徴は相容れないと論じる。 その理由の1つは、事前学習タスクと視覚的接地の違いである。 さらに、バックボーンはクエリに依存しないため、visual grounding frameworkでvisual backboneのエンドツーエンドをトレーニングすることで、一貫性の問題を完全に回避することは困難である。 本稿では,新しいクエリ・アウェア・ダイナミック・アテンション(QD-ATT)機構とクエリ・アウェア・マルチスケール・フュージョンを用いて,視覚バックボーンの中間機能を調整することで,一貫性のない問題に対処するクエリ変調リファインメント・ネットワーク(QRNet)を提案する。 QD-ATTは、視覚バックボーンによって生成された特徴マップの空間的およびチャネルレベルで、クエリ依存の視覚的注意を動的に計算することができる。 QRNetをエンドツーエンドのビジュアルグラウンドフレームワークに適用する。 広範な実験により,提案手法が5つの広範に使用されるデータセットにおいて最先端の手法よりも優れていることが示された。

Visual grounding focuses on establishing fine-grained alignment between vision and natural language, which has essential applications in multimodal reasoning systems. Existing methods use pre-trained query-agnostic visual backbones to extract visual feature maps independently without considering the query information. We argue that the visual features extracted from the visual backbones and the features really needed for multimodal reasoning are inconsistent. One reason is that there are differences between pre-training tasks and visual grounding. Moreover, since the backbones are query-agnostic, it is difficult to completely avoid the inconsistency issue by training the visual backbone end-to-end in the visual grounding framework. In this paper, we propose a Query-modulated Refinement Network (QRNet) to address the inconsistent issue by adjusting intermediate features in the visual backbone with a novel Query-aware Dynamic Attention (QD-ATT) mechanism and query-aware multiscale fusion. The QD-ATT can dynamically compute query-dependent visual attention at the spatial and channel levels of the feature maps produced by the visual backbone. We apply the QRNet to an end-to-end visual grounding framework. Extensive experiments show that the proposed method outperforms state-of-the-art methods on five widely used datasets.
翻訳日:2022-03-30 16:33:02 公開日:2022-03-29
# Transformer Inertial Poser: スパースIMUからの注意に基づくリアルタイム人体動作再構成

Transformer Inertial Poser: Attention-based Real-time Human Motion Reconstruction from Sparse IMUs ( http://arxiv.org/abs/2203.15720v1 )

ライセンス: Link先を確認
Yifeng Jiang, Yuting Ye, Deepak Gopinath, Jungdam Won, Alexander W. Winkler, C. Karen Liu(参考訳) まばらなウェアラブルimusからリアルタイムの人間の動きの再構築は、意図せず経済的なモーションキャプチャーのアプローチを提供する。 IMUを使って絶対位置情報を取得する能力がないため、多くの先行研究は、大きな人間の動作データセットを使用して、問題の未決定の性質に対処するデータ駆動アプローチを採った。 それでも、時間的一貫性、グローバル翻訳推定、動きや地形の多様さといった課題は残っている。 近年のシークエンスモデリングにおけるTransformerモデルの成功に触発されて,6つのIMUセンサからの全身動作をリアルタイムに再構築する注目型ディープラーニング手法を提案する。 本手法は,「静止体点」を予測するための物理ベースの学習目標と相まって,実装が簡単でサイズが小さく,定量的かつ定性的に新しい結果が得られる。 提案手法は,IMUデータと実データと,実時間ライブデモを用いて広範に評価する。

Real-time human motion reconstruction from a sparse set of wearable IMUs provides an non-intrusive and economic approach to motion capture. Without the ability to acquire absolute position information using IMUs, many prior works took data-driven approaches that utilize large human motion datasets to tackle the under-determined nature of the problem. Still, challenges such as temporal consistency, global translation estimation, and diverse coverage of motion or terrain types remain. Inspired by recent success of Transformer models in sequence modeling, we propose an attention-based deep learning method to reconstruct full-body motion from six IMU sensors in real-time. Together with a physics-based learning objective to predict "stationary body points", our method achieves new state-of-the-art results both quantitatively and qualitatively, while being simple to implement and smaller in size. We evaluate our method extensively on synthesized and real IMU data, and with real-time live demos.
翻訳日:2022-03-30 16:32:37 公開日:2022-03-29
# 神経生物学における時空間パターン : 未来人工知能の概観

Spatiotemporal Patterns in Neurobiology: An Overview for Future Artificial Intelligence ( http://arxiv.org/abs/2203.15415v1 )

ライセンス: Link先を確認
Sean Knight(参考訳) 近年、脳組織にみられる複雑な接続パターンに対処するためのモデルやツールの開発への関心が高まっている。 特に、これは複数の時空間スケールでこれらのネットワーク構造から創発的特性がどのように現れるかを理解する必要があるためである。 計算モデルは、複雑なネットワークで接続された異種ニューロンの相互作用から生じる可能性のある機能を明らかにするための重要なツールである。 本稿では、スパイキングニューロン、短期可塑性(STP)による統合・発火ニューロン、コンダクタンスに基づくSTPによる統合・発火モデル、神経科学の応用に焦点を当てた簡単な例を用いた人口密度ニューラルネットワーク(PDNF)モデルなど、いくつかのモデルのクラスについて概説する。 これらの計算手法により、基礎となるメカニズムがネットワーク機能に与える影響を実験的にも理論的にも探究することができる。 したがって、これらの研究は、人工知能アルゴリズムの今後の発展を知らせるとともに、動物や人間の実験に基づく脳プロセスの理解を検証するのに役立つことを期待している。

In recent years, there has been increasing interest in developing models and tools to address the complex patterns of connectivity found in brain tissue. Specifically, this is due to a need to understand how emergent properties emerge from these network structures at multiple spatiotemporal scales. We argue that computational models are key tools for elucidating the possible functionalities that can emerge from interactions of heterogeneous neurons connected by complex networks on multi-scale temporal and spatial domains. Here we review several classes of models including spiking neurons, integrate and fire neurons with short term plasticity (STP), conductance based integrate-and-fire models with STP, and population density neural field (PDNF) models using simple examples with emphasis on neuroscience applications while also providing some potential future research directions for AI. These computational approaches allow us to explore the impact of changing underlying mechanisms on resulting network function both experimentally as well as theoretically. Thus we hope these studies will inform future developments in artificial intelligence algorithms as well as help validate our understanding of brain processes based on experiments in animals or humans.
翻訳日:2022-03-30 16:32:19 公開日:2022-03-29
# 想定音声認識のための脳波周波数帯域の解析

Analysis of EEG frequency bands for Envisioned Speech Recognition ( http://arxiv.org/abs/2203.15250v1 )

ライセンス: Link先を確認
Ayush Tripathi(参考訳) 自動音声認識(asr)インタフェースの使用は、電子機器のインタラクションや制御に利用するために日常生活でますます普及している。 現在使用されているインターフェースは、音声障害、ロックイン症候群、麻痺、あるいはプライバシー要件がほとんどない人々など、さまざまなユーザに対して実現不可能である。 このような場合、脳波(EEG)信号を用いて想定された音声を識別できるインタフェースは、非常に有用である。 この問題を対象とする様々な研究が過去に行われている。 しかし、想定された音声認識に寄与する脳波信号の周波数帯域(\delta, \theta, \alpha, \beta, \gamma$)を識別する作業は限られている。 そこで本研究では,脳の異なる葉から得られた脳波周波数帯域と信号の意義と,その発声音声の認識への寄与について検討する。 異なる周波数帯域に対してフィルタされた異なるローブとバンドパスから得られる信号は、畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)を備えた時空間ディープラーニングアーキテクチャに供給される。 この性能は、桁、文字、画像の3つの分類タスクからなる公開データセットで評価される。 3つのタスクに対してそれぞれ85.93\%$、87.27\%$、857.51\%$の分類精度を得る。 実装のコードはhttps://github.com/ayushayt/ImaginedSpeechRecognitionで公開されている。

The use of Automatic speech recognition (ASR) interfaces have become increasingly popular in daily life for use in interaction and control of electronic devices. The interfaces currently being used are not feasible for a variety of users such as those suffering from a speech disorder, locked-in syndrome, paralysis or people with utmost privacy requirements. In such cases, an interface that can identify envisioned speech using electroencephalogram (EEG) signals can be of great benefit. Various works targeting this problem have been done in the past. However, there has been limited work in identifying the frequency bands ($\delta, \theta, \alpha, \beta, \gamma$) of the EEG signal that contribute towards envisioned speech recognition. Therefore, in this work, we aim to analyze the significance of different EEG frequency bands and signals obtained from different lobes of the brain and their contribution towards recognizing envisioned speech. Signals obtained from different lobes and bandpass filtered for different frequency bands are fed to a spatio-temporal deep learning architecture with Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM). The performance is evaluated on a publicly available dataset comprising of three classification tasks - digit, character and images. We obtain a classification accuracy of $85.93\%$, $87.27\%$ and $87.51\%$ for the three tasks respectively. The code for the implementation has been made available at https://github.com/ayushayt/ImaginedSpeechRecognition.
翻訳日:2022-03-30 16:31:58 公開日:2022-03-29
# 音声認識システムにおける敵対的攻撃に対するメル周波数スペクトルドメイン防御

Mel Frequency Spectral Domain Defenses against Adversarial Attacks on Speech Recognition Systems ( http://arxiv.org/abs/2203.15283v1 )

ライセンス: Link先を確認
Nicholas Mehlman, Anirudh Sreeram, Raghuveer Peri, Shrikanth Narayanan(参考訳) 最近の様々な研究で、特に画像処理領域における敵の攻撃に対するディープニューラルネットワークの防御が検討されている。 音声認識(ASR)のような音声処理アプリケーションは、ますます深層学習モデルに依存しているため、敵対的な攻撃をしがちである。 しかし、ASRのために探索された多くの防衛は画像領域の防御に適応するだけであり、最適な堅牢性は得られない。 本稿では,メルスペクトル領域を用いた音声特異的防音について検討し,新しい防音法「メル領域ノイズフラッディング(MDNF)」を提案する。 MDNFは音声信号の再合成に先立って音声のメルスペクトルに付加雑音を適用する。 我々は,プロジェクションド勾配降下 (pgd) やカーリーニ・ワグナー (cw) 攻撃などのホワイトボックス攻撃に対する防御を試験し,強力な脅威モデルを用いたランダム化平滑化ベースラインと比較して,より頑健性を示す。

A variety of recent works have looked into defenses for deep neural networks against adversarial attacks particularly within the image processing domain. Speech processing applications such as automatic speech recognition (ASR) are increasingly relying on deep learning models, and so are also prone to adversarial attacks. However, many of the defenses explored for ASR simply adapt the image-domain defenses, which may not provide optimal robustness. This paper explores speech specific defenses using the mel spectral domain, and introduces a novel defense method called 'mel domain noise flooding' (MDNF). MDNF applies additive noise to the mel spectrogram of a speech utterance prior to re-synthesising the audio signal. We test the defenses against strong white-box adversarial attacks such as projected gradient descent (PGD) and Carlini-Wagner (CW) attacks, and show better robustness compared to a randomized smoothing baseline across strong threat models.
翻訳日:2022-03-30 16:30:26 公開日:2022-03-29
# ハイブリッド量子古典学習を用いた量子畳み込みニューラルネットワークを用いたマルチクラス分類

Multiclass classification using quantum convolutional neural networks with hybrid quantum-classical learning ( http://arxiv.org/abs/2203.15368v1 )

ライセンス: Link先を確認
Denis Bokhan, Alena S. Mastiukova, Aleksey S. Boev, Dmitrii N. Trubnikov, Aleksey K. Fedorov(参考訳) マルチクラス分類は、コンピュータビジョンにおいて一般的なタスクであり、イメージを3つ以上のクラスに分類する必要がある。 本稿では,この問題を解決するために,量子畳み込みニューラルネットワークに基づく量子機械学習手法を提案する。 対応する学習手順は、TensorFlowQuantumを介して、量子回路のパラメータの最適化により、量子出力結果をソフトマックスコスト関数に供給するハイブリッド量子古典(可変)モデルとして実装される。 我々の概念的改善には、量子パーセプトロンの新しいモデルと量子回路の最適化構造が含まれる。 提案手法は,データエンコーディングのための8キュービットと4つの acnilla qubits を用いたmnistデータセットの4クラス分類を実証するために用いる。 その結果,学習可能なパラメータの数に匹敵する古典的畳み込みニューラルネットワークによる解の精度が示された。 我々の発見は、NISQ時代以降の実用的な問題の解決に量子機械学習を使用するための新たなステップを提供すると期待している。

Multiclass classification is of great interest for various machine learning applications, for example, it is a common task in computer vision, where one needs to categorize an image into three or more classes. Here we propose a quantum machine learning approach based on quantum convolutional neural networks for solving this problem. The corresponding learning procedure is implemented via TensorFlowQuantum as a hybrid quantum-classical (variational) model, where quantum output results are fed to softmax cost function with subsequent minimization of it via optimization of parameters of quantum circuit. Our conceptional improvements include a new model for quantum perceptron and optimized structure of the quantum circuit. We use the proposed approach to demonstrate the 4-class classification for the case of the MNIST dataset using eight qubits for data encoding and four acnilla qubits. Our results demonstrate comparable accuracy of our solution with classical convolutional neural networks with comparable numbers of trainable parameters. We expect that our finding provide a new step towards the use of quantum machine learning for solving practically relevant problems in the NISQ era and beyond.
翻訳日:2022-03-30 16:30:10 公開日:2022-03-29
# 物理インフォームド深層学習による実験流体力学への応用

Physics-informed deep-learning applications to experimental fluid mechanics ( http://arxiv.org/abs/2203.15402v1 )

ライセンス: Link先を確認
Hamidreza Eivazi and Ricardo Vinuesa(参考訳) 低分解能および雑音測定による流れ場データの高分解能再構成は、測定データが一般にスパースで不完全でノイズの多い実験流体力学におけるそのような問題の存在により興味深い。 ディープラーニングのアプローチは、このような超高解像度タスクに適していることが示されている。 しかし、高解像度の例が多数必要であり、多くの場合は利用できないかもしれない。 さらに、得られた予測は、質量や運動量保存といった物理的原理に従わないかもしれない。 物理インフォームドディープラーニングは、学習のためのデータと物理法則を統合するためのフレームワークを提供する。 本研究では,高分解能参照データを持たない限られたノイズ測定値から,時間と空間の両方のフローフィールドデータの超解像に物理情報ニューラルネットワーク(PINN)を適用した。 我々の目標は、解決領域の任意の点において、物理的に一貫性のある予測を提供することである。 本研究では, 円柱背後の2次元渦流, 最小乱流流の3つの正準ケースを通して, 流れ場データの時間と空間の超解像に対するピンの適用性を示す。 また,合成ガウス雑音を付加することにより,モデルのロバスト性についても検討した。 流体力学実験におけるデータ拡張の文脈において,pinnの優れた性能を示す。

High-resolution reconstruction of flow-field data from low-resolution and noisy measurements is of interest due to the prevalence of such problems in experimental fluid mechanics, where the measurement data are in general sparse, incomplete and noisy. Deep-learning approaches have been shown suitable for such super-resolution tasks. However, a high number of high-resolution examples is needed, which may not be available for many cases. Moreover, the obtained predictions may lack in complying with the physical principles, e.g. mass and momentum conservation. Physics-informed deep learning provides frameworks for integrating data and physical laws for learning. In this study, we apply physics-informed neural networks (PINNs) for super-resolution of flow-field data both in time and space from a limited set of noisy measurements without having any high-resolution reference data. Our objective is to obtain a continuous solution of the problem, providing a physically-consistent prediction at any point in the solution domain. We demonstrate the applicability of PINNs for the super-resolution of flow-field data in time and space through three canonical cases: Burgers' equation, two-dimensional vortex shedding behind a circular cylinder and the minimal turbulent channel flow. The robustness of the models is also investigated by adding synthetic Gaussian noise. Our results show excellent capabilities of PINNs in the context of data augmentation for experiments in fluid mechanics.
翻訳日:2022-03-30 16:29:54 公開日:2022-03-29
# 大規模未ラベル音声コーパスを用いた低音源テキスト音声の転送学習フレームワーク

Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus ( http://arxiv.org/abs/2203.15447v1 )

ライセンス: Link先を確認
Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Sunghwan Ahn, Joun Yeop Lee, Nam Soo Kim(参考訳) テキスト音声(TTS)モデルを訓練するには,大規模なテキストラベル付き音声コーパスが必要である。 本稿では,事前学習に大量のラベル付き音声データセットを利用するTSの転送学習フレームワークを提案する。 wav2vec2.0表現を利用することで、ラベルなし音声は、特にラベル付き音声の欠如において、高い性能を向上させることができる。 また,提案手法をゼロショットマルチスピーカTS(ZS-TTS)に拡張する。 実験により,提案手法の有効性を,自然性,知性,話者一般化の観点から検証した。 ラベル付きデータセットの10分で微調整された単一話者TSモデルは、他のベースラインよりも優れており、ZS-TTSモデルでは、ラベルなしマルチスピーカ音声コーパスで事前学習することで、わずか30分で任意の話者の声を生成することができる。

Training a text-to-speech (TTS) model requires a large scale text labeled speech corpus, which is troublesome to collect. In this paper, we propose a transfer learning framework for TTS that utilizes a large amount of unlabeled speech dataset for pre-training. By leveraging wav2vec2.0 representation, unlabeled speech can highly improve performance, especially in the lack of labeled speech. We also extend the proposed method to zero-shot multi-speaker TTS (ZS-TTS). The experimental results verify the effectiveness of the proposed method in terms of naturalness, intelligibility, and speaker generalization. We highlight that the single speaker TTS model fine-tuned on the only 10 minutes of labeled dataset outperforms the other baselines, and the ZS-TTS model fine-tuned on the only 30 minutes of single speaker dataset can generate the voice of the arbitrary speaker, by pre-training on unlabeled multi-speaker speech corpus.
翻訳日:2022-03-30 16:29:32 公開日:2022-03-29
# (参考訳) StyleT2I: 合成と高忠実化を目指して

StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis ( http://arxiv.org/abs/2203.15799v1 )

ライセンス: CC BY 4.0
Zhiheng Li, Martin Renqiang Min, Kai Li, Chenliang Xu(参考訳) テキストから画像への合成の進歩はあったが、以前の手法では、入力テキストの属性合成を認識できなかったり、表現不足にしてしまったりする。 構成性の欠如は、ロバスト性や公正性(例えば、表現不足な人口集団の顔画像の合成ができないなど)に深刻な影響を及ぼす可能性がある。 本稿では,テキスト間合成の合成性を改善するための新しいフレームワークであるStyleT2Iを提案する。 具体的には,CLIP誘導のコントラスト損失(Contrastive Loss)を提案する。 さらに構成性を向上させるため,対象空間領域操作における属性の潜在方向を識別するための,新しい意味マッチング損失と空間制約を設計すれば,属性の類似性が向上する。 識別された属性の潜在方向に基づいて、潜在コードを調整するための合成属性調整を提案し、画像合成の合成性が向上する。 さらに、特定された潜在方向(ノルムペナルティ)の$\ell_2$-norm正規化を利用して、画像テキストアライメントと画像忠実度をうまくバランスさせる。 実験では,テキスト・画像合成モデルの合成性を評価するために,新しいデータセット分割と評価指標を考案した。 その結果,StyleT2Iは入力テキストと合成画像との整合性において従来の手法よりも優れ,忠実度が高いことがわかった。

Although progress has been made for text-to-image synthesis, previous methods fall short of generalizing to unseen or underrepresented attribute compositions in the input text. Lacking compositionality could have severe implications for robustness and fairness, e.g., inability to synthesize the face images of underrepresented demographic groups. In this paper, we introduce a new framework, StyleT2I, to improve the compositionality of text-to-image synthesis. Specifically, we propose a CLIP-guided Contrastive Loss to better distinguish different compositions among different sentences. To further improve the compositionality, we design a novel Semantic Matching Loss and a Spatial Constraint to identify attributes' latent directions for intended spatial region manipulations, leading to better disentangled latent representations of attributes. Based on the identified latent directions of attributes, we propose Compositional Attribute Adjustment to adjust the latent code, resulting in better compositionality of image synthesis. In addition, we leverage the $\ell_2$-norm regularization of identified latent directions (norm penalty) to strike a nice balance between image-text alignment and image fidelity. In the experiments, we devise a new dataset split and an evaluation metric to evaluate the compositionality of text-to-image synthesis models. The results show that StyleT2I outperforms previous approaches in terms of the consistency between the input text and synthesized images and achieves higher fidelity.
翻訳日:2022-03-30 16:27:03 公開日:2022-03-29
# PoseTriplet: 自己監督下での3次元人文推定・模倣・幻覚の共進化

PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and Hallucination under Self-supervision ( http://arxiv.org/abs/2203.15625v1 )

ライセンス: Link先を確認
Kehong Gong, Bingbing Li, Jianfeng Zhang, Tao Wang, Jing Huang, Michael Bi Mi, Jiashi Feng, Xinchao Wang(参考訳) 既存の自己監督型3Dポーズ推定スキームは、学習を導くために一貫性の喪失のような弱い監督に大きく依存しており、必然的に、目に見えないポーズを持つ現実世界のシナリオでは劣る結果をもたらしている。 本稿では, 2次元3次元ポーズペアを明示的に生成し, 自己強化型デュアルループ学習フレームワークを用いて, 自己教師型アプローチを提案する。 これは強化学習に基づく模倣器の導入により実現され、ポーズ推定器と共にポーズ推定器と共に学習され、3つの構成要素はトレーニングプロセス中に2つのループを形成し、互いに補完し、強化する。 特に、ポーズ推定器は入力された2Dポーズシーケンスを低忠実度3D出力に変換し、物理制約を強制する模倣者によって強化する。 洗練された3dポーズはその後、さらに多様なデータを生成するために幻覚剤に供給され、そのデータはさらに模倣器によって強化され、さらにポーズ推定器の訓練に利用される。 このような共進化的スキームは、実際には、任意の3Dデータに頼ることなく、自己生成した動きデータに対してポーズ推定器を訓練することができる。 様々なベンチマークによる大規模な実験により、我々の手法は、技術の現状を著しく上回り、場合によっては、完全に教師された手法の結果と同等な結果をもたらすことが示されている。 特に、MPI-INF-3DHP上の89.1%の3D PCKを自己教師付きクロスデータセット評価設定で達成し、以前の最高の自己教師付き手法を8.6%改善した。 コードは、https://github.com/Garfield-kh/PoseTripletで参照できる。

Existing self-supervised 3D human pose estimation schemes have largely relied on weak supervisions like consistency loss to guide the learning, which, inevitably, leads to inferior results in real-world scenarios with unseen poses. In this paper, we propose a novel self-supervised approach that allows us to explicitly generate 2D-3D pose pairs for augmenting supervision, through a self-enhancing dual-loop learning framework. This is made possible via introducing a reinforcement-learning-based imitator, which is learned jointly with a pose estimator alongside a pose hallucinator; the three components form two loops during the training process, complementing and strengthening one another. Specifically, the pose estimator transforms an input 2D pose sequence to a low-fidelity 3D output, which is then enhanced by the imitator that enforces physical constraints. The refined 3D poses are subsequently fed to the hallucinator for producing even more diverse data, which are, in turn, strengthened by the imitator and further utilized to train the pose estimator. Such a co-evolution scheme, in practice, enables training a pose estimator on self-generated motion data without relying on any given 3D data. Extensive experiments across various benchmarks demonstrate that our approach yields encouraging results significantly outperforming the state of the art and, in some cases, even on par with results of fully-supervised methods. Notably, it achieves 89.1% 3D PCK on MPI-INF-3DHP under self-supervised cross-dataset evaluation setup, improving upon the previous best self-supervised methods by 8.6%. Code can be found at: https://github.com/Garfield-kh/PoseTriplet
翻訳日:2022-03-30 15:40:45 公開日:2022-03-29
# MatteFormer: 事前トークンによるトランスフォーマーベースのイメージマッチング

MatteFormer: Transformer-Based Image Matting via Prior-Tokens ( http://arxiv.org/abs/2203.15662v1 )

ライセンス: Link先を確認
GyuTae Park, SungJoon Son, JaeYoung Yoo, SeHo Kim, Nojun Kwak(参考訳) 本稿では,変換器ブロック内のトリマップ情報をフル活用した,変換器ベースの画像マッチングモデルMatteFormerを提案する。 提案手法はまず,各トリマップ領域(例えば,前景,背景,未知)のグローバルな表現である事前トークンを導入する。 これらの事前トケンはグローバルプリエントとして使われ、各ブロックの自己アテンション機構に参加する。 エンコーダの各ステージは、スウィントランスブロックに基づいているが、いくつかの点で異なる、過去のスウィントランスブロック(prior-attentive swin transformer)で構成されている。 1)PA-WSA(Prior-Attentive Window Self-Attention)層を有し,空間トークンだけでなく事前トークンも自己アテンションを行う。 2)前のブロックから事前トークンを蓄積して次のブロックに転送する事前メモリを持つ。 一般的なイメージマット化データセットである composition-1k と distinctions-646 について,matteformer を評価した。 実験の結果,提案手法は最先端の性能を高いマージンで達成できることがわかった。 私たちのコードはhttps://github.com/webtoon/matteformerで利用可能です。

In this paper, we propose a transformer-based image matting model called MatteFormer, which takes full advantage of trimap information in the transformer block. Our method first introduces a prior-token which is a global representation of each trimap region (e.g. foreground, background and unknown). These prior-tokens are used as global priors and participate in the self-attention mechanism of each block. Each stage of the encoder is composed of PAST (Prior-Attentive Swin Transformer) block, which is based on the Swin Transformer block, but differs in a couple of aspects: 1) It has PA-WSA (Prior-Attentive Window Self-Attention) layer, performing self-attention not only with spatial-tokens but also with prior-tokens. 2) It has prior-memory which saves prior-tokens accumulatively from the previous blocks and transfers them to the next block. We evaluate our MatteFormer on the commonly used image matting datasets: Composition-1k and Distinctions-646. Experiment results show that our proposed method achieves state-of-the-art performance with a large margin. Our codes are available at https://github.com/webtoon/matteformer.
翻訳日:2022-03-30 15:40:15 公開日:2022-03-29
# 顔偽造検出のための周波数対向攻撃の探索

Exploring Frequency Adversarial Attacks for Face Forgery Detection ( http://arxiv.org/abs/2203.15674v1 )

ライセンス: Link先を確認
Shuai Jia, Chao Ma, Taiping Yao, Bangjie Yin, Shouhong Ding, Xiaokang Yang(参考訳) 様々な顔操作技術は、道徳、セキュリティ、プライバシーに深刻な懸念を抱いている。 既存の顔偽造分類器は偽画像の検出において有望な性能を発揮するが、これらの手法はピクセルに不可避な摂動を注入する敵の例に対して脆弱である。 一方、多くの顔偽造検知器は、常に本物と偽の顔の周波数の多様性を重要な手がかりとして利用している。 本稿では,空間領域に逆方向の摂動を注入する代わりに,顔偽造検知器に対する周波数対向攻撃法を提案する。 具体的には、入力画像に離散コサイン変換(DCT)を適用し、周波数領域における敵の正反対領域を捕捉する融合モジュールを導入する。 空間領域における既存の敵攻撃 (FGSM, PGDなど) と比較すると, 本手法は人間の観察者には受容不能であり, 元の画像の視覚的品質を低下させるものではない。 さらに,メタラーニングの考え方に触発されて,空間領域と周波数領域の両方で攻撃を行うハイブリッド逆攻撃を提案する。 広範な実験により,提案手法は空間型検出器だけでなく,最先端の周波数系検出器を効果的に騙すことが示されている。 さらに,提案する周波数アタックは,ブラックボックスアタックとしてフェース偽造検出器間の転送性を高める。

Various facial manipulation techniques have drawn serious public concerns in morality, security, and privacy. Although existing face forgery classifiers achieve promising performance on detecting fake images, these methods are vulnerable to adversarial examples with injected imperceptible perturbations on the pixels. Meanwhile, many face forgery detectors always utilize the frequency diversity between real and fake faces as a crucial clue. In this paper, instead of injecting adversarial perturbations into the spatial domain, we propose a frequency adversarial attack method against face forgery detectors. Concretely, we apply discrete cosine transform (DCT) on the input images and introduce a fusion module to capture the salient region of adversary in the frequency domain. Compared with existing adversarial attacks (e.g. FGSM, PGD) in the spatial domain, our method is more imperceptible to human observers and does not degrade the visual quality of the original images. Moreover, inspired by the idea of meta-learning, we also propose a hybrid adversarial attack that performs attacks in both the spatial and frequency domains. Extensive experiments indicate that the proposed method fools not only the spatial-based detectors but also the state-of-the-art frequency-based detectors effectively. In addition, the proposed frequency attack enhances the transferability across face forgery detectors as black-box attacks.
翻訳日:2022-03-30 15:39:56 公開日:2022-03-29
# テクスチャに基づく森林被覆のマイトショット意味セグメンテーションのための原型的ネットワーク:地理的地域別一般化

Texture based Prototypical Network for Few-Shot Semantic Segmentation of Forest Cover: Generalizing for Different Geographical Regions ( http://arxiv.org/abs/2203.15687v1 )

ライセンス: Link先を確認
Gokul P and Ujjwal Verma(参考訳) 森林は温室効果ガス排出量を削減し、世界の生物多様性を維持しながら気候変動を緩和する上で重要な役割を担っている。 既存の衛星ベースの森林モニタリングシステムは、特定の地域に限定され、手動で注釈付きデータに基づいて森林を特定する教師付き学習アプローチを利用している。 本研究は,森林識別をいくつかの意味的セグメンテーションタスクとして想定し,地理的に異なる領域にまたがる一般化を実現する。 提案手法では,原型ネットワークにテクスチャアテンションモジュールを組み込んで,森林のテクスチャの特徴を明らかにする。 実際、森林は道路、水など他の種とは異なる特徴的な食感を示す。 本研究は,南アジアの熱帯林を識別するために訓練され,温帯林を手作業で支援画像に付記した数枚の画像(1枚)の助けを借りて,中央ヨーロッパの温帯林を決定するように適応した。 1-way 1-shot) の森林群に対する0.62のIoUを提案手法を用いて取得し, 従来の少数ショットセマンティックセグメンテーション手法よりも有意に高い値(PANetは0.46)を示した。 この結果から,提案手法は森林識別のための地理的地域をまたいだ一般化が可能であり,グローバルな森林被覆識別ツールを開発する機会が得られた。

Forest plays a vital role in reducing greenhouse gas emissions and mitigating climate change besides maintaining the world's biodiversity. The existing satellite-based forest monitoring system utilizes supervised learning approaches that are limited to a particular region and depend on manually annotated data to identify forest. This work envisages forest identification as a few-shot semantic segmentation task to achieve generalization across different geographical regions. The proposed few-shot segmentation approach incorporates a texture attention module in the prototypical network to highlight the texture features of the forest. Indeed, the forest exhibits a characteristic texture different from other classes, such as road, water, etc. In this work, the proposed approach is trained for identifying tropical forests of South Asia and adapted to determine the temperate forest of Central Europe with the help of a few (one image for 1-shot) manually annotated support images of the temperate forest. An IoU of 0.62 for forest class (1-way 1-shot) was obtained using the proposed method, which is significantly higher (0.46 for PANet) than the existing few-shot semantic segmentation approach. This result demonstrates that the proposed approach can generalize across geographical regions for forest identification, creating an opportunity to develop a global forest cover identification tool.
翻訳日:2022-03-30 15:39:34 公開日:2022-03-29
# 生成的勾配漏洩による連合学習におけるプライバシー保護の監査

Auditing Privacy Defenses in Federated Learning via Generative Gradient Leakage ( http://arxiv.org/abs/2203.15696v1 )

ライセンス: Link先を確認
Zhuohang Li, Jiaxin Zhang, Luyang Liu, Jian Liu(参考訳) Federated Learning (FL)フレームワークは、複数のクライアントがプライベートデータを交換することなく、中央サーバーの調整の下で学習タスクに参加できるようにすることで、分散学習システムにプライバシー上のメリットをもたらす。 しかし,近年の研究では,共有勾配情報を通じてプライベート情報を漏洩させることが報告されている。 ユーザのプライバシーをさらに保護するために,サーバと共有する前に付加雑音や勾配圧縮などの勾配情報劣化手法によるプライバシー漏洩を防止するための防御機構が提案されている。 本研究では,新たなタイプの漏洩,すなわちGGL(Generative Gradient Leakage)を用いて,特定の防御条件下でプライベートトレーニングデータが漏洩可能であることを検証した。 データの再構成に勾配情報のみを頼りにしている既存の手法とは異なり, この手法は, 画像データセットから学習した生成逆数ネットワーク(GAN)の潜時空間を利用して, 勾配劣化時の情報損失を補う。 勾配演算子とGANモデルによって引き起こされる非線形性に対処するため、様々な勾配のない最適化手法(例えば、進化戦略やベイズ最適化)を探索し、勾配に基づく最適化よりも勾配から高品質な画像を再構成する際の優位性を実証的に示す。 提案手法は,より堅牢な防御機構の設計を容易にするために,プライバシー漏洩量を実証的に測定するためのツールとして機能することを期待する。

Federated Learning (FL) framework brings privacy benefits to distributed learning systems by allowing multiple clients to participate in a learning task under the coordination of a central server without exchanging their private data. However, recent studies have revealed that private information can still be leaked through shared gradient information. To further protect user's privacy, several defense mechanisms have been proposed to prevent privacy leakage via gradient information degradation methods, such as using additive noise or gradient compression before sharing it with the server. In this work, we validate that the private training data can still be leaked under certain defense settings with a new type of leakage, i.e., Generative Gradient Leakage (GGL). Unlike existing methods that only rely on gradient information to reconstruct data, our method leverages the latent space of generative adversarial networks (GAN) learned from public image datasets as a prior to compensate for the informational loss during gradient degradation. To address the nonlinearity caused by the gradient operator and the GAN model, we explore various gradient-free optimization methods (e.g., evolution strategies and Bayesian optimization) and empirically show their superiority in reconstructing high-quality images from gradients compared to gradient-based optimizers. We hope the proposed method can serve as a tool for empirically measuring the amount of privacy leakage to facilitate the design of more robust defense mechanisms.
翻訳日:2022-03-30 15:39:09 公開日:2022-03-29
# 細粒度視機能

Fine-Grained Visual Entailment ( http://arxiv.org/abs/2203.15704v1 )

ライセンス: Link先を確認
Christopher Thomas and Yipeng Zhang and Shih-Fu Chang(参考訳) visual entailmentは、最近提案されたマルチモーダル推論タスクで、テキストと画像の論理的関係を予測することを目的としている。 本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。 先行研究とは異なり,本手法は本質的に説明可能であり,異なる粒度で論理的予測を行う。 本手法を訓練するには細粒度ラベルが欠如しているため,サンプルレベルの監督だけで細粒度ラベルを学習する新しいマルチインスタンス学習手法を提案する。 また、細粒度予測が内部的にセマンティックに一貫性があることを保証する新しいセマンティック構造制約を課す。 本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題において68.18 %の精度を達成し,強いベースラインを著しく上回ることを示す。 最後に,提案手法の予測と,提案手法が依存する視覚的な証拠を示す,広範囲な質的結果を示す。 私たちのコードと注釈付きデータセットは以下の通りです。

Visual entailment is a recently proposed multimodal reasoning task where the goal is to predict the logical relationship of a piece of text to an image. In this paper, we propose an extension of this task, where the goal is to predict the logical relationship of fine-grained knowledge elements within a piece of text to an image. Unlike prior work, our method is inherently explainable and makes logical predictions at different levels of granularity. Because we lack fine-grained labels to train our method, we propose a novel multi-instance learning approach which learns a fine-grained labeling using only sample-level supervision. We also impose novel semantic structural constraints which ensure that fine-grained predictions are internally semantically consistent. We evaluate our method on a new dataset of manually annotated knowledge elements and show that our method achieves 68.18\% accuracy at this challenging task while significantly outperforming several strong baselines. Finally, we present extensive qualitative results illustrating our method's predictions and the visual evidence our method relied on. Our code and annotated dataset can be found here: https://github.com/SkrighYZ/FGVE.
翻訳日:2022-03-30 15:37:54 公開日:2022-03-29
# OakInk: ハンドオブジェクトインタラクションを理解するための大規模知識リポジトリ

OakInk: A Large-scale Knowledge Repository for Understanding Hand-Object Interaction ( http://arxiv.org/abs/2203.15709v1 )

ライセンス: Link先を確認
Lixin Yang, Kailin Li, Xinyu Zhan, Fei Wu, Anran Xu, Liu Liu, Cewu Lu(参考訳) 人間がどのようにオブジェクトを操作するかを学ぶには、機械が2つの視点から知識を得る必要がある。 これら2つの知識基盤は重要ですが、現在のデータベースにはそれらに対する包括的な認識が欠けていることが分かりました。 本研究では,ハンド・オブジェクト間インタラクションの視覚的および認知的理解のためのマルチモーダル・リッチ・アノテート知識レポジトリであるoakinkを提案する。 私たちは1,800の一般的な家庭用オブジェクトを収集し、最初の知識ベースを構築するための余裕を注釈で示し始めます。 余裕があれば、オークで選ばれた100のオブジェクトとのリッチなヒューマンインタラクションを記録します。 最後に、100個の記録されたオブジェクト上のインタラクションを、新しい方法で仮想オブジェクトに転送する。 記録および転送された手オブジェクトの相互作用は、第2の知識ベースを構成する。 その結果、OakInkには5万の異なる可視性と意図指向のハンドオブジェクトインタラクションが含まれている。 ポーズ推定と生成タスクの把握についてOakInkをベンチマークした。 さらに,OakInkの2つの実践的応用として,意図に基づくインタラクション生成とハンドオーバ生成を提案する。 データセットとソースコードはhttps://github.com/lixiny/OakInk.comで公開されています。

Learning how humans manipulate objects requires machines to acquire knowledge from two perspectives: one for understanding object affordances and the other for learning human's interactions based on the affordances. Even though these two knowledge bases are crucial, we find that current databases lack a comprehensive awareness of them. In this work, we propose a multi-modal and rich-annotated knowledge repository, OakInk, for visual and cognitive understanding of hand-object interactions. We start to collect 1,800 common household objects and annotate their affordances to construct the first knowledge base: Oak. Given the affordance, we record rich human interactions with 100 selected objects in Oak. Finally, we transfer the interactions on the 100 recorded objects to their virtual counterparts through a novel method: Tink. The recorded and transferred hand-object interactions constitute the second knowledge base: Ink. As a result, OakInk contains 50,000 distinct affordance-aware and intent-oriented hand-object interactions. We benchmark OakInk on pose estimation and grasp generation tasks. Moreover, we propose two practical applications of OakInk: intent-based interaction generation and handover generation. Our datasets and source code are publicly available at https://github.com/lixiny/OakInk.
翻訳日:2022-03-30 15:37:35 公開日:2022-03-29
# 自然言語プロンプトを用いた構造ラジオロジーレポートの作成

Few-shot Structured Radiology Report Generation Using Natural Language Prompts ( http://arxiv.org/abs/2203.15723v1 )

ライセンス: Link先を確認
Matthias Keicher, Kamilia Mullakaeva, Tobias Czempiel, Kristina Mach, Ashkan Khakzar, Nassir Navab(参考訳) 胸部X線撮影は時間がかかり、このプロセスを自動化するための多くのソリューションが提案されている。 医療情報の複雑さ, 書体の種類, フリーテキストがタイプミスや不整合しやすいため, 自然言語処理によるフリーテキストレポートの臨床的精度の定量化が困難である。 一方、構造化レポートは一貫性を確保し、品質保証ツールとしてより簡単に使用できる。 そこで本研究では,他の組織的所見に対して容易に拡張可能な臨床観察とその解剖学的位置を予測する戦略を提案する。 まず、関連する胸部X線写真と自由テキストラジオグラフィーレポートを用いて、コントラスト言語画像モデルを訓練する。 次に、各構造的発見のためのテキストプロンプトを作成し、医療画像内の臨床所見とその関連を予測するための分類器を最適化する。 以上の結果から, 胸部X線写真に病理像を局在させ, 構造化された報告を生成できる可能性が示唆された。

Chest radiograph reporting is time-consuming, and numerous solutions to automate this process have been proposed. Due to the complexity of medical information, the variety of writing styles, and free text being prone to typos and inconsistencies, the efficacy of quantifying the clinical accuracy of free-text reports using natural language processing measures is challenging. On the other hand, structured reports ensure consistency and can more easily be used as a quality assurance tool. To accomplish this, we present a strategy for predicting clinical observations and their anatomical location that is easily extensible to other structured findings. First, we train a contrastive language-image model using related chest radiographs and free-text radiological reports. Then, we create textual prompts for each structured finding and optimize a classifier for predicting clinical findings and their associations within the medical image. The results indicate that even when only a few image-level annotations are used for training, the method can localize pathologies in chest radiographs and generate structured reports.
翻訳日:2022-03-30 15:37:20 公開日:2022-03-29
# FisherMatch: エントロピーベースのフィルタリングによる半監督ローテーション回帰

FisherMatch: Semi-Supervised Rotation Regression via Entropy-based Filtering ( http://arxiv.org/abs/2203.15765v1 )

ライセンス: Link先を確認
Yingda Yin, Yingcheng Cai, He Wang, Baoquan Chen(参考訳) 単一のRGB画像から3DoF回転を推定することは重要な問題である。 最近の研究は、大量の高価なラベル付きデータに依存する優れたパフォーマンスを実現している。 監視の量を削減するため,ドメイン固有の知識やペアデータを仮定することなく,半教師付き回転回帰のための一般的なフレームワークFisherMatchを提案する。 教師と教師の相互学習フレームワークにおいて,ラベル付きデータからラベルなしデータへの情報フローを容易にするために,擬似ラベルフィルタリングの活用を提案する。 しかしながら、擬似ラベルフィルタリング機構を半教師付き回転回帰に組み込むことは、主に、回転予測の信頼できる信頼度尺度が欠如しているため、非常に非自明である。 本研究では,マトリクスフィッシャー分布を利用して回転の確率モデルを構築し,その予測の不確実性とともに回転を共同で予測するマトリクスフィッシャーレグレッサーを考案する。 次に,予測分布のエントロピーを信頼度尺度として利用し,回転回帰に対して擬似ラベルフィルタリングを行うことを提案する。 このような分布型擬似ラベルを監督するために, 2つのマトリクスフィッシャー分布間の損失をいかに強制するかという問題をさらに検討する。 提案手法は,異なるベンチマークでラベル付きデータ比が極めて低い場合でも有効であることを示し,教師付き学習やその他の半教師付き学習ベースラインよりも有意かつ一貫した性能向上を実現する。 私たちのプロジェクトページはhttps://yd-yin.github.io/fishermatchです。

Estimating the 3DoF rotation from a single RGB image is an important yet challenging problem. Recent works achieve good performance relying on a large amount of expensive-to-obtain labeled data. To reduce the amount of supervision, we for the first time propose a general framework, FisherMatch, for semi-supervised rotation regression, without assuming any domain-specific knowledge or paired data. Inspired by the popular semi-supervised approach, FixMatch, we propose to leverage pseudo label filtering to facilitate the information flow from labeled data to unlabeled data in a teacher-student mutual learning framework. However, incorporating the pseudo label filtering mechanism into semi-supervised rotation regression is highly non-trivial, mainly due to the lack of a reliable confidence measure for rotation prediction. In this work, we propose to leverage matrix Fisher distribution to build a probabilistic model of rotation and devise a matrix Fisher-based regressor for jointly predicting rotation along with its prediction uncertainty. We then propose to use the entropy of the predicted distribution as a confidence measure, which enables us to perform pseudo label filtering for rotation regression. For supervising such distribution-like pseudo labels, we further investigate the problem of how to enforce loss between two matrix Fisher distributions. Our extensive experiments show that our method can work well even under very low labeled data ratios on different benchmarks, achieving significant and consistent performance improvement over supervised learning and other semi-supervised learning baselines. Our project page is at https://yd-yin.github.io/FisherMatch.
翻訳日:2022-03-30 15:37:05 公開日:2022-03-29
# テキスト駆動ビデオアクセラレーション:弱教師付き強化学習法

Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method ( http://arxiv.org/abs/2203.15778v1 )

ライセンス: Link先を確認
Washington Ramos, Michel Silva, Edson Araujo, Victor Moura, Keller Oliveira, Leandro Soriano Marcolino, Erickson R. Nascimento(参考訳) デジタル時代のビデオの成長と利用者の限られた時間は、同じ情報を伝達する短いバージョンを生成するために、未編集の動画を処理する需要を増大させる。 要約手法の著しい進歩にもかかわらず、ほとんどは数フレームまたはスキムのみを選択し、視覚的なギャップを生成し、ビデオコンテキストを壊すことができる。 本稿では,テキストを用いた指導ビデオの高速化を目的とした強化学習の定式化に基づく,弱教師付き手法を提案する。 新たな共同報酬機能により,最終映像にギャップを生じさせることなく,どのフレームを除去し,ターゲット長に縮小するかを,エージェントに選択させる。 また,テキストデータと視覚データの両方を表す高度に識別可能な埋め込み空間を生成する拡張視覚誘導文書注意ネットワーク(VDAN+)を提案する。 提案手法は,ビデオの出力長を効果的に制御しつつ,ベースラインに対して精度,リコール,F1スコアで最高の性能を達成することを示す。 コードと追加結果についてはhttps://www.verlab.dcc.ufmg.br/semantic-hyperlapse/tpami2022/を参照。

The growth of videos in our digital age and the users' limited time raise the demand for processing untrimmed videos to produce shorter versions conveying the same information. Despite the remarkable progress that summarization methods have made, most of them can only select a few frames or skims, creating visual gaps and breaking the video context. This paper presents a novel weakly-supervised methodology based on a reinforcement learning formulation to accelerate instructional videos using text. A novel joint reward function guides our agent to select which frames to remove and reduce the input video to a target length without creating gaps in the final video. We also propose the Extended Visually-guided Document Attention Network (VDAN+), which can generate a highly discriminative embedding space to represent both textual and visual data. Our experiments show that our method achieves the best performance in Precision, Recall, and F1 Score against the baselines while effectively controlling the video's output length. Visit https://www.verlab.dcc.ufmg.br/semantic-hyperlapse/tpami2022/ for code and extra results.
翻訳日:2022-03-30 15:36:39 公開日:2022-03-29
# ターゲットとタスク固有のソースフリーなドメイン適応画像分割

Target and Task specific Source-Free Domain Adaptive Image Segmentation ( http://arxiv.org/abs/2203.15792v1 )

ライセンス: Link先を確認
Vibashan VS, Jeya Maria Jose Valanarasu and Vishal M. Patel(参考訳) 推論中のドメインシフト問題の解決は、ほとんどのディープラーニングベースのソリューションがそれに苦しむため、医療画像において不可欠である。 実際には、モデルがラベル付きソースドメインを利用してラベル付きターゲットドメインに適合するアントラスト・ドメイン適応(Unsupervised Domain Adaptation, UDA)を実行することでドメインシフトに取り組む。 医療のシナリオでは、データにはプライバシーの懸念が伴い、標準のUDA技術を適用するのが難しくなる。 したがって、より近い臨床環境はSource-Free UDA (SFUDA) であり、そこではソーストレーニングモデルにアクセスできますが、適応時にソースデータにアクセスできません。 SFUDAを解く方法は通常、擬似ラベルに基づく自己学習技術を用いてドメインシフトに対処する。 しかし、ドメインシフトのため、これらの擬似ラベルは通常高いエントロピーを持ち、それらをデノナイズしてもモデルを監督する完璧なラベルにはならない。 したがって、ノイズの多い擬似ラベルでソースモデルを適用すると、ドメインシフトに対処しながらセグメント化能力が低下する。 そこで本研究では,ソースフリー領域適応画像セグメンテーションのための2段階アプローチを提案する。 1)ターゲット固有の適応とそれに続く 2)タスク固有の適応。 第1段階では,エンサンブルエントロピー最小化損失を提案することにより,高いエントロピー領域を抑えつつ,ターゲット固有の擬似ラベルを生成することに注力する。 また,疑似ラベル生成を促進するための選択投票戦略を提案する。 第2段階では,教師が指導する自己学習アプローチを用いて,タスク固有の表現にネットワークを適用することに焦点を当てる。 提案手法は,近年の医用画像セグメンテーションにおけるUDA法とSF-UDA法よりも優れた性能を達成できる7つの異なる領域シフトにおいて,2次元ファウンスデータセットと3次元MRIボリュームの両方で評価した。 コードはhttps://github.com/vibashan/tt-sfudaで入手できる。

Solving the domain shift problem during inference is essential in medical imaging as most deep-learning based solutions suffer from it. In practice, domain shifts are tackled by performing Unsupervised Domain Adaptation (UDA), where a model is adapted to an unlabeled target domain by leveraging the labelled source domain. In medical scenarios, the data comes with huge privacy concerns making it difficult to apply standard UDA techniques. Hence, a closer clinical setting is Source-Free UDA (SFUDA), where we have access to source trained model but not the source data during adaptation. Methods trying to solve SFUDA typically address the domain shift using pseudo-label based self-training techniques. However, due to domain shift, these pseudo-labels are usually of high entropy and denoising them still does not make them perfect labels to supervise the model. Therefore, adapting the source model with noisy pseudo labels reduces its segmentation capability while addressing the domain shift. To this end, we propose a two-stage approach for source-free domain adaptive image segmentation: 1) Target-specific adaptation followed by 2) Task-specific adaptation. In the first stage, we focus on generating target-specific pseudo labels while suppressing high entropy regions by proposing an Ensemble Entropy Minimization loss. We also introduce a selective voting strategy to enhance pseudo-label generation. In the second stage, we focus on adapting the network for task-specific representation by using a teacher-student self-training approach based on augmentation-guided consistency. We evaluate our proposed method on both 2D fundus datasets and 3D MRI volumes across 7 different domain shifts where we achieve better performance than recent UDA and SF-UDA methods for medical image segmentation. Code is available at https://github.com/Vibashan/tt-sfuda.
翻訳日:2022-03-30 15:36:22 公開日:2022-03-29
# インスタンス関係グラフ誘導ソースフリードメイン適応オブジェクト検出

Instance Relation Graph Guided Source-Free Domain Adaptive Object Detection ( http://arxiv.org/abs/2203.15793v1 )

ライセンス: Link先を確認
Vibashan VS, Poojan Oza and Vishal M. Patel(参考訳) Unsupervised Domain Adaptation (UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。 具体的には、udaメソッドはソースとターゲットの表現を整合させ、ターゲットドメインの一般化を改善する。 さらに、UDA法は、適応プロセス中にソースデータがアクセス可能であるという仮定の下で機能する。 しかしながら、現実のシナリオでは、ラベル付きソースデータは、プライバシー規制、データ送信の制約、あるいはプロプライエタリなデータ懸念のために制限されることが多い。 Source-Free Domain Adaptation (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。 本稿では,適応物体検出タスクのためのsfda設定について検討する。 そこで本研究では、ソースデータなしで対象領域にソース学習対象検出器を適用するための新たなトレーニング戦略を提案する。 より正確には、与えられた対象ドメイン入力のオブジェクト関係を利用して、ターゲット表現を強化するために、新しいコントラスト損失を設計する。 これらのオブジェクトインスタンスの関係は、インスタンス関係グラフ(IRG)ネットワークを使用してモデル化され、コントラスト表現学習のガイドに使用される。 また,学習者による知識蒸留手法を用いて,音源学習モデルによって生成されるノイズの多い擬似ラベルへの過度な適合を回避する。 複数のオブジェクト検出ベンチマークデータセットに関する広範囲な実験により、提案手法は、ソース訓練されたオブジェクト検出器をターゲットドメインに効率的に適応することができ、従来の最先端ドメイン適応検出法を上回っている。 コードはhttps://github.com/vibashan/irg-sfdaで入手できる。

Unsupervised Domain Adaptation (UDA) is an effective approach to tackle the issue of domain shift. Specifically, UDA methods try to align the source and target representations to improve the generalization on the target domain. Further, UDA methods work under the assumption that the source data is accessible during the adaptation process. However, in real-world scenarios, the labelled source data is often restricted due to privacy regulations, data transmission constraints, or proprietary data concerns. The Source-Free Domain Adaptation (SFDA) setting aims to alleviate these concerns by adapting a source-trained model for the target domain without requiring access to the source data. In this paper, we explore the SFDA setting for the task of adaptive object detection. To this end, we propose a novel training strategy for adapting a source-trained object detector to the target domain without source data. More precisely, we design a novel contrastive loss to enhance the target representations by exploiting the objects relations for a given target domain input. These object instance relations are modelled using an Instance Relation Graph (IRG) network, which are then used to guide the contrastive representation learning. In addition, we utilize a student-teacher based knowledge distillation strategy to avoid overfitting to the noisy pseudo-labels generated by the source-trained model. Extensive experiments on multiple object detection benchmark datasets show that the proposed approach is able to efficiently adapt source-trained object detectors to the target domain, outperforming previous state-of-the-art domain adaptive detection methods. Code is available at https://github.com/Vibashan/irg-sfda.
翻訳日:2022-03-30 15:35:51 公開日:2022-03-29
# CHEX:CNNモデル圧縮のためのカーネルエクスプロレーション

CHEX: CHannel EXploration for CNN Model Compression ( http://arxiv.org/abs/2203.15794v1 )

ライセンス: Link先を確認
Zejiang Hou, Minghai Qin, Fei Sun, Xiaolong Ma, Kun Yuan, Yi Xu, Yen-Kuang Chen, Rong Jin, Yuan Xie, Sun-Yuan Kung(参考訳) チャネルプルーニングは、深い畳み込みニューラルネットワークの計算とメモリコストを削減する効果的な手法として広く認識されている。 しかし,従来のプルーニング法には限界があり,プルーニングプロセスのみに限定されており,十分に事前訓練された大規模モデルが必要である。 このような制限は、最適化されたモデル品質と過剰なメモリとトレーニングコストにつながる可能性がある。 本稿では,これらの問題を是正するために,CHEXと呼ばれる新しいチャネル探索手法を提案する。 プルーニングのみの戦略とは対照的に,訓練過程を通じて繰り返しプルーニングを行い,重要なチャネルを早期にプルーニングするリスクを低減することを提案する。 より正確には、層内の側面から、よく知られた列サブセット選択(CSS)の定式化により、チャネルプルーニング問題に取り組む。 層間面から、我々の再成長段階は、グローバルチャネル間隔制約の下で、すべての層にまたがるチャネルの数を動的に再配置する経路を開く。 さらに、すべての探索プロセスは、事前訓練された大きなモデルなしで、ゼロから1つのトレーニングで行われます。 実験の結果,CHEXは画像分類,オブジェクト検出,インスタンス分割,3Dビジョンなど,さまざまなコンピュータビジョンタスクにおいて,多様なCNNアーキテクチャのFLOPを効果的に削減できることがわかった。 例えば、ImageNetデータセット上の圧縮されたResNet-50モデルは、元のResNet-50モデルの25%のFLOPで76%のトップ1の精度を実現し、従来の最先端チャネルプルーニング手法よりも優れています。 チェックポイントとコードはここで入手できる。

Channel pruning has been broadly recognized as an effective technique to reduce the computation and memory cost of deep convolutional neural networks. However, conventional pruning methods have limitations in that: they are restricted to pruning process only, and they require a fully pre-trained large model. Such limitations may lead to sub-optimal model quality as well as excessive memory and training cost. In this paper, we propose a novel Channel Exploration methodology, dubbed as CHEX, to rectify these problems. As opposed to pruning-only strategy, we propose to repeatedly prune and regrow the channels throughout the training process, which reduces the risk of pruning important channels prematurely. More exactly: From intra-layer's aspect, we tackle the channel pruning problem via a well known column subset selection (CSS) formulation. From inter-layer's aspect, our regrowing stages open a path for dynamically re-allocating the number of channels across all the layers under a global channel sparsity constraint. In addition, all the exploration process is done in a single training from scratch without the need of a pre-trained large model. Experimental results demonstrate that CHEX can effectively reduce the FLOPs of diverse CNN architectures on a variety of computer vision tasks, including image classification, object detection, instance segmentation, and 3D vision. For example, our compressed ResNet-50 model on ImageNet dataset achieves 76% top1 accuracy with only 25% FLOPs of the original ResNet-50 model, outperforming previous state-of-the-art channel pruning methods. The checkpoints and code are available at here .
翻訳日:2022-03-30 15:35:25 公開日:2022-03-29
# Wavelet, AR, SVMを用いた短期風速予測のためのハイブリッド手法

A Wavelet, AR and SVM based hybrid method for short-term wind speed prediction ( http://arxiv.org/abs/2203.15298v1 )

ライセンス: Link先を確認
G.V. Drisya, K. Satheesh Kumar(参考訳) 風速モデリングと予測は、風力エネルギー管理の様々な段階において重要な役割を担っているため、重要になっている。 本稿では,ウェーブレット変換に基づくハイブリッドモデルを提案する。 風速時系列をウェーブレット分解法を用いて各種周波数成分に分割し、各周波数成分を別々にモデル化する。 高周波領域に関連する成分は確率的性質を示すため, 自己回帰(AR)法および支持ベクトルマシン(SVM)を用いた低周波成分の残りをモデル化した。 その結果, 風速予測の精度は, 単独のarモデルやsvmモデルと比較して有望な改善が得られた。

Wind speed modelling and prediction has been gaining importance because of its significant roles in various stages of wind energy management. In this paper, we propose a hybrid model, based on wavelet transform to improve the accuracy of the short-term forecast. The wind speed time series are split into various frequency components using wavelet decomposition technique, and each frequency components are modelled separately. Since the components associated with the high- frequency range shows stochastic nature, we modelled them with autoregressive (AR) method and rest of low-frequency components modelled with support vector machine (SVM). The results of the hybrid method show a promising improvement in accuracy of wind speed prediction compared to that of stand-alone AR or SVM model.
翻訳日:2022-03-30 15:34:19 公開日:2022-03-29
# 確率的保守的文脈的線形バンディット

Stochastic Conservative Contextual Linear Bandits ( http://arxiv.org/abs/2203.15629v1 )

ライセンス: Link先を確認
Jiabin Lin, Xian Yeow Lee, Talukder Jubery, Shana Moothedath, Soumik Sarkar, and Baskar Ganapathysubramanian(参考訳) 多くの物理システムは、戦略を展開することで一連の制約の満足度を確保することを必要とする、基本的な安全上の考慮を持っている。 さらに、システムの状態に関する部分的な情報しか得られないことが多い。 不確実性下での安全なリアルタイム意思決定の問題について検討する。 本稿では,リアルタイム意思決定のための保守的確率的文脈的バンディット定式化を,敵が可能なコンテキストの集合上の分布を選択し,学習者が一定の安全性・性能上の制約を受ける場合に定式化する。 学習者は、文脈分布と正確な文脈のみを観察し、任意の時間ステップで安全制約に違反することなく累積報酬を最大化する最適な行動の列を選択するアルゴリズムを開発する。 この設定に UCB アルゴリズムを応用して, 文脈分布を持つ確率的包帯に対する保守線形 UCB アルゴリズムを提案する。 我々は、そのアルゴリズムの後悔の上限を証明し、それを3つの用語に分解できることを示す。 (i)標準線形 UCB アルゴリズムの後悔に対する上限 (二 安全上の制約を満たすために保守的であることの喪失を理由とする一定の用語(時間的地平線によらない。) (II) 時間的地平線に依存しない定数項で、文脈の損失は未知であり、分布のみが知られている。 提案手法の性能を検証するために,合成データおよびg2fイニシアチブによって収集された実世界のトウモロコシデータに対する広範囲なシミュレーションを行う。

Many physical systems have underlying safety considerations that require that the strategy deployed ensures the satisfaction of a set of constraints. Further, often we have only partial information on the state of the system. We study the problem of safe real-time decision making under uncertainty. In this paper, we formulate a conservative stochastic contextual bandit formulation for real-time decision making when an adversary chooses a distribution on the set of possible contexts and the learner is subject to certain safety/performance constraints. The learner observes only the context distribution and the exact context is unknown, and the goal is to develop an algorithm that selects a sequence of optimal actions to maximize the cumulative reward without violating the safety constraints at any time step. By leveraging the UCB algorithm for this setting, we propose a conservative linear UCB algorithm for stochastic bandits with context distribution. We prove an upper bound on the regret of the algorithm and show that it can be decomposed into three terms: (i) an upper bound for the regret of the standard linear UCB algorithm, (ii) a constant term (independent of time horizon) that accounts for the loss of being conservative in order to satisfy the safety constraint, and (ii) a constant term (independent of time horizon) that accounts for the loss for the contexts being unknown and only the distribution being known. To validate the performance of our approach we perform extensive simulations on synthetic data and on real-world maize data collected through the Genomes to Fields (G2F) initiative.
翻訳日:2022-03-30 15:34:06 公開日:2022-03-29
# 高帯域幅メモリ(hbm)の電力分配ネットワーク(pdn)最適化のためのトランスネットワークに基づく強化学習法

Transformer Network-based Reinforcement Learning Method for Power Distribution Network (PDN) Optimization of High Bandwidth Memory (HBM) ( http://arxiv.org/abs/2203.15722v1 )

ライセンス: Link先を確認
Hyunwook Park, Minsu Kim, Seongguk Kim, Keunwoo Kim, Haeyeon Kim, Taein Shin, Keeyoung Son, Boogyo Sim, Subin Kim, Seungtaek Jeong, Chulsoon Hwang, and Joungho Kim(参考訳) 本稿では,高帯域メモリ(HBM)の電力分散ネットワーク(PDN)最適化のためのトランスフォーマネットワークに基づく強化学習(RL)手法を初めて提案する。 提案手法は,複数のポートで見られるpdn自己インピーダンスと伝達インピーダンスの低減を最大化する最適デカップリングキャパシタ(decap)設計を提供することができる。 注意に基づくトランスフォーマーネットワークを実装し、デキャップ最適化ポリシーを直接パラメータ化する。 アテンション機構はデカプセル割り当てのための膨大な組合せ空間を探索する強力な表現を持つため、最適性性能は大幅に向上する。 さらに、デキャップ割り当て間のシーケンシャルな関係をキャプチャできる。 探索ポートとデキャップ割り当て候補の位置における再利用可能なネットワークのため、最適化のための計算時間が劇的に短縮される。 これは、トランスフォーマーネットワークが、ポート位置の探索を含むメタフィーチャをキャプチャするコンテキスト埋め込みプロセスを持っているためである。 さらに、ネットワークはランダムに生成されたデータセットでトレーニングされる。 したがって、追加のトレーニングがなければ、トレーニングされたネットワークは新しいデキャップ最適化問題を解決することができる。 トレーニングとデータコストの計算時間は、ネットワークのスケーラビリティのために大幅に削減される。 共有重量特性のおかげで、ネットワークは追加のトレーニングなしでより大規模な問題に適応できる。 検証のために、従来の遺伝的アルゴリズム(GA)、ランダムサーチ(RS)、および従来のRLに基づく全ての手法と比較する。 その結果,提案手法は最適性性能,計算時間,データ効率など,すべての面で優れていた。

In this article, for the first time, we propose a transformer network-based reinforcement learning (RL) method for power distribution network (PDN) optimization of high bandwidth memory (HBM). The proposed method can provide an optimal decoupling capacitor (decap) design to maximize the reduction of PDN self- and transfer impedance seen at multiple ports. An attention-based transformer network is implemented to directly parameterize decap optimization policy. The optimality performance is significantly improved since the attention mechanism has powerful expression to explore massive combinatorial space for decap assignments. Moreover, it can capture sequential relationships between the decap assignments. The computing time for optimization is dramatically reduced due to the reusable network on positions of probing ports and decap assignment candidates. This is because the transformer network has a context embedding process to capture meta-features including probing ports positions. In addition, the network is trained with randomly generated data sets. Therefore, without additional training, the trained network can solve new decap optimization problems. The computing time for training and data cost are critically decreased due to the scalability of the network. Thanks to its shared weight property, the network can adapt to a larger scale of problems without additional training. For verification, we compare the results with conventional genetic algorithm (GA), random search (RS), and all the previous RL-based methods. As a result, the proposed method outperforms in all the following aspects: optimality performance, computing time, and data efficiency.
翻訳日:2022-03-30 15:33:42 公開日:2022-03-29
# (参考訳) osop: 多段階ワンショットオブジェクトポーズ推定フレームワーク

OSOP: A Multi-Stage One Shot Object Pose Estimation Framework ( http://arxiv.org/abs/2203.15533v1 )

ライセンス: CC BY 4.0
Ivan Shugurov, Fu Li, Benjamin Busam, Slobodan Ilic(参考訳) 対象物検出のための新しいワンショット手法と,対象物に対する訓練を必要としない6DoFポーズ推定を提案する。 テスト時には、ターゲット画像とテクスチャ化された3Dクエリモデルを入力する。 中心となる考え方は、異なる視点からレンダリングされた多くの2Dテンプレートを持つ3Dモデルを表現することである。 これにより、CNNベースの直接濃密な特徴抽出とマッチングが可能になる。 物体はまず2Dで局所化され、その近似的な視点が推定され、次いで密度の高い2D-3D対応予測が行われる。 最後のポーズはPnPで計算される。 この手法はLineMOD, Occlusion, Homebrewed, YCB-V, TLESSのデータセットで評価し, テストに使用するオブジェクトモデルでは訓練されていないが, 合成データで訓練された最先端の手法と比較して非常に高い性能を示した。

We present a novel one-shot method for object detection and 6 DoF pose estimation, that does not require training on target objects. At test time, it takes as input a target image and a textured 3D query model. The core idea is to represent a 3D model with a number of 2D templates rendered from different viewpoints. This enables CNN-based direct dense feature extraction and matching. The object is first localized in 2D, then its approximate viewpoint is estimated, followed by dense 2D-3D correspondence prediction. The final pose is computed with PnP. We evaluate the method on LineMOD, Occlusion, Homebrewed, YCB-V and TLESS datasets and report very competitive performance in comparison to the state-of-the-art methods trained on synthetic data, even though our method is not trained on the object models used for testing.
翻訳日:2022-03-30 15:29:55 公開日:2022-03-29
# ポップアウトモーション:形状ラプラシアン学習による3次元画像変形

Pop-Out Motion: 3D-Aware Image Deformation via Learning the Shape Laplacian ( http://arxiv.org/abs/2203.15235v1 )

ライセンス: Link先を確認
Jihyun Lee, Minhyuk Sung, Hyunjin Kim, Tae-Kyun Kim(参考訳) 本研究では,2次元画像中の物体を3次元空間内に存在するように変形するフレームワークを提案する。 既存の3D画像操作法は,(1)大域的なシーン情報や深度だけを変えること,(2)特定のカテゴリのオブジェクトを操作することに限定されている。 本稿では,形状カテゴリと変形タイプに最小限の制約を課した3次元画像変形法を提案する。 筆者らのフレームワークは2次元から3次元の再構成を利用するが, トポロジ的誤りによる現実的な変形には不十分である。 そこで本研究では,3次元再構成の底部体積のラプラシアン形状を点雲として予測するために,教師付き学習に基づくアプローチを提案する。 予測形状 Laplacian とユーザ定義変形ハンドル (キーポイントなど) を用いて計算した変形エネルギーを考慮し, 有界双調和重みを求める。 実験では,2次元キャラクタと人間の衣料画像の変形実験を行った。 また,提案手法が代替法(メッシュ再構成法,ポイントクラウドラプラシアン法)と比較して,より正確な変形重みを発生できることを定量的に示す。

We propose a framework that can deform an object in a 2D image as it exists in 3D space. Most existing methods for 3D-aware image manipulation are limited to (1) only changing the global scene information or depth, or (2) manipulating an object of specific categories. In this paper, we present a 3D-aware image deformation method with minimal restrictions on shape category and deformation type. While our framework leverages 2D-to-3D reconstruction, we argue that reconstruction is not sufficient for realistic deformations due to the vulnerability to topological errors. Thus, we propose to take a supervised learning-based approach to predict the shape Laplacian of the underlying volume of a 3D reconstruction represented as a point cloud. Given the deformation energy calculated using the predicted shape Laplacian and user-defined deformation handles (e.g., keypoints), we obtain bounded biharmonic weights to model plausible handle-based image deformation. In the experiments, we present our results of deforming 2D character and clothed human images. We also quantitatively show that our approach can produce more accurate deformation weights compared to alternative methods (i.e., mesh reconstruction and point cloud Laplacian methods).
翻訳日:2022-03-30 15:15:38 公開日:2022-03-29
# 潜時空間マッピングを用いた半スーパービジョン画像間変換

Semi-Supervised Image-to-Image Translation using Latent Space Mapping ( http://arxiv.org/abs/2203.15241v1 )

ライセンス: Link先を確認
Pan Zhang, Jianmin Bao, Ting Zhang, Dong Chen, Fang Wen(参考訳) 最近の画像から画像への翻訳は、大量のペアデータのキャプチャやラベル付けのコストがかかるため、教師なしから教師なしに移された。 しかし、サイクル整合性制約を用いた現在の教師なし手法では、特に難しい翻訳タスクにおいて、望ましいマッピングが見つからない場合がある。 一方、少数のペアデータは通常アクセス可能である。 そこで我々は,半教師付き画像翻訳のための一般的なフレームワークを導入する。 以前の作品とは異なり、私たちの主なアイデアは、画像空間の代わりに潜在特徴空間上の翻訳を学ぶことです。 低次元の特徴空間により、所望のマッピング関数を見つけやすくなり、結果として翻訳結果の品質が向上し、翻訳モデルの安定性が向上する。 実験として,数ビットのペアデータであっても,機能翻訳がよりよい結果を生み出すことを示す。 画像から画像への様々な翻訳課題における提案フレームワークの有効性を実証する最先端手法との比較

Recent image-to-image translation works have been transferred from supervised to unsupervised settings due to the expensive cost of capturing or labeling large amounts of paired data. However, current unsupervised methods using the cycle-consistency constraint may not find the desired mapping, especially for difficult translation tasks. On the other hand, a small number of paired data are usually accessible. We therefore introduce a general framework for semi-supervised image translation. Unlike previous works, our main idea is to learn the translation over the latent feature space instead of the image space. Thanks to the low dimensional feature space, it is easier to find the desired mapping function, resulting in improved quality of translation results as well as the stability of the translation model. Empirically we show that using feature translation generates better results, even using a few bits of paired data. Experimental comparisons with state-of-the-art approaches demonstrate the effectiveness of the proposed framework on a variety of challenging image-to-image translation tasks
翻訳日:2022-03-30 15:15:16 公開日:2022-03-29
# 学習メモリを用いた微調整画像変換器

Fine-tuning Image Transformers using Learnable Memory ( http://arxiv.org/abs/2203.15243v1 )

ライセンス: Link先を確認
Mark Sandler, Andrey Zhmoginov, Max Vladymyrov, Andrew Jackson(参考訳) 本稿では,学習可能なメモリトークンを用いた視覚トランスフォーマーモデルの拡張を提案する。 我々のアプローチでは、モデルが新しいタスクに適応し、パラメータが少なく、オプションで以前に学習したタスクでその機能を保存することができる。 各レイヤに学習可能な埋め込みベクターセットを導入し、特定のデータセットに有用なコンテキスト情報を提供します。 これらを“メモリトークン”と呼びます。 従来の頭部のみの微調整に比べて, 層当たりのトークン数が少ないモデルでは精度が著しく向上し, より高価な完全微調整よりもわずかに低い性能を示した。 次に,計算の再利用により,新しいダウンストリームタスクへの拡張を可能にするアテンションマスキング手法を提案する。 この設定では、パラメータ効率に加えて、モデルは小さなインクリメンタルコストで単一推論の一部として古いタスクと新しいタスクの両方を実行することができる。

In this paper we propose augmenting Vision Transformer models with learnable memory tokens. Our approach allows the model to adapt to new tasks, using few parameters, while optionally preserving its capabilities on previously learned tasks. At each layer we introduce a set of learnable embedding vectors that provide contextual information useful for specific datasets. We call these "memory tokens". We show that augmenting a model with just a handful of such tokens per layer significantly improves accuracy when compared to conventional head-only fine-tuning, and performs only slightly below the significantly more expensive full fine-tuning. We then propose an attention-masking approach that enables extension to new downstream tasks, with a computation reuse. In this setup in addition to being parameters efficient, models can execute both old and new tasks as a part of single inference at a small incremental cost.
翻訳日:2022-03-30 15:15:03 公開日:2022-03-29
# 3次元点雲に対するロバスト構造式宣言型分類器:不規則勾配による逆攻撃の回避

Robust Structured Declarative Classifiers for 3D Point Clouds: Defending Adversarial Attacks with Implicit Gradients ( http://arxiv.org/abs/2203.15245v1 )

ライセンス: Link先を確認
Kaidong Li, Ziming Zhang, Cuncong Zhong, Guanghui Wang(参考訳) PointNetのような3Dポイントクラウド分類のためのディープニューラルネットワークは、敵の攻撃に対して脆弱であることが示されている。 現在の敵のディフェンダーは、しばしば(攻撃された)点雲を復元して、それらを入力として分類器に供給することを学ぶ。 文献とは対照的に,内部制約最適化機構は暗黙の勾配を通じて敵攻撃を効果的に防御することのできる,ポイントクラウド分類のための頑健な構造化宣言型分類器群を提案する。 このような分類器は二段階最適化フレームワークを用いて定式化することができる。 さらに,ペルムトヘドラル格子における構造化スパース符号化に基づく格子点分類器 (lpc) と,エンドツーエンドで訓練可能な2次元畳み込みニューラルネットワーク (cnns) を提案する。 我々は、7つの異なる攻撃者の下でModelNet40とScanNetの最先端のロバストクラウド分類性能を示す。 例えば、最近のJGBAアタッカーによるデータセット毎の89.51%と83.16%のテスト精度は、PointNetでDUP-NetとIF-Defenseを上回っている。 デモコードはhttps://zhang-vislab.github.ioで入手できる。

Deep neural networks for 3D point cloud classification, such as PointNet, have been demonstrated to be vulnerable to adversarial attacks. Current adversarial defenders often learn to denoise the (attacked) point clouds by reconstruction, and then feed them to the classifiers as input. In contrast to the literature, we propose a family of robust structured declarative classifiers for point cloud classification, where the internal constrained optimization mechanism can effectively defend adversarial attacks through implicit gradients. Such classifiers can be formulated using a bilevel optimization framework. We further propose an effective and efficient instantiation of our approach, namely, Lattice Point Classifier (LPC), based on structured sparse coding in the permutohedral lattice and 2D convolutional neural networks (CNNs) that is end-to-end trainable. We demonstrate state-of-the-art robust point cloud classification performance on ModelNet40 and ScanNet under seven different attackers. For instance, we achieve 89.51% and 83.16% test accuracy on each dataset under the recent JGBA attacker that outperforms DUP-Net and IF-Defense with PointNet by ~70%. Demo code is available at https://zhang-vislab.github.io.
翻訳日:2022-03-30 15:14:50 公開日:2022-03-29
# 手術シーンセグメンテーションにおける映像内・映像間関係の探索

Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation ( http://arxiv.org/abs/2203.15251v1 )

ライセンス: Link先を確認
Yueming Jin, Yang Yu, Cheng Chen, Zixu Zhao, Pheng-Ann Heng, Danail Stoyanov(参考訳) 手術シーンの自動セグメンテーションは,現代劇場における認知知の促進に不可欠である。 これまでの作業は、従来の集約モジュール(例えば拡張畳み込み、畳み込みLSTM)に依存しており、ローカルコンテキストのみを使用する。 本稿では,グローバルな文脈を段階的に捉え,セグメント化性能を高めるために,映像内・映像間関係を補完する新しいフレームワークSTswinCLを提案する。 まず、隣接する画素や以前のフレームからのより豊かな空間的および時間的手がかりを含む映像内関係をキャプチャする階層変換器を開発する。 各画素の埋め込みにこれらの2つのキューを効率よく集約する共同時空間シフトスキームを提案する。 そして,グローバルな埋め込み空間をうまく構成する画素対画素のコントラスト学習を用いて,映像間の関係を探索する。 マルチソースコントラストトレーニングの目的は、ビデオに埋め込まれたピクセルを、全データのグローバル特性を学ぶのに不可欠である地上ガイダンスでグループ化することである。 EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証した。 実験の結果,従来の手法を一貫して超越した有望な性能が得られた。 コードはhttps://github.com/YuemingJin/STswinCLで入手できる。

Automatic surgical scene segmentation is fundamental for facilitating cognitive intelligence in the modern operating theatre. Previous works rely on conventional aggregation modules (e.g., dilated convolution, convolutional LSTM), which only make use of the local context. In this paper, we propose a novel framework STswinCL that explores the complementary intra- and inter-video relations to boost segmentation performance, by progressively capturing the global context. We firstly develop a hierarchy Transformer to capture intra-video relation that includes richer spatial and temporal cues from neighbor pixels and previous frames. A joint space-time window shift scheme is proposed to efficiently aggregate these two cues into each pixel embedding. Then, we explore inter-video relation via pixel-to-pixel contrastive learning, which well structures the global embedding space. A multi-source contrast training objective is developed to group the pixel embeddings across videos with the ground-truth guidance, which is crucial for learning the global property of the whole data. We extensively validate our approach on two public surgical video benchmarks, including EndoVis18 Challenge and CaDIS dataset. Experimental results demonstrate the promising performance of our method, which consistently exceeds previous state-of-the-art approaches. Code will be available at https://github.com/YuemingJin/STswinCL.
翻訳日:2022-03-30 15:14:29 公開日:2022-03-29
# 対話型マルチクラス微小物体検出

Interactive Multi-Class Tiny-Object Detection ( http://arxiv.org/abs/2203.15266v1 )

ライセンス: Link先を確認
Chunggi Lee, Seonwook Park, Heon Song, Jeongun Ryu, Sanghoon Kim, Haejoon Kim, S\'ergio Pereira, Donggeun Yoo(参考訳) 与えられた画像に数十から数百の小さなオブジェクトを注釈付けすることは、コンピュータビジョンのタスクにとって非常に難しい。 このような画像は通常、様々なカテゴリのオブジェクトを含んでいるが、検出タスクのための多クラス対話型アノテーション設定は、これまで検討されていない。 これらのニーズに対処するために,いくつかのポイントベースのユーザ入力に基づいて,複数のクラスから小さなオブジェクトを複数インスタンス化するための対話型アノテーション手法を提案する。 提案手法であるc3detは,全画像コンテキストとアノテーション入力を局所的およびグローバル的に,遅延拡散と特徴相関によって関連づける。 2段階および1段階のオブジェクト検出アーキテクチャを用いて,Tiny-DOTAおよびLCellデータセット上で実験を行い,本手法の有効性を検証する。 提案手法はインタラクティブアノテーションにおいて既存の手法よりも優れており,より少ないクリックで高いmAPを実現する。 さらに,本手法のアノテーション効率は,手動アノテーションに比べて2.85倍高速で0.36倍のタスク負荷(nasa-tlx,lower is better)しか得られないことを示すユーザスタディで検証した。 コードはhttps://github.com/ChungYi347/Interactive-Multi-Class-Tiny-Object-Detectionで公開されている。

Annotating tens or hundreds of tiny objects in a given image is laborious yet crucial for a multitude of Computer Vision tasks. Such imagery typically contains objects from various categories, yet the multi-class interactive annotation setting for the detection task has thus far been unexplored. To address these needs, we propose a novel interactive annotation method for multiple instances of tiny objects from multiple classes, based on a few point-based user inputs. Our approach, C3Det, relates the full image context with annotator inputs in a local and global manner via late-fusion and feature-correlation, respectively. We perform experiments on the Tiny-DOTA and LCell datasets using both two-stage and one-stage object detection architectures to verify the efficacy of our approach. Our approach outperforms existing approaches in interactive annotation, achieving higher mAP with fewer clicks. Furthermore, we validate the annotation efficiency of our approach in a user study where it is shown to be 2.85x faster and yield only 0.36x task load (NASA-TLX, lower is better) compared to manual annotation. The code is available at https://github.com/ChungYi347/Interactive-Multi-Class-Tiny-Object-Detection.
翻訳日:2022-03-30 15:14:07 公開日:2022-03-29
# MAT:大型ホール画像塗布用マスク対応変圧器

MAT: Mask-Aware Transformer for Large Hole Image Inpainting ( http://arxiv.org/abs/2203.15270v1 )

ライセンス: Link先を確認
Wenbo Li, Zhe Lin, Kun Zhou, Lu Qi, Yi Wang, Jiaya Jia(参考訳) 近年の研究では、塗装問題における長距離相互作用のモデル化の重要性が示されている。 この目的を達成するために、既存のアプローチはスタンドアロンの注意技法または変圧器を利用するが、計算コストを考慮すると通常は低解像度である。 本稿では,超高分解能画像を効率的に処理するための変圧器と畳み込みの利点を統一した,新しい大孔インペインティング用変圧器モデルを提案する。 我々は、回収された画像の忠実度と多様性を保証するために、フレームワークの各コンポーネントを慎重に設計する。 具体的にはインテンションモジュールが動的マスクで示される部分的有効トークンのみから非局所情報を集約するインパインティング指向トランスフォーマーブロックをカスタマイズする。 大規模な実験は、複数のベンチマークデータセット上で新しいモデルの最先端のパフォーマンスを示す。 コードはhttps://github.com/fenglinglwb/matでリリースされる。

Recent studies have shown the importance of modeling long-range interactions in the inpainting problem. To achieve this goal, existing approaches exploit either standalone attention techniques or transformers, but usually under a low resolution in consideration of computational cost. In this paper, we present a novel transformer-based model for large hole inpainting, which unifies the merits of transformers and convolutions to efficiently process high-resolution images. We carefully design each component of our framework to guarantee the high fidelity and diversity of recovered images. Specifically, we customize an inpainting-oriented transformer block, where the attention module aggregates non-local information only from partial valid tokens, indicated by a dynamic mask. Extensive experiments demonstrate the state-of-the-art performance of the new model on multiple benchmark datasets. Code is released at https://github.com/fenglinglwb/MAT.
翻訳日:2022-03-30 15:13:48 公開日:2022-03-29
# ミラーアテンションと比較ランキングとマッチングを用いた意味線検出

Semantic Line Detection Using Mirror Attention and Comparative Ranking and Matching ( http://arxiv.org/abs/2203.15285v1 )

ライセンス: Link先を確認
Dongkwon Jin, Jun-Tae Lee, Chang-Su Kim(参考訳) 本稿では,意味線を検出する新しいアルゴリズムを提案する。 ミラーアテンション付き検出ネットワーク(D-Net)と、比較ランキングとマッチングネットワーク(R-NetとM-Net)の3つのネットワークを開発する。 D-Netは、リッチな文脈情報を利用して意味線を抽出する。 この目的のために、ミラーアテンションモジュールを設計する。 そして,抽出したセマンティックラインのペアワイズ比較により,最もセマンティックな行を反復的に選択し,選択した行に重複する冗長な行を除去する。 ペアワイズ比較では,シームズアーキテクチャでR-NetとM-Netを開発する。 実験により,提案アルゴリズムは従来のセマンティックライン検出器よりも有意に優れていた。 さらに,提案手法を応用して2つの重要な意味線(支配的平行線と反射対称性軸)を検出する。 私たちのコードはhttps://github.com/dongkwonjin/Semantic-Line-DRMで利用可能です。

A novel algorithm to detect semantic lines is proposed in this paper. We develop three networks: detection network with mirror attention (D-Net) and comparative ranking and matching networks (R-Net and M-Net). D-Net extracts semantic lines by exploiting rich contextual information. To this end, we design the mirror attention module. Then, through pairwise comparisons of extracted semantic lines, we iteratively select the most semantic line and remove redundant ones overlapping with the selected one. For the pairwise comparisons, we develop R-Net and M-Net in the Siamese architecture. Experiments demonstrate that the proposed algorithm outperforms the conventional semantic line detector significantly. Moreover, we apply the proposed algorithm to detect two important kinds of semantic lines successfully: dominant parallel lines and reflection symmetry axes. Our codes are available at https://github.com/dongkwonjin/Semantic-Line-DRM.
翻訳日:2022-03-30 15:13:34 公開日:2022-03-29
# 自己監督型3次元姿勢推定のための不確実性認識適応

Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation ( http://arxiv.org/abs/2203.15293v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Siddharth Seth, Pradyumna YM, Varun Jampani, Anirban Chakraborty, R. Venkatesh Babu(参考訳) モノラルな3次元ポーズ推定の進歩は、大規模な2D/3Dポーズアノテーションを必要とする教師付き技術によって支配されている。 そのような方法は、不慣れな分散データを捨てる条項がない場合、しばしば不規則に振る舞う。 そこで本研究では,教師なし領域適応問題として3次元ポーズ学習を行った。 2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを導入する。 a)モデルフリージョイント・ローカライズと b) モデルに基づくパラメトリック回帰 このような設計により、ポーズと関節レベルの粒度の両方で予測の不確かさを定量化するための適切な尺度を導出することができる。 ラベル付き合成サンプルのみを監視しながら、適応プロセスは、ラベル付き対象画像の不確実性を最小限に抑えつつ、極端に分布しないデータセット(背景)に対してそれを最大化する。 合成から現実の3Dポーズ適応に加えて、関節不確実性により、閉塞シナリオやトランケーションシナリオの存在下でも、ワイヤード画像への適応を拡大することができる。 本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。

The advances in monocular 3D human pose estimation are dominated by supervised techniques that require large-scale 2D/3D pose annotations. Such methods often behave erratically in the absence of any provision to discard unfamiliar out-of-distribution data. To this end, we cast the 3D human pose learning as an unsupervised domain adaptation problem. We introduce MRP-Net that constitutes a common deep network backbone with two output heads subscribing to two diverse configurations; a) model-free joint localization and b) model-based parametric regression. Such a design allows us to derive suitable measures to quantify prediction uncertainty at both pose and joint level granularity. While supervising only on labeled synthetic samples, the adaptation process aims to minimize the uncertainty for the unlabeled target images while maximizing the same for an extreme out-of-distribution dataset (backgrounds). Alongside synthetic-to-real 3D pose adaptation, the joint-uncertainties allow expanding the adaptation to work on in-the-wild images even in the presence of occlusion and truncation scenarios. We present a comprehensive evaluation of the proposed approach and demonstrate state-of-the-art performance on benchmark datasets.
翻訳日:2022-03-30 15:13:20 公開日:2022-03-29
# Eigenlanes: 構造的に異なるレーンのためのデータ駆動レーン記述子

Eigenlanes: Data-Driven Lane Descriptors for Structurally Diverse Lanes ( http://arxiv.org/abs/2203.15302v1 )

ライセンス: Link先を確認
Dongkwon Jin, Wonhui Park, Seong-Gyun Jeong, Heeyeon Kwon, Chang-Su Kim(参考訳) 本稿では,固有レーン空間における道路レーンを検出する新しいアルゴリズムを提案する。 まず、曲線や直線を含む構造的に多様なレーンのためのデータ駆動記述子である固有レーンの概念を紹介する。 固有レーンを得るために,すべてのレーンを含むレーン行列をトレーニングセットで最適ランクM近似する。 第2に,固有レーン空間におけるトレーニングレーンをクラスタリングすることにより,レーン候補の集合を生成する。 第3に、レーン候補を用いて、SIIC-Netと呼ばれるアンカーベース検出ネットワークを開発することにより、最適なレーン集合を決定する。 実験の結果,提案手法は構造的に多様なレーンに対して優れた検出性能を提供することがわかった。 私たちのコードはhttps://github.com/dongkwonjin/eigenlanesで利用可能です。

A novel algorithm to detect road lanes in the eigenlane space is proposed in this paper. First, we introduce the notion of eigenlanes, which are data-driven descriptors for structurally diverse lanes, including curved, as well as straight, lanes. To obtain eigenlanes, we perform the best rank-M approximation of a lane matrix containing all lanes in a training set. Second, we generate a set of lane candidates by clustering the training lanes in the eigenlane space. Third, using the lane candidates, we determine an optimal set of lanes by developing an anchor-based detection network, called SIIC-Net. Experimental results demonstrate that the proposed algorithm provides excellent detection performance for structurally diverse lanes. Our codes are available at https://github.com/dongkwonjin/Eigenlanes.
翻訳日:2022-03-30 15:12:56 公開日:2022-03-29
# 実世界における6次元オブジェクトポス推定のための学習ベースポイントクラウド登録

Learning-based Point Cloud Registration for 6D Object Pose Estimation in the Real World ( http://arxiv.org/abs/2203.15309v1 )

ライセンス: Link先を確認
Zheng Dang, Lizhou Wang, Yu Guo, Mathieu Salzmann(参考訳) 本研究では,ポイントクラウドデータからオブジェクトの6次元ポーズを推定する作業に取り組む。 この課題に対処する最近の学習ベースのアプローチは、合成データセットにおいて大きな成功を収めてきたが、実世界のデータの存在下では失敗している。 そこで我々は,これらの故障の原因を,音源と目標点雲の特徴分布の違いと,広く使用されているSVDに基づく損失関数の2点雲間の回転範囲に対する感度に遡る分析を行った。 第1の課題は,新しい正規化戦略を導入し,正規化を一致させ,第2の課題を点対応の負の対数確率に基づく損失関数を用いて解決する。 我々の2つのコントリビューションは一般的なものであり、既存の学習ベースの3Dオブジェクト登録フレームワークにも適用可能です。 リアルタイムTUD-L, LINEMOD, Occluded-LINEMODデータセットを用いた実験により, 戦略のメリットが示された。 学習ベースで3Dオブジェクトを登録し、実世界のデータに意味のある結果を与える。 それゆえ、ポイントクラウド登録方法の将来の開発に鍵を握ることを期待しています。

In this work, we tackle the task of estimating the 6D pose of an object from point cloud data. While recent learning-based approaches to addressing this task have shown great success on synthetic datasets, we have observed them to fail in the presence of real-world data. We thus analyze the causes of these failures, which we trace back to the difference between the feature distributions of the source and target point clouds, and the sensitivity of the widely-used SVD-based loss function to the range of rotation between the two point clouds. We address the first challenge by introducing a new normalization strategy, Match Normalization, and the second via the use of a loss function based on the negative log likelihood of point correspondences. Our two contributions are general and can be applied to many existing learning-based 3D object registration frameworks, which we illustrate by implementing them in two of them, DCP and IDAM. Our experiments on the real-scene TUD-L, LINEMOD and Occluded-LINEMOD datasets evidence the benefits of our strategies. They allow for the first time learning-based 3D object registration methods to achieve meaningful results on real-world data. We therefore expect them to be key to the future development of point cloud registration methods.
翻訳日:2022-03-30 15:12:44 公開日:2022-03-29
# MR画像超解像用クロスモード高周波変圧器

Cross-Modality High-Frequency Transformer for MR Image Super-Resolution ( http://arxiv.org/abs/2203.15314v1 )

ライセンス: Link先を確認
Chaowei Fang, Dingwen Zhang, Liang Wang, Yulun Zhang, Lechao Cheng, Junwei Han(参考訳) 磁気共鳴(MR)画像データの解像度の向上は、コンピュータ支援診断と脳機能解析に不可欠である。 高解像度はより詳細なコンテンツをキャプチャするのに役立つが、通常は信号対雑音比を低くし、走査時間を長くする。 この結果,近年,MR画像の超解像化が注目されている。 既存の研究は、畳み込みニューラルネットワーク(CNN)に基づく従来のアーキテクチャによる広範な深層モデルを確立する。 そこで本研究では,この研究分野をさらに前進させるために,トランスフォーマーベースのmr画像超解像フレームワークを早期に構築し,貴重な領域事前知識の探索に慎重な設計を施す。 具体的には、先行する高周波構造やモード間コンテキストを含む2つのドメイン先行を考察し、Cross-modality High- frequency Transformer (Cohf-T)と呼ばれる新しいトランスフォーマーアーキテクチャを構築し、低分解能(LR)MR画像の超解像化に導入する。 2つのデータセットに関する総合的な実験は、Cohf-Tが新しい最先端のパフォーマンスを達成することを示している。

Improving the resolution of magnetic resonance (MR) image data is critical to computer-aided diagnosis and brain function analysis. Higher resolution helps to capture more detailed content, but typically induces to lower signal-to-noise ratio and longer scanning time. To this end, MR image super-resolution has become a widely-interested topic in recent times. Existing works establish extensive deep models with the conventional architectures based on convolutional neural networks (CNN). In this work, to further advance this research field, we make an early effort to build a Transformer-based MR image super-resolution framework, with careful designs on exploring valuable domain prior knowledge. Specifically, we consider two-fold domain priors including the high-frequency structure prior and the inter-modality context prior, and establish a novel Transformer architecture, called Cross-modality high-frequency Transformer (Cohf-T), to introduce such priors into super-resolving the low-resolution (LR) MR images. Comprehensive experiments on two datasets indicate that Cohf-T achieves new state-of-the-art performance.
翻訳日:2022-03-30 15:12:24 公開日:2022-03-29
# ダンスビデオを見ながら野生のドレッシング

Dressing in the Wild by Watching Dance Videos ( http://arxiv.org/abs/2203.15320v1 )

ライセンス: Link先を確認
Xin Dong, Fuwei Zhao, Zhenyu Xie, Xijin Zhang, Daniel K. Du, Min Zheng, Xiang Long, Xiaodan Liang, Jianchao Yang(参考訳) 人中心画像生成の最も適した方向である衣服の移動において、顕著な進展が見られたが、既存の作品では、被写体が重く、微妙なテクスチャの細部が顕著に劣化している。 そこで本論文は,現実の場面における仮想試行に参画し,特にゆるい服装(スカート,フォーマルな服装など),挑戦的なポーズ(クロスアーム,屈曲脚など),散らかった背景に,真正性や自然性に重要な改善をもたらす。 具体的には, ゆるい衣服を扱う場合の画素フローが優れているのに対して, 頂点フローは硬いポーズに好適であり, それらの利点を組み合わせることで, 衣服の移動を効果的に現場へ押し上げることのできる, wFlowと呼ばれる新しい生成ネットワークを提案する。 さらに、トレーニングにはペアイメージも必要だ。 代わりに、自己監督型クロスフレームトレーニングとオンラインサイクル最適化を備えた、新しく構築された大規模ビデオデータセットDance50kの開発によって、手間を削減しました。 提案されているdance50kは、ダンスポーズの下でさまざまな衣服を覆うことで、現実世界の仮想ドレッシングを促進することができる。 広範にわたる実験は、高価なペアデータセットを使わずに、野生画像のリアルな衣料品転送結果を生成する際のwflowの優位性を実証する。

While significant progress has been made in garment transfer, one of the most applicable directions of human-centric image generation, existing works overlook the in-the-wild imagery, presenting severe garment-person misalignment as well as noticeable degradation in fine texture details. This paper, therefore, attends to virtual try-on in real-world scenes and brings essential improvements in authenticity and naturalness especially for loose garment (e.g., skirts, formal dresses), challenging poses (e.g., cross arms, bent legs), and cluttered backgrounds. Specifically, we find that the pixel flow excels at handling loose garments whereas the vertex flow is preferred for hard poses, and by combining their advantages we propose a novel generative network called wFlow that can effectively push up garment transfer to in-the-wild context. Moreover, former approaches require paired images for training. Instead, we cut down the laboriousness by working on a newly constructed large-scale video dataset named Dance50k with self-supervised cross-frame training and an online cycle optimization. The proposed Dance50k can boost real-world virtual dressing by covering a wide variety of garments under dancing poses. Extensive experiments demonstrate the superiority of our wFlow in generating realistic garment transfer results for in-the-wild images without resorting to expensive paired datasets.
翻訳日:2022-03-30 15:12:04 公開日:2022-03-29
# コントラスト支援型再構成によるロバスト単一画像デハジング

Robust Single Image Dehazing Based on Consistent and Contrast-Assisted Reconstruction ( http://arxiv.org/abs/2203.15325v1 )

ライセンス: Link先を確認
De Cheng, Yan Li, Dingwen Zhang, Nannan Wang, Xinbo Gao, Jiande Sun(参考訳) 単一の画像のデハジングは基本的な低レベル視覚タスクであり、堅牢なインテリジェント監視システムの開発に不可欠である。 本稿では,singe像デハジングの研究において,未熟ながら現実的な問題である変分ヘイズ密度下での脱ハジングのロバスト性について検討する。 そこで本研究では,様々な負のハザイ画像に支援された画像デザイシングモデルのロバスト性を改善し,複雑なハザイシナリオをよりよく扱うための,新しい密度変量学習フレームワークを提案する。 具体的には、デハージングネットワークは、Contrast-Assisted Reconstruction Loss (CARL) によって整合化フレームワークの下で最適化される。 CARLは、デハズされた画像をそのクリーンなターゲットに異なる方向から絞ることで、負の情報を完全に活用して、従来の正の向きの脱ハズ機能を促進することができる。 一方、一貫性の正則化は、マルチレベルのハジー画像に対して一貫した出力を保持し、モデルロバスト性を向上させる。 2つの合成データと3つの実世界のデータセットの広範な実験結果から,本手法が最先端のアプローチを大幅に越えていることが示された。

Single image dehazing as a fundamental low-level vision task, is essential for the development of robust intelligent surveillance system. In this paper, we make an early effort to consider dehazing robustness under variational haze density, which is a realistic while under-studied problem in the research filed of singe image dehazing. To properly address this problem, we propose a novel density-variational learning framework to improve the robustness of the image dehzing model assisted by a variety of negative hazy images, to better deal with various complex hazy scenarios. Specifically, the dehazing network is optimized under the consistency-regularized framework with the proposed Contrast-Assisted Reconstruction Loss (CARL). The CARL can fully exploit the negative information to facilitate the traditional positive-orient dehazing objective function, by squeezing the dehazed image to its clean target from different directions. Meanwhile, the consistency regularization keeps consistent outputs given multi-level hazy images, thus improving the model robustness. Extensive experimental results on two synthetic and three real-world datasets demonstrate that our method significantly surpasses the state-of-the-art approaches.
翻訳日:2022-03-30 15:11:36 公開日:2022-03-29
# 対話型補償注意適応学習による赤外・可視画像融合

Infrared and Visible Image Fusion via Interactive Compensatory Attention Adversarial Learning ( http://arxiv.org/abs/2203.15337v1 )

ライセンス: Link先を確認
Zhishe Wang, Wenyu Shao, Yanlin Chen, Jiawei Xu, Xiaoqin Zhang(参考訳) 既存の生成逆核融合法では、大域的な特性を考慮せず、一般にソースイメージを結合し畳み込み操作により局所的な特徴を抽出するが、これは不均衡な結果を生み出し、赤外線画像や可視画像に対して偏りが生じる。 そこで本研究では,より優れた融合バランスを実現するために,生成的対人訓練に基づく新たなエンドツーエンドモードを提案し,これをICAFusion(textit{interactive compensatory attention fusion network)と呼ぶ。 特にジェネレータでは、三重経路を持つマルチレベルエンコーダ・デコーダネットワークを構築し、赤外線と可視パスを採用し、さらなる強度と勾配情報を提供する。 さらに,パスワイズ情報を伝達するための対話的および補償的注意モジュールを開発し,その長距離依存性をモデル化して注意マップを生成する。 さらに、2つの判別器は、融合結果とソース画像の類似分布を識別するために設計され、ジェネレータはよりバランスの取れた結果を生成するように最適化される。 広範な実験により,我々のicafusionは,主観的視覚記述と客観的測定における他の先進的手法に先行する,優れた核融合性能とより良い一般化能力を得ることが示された。 我々のコードは \url{https://github.com/Zhishe-Wang/ICAFusion} で公開される。

The existing generative adversarial fusion methods generally concatenate source images and extract local features through convolution operation, without considering their global characteristics, which tends to produce an unbalanced result and is biased towards the infrared image or visible image. Toward this end, we propose a novel end-to-end mode based on generative adversarial training to achieve better fusion balance, termed as \textit{interactive compensatory attention fusion network} (ICAFusion). In particular, in the generator, we construct a multi-level encoder-decoder network with a triple path, and adopt infrared and visible paths to provide additional intensity and gradient information. Moreover, we develop interactive and compensatory attention modules to communicate their pathwise information, and model their long-range dependencies to generate attention maps, which can more focus on infrared target perception and visible detail characterization, and further increase the representation power for feature extraction and feature reconstruction. In addition, dual discriminators are designed to identify the similar distribution between fused result and source images, and the generator is optimized to produce a more balanced result. Extensive experiments illustrate that our ICAFusion obtains superior fusion performance and better generalization ability, which precedes other advanced methods in the subjective visual description and objective metric evaluation. Our codes will be public at \url{https://github.com/Zhishe-Wang/ICAFusion}
翻訳日:2022-03-30 15:11:16 公開日:2022-03-29
# 画像キャプションのためのエンド・ツー・エンド変圧器ベースモデル

End-to-End Transformer Based Model for Image Captioning ( http://arxiv.org/abs/2203.15350v1 )

ライセンス: Link先を確認
Yiyu Wang, Jungang Xu, Yingfei Sun(参考訳) CNN-LSTMベースのアーキテクチャは画像キャプションにおいて重要な役割を担っているが、訓練効率と表現能力によって制限され、研究者はCNN-Transformerベースのモデルを探求し、大きな成功を収めた。 一方、最近のほとんどの研究では、与えられた画像から領域レベルの特徴を抽出するバックボーンエンコーダとしてFaster R-CNNを採用している。 しかし、Faster R-CNNは追加のデータセットで事前トレーニングを必要とし、イメージキャプションタスクを2つのステージに分割し、潜在的なアプリケーションを制限する。 本稿では,画像キャプションをひとつのステージに統合し,エンドツーエンドのトレーニングを実現するトランスフォーマーモデルを構築する。 まず、Faster R-CNNをバックボーンエンコーダとして置き換えるためにSwinTransformerを採用し、与えられた画像からグリッドレベルの特徴を抽出する。 精製エンコーダは、それらの間の関係を捕捉してグリッド特徴を洗練し、デコーダは精製した特徴を単語単位でキャプションワードにデコードする。 さらに,マルチモーダル(視覚と言語)機能間の相互作用を増大させ,モデリング能力を向上させるために,グリッド特徴の平均プーリングをグローバル特徴として計算し,グリッド特徴を洗練するためのエンコーダに導入し,グローバル特徴と生成された単語をデコーダにプリフュージョンするプロセスを追加する。 提案手法の有効性を検証するため,MSCOCOデータセットを用いて実験を行った。 実験結果から,我々のモデルは,オンラインテストサーバ上での「カルパシー」のオフラインテスト分割と136.0% (c5) と138.3% (c40) CIDErのスコアに対して,138.2% (シングルモデル),141.0% (4モデルのアンサンブル) CIDErのスコアが得られた。 トレーニングされたモデルとソースコードがリリースされる。

CNN-LSTM based architectures have played an important role in image captioning, but limited by the training efficiency and expression ability, researchers began to explore the CNN-Transformer based models and achieved great success. Meanwhile, almost all recent works adopt Faster R-CNN as the backbone encoder to extract region-level features from given images. However, Faster R-CNN needs a pre-training on an additional dataset, which divides the image captioning task into two stages and limits its potential applications. In this paper, we build a pure Transformer-based model, which integrates image captioning into one stage and realizes end-to-end training. Firstly, we adopt SwinTransformer to replace Faster R-CNN as the backbone encoder to extract grid-level features from given images; Then, referring to Transformer, we build a refining encoder and a decoder. The refining encoder refines the grid features by capturing the intra-relationship between them, and the decoder decodes the refined features into captions word by word. Furthermore, in order to increase the interaction between multi-modal (vision and language) features to enhance the modeling capability, we calculate the mean pooling of grid features as the global feature, then introduce it into refining encoder to refine with grid features together, and add a pre-fusion process of refined global feature and generated words in decoder. To validate the effectiveness of our proposed model, we conduct experiments on MSCOCO dataset. The experimental results compared to existing published works demonstrate that our model achieves new state-of-the-art performances of 138.2% (single model) and 141.0% (ensemble of 4 models) CIDEr scores on `Karpathy' offline test split and 136.0% (c5) and 138.3% (c40) CIDEr scores on the official online test server. Trained models and source code will be released.
翻訳日:2022-03-30 15:09:15 公開日:2022-03-29
# SIOD: オブジェクト検出のためのカテゴリ毎のイメージにアノテートされた単一インスタンス

SIOD: Single Instance Annotated Per Category Per Image for Object Detection ( http://arxiv.org/abs/2203.15353v1 )

ライセンス: Link先を確認
Hanjun Li, Xingjia Pan, Ke Yan, Fan Tang, Wei-Shi Zheng(参考訳) 不完全なデータによる物体検出は近年注目されている。 半教師付きオブジェクト検出 (SSOD) は, ラベル付きデータとラベルなしデータとの相互差が原因で困難でありながら, インスタンスレベルのアノテーションが欠如しているため, 厳密なローカライズ問題に悩まされている。 本研究では,画像内の既存カテゴリごとに1つのインスタンスアノテーションを必要とする単一インスタンスアノテートオブジェクト検出(SIOD)を提案する。 WSOD(Inter-task)やSSOD(Inter-image)の相違点からイメージ内の相違点まで、SIODは、未ラベルのインスタンスの残りをマイニングするための信頼性と豊富な事前知識を提供し、アノテーションのコストとパフォーマンスをトレードオフする。 SIOD設定では、類似性に基づくPseudo Label Generating Module (SPLG) と Pixel レベルの Group Contrastive Learning Module (PGCL) から構成される、シンプルで効果的なDual-Mining (DMiner) というフレームワークを提案する。 SPLGはまず、アノテーションの欠落の問題を軽減するために、潜在インスタンスを特徴表現空間から抽出する。 不正確な擬似ラベルによる誤解を避けるため,偽擬似ラベルに対する耐性を高めるためにPGCLを提案する。 MS COCOにおける広範囲な実験により,SIOD設定の有効性と提案手法の優位性が検証され,ベースライン法と比較して一貫した,有意な改善が得られ,40%のインスタンスにアノテートしたフル教師付きオブジェクト検出(FSOD)法と同等の結果が得られた。

Object detection under imperfect data receives great attention recently. Weakly supervised object detection (WSOD) suffers from severe localization issues due to the lack of instance-level annotation, while semi-supervised object detection (SSOD) remains challenging led by the inter-image discrepancy between labeled and unlabeled data. In this study, we propose the Single Instance annotated Object Detection (SIOD), requiring only one instance annotation for each existing category in an image. Degraded from inter-task (WSOD) or inter-image (SSOD) discrepancies to the intra-image discrepancy, SIOD provides more reliable and rich prior knowledge for mining the rest of unlabeled instances and trades off the annotation cost and performance. Under the SIOD setting, we propose a simple yet effective framework, termed Dual-Mining (DMiner), which consists of a Similarity-based Pseudo Label Generating module (SPLG) and a Pixel-level Group Contrastive Learning module (PGCL). SPLG firstly mines latent instances from feature representation space to alleviate the annotation missing problem. To avoid being misled by inaccurate pseudo labels, we propose PGCL to boost the tolerance to false pseudo labels. Extensive experiments on MS COCO verify the feasibility of the SIOD setting and the superiority of the proposed method, which obtains consistent and significant improvements compared to baseline methods and achieves comparable results with fully supervised object detection (FSOD) methods with only 40% instances annotated.
翻訳日:2022-03-30 15:08:38 公開日:2022-03-29
# 大規模署名:大規模写真リアリスティック手話生産のための手話の共作を学ぶ

Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production ( http://arxiv.org/abs/2203.15354v1 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 手話言語は視覚言語であり、語彙は話し言葉と同じくらい豊かである。 しかし、現在のディープラーニングベースの手話生成(SLP)モデルでは、制約付き語彙のアンダーアーティキュレートされたスケルトンがシーケンスされ、適用性が制限される。 難聴者が理解し受け入れるためには、自動SLPシステムは、談話の大きな領域に対して、共変光リアル署名シーケンスを生成する必要がある。 本研究では,制約のない言論領域に拡張しながらスムーズな署名を生成できる辞書記号間の協調処理を学習することで,大規模SLPに取り組む。 そこで我々は,補間辞書符号と連続署名シーケンスの時間的アライメントを改善する新しいフレーム選択ネットワーク (FS-Net) を提案する。 さらに,スケルトンポーズから直接写真リアルな手話ビデオを生成する,ポーズ条件付き人体合成モデルSignGANを提案する。 合成画像の品質を向上させるキーポイントに基づく新たな損失関数を提案する。 我々は,大規模なmeineDGS(mDGS)コーパス上でSLPモデルを評価し,FS-Netアプローチが補間辞書記号の協調配列を改善することを示す広範なユーザ評価を行った。 さらに, SignGANは, 定量的指標, 人間の知覚研究, ネイティブ難聴者理解において, 基礎的手法を著しく上回っていることを示す。

Sign languages are visual languages, with vocabularies as rich as their spoken language counterparts. However, current deep-learning based Sign Language Production (SLP) models produce under-articulated skeleton pose sequences from constrained vocabularies and this limits applicability. To be understandable and accepted by the deaf, an automatic SLP system must be able to generate co-articulated photo-realistic signing sequences for large domains of discourse. In this work, we tackle large-scale SLP by learning to co-articulate between dictionary signs, a method capable of producing smooth signing while scaling to unconstrained domains of discourse. To learn sign co-articulation, we propose a novel Frame Selection Network (FS-Net) that improves the temporal alignment of interpolated dictionary signs to continuous signing sequences. Additionally, we propose SignGAN, a pose-conditioned human synthesis model that produces photo-realistic sign language videos direct from skeleton pose. We propose a novel keypoint-based loss function which improves the quality of synthesized hand images. We evaluate our SLP model on the large-scale meineDGS (mDGS) corpus, conducting extensive user evaluation showing our FS-Net approach improves co-articulation of interpolated dictionary signs. Additionally, we show that SignGAN significantly outperforms all baseline methods for quantitative metrics, human perceptual studies and native deaf signer comprehension.
翻訳日:2022-03-30 15:08:04 公開日:2022-03-29
# 長期視覚認識のためのNested Collaborative Learning

Nested Collaborative Learning for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2203.15359v1 )

ライセンス: Link先を確認
Jun Li, Zichang Tan, Jun Wan, Zhen Lei and Guodong Guo(参考訳) ロングテールデータセットでトレーニングされたネットワークは、同じトレーニング設定にもかかわらず著しく異なり、ロングテール学習において大きな不確実性を示している。 この不確実性を軽減するため,複数の専門家を共同で学習することで,課題に対処するNested Collaborative Learning (NCL)を提案する。 nclはnested individual learning(nil)とnested balanced online distillation(nbod)の2つのコアコンポーネントで構成されており、それぞれの専門家に対する個別の教師付き学習と、複数の専門家間での知識の伝達に焦点を当てている。 表現をより徹底的に学習するために、NILとNBODはネストされた方法で定式化され、学習は全視点からだけでなく、部分的な視点からいくつかの難しいカテゴリに対して行われる。 部分的な観点からの学習については,提案するハードカテゴリマイニング(HCM)を用いて,高い予測スコアを持つ負のカテゴリをハードカテゴリとして選択する。 NCLでは、2つの視点から学ぶことはネストされ、非常に関連があり、補完的であり、ネットワークがグローバルでロバストな特徴だけでなく、注意深く区別する能力も捉えるのに役立つ。 さらに、自己スーパービジョンは機能強化のためにさらに活用される。 広範な実験により,単一モデルかアンサンブルかに関わらず,最先端技術よりも優れた手法が得られた。

The networks trained on the long-tailed dataset vary remarkably, despite the same training settings, which shows the great uncertainty in long-tailed learning. To alleviate the uncertainty, we propose a Nested Collaborative Learning (NCL), which tackles the problem by collaboratively learning multiple experts together. NCL consists of two core components, namely Nested Individual Learning (NIL) and Nested Balanced Online Distillation (NBOD), which focus on the individual supervised learning for each single expert and the knowledge transferring among multiple experts, respectively. To learn representations more thoroughly, both NIL and NBOD are formulated in a nested way, in which the learning is conducted on not just all categories from a full perspective but some hard categories from a partial perspective. Regarding the learning in the partial perspective, we specifically select the negative categories with high predicted scores as the hard categories by using a proposed Hard Category Mining (HCM). In the NCL, the learning from two perspectives is nested, highly related and complementary, and helps the network to capture not only global and robust features but also meticulous distinguishing ability. Moreover, self-supervision is further utilized for feature enhancement. Extensive experiments manifest the superiority of our method with outperforming the state-of-the-art whether by using a single model or an ensemble.
翻訳日:2022-03-30 15:07:40 公開日:2022-03-29
# 幾何学的集合整合性を用いた自己教師付き画像表現学習

Self-Supervised Image Representation Learning with Geometric Set Consistency ( http://arxiv.org/abs/2203.15361v1 )

ライセンス: Link先を確認
Nenglun Chen, Lei Chu, Hao Pan, Yan Lu and Wenping Wang(参考訳) 本稿では3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。 我々の直観は、滑らかな領域や表面の不連続といった3次元の幾何的整合性は、意味論やオブジェクトの境界を暗示し、意味ラベルのない2次元画像表現の学習を導くための強い手がかりとなる。 具体的には,3次元幾何学的一貫性を対比学習フレームワークに導入し,画像ビュー内の特徴的一貫性を強制する。 本稿では,幾何整合集合を制約として使用し,それに応じてInfoNCE損失を適用することを提案する。 学習した画像表現が一般的であることを示す。 実世界の屋内シーンデータセットにおける意味セグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,様々な2次元イメージベースダウンストリームタスクの事前学習表現を微調整することにより,最先端手法と比較して優れた性能を実現する。

We propose a method for self-supervised image representation learning under the guidance of 3D geometric consistency. Our intuition is that 3D geometric consistency priors such as smooth regions and surface discontinuities may imply consistent semantics or object boundaries, and can act as strong cues to guide the learning of 2D image representations without semantic labels. Specifically, we introduce 3D geometric consistency into a contrastive learning framework to enforce the feature consistency within image views. We propose to use geometric consistency sets as constraints and adapt the InfoNCE loss accordingly. We show that our learned image representations are general. By fine-tuning our pre-trained representations for various 2D image-based downstream tasks, including semantic segmentation, object detection, and instance segmentation on real-world indoor scene datasets, we achieve superior performance compared with state-of-the-art methods.
翻訳日:2022-03-30 15:07:13 公開日:2022-03-29
# 日常屋内ロボットナビゲーションによる小型物体変化検出のための領域不変シアムアテンションマスク

Domain Invariant Siamese Attention Mask for Small Object Change Detection via Everyday Indoor Robot Navigation ( http://arxiv.org/abs/2203.15362v1 )

ライセンス: Link先を確認
Koji Takeda, Kanji Tanaka, and Yoshimasa Nakamura(参考訳) 日常的な室内ロボットナビゲーションによる画像変化検出の問題は、自己注意技術の新しい視点から検討される。 意味的に非識別的で視覚的に小さな変化を検出することは、ロボットコミュニティにとって重要な課題である。 直感的には、これらの小さな非識別的変化は、この研究の基本的な考え方である注意機構の最近のパラダイムによってよりうまく扱われるかもしれない。 しかし、既存の自己注意モデルはドメインごとの大幅な再トレーニングコストを必要とするため、ロボット工学の応用には直接適用できない。 画像変化検出モデルの中間層にアテンションマスクを導入することで,モデルの入力層と出力層を変更することなく,教師なしのオンザフライ領域適応を実現する新しいセルフアテンション手法を提案する。 室内ロボットが日常のナビゲーションにおける視覚的に小さな変化を検知することを目的とした実験は、我々の注意法が最先端の画像変化検出モデルを大幅に向上させることを示した。

The problem of image change detection via everyday indoor robot navigation is explored from a novel perspective of the self-attention technique. Detecting semantically non-distinctive and visually small changes remains a key challenge in the robotics community. Intuitively, these small non-distinctive changes may be better handled by the recent paradigm of the attention mechanism, which is the basic idea of this work. However, existing self-attention models require significant retraining cost per domain, so it is not directly applicable to robotics applications. We propose a new self-attention technique with an ability of unsupervised on-the-fly domain adaptation, which introduces an attention mask into the intermediate layer of an image change detection model, without modifying the input and output layers of the model. Experiments, in which an indoor robot aims to detect visually small changes in everyday navigation, demonstrate that our attention technique significantly boosts the state-of-the-art image change detection model.
翻訳日:2022-03-30 15:06:56 公開日:2022-03-29
# 顔のセグメンテーション : 可視画像と熱画像の比較

Face segmentation: A comparison between visible and thermal images ( http://arxiv.org/abs/2203.15366v1 )

ライセンス: Link先を確認
Jiri Mekyska, Virginia Espinosa-Dur\'o, Marcos Faundez-Zanuy(参考訳) 顔のセグメンテーションは、顔バイオメトリックシステムの第一歩である。 本稿では,サーモグラフィ画像に対する顔分割アルゴリズムを提案する。 このアルゴリズムは、可視画像に使用される古典的なヴィオラとジョーンズのアルゴリズムと比較される。 実験結果から,マルチスペクトル(可視・熱)顔データベースを分割する場合,提案アルゴリズムは10倍以上高速であり,熱画像における顔分割の精度はビオラ・ジョーンズの場合よりも高いことがわかった。

Face segmentation is a first step for face biometric systems. In this paper we present a face segmentation algorithm for thermographic images. This algorithm is compared with the classic Viola and Jones algorithm used for visible images. Experimental results reveal that, when segmenting a multispectral (visible and thermal) face database, the proposed algorithm is more than 10 times faster, while the accuracy of face segmentation in thermal images is higher than in case of Viola-Jones
翻訳日:2022-03-30 15:06:40 公開日:2022-03-29
# mc-BeiT:画像BERT事前学習のためのマルチ選択離散化

mc-BEiT: Multi-choice Discretization for Image BERT Pre-training ( http://arxiv.org/abs/2203.15371v1 )

ライセンス: Link先を確認
Xiaotong Li, Yixiao Ge, Kun Yi, Zixuan Hu, Ying Shan, Ling-Yu Duan(参考訳) Image BERT Pre-Ting with masked image modeling (MIM) は、自己教師付き表現学習に対処する一般的なプラクティスとなっている。 セミナルワークであるBEiTは、MIMを視覚語彙による分類タスクとしてキャストし、事前学習されたdVAEを使用して、連続した視覚信号を離散的な視覚トークンにトークン化する。 実現可能な解決策にもかかわらず、不適切な離散化は画像事前学習のさらなる改善を妨げる。 画像の離散化には根本的な答えがないため、より優れたトークン化が可能であっても、マスクされたパッチにユニークなトークンIDを割り当てるべきではないと信じている。 本研究では,マルチチョイスの学習目標に対して,mimプロキシタスクを実行するための,bert型イメージプリトレーニング手法であるmc-beitを提案する。 特に、マスク画像パッチのマルチチョイス監督は、オフ・ザ・シェル画像トークン化器によって予測される離散トークンidのソフト確率ベクトルと、類似のパッチが選択を共有すべきという観測に基づくハイレベルなパッチ間知覚によってさらに洗練される。 例えば、事前訓練されたvit-bはimagenet-1k分類で84.1%の微調整精度を達成し、ade20k意味セグメンテーションでは51.2%miou、cocoでは51.2%ap^bと44.3%ap^mのオブジェクト検出とインスタンスセグメンテーションが優れている。

Image BERT pre-training with masked image modeling (MIM) becomes a popular practice to cope with self-supervised representation learning. A seminal work, BEiT, casts MIM as a classification task with a visual vocabulary, tokenizing the continuous visual signals into discrete vision tokens using a pre-learned dVAE. Despite a feasible solution, the improper discretization hinders further improvements of image pre-training. Since image discretization has no ground-truth answers, we believe that the masked patch should not be assigned with a unique token id even if a better tokenizer can be obtained. In this work, we introduce an improved BERT-style image pre-training method, namely mc-BEiT, which performs MIM proxy tasks towards eased and refined multi-choice training objectives. Specifically, the multi-choice supervision for the masked image patches is formed by the soft probability vectors of the discrete token ids, which are predicted by the off-the-shelf image tokenizer and further refined by high-level inter-patch perceptions resorting to the observation that similar patches should share their choices. Extensive experiments on classification, segmentation, and detection tasks demonstrate the superiority of our method, e.g., the pre-trained ViT-B achieves 84.1% top-1 fine-tuning accuracy on ImageNet-1K classification, 51.2% mIOU on ADE20K semantic segmentation, 51.2% AP^b and 44.3% AP^m of object detection and instance segmentation on COCO, outperforming the competitive counterparts.
翻訳日:2022-03-30 15:06:31 公開日:2022-03-29
# 制御可能な画像翻訳のためのスタイル認識判別器

A Style-aware Discriminator for Controllable Image Translation ( http://arxiv.org/abs/2203.15375v1 )

ライセンス: Link先を確認
Kunhee Kim, Sanghun Park, Eunyeong Jeon, Taehun Kim, Daijin Kim(参考訳) 現在の画像から画像への変換は、トレーニングで使用されるクラスを超えて出力ドメインを制御したり、異なるドメイン間をうまく補間したりしません。 この制限は、ラベルが意味的距離を考慮しないため、主に発生する。 このような問題を緩和するために,批判者や条件を提供するスタイルエンコーダとして機能するスタイル認識識別器を提案する。 プロトタイプベースの自己教師型学習を用いて制御可能なスタイル空間を学習し、同時にジェネレータを誘導する。 複数のデータセットの実験では、提案モデルが現在の最先端画像から画像への変換方法より優れていることが確認されている。 現在の手法とは対照的に,提案手法はスタイル補間,コンテンツ移植,局所画像翻訳など,様々な応用をサポートしている。

Current image-to-image translations do not control the output domain beyond the classes used during training, nor do they interpolate between different domains well, leading to implausible results. This limitation largely arises because labels do not consider the semantic distance. To mitigate such problems, we propose a style-aware discriminator that acts as a critic as well as a style encoder to provide conditions. The style-aware discriminator learns a controllable style space using prototype-based self-supervised learning and simultaneously guides the generator. Experiments on multiple datasets verify that the proposed model outperforms current state-of-the-art image-to-image translation methods. In contrast with current methods, the proposed approach supports various applications, including style interpolation, content transplantation, and local image translation.
翻訳日:2022-03-30 15:06:00 公開日:2022-03-29
# SepViT:分離可能な視覚変換器

SepViT: Separable Vision Transformer ( http://arxiv.org/abs/2203.15380v1 )

ライセンス: Link先を確認
Wei Li, Xing Wang, Xin Xia, Jie Wu, Xuefeng Xiao, Min Zheng, Shiping Wen(参考訳) 視覚トランスフォーマーは、一連の視覚タスクで成功している。 しかし、高いパフォーマンスを達成するには膨大な量の計算を必要とすることが多く、リソースに制約のあるデバイスにデプロイするには負担がかかる。 これらの問題に対処するため、我々は深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して分離可能な視覚変換器(SepViT)を設計する。 SepViTは、深く分離可能なセルフアテンションを通じて、ウィンドウ内およびウィンドウ間の情報インタラクションを実行するのに役立つ。 新規なウィンドウトークン埋め込みとグループ自己アテンションを用いて、異なる計算コストでウィンドウ間の注意関係をモデル化し、複数のウィンドウの長距離視覚依存性をキャプチャする。 様々なベンチマークタスクに関する大規模な実験は、SepViTが精度とレイテンシのトレードオフの観点から最先端の結果を達成することを実証している。 中でもSepViTは、ImageNet-1K分類において84.0%のトップ-1精度を達成し、類似の精度(CSWin、PVTV2)と比較して遅延を40%削減した。 下流の視覚タスクでは、FLOPが少ないSepViTはADE20Kセマンティックセグメンテーションタスクで50.4% mIoU、RetinaNetベースのCOCO検出タスクで47.5 AP、Mask R-CNNベースのCOCO検出およびセグメンテーションタスクで48.7ボックスAPと43.9マスクAPを達成できる。

Vision Transformers have witnessed prevailing success in a series of vision tasks. However, they often require enormous amount of computations to achieve high performance, which is burdensome to deploy on resource-constrained devices. To address these issues, we draw lessons from depthwise separable convolution and imitate its ideology to design the Separable Vision Transformer, abbreviated as SepViT. SepViT helps to carry out the information interaction within and among the windows via a depthwise separable self-attention. The novel window token embedding and grouped self-attention are employed to model the attention relationship among windows with negligible computational cost and capture a long-range visual dependencies of multiple windows, respectively. Extensive experiments on various benchmark tasks demonstrate SepViT can achieve state-of-the-art results in terms of trade-off between accuracy and latency. Among them, SepViT achieves 84.0% top-1 accuracy on ImageNet-1K classification while decreasing the latency by 40%, compared to the ones with similar accuracy (e.g., CSWin, PVTV2). As for the downstream vision tasks, SepViT with fewer FLOPs can achieve 50.4% mIoU on ADE20K semantic segmentation task, 47.5 AP on the RetinaNet-based COCO detection task, 48.7 box AP and 43.9 mask AP on Mask R-CNN-based COCO detection and segmentation tasks.
翻訳日:2022-03-30 15:05:23 公開日:2022-03-29
# 複数視点を用いたニューラルフェイス映像圧縮

Neural Face Video Compression using Multiple Views ( http://arxiv.org/abs/2203.15401v1 )

ライセンス: Link先を確認
Anna Volokitin, Stefan Brugger, Ali Benlalah, Sebastian Martin, Brian Amberg, Michael Tschannen(参考訳) 深層生成モデルの最近の進歩は、エンジニアリングコーデックよりも桁違いに少ない帯域幅を使用するニューラルフェイスビデオ圧縮コーデックの開発につながった。 これらのニューラルコーデックは、ソースフレームをワープし、生成モデルを使用して、歪んだソースフレームの欠陥を補うことにより、現在のフレームを再構築する。 これにより、warpは、密度の高いフローフィールドではなく、少数のキーポイントを使用して符号化され、送信され、従来のコーデックに比べて大幅に節約される。 しかし、単一のソースフレームのみに依存することで、これらの方法が不正確な再構成につながる(例えば、頭部を回す際に頭部の片側が不明瞭になり、合成しなければならない)。 ここでは、複数のソースフレーム(顔のビュー)に依存してこの問題に取り組み、奨励的な結果を提示することを目指している。

Recent advances in deep generative models led to the development of neural face video compression codecs that use an order of magnitude less bandwidth than engineered codecs. These neural codecs reconstruct the current frame by warping a source frame and using a generative model to compensate for imperfections in the warped source frame. Thereby, the warp is encoded and transmitted using a small number of keypoints rather than a dense flow field, which leads to massive savings compared to traditional codecs. However, by relying on a single source frame only, these methods lead to inaccurate reconstructions (e.g. one side of the head becomes unoccluded when turning the head and has to be synthesized). Here, we aim to tackle this issue by relying on multiple source frames (views of the face) and present encouraging results.
翻訳日:2022-03-30 15:04:54 公開日:2022-03-29
# マルチシーンUAV空中映像の文脈情報に基づく異常検出

Contextual Information Based Anomaly Detection for a Multi-Scene UAV Aerial Videos ( http://arxiv.org/abs/2203.15437v1 )

ライセンス: Link先を確認
Girisha S, Ujjwal Verma, Manohara Pai M M and Radhika M Pai(参考訳) UAVベースの監視は、野生生物の監視、都市計画、災害管理、キャンパスのセキュリティなど、世界中の注目を集めている。 これらのビデオは、監視の本質的な側面である奇妙な/odd/anomalousパターンで分析される。 しかし、これらのビデオのマニュアル分析は退屈で面倒だ。 したがって、UAVに基づく監視ビデオ分析のためのコンピュータ支援システムの開発が重要である。 このような関心にもかかわらず、文学では、CCTVベースの監視ビデオのみに焦点を当てたコンピュータ支援システムが開発されている。 これらの手法は単一シーンシナリオ用に設計されており、マルチシーンシナリオに必要な文脈知識を欠いている。 さらに、UAVベースの異常検出データセットの欠如により、これらのシステムの開発が制限される。 本研究の目的は,UAVによる監視映像の分析を行うコンピュータ支援意思決定支援システムの開発である。 コンピュータ支援システム開発のためのフレームレベルのアノテーションを組み込んだ新しいuavベースのマルチシーン異常検出データセットを開発した。 異常の正確な検出には文脈的、時間的、外観的特徴を用いる。 さらに, 異常なサンプルと正常なサンプルを併用し, より良い決定境界を同定する新たな推論手法を提案する。 提案手法は,uavに基づく異常検出データセット上で広く評価され,最先端手法と競合する。

UAV based surveillance is gaining much interest worldwide due to its extensive applications in monitoring wildlife, urban planning, disaster management, campus security, etc. These videos are analyzed for strange/odd/anomalous patterns which are essential aspects of surveillance. But manual analysis of these videos is tedious and laborious. Hence, the development of computer-aided systems for the analysis of UAV based surveillance videos is crucial. Despite this interest, in literature, several computer aided systems are developed focusing only on CCTV based surveillance videos. These methods are designed for single scene scenarios and lack contextual knowledge which is required for multi-scene scenarios. Furthermore, the lack of standard UAV based anomaly detection datasets limits the development of these systems. In this regard, the present work aims at the development of a Computer Aided Decision support system to analyse UAV based surveillance videos. A new UAV based multi-scene anomaly detection dataset is developed with frame-level annotations for the development of computer aided systems. It holistically uses contextual, temporal and appearance features for accurate detection of anomalies. Furthermore, a new inference strategy is proposed that utilizes few anomalous samples along with normal samples to identify better decision boundaries. The proposed method is extensively evaluated on the UAV based anomaly detection dataset and performed competitively with respect to state-of-the-art methods.
翻訳日:2022-03-30 15:04:38 公開日:2022-03-29
# 熱的感情表情の自然論的データベースと誘発感情の記憶への影響

A Naturalistic Database of Thermal Emotional Facial Expressions and Effects of Induced Emotions on Memory ( http://arxiv.org/abs/2203.15443v1 )

ライセンス: Link先を確認
Anna Esposito, Vincenzo Capuano, Jiri Mekyska, Marcos Faundez-Zanuy(参考訳) 本研究は、感情的内容の高い映画抜粋の視覚を通して自然に誘発される感情的表情を収集する手順を定義し、メモリワード認識タスクに対する感情の影響を実証する実験データを報告する。 引き起こされた感情状態には、悲しみ、嫌悪、幸福、驚きの4つの基本的な感情と、中立的な感情状態が含まれる。 得られたデータベースは、熱的および可視的表情の両方を含み、40名のイタリア人被験者によって描かれ、熱的および標準的な可視的カメラを適切に同期させることによって同時に取得される。 各被験者の録画セッションは45分間続き、各モード(熱的または可視的)が最低2000の表情を収集し、各感情カテゴリーの表現力が高いものとして最低400が選択された。 データベースは科学コミュニティで利用可能であり、著者の1人に連絡することができる。 本実験では,感情や感情のカテゴリーが,記憶単語認識タスクにおける個々のパフォーマンスや,顔やその一部の領域の温度変化に影響を及ぼさないことが明らかとなった。

This work defines a procedure for collecting naturally induced emotional facial expressions through the vision of movie excerpts with high emotional contents and reports experimental data ascertaining the effects of emotions on memory word recognition tasks. The induced emotional states include the four basic emotions of sadness, disgust, happiness, and surprise, as well as the neutral emotional state. The resulting database contains both thermal and visible emotional facial expressions, portrayed by forty Italian subjects and simultaneously acquired by appropriately synchronizing a thermal and a standard visible camera. Each subject's recording session lasted 45 minutes, allowing for each mode (thermal or visible) to collect a minimum of 2000 facial expressions from which a minimum of 400 were selected as highly expressive of each emotion category. The database is available to the scientific community and can be obtained contacting one of the authors. For this pilot study, it was found that emotions and/or emotion categories do not affect individual performance on memory word recognition tasks and temperature changes in the face or in some regions of it do not discriminate among emotional states.
翻訳日:2022-03-30 15:04:24 公開日:2022-03-29
# 3次元ハンドポース推定のための高能率仮想視点選択

Efficient Virtual View Selection for 3D Hand Pose Estimation ( http://arxiv.org/abs/2203.15458v1 )

ライセンス: Link先を確認
Jian Cheng, Yanguang Wan, Dexin Zuo, Cuixia Ma, Jian Gu, Ping Tan, Hongan Wang, Xiaoming Deng, Yinda Zhang(参考訳) 単一深度からの3次元手ポーズ推定はコンピュータビジョンの基本的問題であり,幅広い応用が期待できるが,人間の手の視差や閉塞による手ポーズ推定は相変わらず達成できない。 本稿では,1次元深度から3次元ハンドポーズ推定のための仮想ビュー選択と融合モジュールを提案する。このモジュールは,複数の仮想ビューを自動的に選択してポーズ推定を行い,すべての結果を融合することで,精度とロバストなポーズ推定を実現する。 ポーズ融合のための最も効果的な仮想ビューを選択するために,ネットワーク蒸留による軽量ネットワークを用いた仮想ビューの信頼性に基づいて仮想ビューを評価する。 提案手法は, NYU, ICVL, Hands2019の3つの主要なベンチマークデータセットにおいて, 提案手法がNYU, ICVLの最先端よりも優れており, Hands2019-Task1での非常に競争的な性能を実現していることを示す。

3D hand pose estimation from single depth is a fundamental problem in computer vision, and has wide applications.However, the existing methods still can not achieve satisfactory hand pose estimation results due to view variation and occlusion of human hand. In this paper, we propose a new virtual view selection and fusion module for 3D hand pose estimation from single depth.We propose to automatically select multiple virtual viewpoints for pose estimation and fuse the results of all and find this empirically delivers accurate and robust pose estimation. In order to select most effective virtual views for pose fusion, we evaluate the virtual views based on the confidence of virtual views using a light-weight network via network distillation. Experiments on three main benchmark datasets including NYU, ICVL and Hands2019 demonstrate that our method outperforms the state-of-the-arts on NYU and ICVL, and achieves very competitive performance on Hands2019-Task1, and our proposed virtual view selection and fusion module is both effective for 3D hand pose estimation.
翻訳日:2022-03-30 15:04:04 公開日:2022-03-29
# SAR-ShipNet:双方向コーディネートアテンションとマルチ解像度特徴融合によるSAR-Ship検出ニューラルネットワーク

SAR-ShipNet: SAR-Ship Detection Neural Network via Bidirectional Coordinate Attention and Multi-resolution Feature Fusion ( http://arxiv.org/abs/2203.15480v1 )

ライセンス: Link先を確認
Yuwen Deng, Donghai Guan, Yanyu Chen, Weiwei Yuan, Jiemin Ji, Mingqiang Wei(参考訳) 本稿では,ニューラルネットワークによる合成開口レーダ(sar)画像からの船舶検出問題について検討する。 我々は,SAR画像の特徴を多種多様に抽出し,(1)実世界のSAR画像のデータの変動(複雑なランドシー背景,散乱ノイズなど)を抑えること,(2)小型物体である船舶の特性を向上すること,そして(幅)異なるアスペクトを持つ船舶の特性を向上させることにより,船体検出の改善をもたらすという興味深い疑問を提起する。 そこで本研究では,CenterNetに基づく双方向座標注意(BCA)とMRF(Multi- resolution Feature Fusion)を新たに開発したSAR-ship Detection Neural Network(略してSAR-ShipNet)を提案する。 さらに,任意の船舶の長さ幅比を考慮し,センタネットにおける楕円ガウス確率分布を採用し,ベース検出器モデルの性能を向上させる。 パブリックなSAR-Shipデータセットの実験結果から,SAR-ShipNetは速度と精度の両面で競争上の優位性を達成していることがわかった。

This paper studies a practically meaningful ship detection problem from synthetic aperture radar (SAR) images by the neural network. We broadly extract different types of SAR image features and raise the intriguing question that whether these extracted features are beneficial to (1) suppress data variations (e.g., complex land-sea backgrounds, scattered noise) of real-world SAR images, and (2) enhance the features of ships that are small objects and have different aspect (length-width) ratios, therefore resulting in the improvement of ship detection. To answer this question, we propose a SAR-ship detection neural network (call SAR-ShipNet for short), by newly developing Bidirectional Coordinate Attention (BCA) and Multi-resolution Feature Fusion (MRF) based on CenterNet. Moreover, considering the varying length-width ratio of arbitrary ships, we adopt elliptical Gaussian probability distribution in CenterNet to improve the performance of base detector models. Experimental results on the public SAR-Ship dataset show that our SAR-ShipNet achieves competitive advantages in both speed and accuracy.
翻訳日:2022-03-30 15:03:44 公開日:2022-03-29
# (参考訳) 雑音画像分類のための処理学習トランス

Treatment Learning Transformer for Noisy Image Classification ( http://arxiv.org/abs/2203.15529v1 )

ライセンス: CC BY-SA 4.0
Chao-Han Huck Yang, I-Te Danny Hung, Yi-Chieh Liu, Pin-Yu Chen(参考訳) 現在のトップノートディープラーニング(DL)ベースのビジョンモデルは主に、トレーニングデータサンプルと関連するラベル間の固有の相関を探索し、活用することに基づいている。 しかしながら、既知の実用的な課題は、スプリアス相関、無関係なコンテキスト、ドメインシフト、逆境攻撃などの異なる状況によって引き起こされる「ノイズ」データに対する低下したパフォーマンスである。 本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで,その処理効果を共同で推定することで予測精度を向上させる。 因果的変動推論から動機付け,雑音画像分類のための現在の観測入力から頑健な特徴表現を推定する潜在生成モデルを用いて,変換器に基づく処理学習変換器(TLT)を提案する。 TLTは、推定ノイズレベル(バイナリ処理係数としてモデル化)に応じて、設計した因果損失によってトレーニングされた対応する推論ネットワークを割り当て、予測を行う。 また、パフォーマンスベンチマークのための幅広いノイズ要因(オブジェクトマスキング、スタイル転送、逆方向摂動など)を取り入れた、ノイズの多い画像データセットも作成する。 雑音画像分類におけるTLTの優れた性能は、いくつかの難燃評価指標によりさらに検証される。 副産物として、TLTはノイズ画像を認識する視覚的サリエンス法も改善した。

Current top-notch deep learning (DL) based vision models are primarily based on exploring and exploiting the inherent correlations between training data samples and their associated labels. However, a known practical challenge is their degraded performance against "noisy" data, induced by different circumstances such as spurious correlations, irrelevant contexts, domain shift, and adversarial attacks. In this work, we incorporate this binary information of "existence of noise" as treatment into image classification tasks to improve prediction accuracy by jointly estimating their treatment effects. Motivated from causal variational inference, we propose a transformer-based architecture, Treatment Learning Transformer (TLT), that uses a latent generative model to estimate robust feature representations from current observational input for noise image classification. Depending on the estimated noise level (modeled as a binary treatment factor), TLT assigns the corresponding inference network trained by the designed causal loss for prediction. We also create new noisy image datasets incorporating a wide range of noise factors (e.g., object masking, style transfer, and adversarial perturbation) for performance benchmarking. The superior performance of TLT in noisy image classification is further validated by several refutation evaluation metrics. As a by-product, TLT also improves visual salience methods for perceiving noisy images.
翻訳日:2022-03-30 15:01:36 公開日:2022-03-29
# 不連続属性流を用いた2次元画像からの3次元形状復元

3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow ( http://arxiv.org/abs/2203.15190v1 )

ライセンス: Link先を確認
Xin Wen and Junsheng Zhou and Yu-Shen Liu and Zhen Dong and Zhizhong Han(参考訳) 1枚の2d画像から3d形状を再構築することは難しい作業であり、2d画像から意味的属性に基づいて詳細な3d構造を推定する必要がある。 これまでの方法では,3次元再構成作業における意味的属性の抽出に苦慮している。 単一の画像のセマンティック属性は通常暗黙的であり、互いに絡み合っているため、入力画像で表現される詳細なセマンティック構造を用いて3次元形状を再構築することは依然として困難である。 この問題に対処するために,入力画像の異なる意味レベルから意味的属性を抽出する3DAttriFlowを提案する。 これらの歪んだセマンティック属性は、3次元形状の再構成プロセスに統合され、3次元形状の特定の属性の再構成に関する明確なガイダンスを提供する。 その結果、3Dデコーダはネットワークの下部にある高レベルなセマンティックな特徴を明示的に捉え、ネットワークの上部にある低レベルな特徴を利用することで、より正確な3D形状を再構築することができる。 注意すべきは、明示的な分離は余分なラベルなしで学習され、トレーニングで使用される唯一の監督は入力画像とその3d形状である。 shapenet データセットに関する包括的実験により, 3dattriflow は最先端の形状復元手法よりも優れており, 形状完了タスクにおけるその一般化能力も検証した。

Reconstructing 3D shape from a single 2D image is a challenging task, which needs to estimate the detailed 3D structures based on the semantic attributes from 2D image. So far, most of the previous methods still struggle to extract semantic attributes for 3D reconstruction task. Since the semantic attributes of a single image are usually implicit and entangled with each other, it is still challenging to reconstruct 3D shape with detailed semantic structures represented by the input image. To address this problem, we propose 3DAttriFlow to disentangle and extract semantic attributes through different semantic levels in the input images. These disentangled semantic attributes will be integrated into the 3D shape reconstruction process, which can provide definite guidance to the reconstruction of specific attribute on 3D shape. As a result, the 3D decoder can explicitly capture high-level semantic features at the bottom of the network, and utilize low-level features at the top of the network, which allows to reconstruct more accurate 3D shapes. Note that the explicit disentangling is learned without extra labels, where the only supervision used in our training is the input image and its corresponding 3D shape. Our comprehensive experiments on ShapeNet dataset demonstrate that 3DAttriFlow outperforms the state-of-the-art shape reconstruction methods, and we also validate its generalization ability on shape completion task.
翻訳日:2022-03-30 14:28:37 公開日:2022-03-29
# AnoDFDNet: 異常検出のための深い特徴差ネットワーク

AnoDFDNet: A Deep Feature Difference Network for Anomaly Detection ( http://arxiv.org/abs/2203.15195v1 )

ライセンス: Link先を確認
Zhixue Wang, Yu Zhang, Lin Luo, Nan Wang(参考訳) 本稿では,畳み込みニューラルネットワークと視覚変換器を用いた高速列車画像の新たな異常検出(AD)手法を提案する。 同一領域の異なる時間に撮影された2つの画像間の異常な差を,分類,セグメント化,オブジェクト検出法を用いて検出する。 言い換えれば、1つの画像の異常検出問題を2つの画像の差分検出問題に投入する。 提案手法の核となる考え方は、通常「異常」は特定の対象ではなく異常な状態を表し、この状態は一対のイメージによって識別されるべきである。 さらに、視覚変換器と畳み込みニューラルネットワークの可能性について十分に検討した、深い特徴差ADネットワーク(AnoDFDNet)を導入した。 AnoDFDNetの有効性を検証するため、3つのデータセット、差分データセット(Diff Dataset)、異物データセット(FB Dataset)、油漏れデータセット(OL Dataset)を収集した。 以上の実験結果は,提案手法の優位性を示すものである。 ソースコードはhttps://github.com/wangle53/AnoDFDNetで入手できる。

This paper proposed a novel anomaly detection (AD) approach of High-speed Train images based on convolutional neural networks and the Vision Transformer. Different from previous AD works, in which anomalies are identified with a single image using classification, segmentation, or object detection methods, the proposed method detects abnormal difference between two images taken at different times of the same region. In other words, we cast anomaly detection problem with a single image into a difference detection problem with two images. The core idea of the proposed method is that the 'anomaly' usually represents an abnormal state instead of a specific object, and this state should be identified by a pair of images. In addition, we introduced a deep feature difference AD network (AnoDFDNet) which sufficiently explored the potential of the Vision Transformer and convolutional neural networks. To verify the effectiveness of the proposed AnoDFDNet, we collected three datasets, a difference dataset (Diff Dataset), a foreign body dataset (FB Dataset), and an oil leakage dataset (OL Dataset). Experimental results on above datasets demonstrate the superiority of proposed method. Source code are available at https://github.com/wangle53/AnoDFDNet.
翻訳日:2022-03-30 14:28:13 公開日:2022-03-29
# 近視バイオメトリックスと部分的仮面との関連性:調査

Periocular Biometrics and its Relevance to Partially Masked Faces: A Survey ( http://arxiv.org/abs/2203.15203v1 )

ライセンス: Link先を確認
Renu Sharma and Arun Ross(参考訳) 顔認証システムの性能は、新型コロナウイルス(COVID-19)のパンデミックによって流行したマスクやその他の顔カバーの存在に悪影響を及ぼす可能性がある。 このような場合、人間の顔の眼窩部は重要な生体計測手がかりとなる。 本稿では,眼周囲バイオメトリックスについて概説する。 まず、顔マスクを装着した人間を認識するために特別に設計された様々な顔・近眼技術について検討する。 次に、眼周囲生体計測の異なる側面を概観する。 a) 認識に有用な眼周囲領域に存在する解剖学的手がかり b) 様々な特徴抽出・マッチング技術が発達した。 (c)異なるスペクトルにまたがる認識 (d)他の生体指標(顔又は虹彩)との融合 (e)モバイルデバイス上での認識 (f)他の用途における有用性 (g)眼周囲データセット、及び (h)このバイオメトリックモダリティの有効性を評価するために組織された競技 最後に、近視バイオメトリックス分野における様々な課題と今後の方向性について論じる。

The performance of face recognition systems can be negatively impacted in the presence of masks and other types of facial coverings that have become prevalent due to the COVID-19 pandemic. In such cases, the periocular region of the human face becomes an important biometric cue. In this article, we present a detailed review of periocular biometrics. We first examine the various face and periocular techniques specially designed to recognize humans wearing a face mask. Then, we review different aspects of periocular biometrics: (a) the anatomical cues present in the periocular region useful for recognition, (b) the various feature extraction and matching techniques developed, (c) recognition across different spectra, (d) fusion with other biometric modalities (face or iris), (e) recognition on mobile devices, (f) its usefulness in other applications, (g) periocular datasets, and (h) competitions organized for evaluating the efficacy of this biometric modality. Finally, we discuss various challenges and future directions in the field of periocular biometrics.
翻訳日:2022-03-30 14:27:53 公開日:2022-03-29
# 粗視トランスフォーマを用いたアフィン医用画像登録

Affine Medical Image Registration with Coarse-to-Fine Vision Transformer ( http://arxiv.org/abs/2203.15216v1 )

ライセンス: Link先を確認
Tony C. W. Mok, Albert C. S. Chung(参考訳) アフィンの登録は総合的な医用画像登録パイプラインで必須である。 しかし、高速かつ堅牢なアフィン登録アルゴリズムに焦点をあてる研究はほとんどない。 これらの研究の多くは、畳み込みニューラルネットワーク(CNN)を用いて、結合アフィンと非パラメトリック登録を学習する一方、アフィンサブネットのスタンドアロン性能は調査されていない。 さらに、既存のCNNベースのアフィン登録手法は、空間初期化に敏感なアフィン変換行列を予測し、トレーニングデータセットとは別に限定的な一般化性を示すために、入力の局所的ミスアライメントまたはグローバルな向きと位置にフォーカスする。 本稿では,3次元医用画像登録のための高速かつ堅牢な学習ベースアルゴリズムであるCoarse-to-Fine Vision Transformer(C2FViT)を提案する。 本手法は,畳み込み視覚トランスのグローバル接続性と局所性を自然に活用し,マルチレゾリューション戦略を用いてグローバルアフィン登録を学習する。 3次元脳アトラス登録法とテンプレートマッチング正規化法について検討した。 その結果,本手法は既存のcnnsベースのアフィン登録手法よりも,登録精度,ロバスト性,一般化性において優れており,学習に基づく手法のランタイム・アドバンテージは保たれている。 ソースコードはhttps://github.com/cwmok/c2fvitで入手できる。

Affine registration is indispensable in a comprehensive medical image registration pipeline. However, only a few studies focus on fast and robust affine registration algorithms. Most of these studies utilize convolutional neural networks (CNNs) to learn joint affine and non-parametric registration, while the standalone performance of the affine subnetwork is less explored. Moreover, existing CNN-based affine registration approaches focus either on the local misalignment or the global orientation and position of the input to predict the affine transformation matrix, which are sensitive to spatial initialization and exhibit limited generalizability apart from the training dataset. In this paper, we present a fast and robust learning-based algorithm, Coarse-to-Fine Vision Transformer (C2FViT), for 3D affine medical image registration. Our method naturally leverages the global connectivity and locality of the convolutional vision transformer and the multi-resolution strategy to learn the global affine registration. We evaluate our method on 3D brain atlas registration and template-matching normalization. Comprehensive results demonstrate that our method is superior to the existing CNNs-based affine registration methods in terms of registration accuracy, robustness and generalizability while preserving the runtime advantage of the learning-based methods. The source code is available at https://github.com/cwmok/C2FViT.
翻訳日:2022-03-30 14:27:42 公開日:2022-03-29
# シーンテキスト検出のための機能サンプリングとグループ化(動画あり)

Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detection ( http://arxiv.org/abs/2203.15221v1 )

ライセンス: Link先を確認
Jingqun Tang, Wenqing Zhang, Hongye Liu, MingKun Yang, Bo Jiang, Guanglong Hu, Xiang Bai(参考訳) 近年, トランスフォーマーに基づく手法は, NMSのような後処理を排除し, 深層表現を充実させることができるため, オブジェクト検出の進歩が期待できる。 しかし,これらの手法は,そのスケールとアスペクト比の極端にばらつきがあるため,シーンテキストにうまく対応できない。 本稿では,シーンテキスト検出のための簡易かつ効果的なトランスフォーマーアーキテクチャを提案する。 シーンテキストのロバストな深層表現を包括的に学習する従来のアプローチとは異なり,提案手法では,背景による乱れを回避し,計算コストを低減できる代表的特徴に基づくシーンテキスト検出を行う。 具体的には、まず、フォアグラウンドテキストに非常に関係のあるあらゆるスケールで、いくつかの代表的特徴を選択します。 そして、サンプル特徴の関係をモデル化するために変換器を採用し、効果的にそれらを合理的なグループに分割する。 各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。 特徴抽出のための基本的特徴ピラミッドネットワークを用いて,シーンテキスト検出のためのいくつかの一般的なデータセットの最先端の結果を一貫して達成する。

Recently, transformer-based methods have achieved promising progresses in object detection, as they can eliminate the post-processes like NMS and enrich the deep representations. However, these methods cannot well cope with scene text due to its extreme variance of scales and aspect ratios. In this paper, we present a simple yet effective transformer-based architecture for scene text detection. Different from previous approaches that learn robust deep representations of scene text in a holistic manner, our method performs scene text detection based on a few representative features, which avoids the disturbance by background and reduces the computational cost. Specifically, we first select a few representative features at all scales that are highly relevant to foreground text. Then, we adopt a transformer for modeling the relationship of the sampled features, which effectively divides them into reasonable groups. As each feature group corresponds to a text instance, its bounding box can be easily obtained without any post-processing operation. Using the basic feature pyramid network for feature extraction, our method consistently achieves state-of-the-art results on several popular datasets for scene text detection.
翻訳日:2022-03-30 14:27:17 公開日:2022-03-29
# Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene Segmentation

Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene Segmentation ( http://arxiv.org/abs/2203.15224v1 )

ライセンス: Link先を確認
Xiao Fu, Shangzhan Zhang, Tianrun Chen, Yichong Lu, Lanyun Zhu, Xiaowei Zhou, Andreas Geiger, Yiyi Liao(参考訳) 高品質なアノテーションを備えた大規模トレーニングデータは、セマンティクスとインスタンスセグメンテーションモデルのトレーニングに不可欠である。 残念ながら、ピクセル単位のアノテーションは労働集約的でコストがかかり、より効率的なラベリング戦略への需要が高まる。 そこで本研究では,画素ごとの2Dセマンティックスとインスタンスラベルの取得を目的とした3Dから2Dへのラベル転送手法であるPanoptic NeRFを提案する。 提案手法は,既存のデータセットから転送される粗い3Dアノテーションと2Dセマンティックキューを統一するために,NeRFを識別可能なツールとして利用する。 この組み合わせにより,意味情報に導かれる幾何学が改善され,複数のビューにまたがる正確な意味地図のレンダリングが可能になることを実証した。 さらに, この融合により, 2次元予測における粗い3次元アノテーションとフィルタノイズのラベルあいまいさが解消される。 3D空間を推論し、2Dラベルにレンダリングすることで、我々の2Dセマンティクスとインスタンスラベルは、設計によって複数ビューに一貫性がある。 実験の結果,Panoptic NeRFは,KITTI-360データセットの挑戦的な都市シーンにおいて,精度と複数ビューの整合性の観点から,既存のセマンティックおよびインスタンスラベル転送手法よりも優れていた。

Large-scale training data with high-quality annotations is critical for training semantic and instance segmentation models. Unfortunately, pixel-wise annotation is labor-intensive and costly, raising the demand for more efficient labeling strategies. In this work, we present a novel 3D-to-2D label transfer method, Panoptic NeRF, which aims for obtaining per-pixel 2D semantic and instance labels from easy-to-obtain coarse 3D bounding primitives. Our method utilizes NeRF as a differentiable tool to unify coarse 3D annotations and 2D semantic cues transferred from existing datasets. We demonstrate that this combination allows for improved geometry guided by semantic information, enabling rendering of accurate semantic maps across multiple views. Furthermore, this fusion process resolves label ambiguity of the coarse 3D annotations and filters noise in the 2D predictions. By inferring in 3D space and rendering to 2D labels, our 2D semantic and instance labels are multi-view consistent by design. Experimental results show that Panoptic NeRF outperforms existing semantic and instance label transfer methods in terms of accuracy and multi-view consistency on challenging urban scenes of the KITTI-360 dataset.
翻訳日:2022-03-30 14:27:00 公開日:2022-03-29
# (参考訳) me-capsnet:ルーティング機構を備えたマルチエンハンスカプセルネットワーク

ME-CapsNet: A Multi-Enhanced Capsule Networks with Routing Mechanism ( http://arxiv.org/abs/2203.15547v1 )

ライセンス: CC BY 4.0
Jerrin Bright, Suryaprakash R and Arockia Selvakumar Arockia Doss(参考訳) 畳み込みニューラルネットワークは、ネットワーク層におけるチャネルワイドおよび空間ワイドの情報によって決定される情報的特徴を構築する必要がある。 本研究では,各レイヤの受容領域内の空間成分とチャネル成分の両方を強化するために,高度な最適化を用いた新しい解法を提案する。 カプセルネットワークは特徴マップの特徴間の空間的関連を理解するために使われた。 スタンドアローンカプセルネットワークは、異常な量の特徴情報の結果として、複雑なデータセットよりも比較的単純なデータセットに対して良い結果を示した。 そこで我々は,ME-CapsNetを提案し,より深い畳み込み層を導入して重要な特徴を抽出し,戦略的にカプセル層のモジュールを通過し,ネットワークの性能を大幅に向上させた。 深層畳み込み層は、ソフトプールアプローチを用いて空間サイズを漸進的に縮小し、重要な特徴情報を損なうことなく相互依存性を再構築することにより、チャネルを動的に再調整するスクイーズ励起ネットワークのブロックを含む。 提案するme-capsnetの効率を示す一般的なデータセットを用いて大規模な実験を行い、複雑なデータセットにおけるモデルの複雑さを最小限に抑えながら、高い精度を達成することにより、様々な研究成果を明らかに上回っている。

Convolutional Neural Networks need the construction of informative features, which are determined by channel-wise and spatial-wise information at the network's layers. In this research, we focus on bringing in a novel solution that uses sophisticated optimization for enhancing both the spatial and channel components inside each layer's receptive field. Capsule Networks were used to understand the spatial association between features in the feature map. Standalone capsule networks have shown good results on comparatively simple datasets than on complex datasets as a result of the inordinate amount of feature information. Thus, to tackle this issue, we have proposed ME-CapsNet by introducing deeper convolutional layers to extract important features before passing through modules of capsule layers strategically to improve the performance of the network significantly. The deeper convolutional layer includes blocks of Squeeze-Excitation networks which uses a soft-pooling approach for progressively reducing the spatial size thereby dynamically recalibrating the channels by reconstructing their interdependencies without much loss of important feature information. Extensive experimentation was done using commonly used datasets demonstrating the efficiency of the proposed ME-CapsNet, which clearly outperforms various research works by achieving higher accuracy with minimal model complexity in complex datasets.
翻訳日:2022-03-30 14:24:27 公開日:2022-03-29
# ASM-Loc:弱スーパービジョン時空間行動定位のための行動認識セグメントモデリング

ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2203.15187v1 )

ライセンス: Link先を確認
Bo He, Xitong Yang, Le Kang, Zhiyu Cheng, Xin Zhou, Abhinav Shrivastava(参考訳) 弱教師付き時間的行動定位は、訓練のためにビデオレベルの行動ラベルのみを与える未トリミングビデオの行動セグメントを認識し、局所化することを目的としている。 アクションセグメントの境界情報がなければ、既存の手法は主に複数のインスタンス学習(MIL)に依存し、ラベル付きバッグ(未トリミングビデオ)の分類によってラベル付きインスタンス(ビデオスニペット)の予測が監視される。 しかしながら、この定式化は通常、ビデオ内のスニペットを独立インスタンスとして扱い、アクションセグメント内およびアクションセグメント間の根底にある時間構造を無視します。 この問題に対処するために,標準的なMIL法を超越した明示的でアクション対応セグメントモデリングを可能にする新しい WTAL フレームワークである \system を提案する。 私たちのフレームワークには3つのセグメント中心のコンポーネントが含まれています。 (i)ショートアクションの寄与を補償するための動的セグメントサンプリング 二 動作力学のモデル化及び時間的依存の把握のための分節内及び分節間注意 (iii)行動境界予測を改善するための擬似インスタンスレベルの監督。 さらに,モデル学習プロセスに沿って行動提案を段階的に改善する多段階改良戦略を提案する。 THUMOS-14とActivityNet-v1.3に関する大規模な実験は、我々のアプローチの有効性を実証し、両方のデータセットに新たな技術状態を確立する。 コードとモデルは、~\url{https://github.com/boheumd/ASM-Loc}で公開されている。

Weakly-supervised temporal action localization aims to recognize and localize action segments in untrimmed videos given only video-level action labels for training. Without the boundary information of action segments, existing methods mostly rely on multiple instance learning (MIL), where the predictions of unlabeled instances (i.e., video snippets) are supervised by classifying labeled bags (i.e., untrimmed videos). However, this formulation typically treats snippets in a video as independent instances, ignoring the underlying temporal structures within and across action segments. To address this problem, we propose \system, a novel WTAL framework that enables explicit, action-aware segment modeling beyond standard MIL-based methods. Our framework entails three segment-centric components: (i) dynamic segment sampling for compensating the contribution of short actions; (ii) intra- and inter-segment attention for modeling action dynamics and capturing temporal dependencies; (iii) pseudo instance-level supervision for improving action boundary prediction. Furthermore, a multi-step refinement strategy is proposed to progressively improve action proposals along the model training process. Extensive experiments on THUMOS-14 and ActivityNet-v1.3 demonstrate the effectiveness of our approach, establishing new state of the art on both datasets. The code and models are publicly available at~\url{https://github.com/boheumd/ASM-Loc}.
翻訳日:2022-03-30 14:14:17 公開日:2022-03-29
# rough to fine: マルチスケール低ランクテンソル補完による画像復元

Coarse to Fine: Image Restoration Boosted by Multi-Scale Low-Rank Tensor Completion ( http://arxiv.org/abs/2203.15189v1 )

ライセンス: Link先を確認
Rui Lin, Cong Chen, and Ngai Wong(参考訳) 既存の低ランクテンソル完備化(LRTC)アプローチは、下層の完成テンソルに大域的な低ランク制約を課すことによって部分的に観測されたテンソルを復元することを目的としている。 しかし、このようなグローバルランクの仮定は、元来のディテールラッピング部分の復元と、潜在的に複雑なオブジェクトの無視の間のトレードオフに苦しめられ、両サイドでの完成性能が満足できない。 そこで本研究では,低位と高位の両方の局所的階層を検索することにより,そのようなトレードオフを解消し,部分的に観測されたテンソルを粗視するc2f(c2f)方式で復元する,新規かつ実用的な画像復元手法を提案する。 提案したC2F方式の優位性を示すため, 大規模な実験を行った。 コードはhttps://github.com/ruilin0212/c2flrtc。

Existing low-rank tensor completion (LRTC) approaches aim at restoring a partially observed tensor by imposing a global low-rank constraint on the underlying completed tensor. However, such a global rank assumption suffers the trade-off between restoring the originally details-lacking parts and neglecting the potentially complex objects, making the completion performance unsatisfactory on both sides. To address this problem, we propose a novel and practical strategy for image restoration that restores the partially observed tensor in a coarse-to-fine (C2F) manner, which gets rid of such trade-off by searching proper local ranks for both low- and high-rank parts. Extensive experiments are conducted to demonstrate the superiority of the proposed C2F scheme. The codes are available at: https://github.com/RuiLin0212/C2FLRTC.
翻訳日:2022-03-30 14:13:53 公開日:2022-03-29
# (参考訳) Earnings-22: ワイルドなアクセントのための実践的なベンチマーク

Earnings-22: A Practical Benchmark for Accents in the Wild ( http://arxiv.org/abs/2203.15591v1 )

ライセンス: CC BY-SA 4.0
Miguel Del Rio, Peter Ha, Quinten McNamara, Corey Miller, Shipra Chandra(参考訳) 現代の自動音声認識(asr)システムは、野放しの音声認識性能に欠けるにもかかわらず、多くの一般的なコーパスで超人的単語誤り率(wer)を達成した。 それ以外にも、学術モデルや商業モデルの適切なベンチマークを行うために、実世界のアクセント付きコーパスが欠如している。 このタイプのスピーチがASRベンチマークで確実に表現されるように、グローバル企業から集められた125のファイル、119時間の英文通話コーパスであるEarnings-22を提示する。 我々は、原産地を考慮した場合のパフォーマンスの変動を示す4つの商用モデルの比較を行った。 仮説の書き起こしを見ると、テストされた全てのASRシステムに共通する誤りを探索する。 個々の単語誤り率(iwer)を調べると、重要な音声特徴は他のアクセントよりもモデルのパフォーマンスに影響を及ぼすことが分かる。 earnings-22は、学術的および産業的な研究を橋渡しするための、実世界のアクセント付きオーディオの無料利用ベンチマークを提供する。

Modern automatic speech recognition (ASR) systems have achieved superhuman Word Error Rate (WER) on many common corpora despite lacking adequate performance on speech in the wild. Beyond that, there is a lack of real-world, accented corpora to properly benchmark academic and commercial models. To ensure this type of speech is represented in ASR benchmarking, we present Earnings-22, a 125 file, 119 hour corpus of English-language earnings calls gathered from global companies. We run a comparison across 4 commercial models showing the variation in performance when taking country of origin into consideration. Looking at hypothesis transcriptions, we explore errors common to all ASR systems tested. By examining Individual Word Error Rate (IWER), we find that key speech features impact model performance more for certain accents than others. Earnings-22 provides a free-to-use benchmark of real-world, accented audio to bridge academic and industrial research.
翻訳日:2022-03-30 14:11:30 公開日:2022-03-29
# 線形プログラムの構造と因果関係の探索

Finding Structure and Causality in Linear Programs ( http://arxiv.org/abs/2203.15274v1 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c and Florian Peter Busch and Devendra Singh Dhami and Kristian Kersting(参考訳) 線形プログラム(lp)は、特に機械学習において、確率的推論タスクを効果的に解いたり、エンドツーエンドの学習システムに構造を課すことが許されている。 それらのポテンシャルは枯渇しているように思われるかもしれないが、lpコンポーネントの興味深い内部および構造間関係を明らかにする基礎的かつ因果的な視点を提案する。 我々は, 一般, 最短パスアンドエネルギー系lpsの系統的, 実証的研究を行う。

Linear Programs (LP) are celebrated widely, particularly so in machine learning where they have allowed for effectively solving probabilistic inference tasks or imposing structure on end-to-end learning systems. Their potential might seem depleted but we propose a foundational, causal perspective that reveals intriguing intra- and inter-structure relations for LP components. We conduct a systematic, empirical investigation on general-, shortest path- and energy system LPs.
翻訳日:2022-03-30 14:02:54 公開日:2022-03-29
# (参考訳) 反事実説明のための拡散モデル

Diffusion Models for Counterfactual Explanations ( http://arxiv.org/abs/2203.15636v1 )

ライセンス: CC BY 4.0
Guillaume Jeanneret, Lo\"ic Simon and Fr\'ed\'eric Jurie(参考訳) 画像分類器をより説明しやすいものにするための、ポストホックフレームワークとして有望な結果を示している。 本稿では,近年の拡散モデルを用いた対物画像生成手法であるDMEを提案する。 提案手法は, 誘導生成拡散過程を利用して, 対象分類器の勾配を用いて入力インスタンスの反実的説明を生成する方法を示す。 さらに,スプリアス相関を評価するための現在のアプローチを分析し,新しい指標である相関差分を提案することにより評価値を拡張する。 実験結果から,提案アルゴリズムはcelebaの6つの指標のうち5つにおいて,これまでの結果を上回ることがわかった。

Counterfactual explanations have shown promising results as a post-hoc framework to make image classifiers more explainable. In this paper, we propose DiME, a method allowing the generation of counterfactual images using the recent diffusion models. By leveraging the guided generative diffusion process, our proposed methodology shows how to use the gradients of the target classifier to generate counterfactual explanations of input instances. Further, we analyze current approaches to evaluate spurious correlations and extend the evaluation measurements by proposing a new metric: Correlation Difference. Our experimental validations show that the proposed algorithm surpasses previous State-of-the-Art results on 5 out of 6 metrics on CelebA.
翻訳日:2022-03-30 14:00:08 公開日:2022-03-29
# 生成逆ネットワークを用いた気象予報の撮影可視化

Photographic Visualization of Weather Forecasts with Generative Adversarial Networks ( http://arxiv.org/abs/2203.15601v1 )

ライセンス: Link先を確認
Christian Sigg, Flavia Cavallaro, Tobias G\"unther and Martin R. Oswald(参考訳) 屋外のウェブカメラ画像は、過去の気象状況や現在の気象状況の視覚的可視化であり、気象学者や一般大衆からも参照されている。 しかし、天気予報はテキスト、ピクトグラム、チャートとして通信される。 そこで本稿では,写真画像を用いて将来の気象状況を可視化する新しい手法を提案する。 天気予報の写真が本物に見えること、明らかな人工物がないこと、予測された天気条件に合うことなど、これは難しい。 観測から予測への遷移はシームレスであり、連続したリードタイムで画像間の視覚的連続性が存在するべきである。 このような視覚化の合成には条件付きジェネレーティブ・アドバイザリアル・ネットワークを用いる。 数値気象予測(nwp)モデルの解析と予測状態に基づいて構成されたジェネレータネットワークは、現在のカメライメージを未来に変換する。 判別器ネットワークは、ある画像が未来の実像であるか否か、あるいは合成されたか否かを判定する。 2つのネットワークを相互にトレーニングした結果,4つの評価基準すべてにおいて高いスコアを付ける可視化手法が得られた。 気候や地形によって異なるスイスの3つのカメラサイトについて,その結果を示す。 その結果,実画像と実画像の区別が困難であり,ランダムに推測した場合に比べて性能が良いことがわかった。 得られた画像は,COSMO-1 NWPモデル予測の大気,地中,照明条件に少なくとも89%一致した。 生成した画像のストリーミングシーケンスは、観察から予測へシームレスに遷移し、視覚的連続性を得る。

Outdoor webcam images are an information-dense yet accessible visualization of past and present weather conditions, and are consulted by meteorologists and the general public alike. Weather forecasts, however, are still communicated as text, pictograms or charts. We therefore introduce a novel method that uses photographic images to also visualize future weather conditions. This is challenging, because photographic visualizations of weather forecasts should look real, be free of obvious artifacts, and should match the predicted weather conditions. The transition from observation to forecast should be seamless, and there should be visual continuity between images for consecutive lead times. We use conditional Generative Adversarial Networks to synthesize such visualizations. The generator network, conditioned on the analysis and the forecasting state of the numerical weather prediction (NWP) model, transforms the present camera image into the future. The discriminator network judges whether a given image is the real image of the future, or whether it has been synthesized. Training the two networks against each other results in a visualization method that scores well on all four evaluation criteria. We present results for three camera sites across Switzerland that differ in climatology and terrain. We show that users find it challenging to distinguish real from generated images, performing not much better than if they guessed randomly. The generated images match the atmospheric, ground and illumination conditions of the COSMO-1 NWP model forecast in at least 89 % of the examined cases. Nowcasting sequences of generated images achieve a seamless transition from observation to forecast and attain visual continuity.
翻訳日:2022-03-30 13:58:54 公開日:2022-03-29
# 超線形メモリを必要とする効率的な凸最適化

Efficient Convex Optimization Requires Superlinear Memory ( http://arxiv.org/abs/2203.15260v1 )

ライセンス: Link先を確認
Annie Marsden, Vatsal Sharan, Aaron Sidford, Gregory Valiant(参考訳) 単位球上の$d$次元、$$$-lipschitz 凸関数を 1/\mathrm{poly}(d)$ に最小化するメモリ制約のある一階のアルゴリズムでは、最大$d^{1.25 - \delta}$ ビットのメモリは少なくとも$\tilde{\omega}(d^{1 + (4/3)\delta})$ 1階のクエリ(定数 $\delta \in [0, 1/4]$ でなければならない。 したがって、そのようなメモリ制約アルゴリズムの性能は、$\tilde{O}(d)$メモリを使用する平面メソッドを切断することによって得られるこの問題に対して最適な$\tilde{O}(d)$クエリ境界よりも悪い多項式係数である。 これにより、woodworth と srebro の colt 2019 open problem が解決される。

We show that any memory-constrained, first-order algorithm which minimizes $d$-dimensional, $1$-Lipschitz convex functions over the unit ball to $1/\mathrm{poly}(d)$ accuracy using at most $d^{1.25 - \delta}$ bits of memory must make at least $\tilde{\Omega}(d^{1 + (4/3)\delta})$ first-order queries (for any constant $\delta \in [0, 1/4]$). Consequently, the performance of such memory-constrained algorithms are a polynomial factor worse than the optimal $\tilde{O}(d)$ query bound for this problem obtained by cutting plane methods that use $\tilde{O}(d^2)$ memory. This resolves a COLT 2019 open problem of Woodworth and Srebro.
翻訳日:2022-03-30 13:58:11 公開日:2022-03-29
# 動的ネットワークにおける変化点検出のためのグラフ類似性学習

Graph similarity learning for change-point detection in dynamic networks ( http://arxiv.org/abs/2203.15470v1 )

ライセンス: Link先を確認
Deborah Sulem, Henry Kenlay, Mihai Cucuringu, Xiaowen Dong(参考訳) 動的ネットワークは、例えば脳コネクトーム、人口フロー、メッセージ交換など、逐次グラフ構造化データをモデリングするためにユビキタスである。 本研究では,グラフスナップショットの時間系列である動的ネットワークを考察し,その構造の変化を検出することを目的とした。 このタスクはしばしばネットワーク変更点検出と呼ばれ、不正検出や物理モーションモニタリングといった多くの応用がある。 グラフニューラルネットワークモデルを利用して、特定のネットワークドメインに適応し、遅延なく変更をローカライズできるオンラインネットワーク変更点検出手法を設計する。 本手法の主な特徴は,データ駆動型グラフ類似性関数の学習にシアムグラフニューラルネットワークアーキテクチャを用いることで,現在のグラフとその最近の歴史を効果的に比較することである。 重要なのは,ネットワーク生成分布の事前知識を必要とせず,変更点の種類によらず,エッジウェイトやノード属性など,多種多様なネットワークに適用可能であることである。 様々なタイプの変更点設定において、オンラインネットワーク変更点検出を行うのに適切なグラフ類似性関数を学習でき、既存の最先端ベースラインよりも変化を検出するのに、より短いデータ履歴が必要である。

Dynamic networks are ubiquitous for modelling sequential graph-structured data, e.g., brain connectome, population flows and messages exchanges. In this work, we consider dynamic networks that are temporal sequences of graph snapshots, and aim at detecting abrupt changes in their structure. This task is often termed network change-point detection and has numerous applications, such as fraud detection or physical motion monitoring. Leveraging a graph neural network model, we design a method to perform online network change-point detection that can adapt to the specific network domain and localise changes with no delay. The main novelty of our method is to use a siamese graph neural network architecture for learning a data-driven graph similarity function, which allows to effectively compare the current graph and its recent history. Importantly, our method does not require prior knowledge on the network generative distribution and is agnostic to the type of change-points; moreover, it can be applied to a large variety of networks, that include for instance edge weights and node attributes. We show on synthetic and real data that our method enjoys a number of benefits: it is able to learn an adequate graph similarity function for performing online network change-point detection in diverse types of change-point settings, and requires a shorter data history to detect changes than most existing state-of-the-art baselines.
翻訳日:2022-03-30 13:57:48 公開日:2022-03-29
# Causal de Finetti:交換可能なデータにおける不変因果構造の同定について

Causal de Finetti: On the Identification of Invariant Causal Structure in Exchangeable Data ( http://arxiv.org/abs/2203.15756v1 )

ライセンス: Link先を確認
Siyuan Guo, Viktor T\'oth, Bernhard Sch\"olkopf, Ferenc Husz\'ar(参考訳) 不変因果構造を学ぶことは、しばしば条件付き独立性テストと独立かつ同一の分散データの仮定に依存する。 近年、異なる環境から来るデータを用いて不変因果構造を推測する研究が行われている。 これらのアプローチは、原因機構が与えられた原因機構から独立であることを示す独立因果機構(ICM)原理に基づいている。 機械学習や因果推論に広く応用されているにもかかわらず、独立したメカニズムの意味を統計的に定式化していない。 ここでは、ICM原理の最初の統計的形式化を提供するCausal de Finettiを紹介する。

Learning invariant causal structure often relies on conditional independence testing and assumption of independent and identically distributed data. Recent work has explored inferring invariant causal structure using data coming from different environments. These approaches are based on independent causal mechanism (ICM) principle which postulates that the cause mechanism is independent of the effect given cause mechanism. Despite its wide application in machine learning and causal inference, there lacks a statistical formalization of what independent mechanism means. Here we present Causal de Finetti which offers a first statistical formalization of ICM principle.
翻訳日:2022-03-30 13:57:27 公開日:2022-03-29
# 長い摂動とN-bestに基づくラベル平滑化によるディープニューラルネットワーク音響モデルの一般化

Improving Generalization of Deep Neural Network Acoustic Models with Length Perturbation and N-best Based Label Smoothing ( http://arxiv.org/abs/2203.15176v1 )

ライセンス: Link先を確認
Xiaodong Cui, George Saon, Tohru Nagano, Masayuki Suzuki, Takashi Fukuda, Brian Kingsbury, Gakuto Kurata(参考訳) 本稿では,距離摂動とn-bestに基づくラベル平滑化という2つの手法を導入し,音声認識(ASR)のためのディープニューラルネットワーク(DNN)音響モデルの一般化を改善する。 length perturbationは、音声特徴列の長さを変更するために発話のフレームをランダムにドロップして挿入するデータ拡張アルゴリズムである。 N-bestに基づくラベルスムーシングは、n-best仮説からノイズラベルが生成される過度な適合を避けるために、トレーニング中にグラウンド・真理ラベルにランダムにノイズを注入する。 我々は,これらの2つの手法を,ASRの繰り返しニューラルネットワークトランスデューサ(RNNT)音響モデルを用いて,300時間スイッチボード(SWB300)データセットと社内500時間日本語(JPN500)データセットで広範囲に評価した。 両手法はRNNTモデルの一般化を個別に改善し,相補的であることを示す。 特に、強力なSWB300ベースラインよりも優れた改善を実現し、RNNTモデルを使用してSWB300上で最先端のパフォーマンスを提供する。

We introduce two techniques, length perturbation and n-best based label smoothing, to improve generalization of deep neural network (DNN) acoustic models for automatic speech recognition (ASR). Length perturbation is a data augmentation algorithm that randomly drops and inserts frames of an utterance to alter the length of the speech feature sequence. N-best based label smoothing randomly injects noise to ground truth labels during training in order to avoid overfitting, where the noisy labels are generated from n-best hypotheses. We evaluate these two techniques extensively on the 300-hour Switchboard (SWB300) dataset and an in-house 500-hour Japanese (JPN500) dataset using recurrent neural network transducer (RNNT) acoustic models for ASR. We show that both techniques improve the generalization of RNNT models individually and they can also be complementary. In particular, they yield good improvements over a strong SWB300 baseline and give state-of-art performance on SWB300 using RNNT models.
翻訳日:2022-03-30 13:55:08 公開日:2022-03-29
# LDKP:長い科学文献からキーワードを識別するためのデータセット

LDKP: A Dataset for Identifying Keyphrases from Long Scientific Documents ( http://arxiv.org/abs/2203.15349v1 )

ライセンス: Link先を確認
Debanjan Mahata, Naveen Agarwal, Dibya Gautam, Amardeep Kumar, Swapnil Parekh, Yaman Kumar Singla, Anish Acharya, Rajiv Ratn Shah(参考訳) テキスト文書からキーフレーズ(KP)を識別することは自然言語処理と情報検索の基本的な課題である。 このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象的な情報のみを含む科学領域からのものです。 これはキーフレーズ抽出(KPE)とキーフレーズ生成(KPG)アルゴリズムを制限し、しばしば非常に短い要約(8文)からキーフレーズを識別する。 人間が書いた要約は、ほとんどのドキュメントでは利用できないし、文書はほぼ常に長いし、高いkpsはタイトルと抽象の限られたコンテキストを超えて直接見つけられる。 そこで本研究では,1.3m~100k科学論文のコーパスマッピングkpsを,出版場所,年,著者,研究分野,引用などのメタデータを抽出して公開し,実世界問題の研究を促進する。

Identifying keyphrases (KPs) from text documents is a fundamental task in natural language processing and information retrieval. Vast majority of the benchmark datasets for this task are from the scientific domain containing only the document title and abstract information. This limits keyphrase extraction (KPE) and keyphrase generation (KPG) algorithms to identify keyphrases from human-written summaries that are often very short (approx 8 sentences). This presents three challenges for real-world applications: human-written summaries are unavailable for most documents, the documents are almost always long, and a high percentage of KPs are directly found beyond the limited context of title and abstract. Therefore, we release two extensive corpora mapping KPs of ~1.3M and ~100K scientific articles with their fully extracted text and additional metadata including publication venue, year, author, field of study, and citations for facilitating research on this real-world problem.
翻訳日:2022-03-30 13:54:47 公開日:2022-03-29
# マルチパースペクティブ・ダイアログ要約を改善するヒューリスティック・インタートレーニング

Heuristic-based Inter-training to Improve Few-shot Multi-perspective Dialog Summarization ( http://arxiv.org/abs/2203.15590v1 )

ライセンス: Link先を確認
Benjamin Sznajder, Chulaka Gunasekara, Guy Lev, Sachin Joshi, Eyal Shnarch, Noam Slonim(参考訳) 多くの組織は、顧客との会話を手作業で要約する必要がある。 これらの要約は組織の意思決定に不可欠である。 作成するために必要な要約の観点は、要約の応用に依存する。 本研究では,サポートエージェントと顧客とのカスタマケア会話のマルチパースペクティブな要約について検討する。 我々は、異なる視点の要約に関連付けられた異なるヒューリスティックが存在することを観察し、これらのヒューリスティックスを探索して、少ない人間の注釈付き要約と微調整する前にモデルの中間トレーニングのための弱いラベルデータを作成する。 最も重要なことは,本手法がアノテートデータの少ないマルチパースペクティブ・サマリーを生成するモデルをサポートすることである。 例えば、本手法では、元のデータでトレーニングされたモデルのパフォーマンス(ルージュ-2)の94\%を、元のデータの7\%でトレーニングすることで達成する。

Many organizations require their customer-care agents to manually summarize their conversations with customers. These summaries are vital for decision making purposes of the organizations. The perspective of the summary that is required to be created depends on the application of the summaries. With this work, we study the multi-perspective summarization of customer-care conversations between support agents and customers. We observe that there are different heuristics that are associated with summaries of different perspectives, and explore these heuristics to create weak-labeled data for intermediate training of the models before fine-tuning with scarce human annotated summaries. Most importantly, we show that our approach supports models to generate multi-perspective summaries with a very small amount of annotated data. For example, our approach achieves 94\% of the performance (Rouge-2) of a model trained with the original data, by training only with 7\% of the original data.
翻訳日:2022-03-30 13:54:28 公開日:2022-03-29
# (参考訳) 2次元・3次元顕微鏡像における物体検出のための密度マップからのカウントと位置推定の改善

Improved Counting and Localization from Density Maps for Object Detection in 2D and 3D Microscopy Imaging ( http://arxiv.org/abs/2203.15691v1 )

ライセンス: CC BY 4.0
Shijie Li, Thomas Ach, Guido Gerig(参考訳) オブジェクトのカウントとローカライゼーションは、大規模顕微鏡アプリケーションにおける定量分析の鍵となるステップである。 この手順は、ターゲットオブジェクトが重なり合ったり、密集したり、ファジィ境界が現在ある場合に困難になる。 これまでの深層学習に基づく密度マップ作成法は,オブジェクトカウントが密度マップの統合と等価であると仮定して,オブジェクトカウントの精度が高水準に達している。 しかし、このモデルは、オブジェクトが正確なローカライゼーションに関して大きな重複を示すときに失敗する。 この制限を克服するために、密度マップからオブジェクトを数えてローカライズする方法を提案する。 私たちの手順は以下の3つの重要な側面を含む。 1)密度マップの統計的性質に基づく新しい計数法の提案 2 提案した計数方法に基づいて検出された対象物の計数結果を最適化し、 3) 提案手法を先行情報として, 検出不良物体の局在性を改善する。 検証には、既知の基底真理を持つ顕微鏡データの処理と、従来の密度マップの処理を用いた他のモデルとの比較が含まれる。 その結果,2次元および3次元顕微鏡データにおけるオブジェクトのカウントとローカライゼーションの性能が向上した。 さらに,密度マップアプローチに依拠する各種応用を考えると,提案手法は汎用的である。 私たちのコードはレビュー後にリリースされます。

Object counting and localization are key steps for quantitative analysis in large-scale microscopy applications. This procedure becomes challenging when target objects are overlapping, are densely clustered, and/or present fuzzy boundaries. Previous methods producing density maps based on deep learning have reached a high level of accuracy for object counting by assuming that object counting is equivalent to the integration of the density map. However, this model fails when objects show significant overlap regarding accurate localization. We propose an alternative method to count and localize objects from the density map to overcome this limitation. Our procedure includes the following three key aspects: 1) Proposing a new counting method based on the statistical properties of the density map, 2) optimizing the counting results for those objects which are well-detected based on the proposed counting method, and 3) improving localization of poorly detected objects using the proposed counting method as prior information. Validation includes processing of microscopy data with known ground truth and comparison with other models that use conventional processing of the density map. Our results show improved performance in counting and localization of objects in 2D and 3D microscopy data. Furthermore, the proposed method is generic, considering various applications that rely on the density map approach. Our code will be released post-review.
翻訳日:2022-03-30 13:51:35 公開日:2022-03-29
# グラディエントマッチングによるFew-Shot NASの一般化

Generalizing Few-Shot NAS with Gradient Matching ( http://arxiv.org/abs/2203.15207v1 )

ライセンス: Link先を確認
Shoukang Hu, Ruochen Wang, Lanqing Hong, Zhenguo Li, Cho-Jui Hsieh, Jiashi Feng(参考訳) 大規模探索空間から引き出されたアーキテクチャの効率的な性能推定は,ニューラルネットワーク探索に不可欠である。 ワンショット方式はこの課題に取り組むため、1つのスーパーネットを訓練し、重み付けによって検索空間内の全てのアーキテクチャのパフォーマンスを近似し、検索コストを劇的に削減する。 しかし、重み付けによる子アーキテクチャ間の最適化が組み合わさると、One-Shot Supernetの性能評価は不正確になり、検索結果が劣化する可能性がある。 この問題に対処するため、単発スーパーネットをエッジワイズ(レイヤーワイズ)で分離した複数のサブスーパーネットに分割することで、軽量化のレベルを下げる。 スーパーネットの各パーティションは等しく重要ではないので、より効果的な分割基準の設計を必要とする。 本研究では,情報分割決定を行うために,共有重みでの勾配情報を活用する勾配マッチングスコア(GM)を提案する。 直感的には、異なる子モデルからの勾配は、共有モジュールの更新方法に同意するか、次に同じ重みを共有するべきかを決定するのに使用できる。 排他的分割と比較すると,提案基準はエッジごとの分岐係数を著しく減少させる。 これにより、与えられた予算に対してより多くのエッジ(レイヤ)を分割できるようになり、NAS検索スペースは通常数十のエッジ(レイヤ)を含むため、パフォーマンスが大幅に向上する。 提案手法の広い範囲の探索空間(NASBench-201, DARTS, MobileNet Space)、データセット(cifar10, cifar100, ImageNet)、検索アルゴリズム(DARTS, SNAS, RSPS, ProxylessNAS, OFA)に対する広範な実験的な評価は、導出アーキテクチャの精度において、Few-Shotの手法よりもはるかに優れていることを示した。

Efficient performance estimation of architectures drawn from large search spaces is essential to Neural Architecture Search. One-Shot methods tackle this challenge by training one supernet to approximate the performance of every architecture in the search space via weight-sharing, thereby drastically reducing the search cost. However, due to coupled optimization between child architectures caused by weight-sharing, One-Shot supernet's performance estimation could be inaccurate, leading to degraded search outcomes. To address this issue, Few-Shot NAS reduces the level of weight-sharing by splitting the One-Shot supernet into multiple separated sub-supernets via edge-wise (layer-wise) exhaustive partitioning. Since each partition of the supernet is not equally important, it necessitates the design of a more effective splitting criterion. In this work, we propose a gradient matching score (GM) that leverages gradient information at the shared weight for making informed splitting decisions. Intuitively, gradients from different child models can be used to identify whether they agree on how to update the shared modules, and subsequently to decide if they should share the same weight. Compared with exhaustive partitioning, the proposed criterion significantly reduces the branching factor per edge. This allows us to split more edges (layers) for a given budget, resulting in substantially improved performance as NAS search spaces usually include dozens of edges (layers). Extensive empirical evaluations of the proposed method on a wide range of search spaces (NASBench-201, DARTS, MobileNet Space), datasets (cifar10, cifar100, ImageNet) and search algorithms (DARTS, SNAS, RSPS, ProxylessNAS, OFA) demonstrate that it significantly outperforms its Few-Shot counterparts while surpassing previous comparable methods in terms of the accuracy of derived architectures.
翻訳日:2022-03-30 13:43:40 公開日:2022-03-29
# SHOP:Blurryビデオに現れる小型ハンドヘルド物体のほぼリアルタイム検出のためのディープラーニングベースパイプライン

SHOP: A Deep Learning Based Pipeline for near Real-Time Detection of Small Handheld Objects Present in Blurry Video ( http://arxiv.org/abs/2203.15228v1 )

ライセンス: Link先を確認
Abhinav Ganguly, Amar C Gandhi, Sylvia E, Jeffrey D Chang, Ian M Hudson(参考訳) 先行研究は物体検出が可能な計算モデルを調査し開発してきたが、モデルはまだ動きのぼやけや小さな物体で画像を確実に解釈するのに苦労している。 さらに、これらのモデルはハンドヘルドオブジェクト検出用に特別に設計されたものではない。 本研究では,ハンドヘルドオブジェクトを含むぼやけた画像を確実かつ効率的に解釈するパイプラインであるSHOP(Small Handheld Object Pipeline)を提案する。 パイプラインの各段階で使用される具体的なモデルはフレキシブルで、パフォーマンス要件に基づいて変更可能である。 まず、画像は青く染められ、そこにいる人の手の周りに興味のあるエリアが提案されるポーズ検出システムを介して実行される。 次に、単段物体検出器により画像上の物体検出を行う。 最後に、提案した関心領域を用いて低信頼度検出を行う。 microsoft common objects in context(ms coco)のハンドヘルドサブセット上でのテストでは、この3段階のプロセスによって偽陽性が70%減少し、強力な構成で真陽性が17%減少することが示されている。 また、ハンドヘルドオブジェクト検出法の開発を継続するために使用できるハンドヘルドオブジェクトのみからなるms cocoのサブセットも提示する。 https://github.com/spider-sense/SHOP

While prior works have investigated and developed computational models capable of object detection, models still struggle to reliably interpret images with motion blur and small objects. Moreover, none of these models are specifically designed for handheld object detection. In this work, we present SHOP (Small Handheld Object Pipeline), a pipeline that reliably and efficiently interprets blurry images containing handheld objects. The specific models used in each stage of the pipeline are flexible and can be changed based on performance requirements. First, images are deblurred and then run through a pose detection system where areas-of-interest are proposed around the hands of any people present. Next, object detection is performed on the images by a single-stage object detector. Finally, the proposed areas-of-interest are used to filter out low confidence detections. Testing on a handheld subset of Microsoft Common Objects in Context (MS COCO) demonstrates that this 3 stage process results in a 70 percent decrease in false positives while only reducing true positives by 17 percent in its strongest configuration. We also present a subset of MS COCO consisting solely of handheld objects that can be used to continue the development of handheld object detection methods. https://github.com/spider-sense/SHOP
翻訳日:2022-03-30 13:43:02 公開日:2022-03-29
# CNNフィルタDB:訓練された畳み込みフィルタの実証的研究

CNN Filter DB: An Empirical Investigation of Trained Convolutional Filters ( http://arxiv.org/abs/2203.15331v1 )

ライセンス: Link先を確認
Paul Gavrikov and Janis Keuper(参考訳) 現在、畳み込みニューラルネットワーク(CNN)の伝達可能性と堅牢性に関する理論的および実践的な問題の多くは未解決のままである。 研究は様々な角度から行われているが、ほとんどのコンピュータビジョン関連の場合、これらの手法は画像データにおける分布シフトの影響についての研究に一般化することができる。 そこで本研究では,CNNモデルの学習重量の変化について検討する。 本稿では,支配的に使用される3x3畳み込みフィルタカーネルの分布特性について考察する。 私たちは、広範囲のデータセット、アーキテクチャ、ビジョンタスクを使用して、数百のトレーニング済みCNNから14億以上のフィルタでデータセットを収集し、公開しました。 提案したデータセットの最初のユースケースでは、実用用途のために利用可能な多くの事前トレーニング済みモデルの高関連性を示すことができる。I)データセット、タスク、アーキテクチャ、層深さといったメタパラメータの異なる軸に沿ったトレーニング済みフィルタ間の分散シフト(またはその欠如)を分析する。 これらの結果から,モデルの事前学習は,サイズや分散条件を満たせば任意のデータセットで成功すると結論づけた。 二) 事前学習されたモデルの多くは, 劣化したフィルタを含んでおり, 対象とするアプリケーションの微調整にはあまり適さないことを示す。 Data & ProjectのWebサイト: https://github.com/paulgavrikov/cnn-filter-db

Currently, many theoretical as well as practically relevant questions towards the transferability and robustness of Convolutional Neural Networks (CNNs) remain unsolved. While ongoing research efforts are engaging these problems from various angles, in most computer vision related cases these approaches can be generalized to investigations of the effects of distribution shifts in image data. In this context, we propose to study the shifts in the learned weights of trained CNN models. Here we focus on the properties of the distributions of dominantly used 3x3 convolution filter kernels. We collected and publicly provide a dataset with over 1.4 billion filters from hundreds of trained CNNs, using a wide range of datasets, architectures, and vision tasks. In a first use case of the proposed dataset, we can show highly relevant properties of many publicly available pre-trained models for practical applications: I) We analyze distribution shifts (or the lack thereof) between trained filters along different axes of meta-parameters, like visual category of the dataset, task, architecture, or layer depth. Based on these results, we conclude that model pre-training can succeed on arbitrary datasets if they meet size and variance conditions. II) We show that many pre-trained models contain degenerated filters which make them less robust and less suitable for fine-tuning on target applications. Data & Project website: https://github.com/paulgavrikov/cnn-filter-db
翻訳日:2022-03-30 13:42:43 公開日:2022-03-29
# ペルムトヘドラル格子上の時間的意味セグメンテーションのための抽象的流れ

Abstract Flow for Temporal Semantic Segmentation on the Permutohedral Lattice ( http://arxiv.org/abs/2203.15469v1 )

ライセンス: Link先を確認
Peer Sch\"utt, Radu Alexandru Rosu and Sven Behnke(参考訳) セマンティックセグメンテーション(semantic segmentation)は、自律的なエージェントが必要とする中核的な能力であり、シーンのどの部分がどのオブジェクトクラスに属するのかを、ナビゲーションや環境とのインタラクションに不可欠であるかを識別できる。 データの1つの時間ステップのみを使用するアプローチは、動くオブジェクトを区別できず、時間的統合の恩恵を受けることができない。 本研究では,バックボーン格子を拡張し,時間的点雲データを処理する。 さらに、光学フロー法からインスピレーションを得て、ネットワークがシーンの一部に類似した抽象的な特徴でマッチングし、時間的に情報を収集できるAbstract Flowという新しいモジュールを提案する。 我々は,実都市環境からのLiDARスキャンを含むSemanticKITTIデータセットの最先端結果を得た。 我々はtemporallatticenetのpytorch実装をhttps://github.com/ais-bonn/temporal_latticenetで共有する。

Semantic segmentation is a core ability required by autonomous agents, as being able to distinguish which parts of the scene belong to which object class is crucial for navigation and interaction with the environment. Approaches which use only one time-step of data cannot distinguish between moving objects nor can they benefit from temporal integration. In this work, we extend a backbone LatticeNet to process temporal point cloud data. Additionally, we take inspiration from optical flow methods and propose a new module called Abstract Flow which allows the network to match parts of the scene with similar abstract features and gather the information temporally. We obtain state-of-the-art results on the SemanticKITTI dataset that contains LiDAR scans from real urban environments. We share the PyTorch implementation of TemporalLatticeNet at https://github.com/AIS-Bonn/temporal_latticenet .
翻訳日:2022-03-30 13:42:21 公開日:2022-03-29
# 視力に基づく触覚インプリントからボリュームメッシュを合成する学習

Learning to Synthesize Volumetric Meshes from Vision-based Tactile Imprints ( http://arxiv.org/abs/2203.15155v1 )

ライセンス: Link先を確認
Xinghao Zhu, Siddarth Jain, Masayoshi Tomizuka, and Jeroen van Baar(参考訳) 視覚ベースの触覚センサーは通常、変形可能なエラストマーと上に取り付けられたカメラを使用して、コンタクトの高解像度画像観察を行う。 変形エラストマーの正確な体積メッシュの取得は、直接接触情報を提供し、ロボットの把握と操作に役立てることができる。 本稿では,視覚に基づく触覚センサから得られた画像インプリントに基づいて,エラストマーの体積メッシュを合成する学習に焦点を当てた。 3次元有限要素法(FEM)と物理センサから合成画像-メッシュ対と実世界像をそれぞれ収集する。 グラフニューラルネットワーク(GNN)を導入し、教師付き学習で画像とメシュのマッピングを学習する。 自己教師あり適応法と画像拡張法を提案し,ネットワークをシミュレーションから現実へ,原始的接触から未発見の接触へ,そしてあるセンサから別のセンサへ転送する。 提案手法は,これらの学習・適応ネットワークを用いて,実世界の触覚センサエラストマーの変形を定量的・定性的に再現する。

Vision-based tactile sensors typically utilize a deformable elastomer and a camera mounted above to provide high-resolution image observations of contacts. Obtaining accurate volumetric meshes for the deformed elastomer can provide direct contact information and benefit robotic grasping and manipulation. This paper focuses on learning to synthesize the volumetric mesh of the elastomer based on the image imprints acquired from vision-based tactile sensors. Synthetic image-mesh pairs and real-world images are gathered from 3D finite element methods (FEM) and physical sensors, respectively. A graph neural network (GNN) is introduced to learn the image-to-mesh mappings with supervised learning. A self-supervised adaptation method and image augmentation techniques are proposed to transfer networks from simulation to reality, from primitive contacts to unseen contacts, and from one sensor to another. Using these learned and adapted networks, our proposed method can accurately reconstruct the deformation of the real-world tactile sensor elastomer in various domains, as indicated by the quantitative and qualitative results.
翻訳日:2022-03-30 13:40:07 公開日:2022-03-29
# LightHuBERT: かつてのHidden-Unit BERTによる軽量で構成可能な音声表現学習

LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT ( http://arxiv.org/abs/2203.15610v1 )

ライセンス: Link先を確認
Rui Wang, Qibing Bai, Junyi Ao, Long Zhou, Zhixiang Xiong, Zhihua Wei, Yu Zhang, Tom Ko, Haizhou Li(参考訳) 自己教師型音声表現学習は,様々な音声処理タスクにおいて有望な結果を示した。 しかし、HuBERTのような事前訓練されたモデルはストレージ集約トランスフォーマーであり、低リソース環境下でのアプリケーションのスコープを制限する。 この目的のために、構造化されたパラメータを抽出することで、所望のアーキテクチャを自動的に見つけるために、一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。 より正確には、何千もの重量共有サブネットでネストされたトランスフォーマーベースのスーパーネットを作成し、HuBERTの文脈化潜在表現を活用するための2段階蒸留戦略を設計する。 自動音声認識(ASR)とSUPERBベンチマークの実験により、提案したLightHuBERTは、埋め込み次元、注目次元、ヘッダー数、フィードフォワードネットワーク比、ネットワーク深さに関する10^9$以上のアーキテクチャを実現する。 LightHuBERT は ASR 上の HuBERT タスクと HuBERT サイズで 5 つの SUPERB タスクを上回り、29% のパラメータで教師モデルに匹敵する性能を達成し、3 つの SUPERB タスク(例えば、自動話者検証、キーワードスポッティング、意図分類)において 3.5\times$ 圧縮比を得る。 コードと事前学習されたモデルはhttps://github.com/mechanicalsea/lighthubert.comで入手できる。

Self-supervised speech representation learning has shown promising results in various speech processing tasks. However, the pre-trained models, e.g., HuBERT, are storage-intensive Transformers, limiting their scope of applications under low-resource settings. To this end, we propose LightHuBERT, a once-for-all Transformer compression framework, to find the desired architectures automatically by pruning structured parameters. More precisely, we create a Transformer-based supernet that is nested with thousands of weight-sharing subnets and design a two-stage distillation strategy to leverage the contextualized latent representations from HuBERT. Experiments on automatic speech recognition (ASR) and the SUPERB benchmark show the proposed LightHuBERT enables over $10^9$ architectures concerning the embedding dimension, attention dimension, head number, feed-forward network ratio, and network depth. LightHuBERT outperforms the original HuBERT on ASR and five SUPERB tasks with the HuBERT size, achieves comparable performance to the teacher model in most tasks with a reduction of 29% parameters, and obtains a $3.5\times$ compression ratio in three SUPERB tasks, e.g., automatic speaker verification, keyword spotting, and intent classification, with a slight accuracy loss. The code and pre-trained models are available at https://github.com/mechanicalsea/lighthubert.
翻訳日:2022-03-30 13:39:29 公開日:2022-03-29
# カーネル変調:畳み込みニューラルネットワークのパラメータ効率向上手法

Kernel Modulation: A Parameter-Efficient Method for Training Convolutional Neural Networks ( http://arxiv.org/abs/2203.15297v1 )

ライセンス: Link先を確認
Yuhuang Hu, Shih-Chii Liu(参考訳) 深層ニューラルネットワーク、特に畳み込みニューラルネットワーク(convnets)は、多くの視覚タスクで驚くべき成功を収めていますが、高い精度を得るためには数百万のパラメータが必要です。 ConvNetsを使用するアプリケーションの増加に伴い、組み込みデバイス上の複数のタスクのために数百のネットワークを更新することは、メモリ、帯域幅、エネルギーの面でコストがかかる可能性がある。 このコストを削減するアプローチには、新しいタスク毎にネットワーク層のサブセットを適用するモデル圧縮とパラメータ効率モデルが含まれる。 本研究は,階層のサブセットではなく,ベースネットワークの全パラメータを適応させる新しいパラメータ効率カーネル変調(km)法を提案する。 KMは軽量なタスク特化カーネル変調器を使用し、ベースネットワークパラメータの1.4%しか必要としない。 複数のタスクでタスク特化KM重みだけが通信され、エンドユーザデバイスに格納される。 本手法は,トランスファー学習およびメタラーニングシナリオのための学習コンベネットに適用した。 その結果,転移学習ベンチマークのパラメータ効率が他の手法よりも最大9%高い精度が得られることがわかった。

Deep Neural Networks, particularly Convolutional Neural Networks (ConvNets), have achieved incredible success in many vision tasks, but they usually require millions of parameters for good accuracy performance. With increasing applications that use ConvNets, updating hundreds of networks for multiple tasks on an embedded device can be costly in terms of memory, bandwidth, and energy. Approaches to reduce this cost include model compression and parameter-efficient models that adapt a subset of network layers for each new task. This work proposes a novel parameter-efficient kernel modulation (KM) method that adapts all parameters of a base network instead of a subset of layers. KM uses lightweight task-specialized kernel modulators that require only an additional 1.4% of the base network parameters. With multiple tasks, only the task-specialized KM weights are communicated and stored on the end-user device. We applied this method in training ConvNets for Transfer Learning and Meta-Learning scenarios. Our results show that KM delivers up to 9% higher accuracy than other parameter-efficient methods on the Transfer Learning benchmark.
翻訳日:2022-03-30 13:38:59 公開日:2022-03-29
# 構造化ガウスの深層集合の近似学習

Learning Structured Gaussians to Approximate Deep Ensembles ( http://arxiv.org/abs/2203.15485v1 )

ライセンス: Link先を確認
Ivor J.A. Simpson, Sara Vicente, Neill D.F. Campbell(参考訳) 本稿では,高密度画像予測に使用される確率アンサンブルモデルの出力に,スパース構造多変量ガウスを用いた閉形式近似器を提案する。 これは、分布の平均と共分散を予測する畳み込みニューラルネットワークによって実現され、逆共分散は疎構造なコレスキー行列によってパラメータ化される。 蒸留アプローチと同様に、我々の単一ネットワークは、事前訓練された確率モデルからのサンプルの確率を最大化するように訓練されています。 訓練を済ませると、我々のコンパクト表現は、近似された出力分布から空間的に相関したサンプルを効率的に描画することができる。 重要なことに、このアプローチはサンプリングだけで暗黙的にではなく、形式的な分布において、予測における不確実性と構造化された相関を捉える。 これにより、モデルの直接のイントロスペクションが可能になり、学習した構造の可視化が可能になる。 さらに、この定式化は、サンプル確率の推定とテスト時の任意の空間条件の導入という2つの利点を提供する。 我々は,単眼深度推定におけるアプローチの利点を実証し,このアプローチの利点が同等の定量的性能で得られることを示す。

This paper proposes using a sparse-structured multivariate Gaussian to provide a closed-form approximator for the output of probabilistic ensemble models used for dense image prediction tasks. This is achieved through a convolutional neural network that predicts the mean and covariance of the distribution, where the inverse covariance is parameterised by a sparsely structured Cholesky matrix. Similarly to distillation approaches, our single network is trained to maximise the probability of samples from pre-trained probabilistic models, in this work we use a fixed ensemble of networks. Once trained, our compact representation can be used to efficiently draw spatially correlated samples from the approximated output distribution. Importantly, this approach captures the uncertainty and structured correlations in the predictions explicitly in a formal distribution, rather than implicitly through sampling alone. This allows direct introspection of the model, enabling visualisation of the learned structure. Moreover, this formulation provides two further benefits: estimation of a sample probability, and the introduction of arbitrary spatial conditioning at test time. We demonstrate the merits of our approach on monocular depth estimation and show that the advantages of our approach are obtained with comparable quantitative performance.
翻訳日:2022-03-30 13:37:29 公開日:2022-03-29
# 高能率音響シーン分類のためのパッシブ類似性に基づくCNNフィルタプルーニング

A Passive Similarity based CNN Filter Pruning for Efficient Acoustic Scene Classification ( http://arxiv.org/abs/2203.15751v1 )

ライセンス: Link先を確認
Arshdeep Singh, Mark D. Plumbley(参考訳) 本稿では,音響シーン分類のための低複雑性畳み込みニューラルネットワーク(CNN)を提案する。 典型的なCNNの大きなサイズと高い計算複雑性は、リソース制約のあるデバイスへの展開のボトルネックとなっている。 本稿では,CNNからの畳み込みフィルタを除去し,圧縮したCNNを生成するパッシブフィルタプルーニングフレームワークを提案する。 我々の仮説では、類似のフィルタが同様の応答を生成し、そのようなフィルタをネットワークから排除できる冗長な情報を与える。 類似フィルタを同定するために,コサイン距離に基づくグリーディアルゴリズムを提案する。 次に微調整処理を行い、フィルタの除去によって失われた性能の多くを取り戻す。 効率的な微調整を行うために,微調整トレーニング例の変更に伴い,性能がどう変化するか分析する。 ASCのためにトレーニングされたDCASE 2021 Task 1Aベースラインネットワーク上で,提案フレームワークの実験的検討を行った。 提案手法は単純で,パラメータが25%少なく,精度が1%以下で,推論当たりの計算量を27%削減する。

We present a method to develop low-complexity convolutional neural networks (CNNs) for acoustic scene classification (ASC). The large size and high computational complexity of typical CNNs is a bottleneck for their deployment on resource-constrained devices. We propose a passive filter pruning framework, where a few convolutional filters from the CNNs are eliminated to yield compressed CNNs. Our hypothesis is that similar filters produce similar responses and give redundant information allowing such filters to be eliminated from the network. To identify similar filters, a cosine distance based greedy algorithm is proposed. A fine-tuning process is then performed to regain much of the performance lost due to filter elimination. To perform efficient fine-tuning, we analyze how the performance varies as the number of fine-tuning training examples changes. An experimental evaluation of the proposed framework is performed on the publicly available DCASE 2021 Task 1A baseline network trained for ASC. The proposed method is simple, reduces computations per inference by 27%, with 25% fewer parameters, with less than 1% drop in accuracy.
翻訳日:2022-03-30 13:34:05 公開日:2022-03-29
# SurvCaus : 生存因推論のための表現バランス

SurvCaus : Representation Balancing for Survival Causal Inference ( http://arxiv.org/abs/2203.15672v1 )

ライセンス: Link先を確認
Ayoub Abraich, Agathe Guilloux, Blaise Hanczar(参考訳) 個人的治療効果(ite)の評価手法はここ数年で人気が高まっている。 多くの場合、個々の効果は条件付き平均治療効果(CATE)として表される。 近年,観察データからの因果推論において,連続的(および二元的)結果に限定した表現バランス手法が大きな勢いを増している。 しかし、多くの病理学において、関心の結果は(おそらく検閲された)生存時間である。 本稿では, ニューラルネットワークを用いて, 個々のレベルにおいて, 検閲の存在下において, 実際の生存機能(および, cate)を予測可能なサバイバル設定における, 相反的推論に適用する表現バランスフレームワークに関する理論的保証を提案する。 また,提案する拡張がベースライン法を上回ることを示す合成および半合成データセットに関する広範な実験を行った。

Individual Treatment Effects (ITE) estimation methods have risen in popularity in the last years. Most of the time, individual effects are better presented as Conditional Average Treatment Effects (CATE). Recently, representation balancing techniques have gained considerable momentum in causal inference from observational data, still limited to continuous (and binary) outcomes. However, in numerous pathologies, the outcome of interest is a (possibly censored) survival time. Our paper proposes theoretical guarantees for a representation balancing framework applied to counterfactual inference in a survival setting using a neural network capable of predicting the factual and counterfactual survival functions (and then the CATE), in the presence of censorship, at the individual level. We also present extensive experiments on synthetic and semisynthetic datasets that show that the proposed extensions outperform baseline methods.
翻訳日:2022-03-30 13:33:18 公開日:2022-03-29
# HardVis:アンダーサンプリングとオーバーサンプリング技術を使ってインスタンスのハードネスを処理するビジュアルアナリティクス

HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques ( http://arxiv.org/abs/2203.15753v1 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Fernando V. Paulovich, Andreas Kerren(参考訳) 機械学習(ML)の飛躍的な進歩にもかかわらず、不均衡なデータによるトレーニングは、多くの現実世界のアプリケーションで依然として課題となっている。 この問題を解決するための様々な手法のうち、サンプリングアルゴリズムは効率的な解と見なされている。 しかし、問題はより根本的なものであり、多くの作品がインスタンスのハードネスの重要性を強調している。 この問題とは、分類が間違っており、分類性能の低下の根本原因となる可能性のある、安全でない、あるいはうるさいインスタンスを管理することの重要性を指す。 本稿では,不均衡な分類シナリオを中心に,インスタンスのハードネスを処理するビジュアル分析システムhardvisについて紹介する。 提案システムでは,異なるデータ型を視覚的に比較し,後にアクティブサンプリング法で影響を受ける局所的特徴に基づいてインスタンスの種類を選定し,アンダーサンプリングやオーバーサンプリングによる提案がmlモデルに有用かどうかを検証する。 さらに、特定のクラスを一様にアンサンプ/オーバーサンプリングする代わりに、ユーザーは簡単にサンプルを見つけることができ、すべてのクラスからトレーニングインスタンスを分類することは困難です。 ユーザーは異なる視点からデータのサブセットを探索してパラメータを決定することができるが、hardvisはそれぞれのステップを追跡し、テストセットでモデルの予測性能を評価する。 最終的な結果は、MLモデルの予測能力を高めるためのバランスのとれたデータセットである。 ハードビスの有効性と有効性は仮説的な使用シナリオとユースケースで示される。 最後に、MLの専門家から受け取ったフィードバックに基づいて、私たちのシステムがいかに有用かについても調べる。

Despite the tremendous advances in machine learning (ML), training with imbalanced data still poses challenges in many real-world applications. Among a series of diverse techniques to solve this problem, sampling algorithms are regarded as an efficient solution. However, the problem is more fundamental, with many works emphasizing the importance of instance hardness. This issue refers to the significance of managing unsafe or potentially noisy instances that are more likely to be misclassified and serve as the root cause of poor classification performance. This paper introduces HardVis, a visual analytics system designed to handle instance hardness mainly in imbalanced classification scenarios. Our proposed system assists users in visually comparing different distributions of data types, selecting types of instances based on local characteristics that will later be affected by the active sampling method, and validating which suggestions from undersampling or oversampling techniques are beneficial for the ML model. Additionally, rather than uniformly undersampling/oversampling a specific class, we allow users to find and sample easy and difficult to classify training instances from all classes. Users can explore subsets of data from different perspectives to decide all those parameters, while HardVis keeps track of their steps and evaluates the model's predictive performance in a test set separately. The end result is a well-balanced data set that boosts the predictive power of the ML model. The efficacy and effectiveness of HardVis are demonstrated with a hypothetical usage scenario and a use case. Finally, we also look at how useful our system is based on feedback we received from ML experts.
翻訳日:2022-03-30 13:33:06 公開日:2022-03-29
# 非凸最適化のための依存データを用いた確率的下次手法の収束と複雑度

Convergence and Complexity of Stochastic Subgradient Methods with Dependent Data for Nonconvex Optimization ( http://arxiv.org/abs/2203.15797v1 )

ライセンス: Link先を確認
Ahmet Alacaoglu, Hanbaek Lyu(参考訳) 一般的な従属データサンプリングスキームの下では、弱凸関数に対する古典確率的および近位劣次法は、モローエンベロープの勾配のノルムで$\varepsilon$-near定常点を達成するために$\tilde{O}(n^{-1/4})$と複雑さ$\tilde{O}(\varepsilon^{-4})$の最悪の収束率を持つことを示す。 古典的な収束保証は、ターゲット分布からのデータサンプリングを必要とするが、条件分布の緩やかな混合条件しか必要とせず、これは幅広い種類のマルコフ連鎖サンプリングアルゴリズムに当てはまる。 これにより、制約付き滑らかな非凸最適化の特定の場合の既存の複雑さが改善され、より単純な解析で$\tilde{o}(\varepsilon^{-8})$から$\tilde{o}(\varepsilon^{-4})$への依存データが得られる。 適応確率下進アルゴリズム AdaGrad と,重球運動量を持つ確率下進アルゴリズム AdaGrad に対する依存データを用いた収束結果の導出によるアプローチの一般化について述べる。 応用として、最適収束保証率を持つ適応ステップサイズを持つ確率的射影勾配法に基づく従属データに対する最初のオンライン非負行列分解アルゴリズムを得る。

We show that under a general dependent data sampling scheme, the classical stochastic projected and proximal subgradient methods for weakly convex functions have worst-case rate of convergence $\tilde{O}(n^{-1/4})$ and complexity $\tilde{O}(\varepsilon^{-4})$ for achieving an $\varepsilon$-near stationary point in terms of the norm of the gradient of Moreau envelope. While classical convergence guarantee requires i.i.d. data sampling from the target distribution, we only require a mild mixing condition of the conditional distribution, which holds for a wide class of Markov chain sampling algorithms. This improves the existing complexity for the specific case of constrained smooth nonconvex optimization with dependent data from $\tilde{O}(\varepsilon^{-8})$ to $\tilde{O}(\varepsilon^{-4})$ with a significantly simpler analysis. We illustrate the generality of our approach by deriving convergence results with dependent data for adaptive stochastic subgradient algorithm AdaGrad and stochastic subgradient algorithm with heavy ball momentum. As an application, we obtain first online nonnegative matrix factorization algorithms for dependent data based on stochastic projected gradient methods with adaptive step sizes with optimal rate of convergence guarantee.
翻訳日:2022-03-30 13:32:43 公開日:2022-03-29
# nix-tts:非エンド・ツー・エンド蒸留による驚くほど軽量なエンドツーエンドテキスト・ツー・スパイチモデル

Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation ( http://arxiv.org/abs/2203.15643v1 )

ライセンス: Link先を確認
Rendi Chevi, Radityo Eko Prasojo, Alham Fikri Aji(参考訳) 我々は,知識蒸留を適用した軽量なTTS(Text-to-Speech)モデルであるNix-TTSを提案する。 ttsモデルの蒸留は、ttsアーキテクチャの生成的かつ非連結な性質のために直感的に聞こえるかもしれないが、事前訓練されたttsモデルは、エンコーダおよびデコーダ構造に単純化され、前者はテキストを何らかの潜在表現に符号化し、後者は潜在データを音声データに復号する。 我々は、各コンポーネントをエンドツーエンドで蒸留するフレームワークを考案する。 nix-ttsは5.23mのパラメータしか持たないエンドツーエンド(vocoder-free)で、教師モデルの82\%まで削減でき、intel-i7 cpuとraspberry piでそれぞれ3.26$\times$と8.36$\times$の推論スピードアップを達成している。 Nix-TTS事前訓練されたモデルとオーディオサンプルを英語で公開しています(https://github.com/rendchevi/nix-tts)。

We propose Nix-TTS, a lightweight neural TTS (Text-to-Speech) model achieved by applying knowledge distillation to a powerful yet large-sized generative TTS teacher model. Distilling a TTS model might sound unintuitive due to the generative and disjointed nature of TTS architectures, but pre-trained TTS models can be simplified into encoder and decoder structures, where the former encodes text into some latent representation and the latter decodes the latent into speech data. We devise a framework to distill each component in a non end-to-end fashion. Nix-TTS is end-to-end (vocoder-free) with only 5.23M parameters or up to 82\% reduction of the teacher model, it achieves over 3.26$\times$ and 8.36$\times$ inference speedup on Intel-i7 CPU and Raspberry Pi respectively, and still retains a fair voice naturalness and intelligibility compared to the teacher model. We publicly release Nix-TTS pretrained models and audio samples in English (https://github.com/rendchevi/nix-tts).
翻訳日:2022-03-30 13:32:23 公開日:2022-03-29
# spact: アクション認識のための自己監視型プライバシー保護

SPAct: Self-supervised Privacy Preservation for Action Recognition ( http://arxiv.org/abs/2203.15205v1 )

ライセンス: Link先を確認
Ishan Rajendrakumar Dave, Chen Chen, Mubarak Shah(参考訳) 視覚的プライベート情報漏洩は、アクティビティ認識のようなビデオ理解の急速に成長するアプリケーションにとって、新たな重要な問題である。 アクション認識におけるプライバシー漏洩を軽減する既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。 しかし、プライバシーラベルのためのビデオデータセットのアノテートフレームは実現不可能である。 自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を公開した。 本稿では,プライバシラベルを必要とせず,自己監視方式で入力ビデオからプライバシ情報を削除できる新たなトレーニングフレームワークを提案する。 トレーニングフレームワークは,匿名化機能,自己監督型プライバシ削除ブランチ,行動認識ブランチの3つの主要コンポーネントから構成される。 我々は,最小限の最適化戦略を用いて,行動認識コスト関数の最小化と,対照的な自己管理的損失によるプライバシコスト関数の最大化を図る。 我々のフレームワークは、既知のアクションとプライバシ属性の既存のプロトコルを利用することで、既存の最先端管理手法と競合するアクションプライバシのトレードオフを実現する。 さらに,学習した匿名化関数を新規行動属性やプライバシ属性に一般化して評価するための新しいプロトコルを導入し,我々の自己管理フレームワークが既存の教師付き手法より優れていることを示す。 コード提供: https://github.com/daveishan/spact

Visual private information leakage is an emerging key issue for the fast growing applications of video understanding like activity recognition. Existing approaches for mitigating privacy leakage in action recognition require privacy labels along with the action labels from the video dataset. However, annotating frames of video dataset for privacy labels is not feasible. Recent developments of self-supervised learning (SSL) have unleashed the untapped potential of the unlabeled data. For the first time, we present a novel training framework which removes privacy information from input video in a self-supervised manner without requiring privacy labels. Our training framework consists of three main components: anonymization function, self-supervised privacy removal branch, and action recognition branch. We train our framework using a minimax optimization strategy to minimize the action recognition cost function and maximize the privacy cost function through a contrastive self-supervised loss. Employing existing protocols of known-action and privacy attributes, our framework achieves a competitive action-privacy trade-off to the existing state-of-the-art supervised methods. In addition, we introduce a new protocol to evaluate the generalization of learned the anonymization function to novel-action and privacy attributes and show that our self-supervised framework outperforms existing supervised methods. Code available at: https://github.com/DAVEISHAN/SPAct
翻訳日:2022-03-30 13:31:55 公開日:2022-03-29
# コンテキスト対応オブジェクト検出器におけるゼロクエリ転送攻撃

Zero-Query Transfer Attacks on Context-Aware Object Detectors ( http://arxiv.org/abs/2203.15230v1 )

ライセンス: Link先を確認
Zikui Cai, Shantanu Rane, Alejandro E. Brito, Chengyu Song, Srikanth V. Krishnamurthy, Amit K. Roy-Chowdhury, M. Salman Asif(参考訳) ディープニューラルネットワークが誤った分類結果を生成するような、逆向きのイメージを乱す。 自然のマルチオブジェクトシーンに対する敵対的攻撃から防御するための有望なアプローチは、コンテキスト一貫性チェックを課すことであり、もし検出されたオブジェクトが適切に定義されたコンテキストと一致しないなら、攻撃を疑う。 このような文脈認識検出器を騙すには、より強力な攻撃が必要である。 我々は,複雑な自然シーンで動作するブラックボックスオブジェクト検出器のコンテキスト一貫性チェックを回避するための,コンテキスト一貫性のある敵攻撃を生成するための最初のアプローチを提案する。 繰り返し試みを行うブラックボックス攻撃と異なり、攻撃者は被害者システムの分類決定について何も知らない「ゼロクエリ」の設定を仮定する。 まず、不正なラベルをコンテキスト一貫性のある方法で被害者オブジェクトに割り当てる複数のアタックプランを導出する。 そして、我々は摂動成功確率行列と呼ばれる新しいデータ構造を設計し、使用し、攻撃計画をフィルタリングし、最も成功する可能性が最も高いものを選択することができる。 この最終攻撃計画は摂動境界攻撃アルゴリズムを用いて実装される。 ゼロクエリ攻撃と、被害者のシステムが騙されたかどうかを繰り返しチェックする、少数のクエリスキームを比較します。 我々はまた、最先端のコンテキストに依存しない攻撃と比較する。 文脈認識型防御に対して、ゼロクエリアプローチの騙し率は、文脈非依存アプローチよりも著しく高く、最小クエリ方式の最大3ラウンドで達成可能なものよりも高い。

Adversarial attacks perturb images such that a deep neural network produces incorrect classification results. A promising approach to defend against adversarial attacks on natural multi-object scenes is to impose a context-consistency check, wherein, if the detected objects are not consistent with an appropriately defined context, then an attack is suspected. Stronger attacks are needed to fool such context-aware detectors. We present the first approach for generating context-consistent adversarial attacks that can evade the context-consistency check of black-box object detectors operating on complex, natural scenes. Unlike many black-box attacks that perform repeated attempts and open themselves to detection, we assume a "zero-query" setting, where the attacker has no knowledge of the classification decisions of the victim system. First, we derive multiple attack plans that assign incorrect labels to victim objects in a context-consistent manner. Then we design and use a novel data structure that we call the perturbation success probability matrix, which enables us to filter the attack plans and choose the one most likely to succeed. This final attack plan is implemented using a perturbation-bounded adversarial attack algorithm. We compare our zero-query attack against a few-query scheme that repeatedly checks if the victim system is fooled. We also compare against state-of-the-art context-agnostic attacks. Against a context-aware defense, the fooling rate of our zero-query approach is significantly higher than context-agnostic approaches and higher than that achievable with up to three rounds of the few-query scheme.
翻訳日:2022-03-30 13:31:35 公開日:2022-03-29
# (参考訳) ラベル階層に基づく不変学習

Invariance Learning based on Label Hierarchy ( http://arxiv.org/abs/2203.15549v1 )

ライセンス: CC BY 4.0
Shoji Toyota, Kenji Fukumizu(参考訳) 深層ニューラルネットワークは、トレーニングデータに埋め込まれたスプリアス相関を継承するので、トレーニングに使用されるドメインとは異なる分布を持つ、未知のドメイン(あるいは環境)で所望のラベルを予測できない可能性がある。 Invariance Learning (IL) はこの欠点を克服するために最近開発され、多くのドメインでのトレーニングデータを用いて、ILはドメインの変更に不変な予測器を推定する。 しかし、複数のドメインにおけるデータトレーニングの要件は、高いアノテーションコストを必要とすることが多いため、ILの強い制約である。 この問題を克服する新しいILフレームワークを提案する。 ラベル付けコストが低い高レベル分類タスクに対して,複数のドメインからのデータが利用可能であると仮定し,単一ドメインのトレーニングデータを用いて,対象分類タスクの不変予測器を推定する。 さらに,既存のil法では適切に処理されていないハイパーパラメータ選択の問題を解決するために,非分散正規化のハイパーパラメータを選択するための2つのクロスバリデーション手法を提案する。 クロスバリデーションを含む提案手法の有効性を実証的に示し,いくつかの条件下でハイパーパラメータ選択の正確性が証明された。

Deep Neural Networks inherit spurious correlations embedded in training data and hence may fail to predict desired labels on unseen domains (or environments), which have different distributions from the domain used in training. Invariance Learning (IL) has been developed recently to overcome this shortcoming; using training data in many domains, IL estimates such a predictor that is invariant to a change of domain. However, the requirement of training data in multiple domains is a strong restriction of IL, since it often needs high annotation cost. We propose a novel IL framework to overcome this problem. Assuming the availability of data from multiple domains for a higher level of classification task, for which the labeling cost is low, we estimate an invariant predictor for the target classification task with training data in a single domain. Additionally, we propose two cross-validation methods for selecting hyperparameters of invariance regularization to solve the issue of hyperparameter selection, which has not been handled properly in existing IL methods. The effectiveness of the proposed framework, including the cross-validation, is demonstrated empirically, and the correctness of the hyperparameter selection is proved under some conditions.
翻訳日:2022-03-30 13:30:03 公開日:2022-03-29
# スウェーデン語実践における進化型会話エージェントにおける生成対話モデルの品質保証

Quality Assurance of Generative Dialog Models in an Evolving Conversational Agent Used for Swedish Language Practice ( http://arxiv.org/abs/2203.15414v1 )

ライセンス: Link先を確認
Markus Borg and Johan Bengtsson and Harald \"Osterling and Alexander Hagelborn and Isabella Gagner and Piotr Tomaszewski(参考訳) 移民メガトレンドのため、効率的かつ効果的な第二言語習得が不可欠である。 提案する1つのソリューションは、人中心の対話型言語実践のためのAI対応の会話エージェントである。 仮想面接のために訓練されたプロプライエタリな生成ダイアログモデルの品質保証を目的とした活動研究の結果を報告する。 アクションチームは、進化するソリューションに特に関心のある15のケースに対応する自動テストケースを設計した、38の要件を導き出しました。 その結果,6つのテストケースが候補モデル間の有意義な差異を検知できることがわかった。 自然言語処理アプリケーションの品質保証は複雑であるが、進化する会話エージェントの文脈における機械学習モデル選択のための自動化フレームワークへの最初のステップを提供する。 今後の作業は、mlops設定でのモデル選択にフォーカスする。

Due to the migration megatrend, efficient and effective second-language acquisition is vital. One proposed solution involves AI-enabled conversational agents for person-centered interactive language practice. We present results from ongoing action research targeting quality assurance of proprietary generative dialog models trained for virtual job interviews. The action team elicited a set of 38 requirements for which we designed corresponding automated test cases for 15 of particular interest to the evolving solution. Our results show that six of the test case designs can detect meaningful differences between candidate models. While quality assurance of natural language processing applications is complex, we provide initial steps toward an automated framework for machine learning model selection in the context of an evolving conversational agent. Future work will focus on model selection in an MLOps setting.
翻訳日:2022-03-30 12:55:04 公開日:2022-03-29
# 経済ニュースによる予測

Forecasting with Economic News ( http://arxiv.org/abs/2203.15686v1 )

ライセンス: Link先を確認
Luca Barbaglia, Sergio Consoli, Sebastiano Manzan(参考訳) 本研究の目的は,経済状況に関するニュース記事から抽出した感情情報の内容を評価することである。 主に2つの特徴を持つ,微粒なアスペクトベース感情分析を提案する。 1) 興味のある用語(アスペクトベース)に意味的に依存する記事中のテキストのみを考える。 2)経済や金融(きめ細かい)の応用のために開発した辞書に基づいて,各単語に感情スコアを割り当てる。 われわれのデータセットには6つの大きなアメリカの新聞があり、合計660万記事と42億語が載っている。 以上の結果から,いくつかの経済指標が事業サイクル変動の密接な追跡と,これらが4つのマクロ経済変数の関連する予測要因であることが示唆された。 感情がマクロ経済要因とともに考慮された場合の予測精度は大幅に向上した。 さらに,複数のマクロ経済変数の確率分布のテールを説明する上で感情が重要であることもわかった。

The goal of this paper is to evaluate the informational content of sentiment extracted from news articles about the state of the economy. We propose a fine-grained aspect-based sentiment analysis that has two main characteristics: 1) we consider only the text in the article that is semantically dependent on a term of interest (aspect-based) and, 2) assign a sentiment score to each word based on a dictionary that we develop for applications in economics and finance (fine-grained). Our data set includes six large US newspapers, for a total of over 6.6 million articles and 4.2 billion words. Our findings suggest that several measures of economic sentiment track closely business cycle fluctuations and that they are relevant predictors for four major macroeconomic variables. We find that there are significant improvements in forecasting when sentiment is considered along with macroeconomic factors. In addition, we also find that sentiment matters to explains the tails of the probability distribution across several macroeconomic variables.
翻訳日:2022-03-30 12:54:53 公開日:2022-03-29
# 共有表現を持つ線形バンディットの近似最小アルゴリズム

Nearly Minimax Algorithms for Linear Bandits with Shared Representation ( http://arxiv.org/abs/2203.15664v1 )

ライセンス: Link先を確認
Jiaqi Yang, Qi Lei, Jason D. Lee, Simon S. Du(参考訳) 共有表現を持つマルチタスクおよび生涯線形バンディットのための新しいアルゴリズムを提案する。 具体的には、次元$d$で$M$の線形バンディットをそれぞれ$T$のラウンドで演奏し、これらの$M$のバンディットタスクは共通の$k(\ll d)$の次元線形表現を共有する。 タスクを同時に実行するマルチタスク設定と、タスクをシーケンシャルに実行するライフサイクル設定の両方に対して、既知のミニマックスの後悔と一致し、対数的要因に縛られ、既存の結果のギャップを埋める、$\widetilde{O}\left(d\sqrt{kMT} + kM\sqrt{T}\right)$ regret boundsという新しいアルゴリズムを考案する(Yang et al., 2021]。 提案手法は,低ランク線形特徴抽出器のためのより効率的な推定器と,この推定器の新たな解析手法を含む。

We give novel algorithms for multi-task and lifelong linear bandits with shared representation. Specifically, we consider the setting where we play $M$ linear bandits with dimension $d$, each for $T$ rounds, and these $M$ bandit tasks share a common $k(\ll d)$ dimensional linear representation. For both the multi-task setting where we play the tasks concurrently, and the lifelong setting where we play tasks sequentially, we come up with novel algorithms that achieve $\widetilde{O}\left(d\sqrt{kMT} + kM\sqrt{T}\right)$ regret bounds, which matches the known minimax regret lower bound up to logarithmic factors and closes the gap in existing results [Yang et al., 2021]. Our main technique include a more efficient estimator for the low-rank linear feature extractor and an accompanied novel analysis for this estimator.
翻訳日:2022-03-30 12:53:47 公開日:2022-03-29
# (参考訳) 形状適応再構成と滑らかな全変量を持つSVMを用いたハイパースペクトル画像の分類

Classification of Hyperspectral Images Using SVM with Shape-adaptive Reconstruction and Smoothed Total Variation ( http://arxiv.org/abs/2203.15619v1 )

ライセンス: CC BY 4.0
Ruoning Li, Kangning Cui, Raymond H. Chan, Robert J. Plemmons(参考訳) 本研究では,空間的およびスペクトル的情報を十分に活用するハイパースペクトル画像の分類に,形状適応型再構成と平滑化全変動(sar-svm-stv)を用いた新しいアルゴリズムを提案する。 形状適応再構成(SaR)は、その形状適応領域における画素間のピアソン相関に基づいて各画素を前処理するために導入された。 サポートベクトルマシン(SVM)は、各クラスのピクセル単位の確率マップを推定するために訓練される。 次に,Smoothed Total Variation (STV) モデルを適用し,最終分類図を生成する。 実験により、SVM-SVM-STV法は、SVM-STV法よりも若干のトレーニングラベルで優れており、分類前のハイパースペクトル画像の再構成の重要性が示されている。

In this work, a novel algorithm called SVM with Shape-adaptive Reconstruction and Smoothed Total Variation (SaR-SVM-STV) is introduced to classify hyperspectral images, which makes full use of spatial and spectral information. The Shape-adaptive Reconstruction (SaR) is introduced to preprocess each pixel based on the Pearson Correlation between pixels in its shape-adaptive (SA) region. Support Vector Machines (SVMs) are trained to estimate the pixel-wise probability maps of each class. Then the Smoothed Total Variation (STV) model is applied to denoise and generate the final classification map. Experiments show that SaR-SVM-STV outperforms the SVM-STV method with a few training labels, demonstrating the significance of reconstructing hyperspectral images before classification.
翻訳日:2022-03-30 12:51:15 公開日:2022-03-29
# 教師なし多フレーム単眼深度に対する物体運動と咬合の遠ざかる

Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth ( http://arxiv.org/abs/2203.15174v1 )

ライセンス: Link先を確認
Ziyue Feng, Liang Yang, Longlong Jing, Haiyan Wang, YingLi Tian, Bing Li(参考訳) 従来の自己監督型単眼深度予測法は静的環境仮定に基づいており、物体の動きによって生じるミスマッチや閉塞の問題により動的シーンの精度が低下する。 既存の動的対象に着目した手法は、トレーニング損失レベルのミスマッチ問題を部分的に解決しただけである。 本稿では,これらの問題を予測と監督損失レベルの両方で解くために,新しい多フレーム単眼深度予測法を提案する。 提案手法はdynamicdepthと呼ばれ,自己教師付きサイクル一貫性学習方式を用いて学習する新しいフレームワークである。 このミスマッチ問題を解決するために,動的物体運動不等角化(domd)モジュールを提案する。 さらに, 物体運動の閉塞効果を軽減するために, 新たな閉塞量と再投射損失が設計された。 都市景観とKITTIデータセットの大規模解析と実験により,我々の手法は,特に動的物体の領域において,最先端のモノクル深度予測法よりも著しく優れていることが示された。 私たちのコードは公開されます。

Conventional self-supervised monocular depth prediction methods are based on a static environment assumption, which leads to accuracy degradation in dynamic scenes due to the mismatch and occlusion problems introduced by object motions. Existing dynamic-object-focused methods only partially solved the mismatch problem at the training loss level. In this paper, we accordingly propose a novel multi-frame monocular depth prediction method to solve these problems at both the prediction and supervision loss levels. Our method, called DynamicDepth, is a new framework trained via a self-supervised cycle consistent learning scheme. A Dynamic Object Motion Disentanglement (DOMD) module is proposed to disentangle object motions to solve the mismatch problem. Moreover, novel occlusion-aware Cost Volume and Re-projection Loss are designed to alleviate the occlusion effects of object motions. Extensive analyses and experiments on the Cityscapes and KITTI datasets show that our method significantly outperforms the state-of-the-art monocular depth prediction methods, especially in the areas of dynamic objects. Our code will be made publicly available.
翻訳日:2022-03-30 12:44:04 公開日:2022-03-29
# barc: 品種情報を活用した画像から3d犬の形状を復元する学習

BARC: Learning to Regress 3D Dog Shape from Images by Exploiting Breed Information ( http://arxiv.org/abs/2203.15536v1 )

ライセンス: Link先を確認
Nadine Rueegg, Silvia Zuffi, Konrad Schindler and Michael J. Black(参考訳) 私たちのゴールは、1枚の画像から犬の3D形状とポーズを復元することです。 犬には様々な形や外観があり、高い調音性があるため、これは難しい課題である。 近年の研究では、画像から手足のスケールパラメータを追加してSMAL動物モデルを直接回帰する研究が提案されている。 我々の手法はBARC(Breed-Augmented Regression using Classification)と呼ばれ、いくつかの重要な方法で先行作業を越えています。 まず,犬形を表すのに適したSMAL形状空間を修正した。 しかし、より優れた形状モデルであっても、画像から犬の形を後退させる問題は、私たちが3dの地中真実とペア画像が欠如しているため、依然として困難である。 ペアデータの欠如を補うために,犬種に関する情報を利用する新たな損失を定式化する。 特に、同じ品種の犬が同じ体型をしているという事実を利用する。 1つの用語は、同じ品種の犬の形が、異なる品種の犬とよりよく似ていることを奨励する。 2つ目は品種分類の損失であり、識別可能な種特異的な形状を作るのに役立つ。 アブレーション研究により、我々の品種の損失は、ベースラインの形状精度を大幅に向上させることがわかった。 また、BARCをWLDOと比較し、我々のアプローチがより現実的な犬を生み出すことを発見した。 この研究は、遺伝子類似性に関するアプリオリ情報が、3Dトレーニングデータの欠如を補うのに役立つことを示している。 この概念は、他の動物種や種群にも適用できる。 私たちのコードは https://barc.is.tue.mpg.de/ で公開されています。

Our goal is to recover the 3D shape and pose of dogs from a single image. This is a challenging task because dogs exhibit a wide range of shapes and appearances, and are highly articulated. Recent work has proposed to directly regress the SMAL animal model, with additional limb scale parameters, from images. Our method, called BARC (Breed-Augmented Regression using Classification), goes beyond prior work in several important ways. First, we modify the SMAL shape space to be more appropriate for representing dog shape. But, even with a better shape model, the problem of regressing dog shape from an image is still challenging because we lack paired images with 3D ground truth. To compensate for the lack of paired data, we formulate novel losses that exploit information about dog breeds. In particular, we exploit the fact that dogs of the same breed have similar body shapes. We formulate a novel breed similarity loss consisting of two parts: One term encourages the shape of dogs from the same breed to be more similar than dogs of different breeds. The second one, a breed classification loss, helps to produce recognizable breed-specific shapes. Through ablation studies, we find that our breed losses significantly improve shape accuracy over a baseline without them. We also compare BARC qualitatively to WLDO with a perceptual study and find that our approach produces dogs that are significantly more realistic. This work shows that a-priori information about genetic similarity can help to compensate for the lack of 3D training data. This concept may be applicable to other animal species or groups of species. Our code is publicly available for research purposes at https://barc.is.tue.mpg.de/.
翻訳日:2022-03-30 12:43:46 公開日:2022-03-29
# コントラスト学習と非コントラスト学習のランドスケープ

Contrasting the landscape of contrastive and non-contrastive learning ( http://arxiv.org/abs/2203.15702v1 )

ライセンス: Link先を確認
Ashwini Pokle, Jinjin Tian, Yuchen Li, Andrej Risteski(参考訳) 教師なし機能学習の最近の進歩は、セマンティックデータ拡張の下で不変な機能の設計に基づいている。 これを行う一般的な方法は、正のサンプルと負のサンプルを使用するコントラスト学習である。 しかし、いくつかの最近の研究は、負のサンプルを必要としない非矛盾学習に有望な結果を示している。 しかし、非競合損失は明らかに「崩壊した」ミニマであり、エンコーダは入力とは独立に一定の特徴埋め込みを出力する。 民間の予想では、これらの崩壊した解が避けられる限り、生成した特徴表現は良いはずである。 本論では, 単純なデータモデルにおいても, 非競合性損失は非衝突性ミニマの前兆となる, 理論的結果と制御実験について論じる。 さらに、トレーニングプロセスはこれらのミニマを避けないことを示す。

A lot of recent advances in unsupervised feature learning are based on designing features which are invariant under semantic data augmentations. A common way to do this is contrastive learning, which uses positive and negative samples. Some recent works however have shown promising results for non-contrastive learning, which does not require negative samples. However, the non-contrastive losses have obvious "collapsed" minima, in which the encoders output a constant feature embedding, independent of the input. A folk conjecture is that so long as these collapsed solutions are avoided, the produced feature representations should be good. In our paper, we cast doubt on this story: we show through theoretical results and controlled experiments that even on simple data models, non-contrastive losses have a preponderance of non-collapsed bad minima. Moreover, we show that the training process does not avoid these minima.
翻訳日:2022-03-30 12:43:21 公開日:2022-03-29
# グラフニューラルネットワークは動的プログラマである

Graph Neural Networks are Dynamic Programmers ( http://arxiv.org/abs/2203.15544v1 )

ライセンス: Link先を確認
Andrew Dudzik, Petar Veli\v{c}kovi\'c(参考訳) グラフニューラルネットワーク(GNN)を用いたニューラルアルゴリズム推論の最近の進歩は、アルゴリズムアライメントの概念によって支えられている。 ニューラルネットワークは、個々のコンポーネントがターゲットアルゴリズムとうまく一致している場合、推論タスク(サンプルの複雑さの観点から)の実行を学習するのがよいでしょう。 特に、GNNは、多くの多項式時間アルゴリズムを表現する一般的な問題解決戦略である動的プログラミング(DP)と整合していると主張されている。 しかし、このアライメントは本当に実証され、理論的に定量化されましたか? ここでは、圏論と抽象代数学の手法を用いて、GNNとDPの間に複雑な関係があることを示し、ベルマン・フォードのような個々のアルゴリズムに対する最初の観測をはるかに超えている。 この接続を公開し、文献におけるいくつかの先行的な発見を容易に検証し、より強力なアルゴリズムに整合したGNNを構築する基盤となることを期待する。

Recent advances in neural algorithmic reasoning with graph neural networks (GNNs) are propped up by the notion of algorithmic alignment. Broadly, a neural network will be better at learning to execute a reasoning task (in terms of sample complexity) if its individual components align well with the target algorithm. Specifically, GNNs are claimed to align with dynamic programming (DP), a general problem-solving strategy which expresses many polynomial-time algorithms. However, has this alignment truly been demonstrated and theoretically quantified? Here we show, using methods from category theory and abstract algebra, that there exists an intricate connection between GNNs and DP, going well beyond the initial observations over individual algorithms such as Bellman-Ford. Exposing this connection, we easily verify several prior findings in the literature, and hope it will serve as a foundation for building stronger algorithmically aligned GNNs.
翻訳日:2022-03-30 12:42:59 公開日:2022-03-29
# ニューラルテキスト生成器のデコード戦略について

On Decoding Strategies for Neural Text Generators ( http://arxiv.org/abs/2203.15721v1 )

ライセンス: Link先を確認
Gian Wiher, Clara Meister, Ryan Cotterell(参考訳) 確率モデルからテキストを生成する場合、選択された復号化戦略は結果のテキストに大きな影響を与える。 しかし、様々なデコーディング戦略によって引き起こされる特性は、必ずしも自然言語生成タスク間で転送されるわけではない。 例えば、ビームサーチのようなモード探索手法は機械翻訳において極めてよく機能するが、ストーリー生成において不整合かつ反復的なテキストにつながることが観察されている。 このような観察にもかかわらず、復号戦略の有効性は単一のタスクに対して評価されることが多い。 これとは対照的に,この作業は,言語生成タスクとデコード戦略間のインタラクションを包括的に分析するものだ。 具体的には,人間と自動評価を用いて,生成したテキストの属性の変化を復号化戦略とタスクの両方の機能として測定する。 以上の結果から,これまでの観察値と驚き値の両方が明らかとなった。 例えば、言語生成における多様性品質のトレードオフの性質は非常にタスク固有であり、ビーム探索に起因する長さバイアスはタスク全体にわたって一定ではない。

When generating text from probabilistic models, the chosen decoding strategy has a profound effect on the resulting text. Yet the properties elicited by various decoding strategies do not always transfer across natural language generation tasks. For example, while mode-seeking methods like beam search perform remarkably well for machine translation, they have been observed to lead to incoherent and repetitive text in story generation. Despite such observations, the effectiveness of decoding strategies is often assessed with respect to only a single task. This work -- in contrast -- provides a comprehensive analysis of the interaction between language generation tasks and decoding strategies. Specifically, we measure changes in attributes of generated text as a function of both decoding strategy and task using human and automatic evaluation. Our results reveal both previously-observed and surprising findings. For example, the nature of the diversity-quality trade-off in language generation is very task-specific; the length bias often attributed to beam search is not constant across tasks.
翻訳日:2022-03-30 12:40:59 公開日:2022-03-29
# オンザフライグラディエント変調によるバランス付きマルチモーダル学習

Balanced Multimodal Learning via On-the-fly Gradient Modulation ( http://arxiv.org/abs/2203.15332v1 )

ライセンス: Link先を確認
Xiaokang Peng, Yake Wei, Andong Deng, Dong Wang and Di Hu(参考訳) マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。 したがって、複数の入力モダリティはモデル性能を高めることが期待されているが、実際には、マルチモーダルモデルがユニモーダルモデルよりも優れている場合でも、完全には利用されない。 具体的には,一様目的がすべてのモダリティに対して設計されている既存のマルチモーダル識別モデルは,吹風時の音,図面イベントの視覚など,いくつかのシナリオにおいて他の支配的なモダリティによって引き起こされる,過度に最適化されたユニモーダル表現に留まる可能性があることを指摘する。 この最適化の不均衡を緩和するために,学習目標に対する貢献の相違を監視し,各モダリティの最適化を適応的に制御するオンザフライ勾配変調を提案する。 さらに、勾配変調による一般化低下を回避するために、動的に変化するガウス雑音を導入する。 その結果、異なるマルチモーダルタスクにおける共通融合法よりも大幅に改善され、この単純な戦略は既存のマルチモーダルメソッドを向上し、その有効性と汎用性を示している。 ソースコードは \url{https://github.com/gewu-lab/ogm-ge_cvpr2022} で入手できる。

Multimodal learning helps to comprehensively understand the world, by integrating different senses. Accordingly, multiple input modalities are expected to boost model performance, but we actually find that they are not fully exploited even when the multimodal model outperforms its uni-modal counterpart. Specifically, in this paper we point out that existing multimodal discriminative models, in which uniform objective is designed for all modalities, could remain under-optimized uni-modal representations, caused by another dominated modality in some scenarios, e.g., sound in blowing wind event, vision in drawing picture event, etc. To alleviate this optimization imbalance, we propose on-the-fly gradient modulation to adaptively control the optimization of each modality, via monitoring the discrepancy of their contribution towards the learning objective. Further, an extra Gaussian noise that changes dynamically is introduced to avoid possible generalization drop caused by gradient modulation. As a result, we achieve considerable improvement over common fusion methods on different multimodal tasks, and this simple strategy can also boost existing multimodal methods, which illustrates its efficacy and versatility. The source code is available at \url{https://github.com/GeWu-Lab/OGM-GE_CVPR2022}.
翻訳日:2022-03-30 12:40:44 公開日:2022-03-29
# 計算最適大言語モデルの学習

Training Compute-Optimal Large Language Models ( http://arxiv.org/abs/2203.15556v1 )

ライセンス: Link先を確認
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre(参考訳) 与えられた計算予算の下でトランスフォーマー言語モデルを訓練するための最適なモデルサイズとトークン数について検討する。 現在の大規模言語モデルは、トレーニングデータの量を一定に保ちながら、最近の言語モデルのスケーリングに焦点を当てた結果、大幅に過小評価されている。 7000万から160億以上のパラメータを5億から500億のトークンでトレーニングすることで、計算最適化トレーニングでは、モデルサイズとトレーニングトークンの数を等しくスケールアップする必要があります。 我々は、予測された計算最適化モデル \chinchilla を訓練し、70B パラメータと 4$\times$ 以上のデータを持つ \gopher と同じ計算予算を用いて、この仮説を検証した。 280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)は、幅広い下流評価タスクにおいて一様かつ著しく優れていた。 これはまた、 \chinchilla が微調整と推論のために計算量を大幅に削減し、下流の使用を大幅に促進することを意味する。 強調として、 \chinchillaは、MMLUベンチマークで最先端の平均精度67.5\%に達し、 \gopherよりも7%以上改善されている。

We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling language models whilst keeping the amount of training data constant. By training over \nummodels language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled. We test this hypothesis by training a predicted compute-optimal model, \chinchilla, that uses the same compute budget as \gopher but with 70B parameters and 4$\times$ more more data. \chinchilla uniformly and significantly outperforms \Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of downstream evaluation tasks. This also means that \chinchilla uses substantially less compute for fine-tuning and inference, greatly facilitating downstream usage. As a highlight, \chinchilla reaches a state-of-the-art average accuracy of 67.5\% on the MMLU benchmark, greater than a 7\% improvement over \gopher.
翻訳日:2022-03-30 12:39:57 公開日:2022-03-29
# (参考訳) ゼロショット設定における複数選択タスク間のプロンプト評価

Evaluating Prompts Across Multiple Choice Tasks In a Zero-Shot Setting ( http://arxiv.org/abs/2203.15754v1 )

ライセンス: CC0 1.0
Gabriel Orlanski(参考訳) 大規模な言語モデルでは、自然言語プロンプト(Radford et al., 2019; Brown et al., 2020; Sanh et al., 2021)を通じて、印象的なゼロショットのパフォーマンスが達成可能であることが示されている。 しかし、効果的なプロンプトを作成するには、かなりの試行錯誤が必要である。 その \textit{prompts} という質問は、プロンプトの品質はそのパフォーマンスにどのように影響しますか? この目的のために、設計されていないタスクで使用するさまざまなタスクからプロンプトを収集し、標準化する。 次に、固定された複数の選択データセット間でこれらのプロンプトを評価し、プロンプトの特定の属性がパフォーマンスに与える影響を定量的に分析する。 事前トレーニングで使用しない選択やプロンプトの使用を含めると、大幅な改善が期待できる。 すべての実験とコードはhttps://github.com/gabeorlanski/zero-shot-cross-taskで見ることができる。

Large language models have shown that impressive zero-shot performance can be achieved through natural language prompts (Radford et al., 2019; Brown et al., 2020; Sanh et al., 2021). Creating an effective prompt, however, requires significant trial and error. That \textit{prompts} the question: how do the qualities of a prompt effects its performance? To this end, we collect and standardize prompts from a diverse range of tasks for use with tasks they were not designed for. We then evaluate these prompts across fixed multiple choice datasets for a quantitative analysis of how certain attributes of a prompt affect performance. We find that including the choices and using prompts not used during pre-training provide significant improvements. All experiments and code can be found https://github.com/gabeorlanski/zero-shot-cross-task.
翻訳日:2022-03-30 12:37:29 公開日:2022-03-29
# envedit: 視覚言語ナビゲーションのための環境編集

EnvEdit: Environment Editing for Vision-and-Language Navigation ( http://arxiv.org/abs/2203.15685v1 )

ライセンス: Link先を確認
Jialu Li, Hao Tan, Mohit Bansal(参考訳) Vision-and-Language Navigation (VLN)では、エージェントは自然言語命令に基づいて環境をナビゲートする必要がある。 エージェントトレーニングのための限られたデータとナビゲーション環境における有限な多様性のため、エージェントが新しい、目に見えない環境に一般化することは困難である。 そこで本研究では,より汎用的なエージェントの訓練に使用される既存環境を編集することにより,新しい環境を創り出すデータ拡張手法であるenveditを提案する。 私たちの拡張環境は、スタイル、オブジェクトの外観、オブジェクトクラスという3つの異なる側面で、見かけた環境と異なります。 これらの編集可能な環境のトレーニングは、エージェントが既存の環境に過度に適合することを防ぎ、新しい目に見えない環境に一般化するのに役立つ。 実験として,ルームツールームとマルチランゲージのルームアクロスルームデータセットの両方において,提案手法が事前学習および非訓練vlnエージェントにおいて,すべてのメトリクスに大幅な改善を施し,テストリーダボード上で新たな最先端を実現することを示す。 さらに,異なる編集環境に拡張されたvlnエージェントを整理し,これらの編集手法が相補的であることを示す。 コードとデータはhttps://github.com/jialuli-luka/EnvEditで公開されている。

In Vision-and-Language Navigation (VLN), an agent needs to navigate through the environment based on natural language instructions. Due to limited available data for agent training and finite diversity in navigation environments, it is challenging for the agent to generalize to new, unseen environments. To address this problem, we propose EnvEdit, a data augmentation method that creates new environments by editing existing environments, which are used to train a more generalizable agent. Our augmented environments can differ from the seen environments in three diverse aspects: style, object appearance, and object classes. Training on these edit-augmented environments prevents the agent from overfitting to existing environments and helps generalize better to new, unseen environments. Empirically, on both the Room-to-Room and the multi-lingual Room-Across-Room datasets, we show that our proposed EnvEdit method gets significant improvements in all metrics on both pre-trained and non-pre-trained VLN agents, and achieves the new state-of-the-art on the test leaderboard. We further ensemble the VLN agents augmented on different edited environments and show that these edit methods are complementary. Code and data are available at https://github.com/jialuli-luka/EnvEdit
翻訳日:2022-03-30 12:23:00 公開日:2022-03-29
# ぼやけたタスク境界を持つ汚染データストリーム上でのオンライン連続学習

Online Continual Learning on a Contaminated Data Stream with Blurry Task Boundaries ( http://arxiv.org/abs/2203.15355v1 )

ライセンス: Link先を確認
Jihwan Bang, Hyunseo Koh, Seulki Park, Hwanjun Song, Jung-Woo Ha, Jonghyun Choi(参考訳) 不正確なラベルで継続的に変化するデータ分布の下で学ぶことは、現実世界で望ましい問題である。 しかし、多くの連続学習(cl)手法では、クリーンなラベルでデータストリームを想定しており、ノイズの多いデータストリームの下でのオンライン学習シナリオは未検討のままである。 我々は、既存のCLメソッドが苦労しているラベル付きぼやけたデータストリームからオンライン学習のより実用的なCLタスク設定を検討する。 この課題に対処するために、我々はまず、連続学習モデルのエピソード記憶におけるサンプルの多様性と純度の重要性を論じる。 エピソジックメモリの多様性と純度をバランスさせるため,ラベルノイズを認識した多種多様なサンプリングとロバスト学習と半教師付き学習の統一的アプローチにより,メモリの管理と利用を行う新しい手法を提案する。 実世界の4つの合成ノイズデータセット(CIFAR10,100,mini-WebVision,Food-101N)に対する実証的検証により,本手法は,この現実的で挑戦的な連続学習シナリオにおいて,先行技術よりも著しく優れていることが示された。 コードとデータの分割はhttps://github.com/clovaai/puridiverで確認できる。

Learning under a continuously changing data distribution with incorrect labels is a desirable real-world problem yet challenging. A large body of continual learning (CL) methods, however, assumes data streams with clean labels, and online learning scenarios under noisy data streams are yet underexplored. We consider a more practical CL task setup of an online learning from blurry data stream with corrupted labels, where existing CL methods struggle. To address the task, we first argue the importance of both diversity and purity of examples in the episodic memory of continual learning models. To balance diversity and purity in the episodic memory, we propose a novel strategy to manage and use the memory by a unified approach of label noise aware diverse sampling and robust learning with semi-supervised learning. Our empirical validations on four real-world or synthetic noise datasets (CIFAR10 and 100, mini-WebVision, and Food-101N) exhibit that our method significantly outperforms prior arts in this realistic and challenging continual learning scenario. Code and data splits are available in https://github.com/clovaai/puridiver.
翻訳日:2022-03-30 12:21:39 公開日:2022-03-29
# AutoCoMet: 共規制型シェーピング強化によるスマートニューラルネットワーク検索

AutoCoMet: Smart Neural Architecture Search via Co-Regulated Shaping Reinforcement ( http://arxiv.org/abs/2203.15408v1 )

ライセンス: Link先を確認
Mayukh Das, Brijraj Singh, Harsh Kanti Chheda, Pawan Sharma, Pradeep NS(参考訳) AI駆動のオンデバイスアプリや機能のための適切なディープモデルアーキテクチャの設計は、急速に進化するモバイルハードウェアや、ますます複雑なターゲットシナリオと同等である。 ニューラルネットワーク検索(nas/automl)は、パラダイムを広範囲な手動作業からデータから自動アーキテクチャ学習に移行することで、これを容易にするが、大きな制限があり、モデルハードウェアの忠実性、禁止された検索時間、主要ターゲット目標からの逸脱など、モバイルデバイスのコンテキストにおける重大なボトルネックにつながる。 そこで我々は,さまざまなタイプのデバイスハードウェアやタスクコンテキストに最適化されたDNNアーキテクチャを,約3倍高速に学習できるAutoCoMetを提案する。 提案手法は,高忠実度ハードウェアメタ動作予測器と協調して,任意の種類のマルチクオリティ最適化のための一般化された形式的手法により,文脈に適応するスマートかつ高速なnasフレームワークを製作する。

Designing suitable deep model architectures, for AI-driven on-device apps and features, at par with rapidly evolving mobile hardware and increasingly complex target scenarios is a difficult task. Though Neural Architecture Search (NAS/AutoML) has made this easier by shifting paradigm from extensive manual effort to automated architecture learning from data, yet it has major limitations, leading to critical bottlenecks in the context of mobile devices, including model-hardware fidelity, prohibitive search times and deviation from primary target objective(s). Thus, we propose AutoCoMet that can learn the most suitable DNN architecture optimized for varied types of device hardware and task contexts, ~ 3x faster. Our novel co-regulated shaping reinforcement controller together with the high fidelity hardware meta-behavior predictor produces a smart, fast NAS framework that adapts to context via a generalized formalism for any kind of multi-criteria optimization.
翻訳日:2022-03-30 12:21:16 公開日:2022-03-29
# (参考訳) ARCS:正確な回転と対応検索

ARCS: Accurate Rotation and Correspondence Search ( http://arxiv.org/abs/2203.14493v2 )

ライセンス: CC BY 4.0
Liangzu Peng and Manolis C. Tsakiris and Ren\'e Vidal(参考訳) 本稿では、「同時回転・対応探索」と呼ばれる、より一般的な形での古いワフバ問題について述べる。 この一般化では、それぞれ$m$と$n$の2つの部分重なり合う3$D点集合と$m\geq n$のそれぞれを合わせる回転を見つける必要がある。 まず最初に、$\texttt{ARCS}$という解決法を提案します。 一 一般位置における雑音のない点集合を仮定すること。 ii) 2ドルのイリアーのみを必要とする。 iii)$O(m\log m)$ timeと$O(m)$ spaceを使用し、 例えば、$m,n\approx 10^6$ を約0.1$秒で解決できる。 次に、ノイズに対して$\texttt{ARCS}$をロバスト化し、ロバストな部分空間学習とインターバルスタビングのアイデアを用いたコンセンサス最大化問題を概ね解決する。 第3に、単位四元数空間上のリーマン次階降下法(英語版)(Riemannian subgradient descent approach)によって設定された約定値のコンセンサスを洗練し、これは、$O(\varepsilon^{-4})$イテレーションにおける$\varepsilon$-定常点、あるいは雑音がない場合の線形速度で局所的に基底トラスに収束することを示す。 これらのアルゴリズムを$\texttt{ARCS+}$に組み合わせ、回転と対応を同時に検索する。 実験によると、$\texttt{ARCS+}$は10^6$以上の大規模データセットで、代替メソッドよりも10^4$のタイムスピードアップで最先端のパフォーマンスを達成する。 \url{https://github.com/liangzu/ARCS}

This paper is about the old Wahba problem in its more general form, which we call "simultaneous rotation and correspondence search". In this generalization we need to find a rotation that best aligns two partially overlapping $3$D point sets, of sizes $m$ and $n$ respectively with $m\geq n$. We first propose a solver, $\texttt{ARCS}$, that i) assumes noiseless point sets in general position, ii) requires only $2$ inliers, iii) uses $O(m\log m)$ time and $O(m)$ space, and iv) can successfully solve the problem even with, e.g., $m,n\approx 10^6$ in about $0.1$ seconds. We next robustify $\texttt{ARCS}$ to noise, for which we approximately solve consensus maximization problems using ideas from robust subspace learning and interval stabbing. Thirdly, we refine the approximately found consensus set by a Riemannian subgradient descent approach over the space of unit quaternions, which we show converges globally to an $\varepsilon$-stationary point in $O(\varepsilon^{-4})$ iterations, or locally to the ground-truth at a linear rate in the absence of noise. We combine these algorithms into $\texttt{ARCS+}$, to simultaneously search for rotations and correspondences. Experiments show that $\texttt{ARCS+}$ achieves state-of-the-art performance on large-scale datasets with more than $10^6$ points with a $10^4$ time-speedup over alternative methods. \url{https://github.com/liangzu/ARCS}
翻訳日:2022-03-30 11:50:24 公開日:2022-03-29
# (参考訳) 多言語同時音声翻訳

Multilingual Simultaneous Speech Translation ( http://arxiv.org/abs/2203.14835v2 )

ライセンス: CC BY 4.0
Shashank Subramanya, Jan Niehues(参考訳) 会議や会議などのイベント中に同時に音声翻訳を行うために設計されたアプリケーションは、優れたユーザエクスペリエンスを提供するために翻訳テキストを表示しながら、品質と遅延のバランスを取る必要がある。 オンライン音声翻訳システムを構築する一般的なアプローチは、オフライン音声翻訳用に構築されたモデルを活用することである。 エンド・ツー・エンドのモノリンガルモデルを適応させる手法に基づいて、オンライン音声翻訳を行う上での多言語モデルと異なるアーキテクチャ(エンド・ツー・エンド、カスケード)について検討する。 多言語TEDxコーパスでは、アプローチが異なるアーキテクチャに一般化されることを示す。 言語やアーキテクチャのレイテンシ低減(40%相対)も同様に向上しています。 しかし、エンドツーエンドアーキテクチャは、オンラインモデルに適応した後、翻訳品質の損失を小さくする。 さらに、このアプローチはゼロショット方向までスケールする。

Applications designed for simultaneous speech translation during events such as conferences or meetings need to balance quality and lag while displaying translated text to deliver a good user experience. One common approach to building online spoken language translation systems is by leveraging models built for offline speech translation. Based on a technique to adapt end-to-end monolingual models, we investigate multilingual models and different architectures (end-to-end and cascade) on the ability to perform online speech translation. On the multilingual TEDx corpus, we show that the approach generalizes to different architectures. We see similar gains in latency reduction (40% relative) across languages and architectures. However, the end-to-end architecture leads to smaller translation quality losses after adapting to the online model. Furthermore, the approach even scales to zero-shot directions.
翻訳日:2022-03-30 10:58:38 公開日:2022-03-29
# 文脈における音声テキスト検索

Audio-text Retrieval in Context ( http://arxiv.org/abs/2203.13645v2 )

ライセンス: Link先を確認
Siyu Lou, Xuenan Xu, Mengyue Wu, Kai Yu(参考訳) 自然言語記述に基づく音声テキスト検索は難しい課題である。 不適切なデータ条件下で長いシーケンス間の相互モダリティアライメントを学ぶことを含む。 本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。 さらに,質的分析を通じて,文脈検索において意味マッピングが時間的関係よりも重要であることを確認する。 事前学習された音声機能とディスクリプタに基づく集約手法を用いて,文脈音声テキスト検索システムを構築する。 具体的には,大規模な音響イベントデータセットとNetRVLADプーリングで事前トレーニングされたPANNの機能を利用する。 実験はAudioCapsとCLOTHOデータセットで行われ、その結果は以前の最先端システムと比較される。 提案システムでは,リコール,中央値,平均ランクなどすべての指標において,双方向音声テキスト検索において大きな改善が得られた。

Audio-text retrieval based on natural language descriptions is a challenging task. It involves learning cross-modality alignments between long sequences under inadequate data conditions. In this work, we investigate several audio features as well as sequence aggregation methods for better audio-text alignment. Moreover, through a qualitative analysis we observe that semantic mapping is more important than temporal relations in contextual retrieval. Using pre-trained audio features and a descriptor-based aggregation method, we build our contextual audio-text retrieval system. Specifically, we utilize PANNs features pre-trained on a large sound event dataset and NetRVLAD pooling, which directly works with averaged descriptors. Experiments are conducted on the AudioCaps and CLOTHO datasets, and results are compared with the previous state-of-the-art system. With our proposed system, a significant improvement has been achieved on bidirectional audio-text retrieval, on all metrics including recall, median and mean rank.
翻訳日:2022-03-30 10:50:03 公開日:2022-03-29
# ベイズ最適化を用いた安全制約付き粒子加速器のチューニング

Tuning Particle Accelerators with Safety Constraints using Bayesian Optimization ( http://arxiv.org/abs/2203.13968v2 )

ライセンス: Link先を確認
Johannes Kirschner, Mojmir Mutn\'y, Andreas Krause, Jaime Coello de Portugal, Nicole Hiller, Jochem Snuverink(参考訳) 粒子加速器の機械パラメータのチューニングは反復的かつ時間のかかる作業であり、自動化が難しい。 多くのオフ・ザ・シェルフ最適化アルゴリズムが利用可能であるが、実際には、ほとんどのメソッドは、損失信号やステップサイズ制限を含む各イテレーションに適用される安全クリティカルな制約を考慮しないため、使用が制限されている。 注目すべき例外はsafe bayesian optimizationである。これは、ノイズの多いフィードバックを伴うグローバル最適化のためのデータ駆動チューニングアプローチである。 我々は,paul scherrer institut (psi) の2つの研究領域における安全ベイズ最適化のステップサイズ限定型を提案し,評価する。 a)スイス自由電子レーザー(SwissFEL)及び b)高強度陽子加速器(HIPA) 我々は,200以上の制約を受ける16個のパラメータをチューニングし,両マシンの有望な実験結果について報告する。

Tuning machine parameters of particle accelerators is a repetitive and time-consuming task, that is challenging to automate. While many off-the-shelf optimization algorithms are available, in practice their use is limited because most methods do not account for safety-critical constraints that apply to each iteration, including loss signals or step-size limitations. One notable exception is safe Bayesian optimization, which is a data-driven tuning approach for global optimization with noisy feedback. We propose and evaluate a step size-limited variant of safe Bayesian optimization on two research faculties of the Paul Scherrer Institut (PSI): a) the Swiss Free Electron Laser (SwissFEL) and b) the High-Intensity Proton Accelerator (HIPA). We report promising experimental results on both machines, tuning up to 16 parameters subject to more than 200 constraints.
翻訳日:2022-03-30 10:49:49 公開日:2022-03-29
# 4ボソン正規化群極限サイクルに関する新しい知見

New insights into four-boson renormalization group limit cycles ( http://arxiv.org/abs/2203.14597v2 )

ライセンス: Link先を確認
Bastian Kaspschak, Ulf-G. Mei{\ss}ner(参考訳) 機械学習技術を用いて,単位極限を超える再正規化群制限サイクルの出現が,3ボソンサブシステムから4ボソンシステム全体へ伝達されることを検証する。 4つの同一ボソンに着目して、変分オートエンコーダの強化されたアンサンブルの潜在空間内で合成特異ポテンシャルの集団を生成する。 制限サイクルの挙動から与えられた再正規化群フローの偏差を測定するための制限サイクル損失を導入した後, 得られた集団にエリート的遺伝的アルゴリズムを適用して最小化する。 フィットテストポテンシャルは逆二乗ポテンシャルの周りに蓄積し、4つのボソンの極限サイクルを生成し、既に3つのボソン系で極限サイクルを生成することが知られている。 これはまた、4体の項が先行する順序で低エネルギーの観測値に入り込まないことを示唆している。

Using machine learning techniques, we verify that the emergence of renormalization group limit cycles beyond the unitary limit is transferred from the three-boson subsystems to the whole four-boson system. Focussing on four identical bosons, we first generate populations of synthetic singular potentials within the latent space of a boosted ensemble of variational autoencoders. After introducing the limit cycle loss for measuring the deviation of a given renormalization group flow from limit cycle behavior, we minimize it by applying an elitist genetic algorithm to the generated populations. The fittest potentials are observed to accumulate around the inverse-square potential, which we prove to generate limit cycles for four bosons and which is already known to produce limit cycles in the three-boson system. This also indicates that a four-body term does not enter low-energy observables at leading order, since we do not observe any additional scale to emerge.
翻訳日:2022-03-30 10:49:35 公開日:2022-03-29
# (参考訳) 画像アニメーションのための薄板スプライン運動モデル

Thin-Plate Spline Motion Model for Image Animation ( http://arxiv.org/abs/2203.14367v2 )

ライセンス: CC BY 4.0
Jian Zhao and Hui Zhang(参考訳) イメージアニメーションは、駆動ビデオに従って、ソースイメージ内の静的オブジェクトに生命をもたらす。 近年の研究では、事前知識を使わずに、教師なし手法による任意の物体の移動を試みている。 しかし、ソース内のオブジェクトとイメージの駆動との間に大きなポーズギャップがある場合、現在の教師なしメソッドでは依然として大きな課題である。 本稿では,この問題を解決するために,新しいエンドツーエンドの非教師ありモーショントランスファーフレームワークを提案する。 まず, より柔軟な光流を生成するために, 薄板のスプライン運動推定を提案し, 原画像の特徴地図を駆動画像の特徴領域にゆがめる。 第2に, 欠落領域をより現実的に復元するために, マルチレゾリューション・オクルージョン・マスクを用いてより効果的な特徴融合を実現する。 最後に、ネットワークモジュールに明らかな分業を保証するために補助損失関数が設計され、ネットワークが高品質な画像を生成するように促される。 提案手法は,話し相手や人体,ピクセルアニメーションなど,さまざまな物体をアニメーション化することができる。 実験により,ポーズ関連指標の可視性が向上し,ほとんどのベンチマークで性能が向上することを示した。

Image animation brings life to the static object in the source image according to the driving video. Recent works attempt to perform motion transfer on arbitrary objects through unsupervised methods without using a priori knowledge. However, it remains a significant challenge for current unsupervised methods when there is a large pose gap between the objects in the source and driving images. In this paper, a new end-to-end unsupervised motion transfer framework is proposed to overcome such issue. Firstly, we propose thin-plate spline motion estimation to produce a more flexible optical flow, which warps the feature maps of the source image to the feature domain of the driving image. Secondly, in order to restore the missing regions more realistically, we leverage multi-resolution occlusion masks to achieve more effective feature fusion. Finally, additional auxiliary loss functions are designed to ensure that there is a clear division of labor in the network modules, encouraging the network to generate high-quality images. Our method can animate a variety of objects, including talking faces, human bodies, and pixel animations. Experiments demonstrate that our method performs better on most benchmarks than the state of the art with visible improvements in pose-related metrics.
翻訳日:2022-03-30 10:48:06 公開日:2022-03-29
# MQDD: ソフトウェアエンジニアリング領域におけるマルチモーダル質問重複検出の事前トレーニング

MQDD: Pre-training of Multimodal Question Duplicity Detection for Software Engineering Domain ( http://arxiv.org/abs/2203.14093v2 )

ライセンス: Link先を確認
Jan Pa\v{s}ek, Jakub Sido, Miloslav Konop\'ik, Ond\v{r}ej Pra\v{z}\'ak(参考訳) 本稿では,stack overflow webサイトで収集したデータを活用して,質問応答webサイトの重複を検索するためのマルチモーダルモデルを事前学習する新たなパイプラインを提案する。 マルチモーダルモデルは、複数のプログラミング言語の質問記述とソースコードに基づいて訓練されています。 重複検出能力を改善するために,新たな学習目標を2つ設計する。 この研究の成果は、成熟した微調整されたマルチモーダル質問ダプライシティ検出(mqdd)モデルであり、スタックオーバーフロー検索システムに統合される準備ができており、すでに回答された質問に対する回答を見つけるのに役立ちます。 MQDDモデルとともに、ソフトウェアエンジニアリングドメインに関連する2つのデータセットをリリースします。 最初のstack overflowデータセット(sod)は、ペアの質問と回答の巨大なコーパスを表している。 第2のStack Overflow Duplicity Dataset(SODD)には、重複検出モデルをトレーニングするためのデータが含まれている。

This work proposes a new pipeline for leveraging data collected on the Stack Overflow website for pre-training a multimodal model for searching duplicates on question answering websites. Our multimodal model is trained on question descriptions and source codes in multiple programming languages. We design two new learning objectives to improve duplicate detection capabilities. The result of this work is a mature, fine-tuned Multimodal Question Duplicity Detection (MQDD) model, ready to be integrated into a Stack Overflow search system, where it can help users find answers for already answered questions. Alongside the MQDD model, we release two datasets related to the software engineering domain. The first Stack Overflow Dataset (SOD) represents a massive corpus of paired questions and answers. The second Stack Overflow Duplicity Dataset (SODD) contains data for training duplicate detection models.
翻訳日:2022-03-30 10:35:08 公開日:2022-03-29
# MFSNet:皮膚病変分割のためのマルチフォーカスセグメントネットワーク

MFSNet: A Multi Focus Segmentation Network for Skin Lesion Segmentation ( http://arxiv.org/abs/2203.14341v2 )

ライセンス: Link先を確認
Hritam Basak, Rohit Kundu, Ram Sarkar(参考訳) 医学画像解析において, 形態変化を計測し, 識別的特徴を抽出し, さらなる診断を行うためには, セグメンテーションが不可欠である。 皮膚がんは世界でも最も一般的ながんの1つであり、その早期診断は体から悪性腫瘍を完全に取り除く上で重要である。 本研究は,深層学習を用いた皮膚病変の制御のための人工知能(AI)フレームワークを開発する。 MFSNet(Multi-Focus Segmentation Network)と呼ばれるこのフレームワークは、皮膚病変の生のRGB画像を用いて最終セグメンテーションマスクを計算するために、異なるスケールのフィーチャマップを使用する。 まず最初に、画像は不要なアーティファクトやノイズを取り除くために前処理される。 mfsnetは、最近提案された畳み込みニューラルネットワーク(cnn)であるres2net backboneを使用して、並列部分デコーダ(ppd)モジュールで使用される深い特徴を取得し、セグメンテーションマスクのグローバルマップを取得する。 ネットワークの異なる段階では、畳み込み特徴と多スケールマップが2つの境界注意(ba)モジュールと2つの逆注意(ra)モジュールで使われ、最終的なセグメンテーション出力を生成する。 mfsnetは、$ph^2$、isic 2017、ham10000の3つの公開データセットで評価され、最先端のメソッドよりも優れており、フレームワークの信頼性を正当化している。 提案されたアプローチに関連するコードはhttps://github.com/Rohit-Kundu/MFSNetで参照できる。

Segmentation is essential for medical image analysis to identify and localize diseases, monitor morphological changes, and extract discriminative features for further diagnosis. Skin cancer is one of the most common types of cancer globally, and its early diagnosis is pivotal for the complete elimination of malignant tumors from the body. This research develops an Artificial Intelligence (AI) framework for supervised skin lesion segmentation employing the deep learning approach. The proposed framework, called MFSNet (Multi-Focus Segmentation Network), uses differently scaled feature maps for computing the final segmentation mask using raw input RGB images of skin lesions. In doing so, initially, the images are preprocessed to remove unwanted artifacts and noises. The MFSNet employs the Res2Net backbone, a recently proposed convolutional neural network (CNN), for obtaining deep features used in a Parallel Partial Decoder (PPD) module to get a global map of the segmentation mask. In different stages of the network, convolution features and multi-scale maps are used in two boundary attention (BA) modules and two reverse attention (RA) modules to generate the final segmentation output. MFSNet, when evaluated on three publicly available datasets: $PH^2$, ISIC 2017, and HAM10000, outperforms state-of-the-art methods, justifying the reliability of the framework. The relevant codes for the proposed approach are accessible at https://github.com/Rohit-Kundu/MFSNet
翻訳日:2022-03-30 10:34:54 公開日:2022-03-29
# FaceVerse:ハイブリッドデータセットによる細粒度で細粒度制御可能な3D顔モフブルモデル

FaceVerse: a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset ( http://arxiv.org/abs/2203.14057v2 )

ライセンス: Link先を確認
Lizhen Wang, Zhiyuan Chen, Tao Yu, Chenguang Ma, Liang Li, Yebin Liu(参考訳) 我々は60Kの融合RGB-D画像と2Kの高忠実度3Dヘッドスキャンモデルを含む東アジアのハイブリッド顔データセットから構築した3DニューラルフェイスモデルであるFaceVerseを紹介する。 ハイブリッドデータセットをより有効活用するために,新しい粗粒間構造を提案する。 粗いモジュールでは、大規模なRGB-D画像からベースパラメトリックモデルを生成し、性別や年齢などによって正確な3D顔モデルを予測することができる。 次に、高忠実度スキャンモデルで訓練された条件付きスタイルGANアーキテクチャを導入し、精巧な顔の幾何学的およびテクスチャ的詳細を具体化する。 従来の手法と異なり、ベースモジュールとディテールモジュールはどちらも変更可能であり、基本的な属性と3D顔モデルの顔の詳細の両方を調整する革新的な応用を可能にする。 さらに,微分可能レンダリングに基づく単一画像適合フレームワークを提案する。 実験により,本手法は最先端の手法よりも優れていることが示された。

We present FaceVerse, a fine-grained 3D Neural Face Model, which is built from hybrid East Asian face datasets containing 60K fused RGB-D images and 2K high-fidelity 3D head scan models. A novel coarse-to-fine structure is proposed to take better advantage of our hybrid dataset. In the coarse module, we generate a base parametric model from large-scale RGB-D images, which is able to predict accurate rough 3D face models in different genders, ages, etc. Then in the fine module, a conditional StyleGAN architecture trained with high-fidelity scan models is introduced to enrich elaborate facial geometric and texture details. Note that different from previous methods, our base and detailed modules are both changeable, which enables an innovative application of adjusting both the basic attributes and the facial details of 3D face models. Furthermore, we propose a single-image fitting framework based on differentiable rendering. Rich experiments show that our method outperforms the state-of-the-art methods.
翻訳日:2022-03-30 10:34:27 公開日:2022-03-29
# 意味的画像分割のための特徴選択変換器

Feature Selective Transformer for Semantic Image Segmentation ( http://arxiv.org/abs/2203.14124v2 )

ライセンス: Link先を確認
Fangjian Lin, Tianyi Wu, Sitong Wu, Shengwei Tian, Guodong Guo(参考訳) 近年,semantic image segmentationのためのfuse multi-scale機能に注目が集まっている。 プログレッシブ・ローカルやグローバル・フュージョンを採用するために様々な研究が提案されたが、機能融合はマルチスケール・コンテキストの特徴をモデル化するには不十分である。 本研究では,意味的セグメンテーションのためにTransformerベースのバックボーンからマルチスケール機能を融合することに注力し,各クエリ機能のすべてのスケール(あるいはレベル)から機能を集約するFeSeFormer(FeSeFormer)を提案する。 具体的には、まず、スケールレベルの特徴選択(SFS)モジュールを提案し、各スケールのマルチスケールの特徴セット全体から情報的サブセットを選択し、現在のスケール(またはレベル)において重要な特徴を選択し、冗長な特徴を破棄する。 さらに,すべてのスケールの機能をクエリに対して適応的に融合できるフルスケール機能融合モジュールを提案する。 提案したSFSおよびFFFモジュールに基づいてFeSeFormer(FeSeFormer)を開発し,PASCALコンテキスト,ADE20K,COCO-Stuff 10K,Cityscapesの4つの挑戦的セマンティックセマンティックセマンティックセグメンテーションベンチマークを用いてFeSeFormerの評価を行った。

Recently, it has attracted more and more attentions to fuse multi-scale features for semantic image segmentation. Various works were proposed to employ progressive local or global fusion, but the feature fusions are not rich enough for modeling multi-scale context features. In this work, we focus on fusing multi-scale features from Transformer-based backbones for semantic segmentation, and propose a Feature Selective Transformer (FeSeFormer), which aggregates features from all scales (or levels) for each query feature. Specifically, we first propose a Scale-level Feature Selection (SFS) module, which can choose an informative subset from the whole multi-scale feature set for each scale, where those features that are important for the current scale (or level) are selected and the redundant are discarded. Furthermore, we propose a Full-scale Feature Fusion (FFF) module, which can adaptively fuse features of all scales for queries. Based on the proposed SFS and FFF modules, we develop a Feature Selective Transformer (FeSeFormer), and evaluate our FeSeFormer on four challenging semantic segmentation benchmarks, including PASCAL Context, ADE20K, COCO-Stuff 10K, and Cityscapes, outperforming the state-of-the-art.
翻訳日:2022-03-30 10:34:12 公開日:2022-03-29
# SuperMVS:高解像度マルチビューステレオ用非均一コストボリューム

SuperMVS: Non-Uniform Cost Volume For High-Resolution Multi-View Stereo ( http://arxiv.org/abs/2203.14331v2 )

ライセンス: Link先を確認
Tao Zhang(参考訳) 多くの仮説平面を持つ静的および均一なサンプリング手法を用いて詳細な深度サンプリングを行う、ほとんどの最先端〜(SOTA)アルゴリズムとは異なる。 本稿では,広深域における動的および非一様サンプリングのための自由移動仮説平面法を提案する。これは,平面数を大幅に削減するだけでなく,計算コストの低減と精度の向上のために,非一様コストボリューム(non-uniform cost Volume)と呼ばれる,細かなサンプリングも行う。 我々はsupermvsネットワークを用いて,非一様コストボリュームのマルチビューステレオを実現する。 SuperMVSは、4つのカスケードステージを持つ粗大なフレームワークである。 より高解像度で正確な深度マップを出力できる。 我々のSuperMVSは、低メモリ、低ランタイム、DTUデータセットとTurps \& Templeデータセット上の少ないプレーンでSOTA結果を達成する。

Different from most state-of-the-art~(SOTA) algorithms that use static and uniform sampling methods with a lot of hypothesis planes to get fine depth sampling. In this paper, we propose a free-moving hypothesis plane method for dynamic and non-uniform sampling in a wide depth range to build the cost volume, which not only greatly reduces the number of planes but also finers sampling, for both of reducing computational cost and improving accuracy, named Non-Uniform Cost Volume. We present the SuperMVS network to implement Multi-View Stereo with Non-Uniform Cost Volume. SuperMVS is a coarse-to-fine framework with four cascade stages. It can output higher resolution and accurate depth map. Our SuperMVS achieves the SOTA results with low memory, low runtime, and fewer planes on the DTU datasets and Tanks \& Temples dataset.
翻訳日:2022-03-30 10:33:47 公開日:2022-03-29