このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220327となっている論文です。

PDF登録状況(公開日: 20220327)

TitleAuthorsAbstract論文公表日・翻訳日
# SQuAD v2.0データセットを用いたルールベースオープンドメイン質問応答システムの設計と開発

Design and Development of Rule-based open-domain Question-Answering System on SQuAD v2.0 Dataset ( http://arxiv.org/abs/2204.09659v1 )

ライセンス: Link先を確認
Pragya Katyayan, Nisheeth Joshi(参考訳) 人間の心は、答えを求める好奇心のある質問の宮殿である。 この課題の計算的解決は自然言語処理技術によって可能である。 機械学習やディープラーニングのような統計的手法は、トレーニングに大量のデータを必要とし、言語のニュアンスを活用できない。 このようなシステムは、通常、近接ドメインデータセット上で最もよく機能する。 我々はルールベースのオープンドメイン問合せシステムを開発し,対応するコンテキストパスから任意のドメインの問合せに応答できるシステムを提案する。 我々は、SQuAD 2.0データセットから1000の質問を開発システムをテストするために使いました。 本稿では,開発したシステムの構造を説明し,性能解析を行った。

Human mind is the palace of curious questions that seek answers. Computational resolution of this challenge is possible through Natural Language Processing techniques. Statistical techniques like machine learning and deep learning require a lot of data to train and despite that they fail to tap into the nuances of language. Such systems usually perform best on close-domain datasets. We have proposed development of a rule-based open-domain question-answering system which is capable of answering questions of any domain from a corresponding context passage. We have used 1000 questions from SQuAD 2.0 dataset for testing the developed system and it gives satisfactory results. In this paper, we have described the structure of the developed system and have analyzed the performance.
翻訳日:2022-04-24 16:44:12 公開日:2022-03-27
# (参考訳) 深いAUROC最適化のベンチマーク: 損失関数とアルゴリズムの選択

Benchmarking Deep AUROC Optimization: Loss Functions and Algorithmic Choices ( http://arxiv.org/abs/2203.14177v1 )

ライセンス: CC BY 4.0
Dixian Zhu, Xiaodong Wu, Tianbao Yang(参考訳) ROC曲線(AUROC)の下の領域は、不均衡な分類に積極的に適用され、さらに深層学習技術と組み合わせられている。 しかし、ピアが適切な深度AUROCの最大化テクニックを選択するための音情報を提供する作業は存在しない。 この作業では、このギャップを3つの側面から埋めます。 (i)深いAUROC最適化問題に対するアルゴリズム選択の異なる様々な損失関数をベンチマークする。 本研究は, 対損失と複合損失の2つのカテゴリにおいて, 合計10個の損失関数を含む損失関数について検討する。 興味深いことに、複合損失は、革新的損失関数クラスとして、トレーニング収束とテスト一般化の両方の観点から、ペアによる損失よりも高い競争力を示す。 それにもかかわらず、より腐敗したラベルを持つデータは対対称的損失を好む。 さらに,正のサンプリング率,正規化,正規化/アクティベーション,オプティマイザなどのアルゴリズム選択をベンチマークし,強調する。 主な発見は次のとおりである: 高い正のサンプリングレートはAUROCの最大化に有用であり、異なるデータセットは正規化の重みを好み、シグモイドや$\ell_2$スコア正規化のような適切な正規化技術はモデル性能を向上させる。 3)最適化面では,SGD型,Momentum型およびAdam型オプティマイザをペアワイズと複合損失の両面でベンチマークする。 以上の結果から,adam型手法はトレーニングの観点からは競争力が高いが,テストの観点からは他の手法よりも優れていないことが示された。

The area under the ROC curve (AUROC) has been vigorously applied for imbalanced classification and moreover combined with deep learning techniques. However, there is no existing work that provides sound information for peers to choose appropriate deep AUROC maximization techniques. In this work, we fill this gap from three aspects. (i) We benchmark a variety of loss functions with different algorithmic choices for deep AUROC optimization problem. We study the loss functions in two categories: pairwise loss and composite loss, which includes a total of 10 loss functions. Interestingly, we find composite loss, as an innovative loss function class, shows more competitive performance than pairwise loss from both training convergence and testing generalization perspectives. Nevertheless, data with more corrupted labels favors a pairwise symmetric loss. (ii) Moreover, we benchmark and highlight the essential algorithmic choices such as positive sampling rate, regularization, normalization/activa tion, and optimizers. Key findings include: higher positive sampling rate is likely to be beneficial for deep AUROC maximization; different datasets favors different weights of regularizations; appropriate normalization techniques, such as sigmoid and $\ell_2$ score normalization, could improve model performance. (iii) For optimization aspect, we benchmark SGD-type, Momentum-type, and Adam-type optimizers for both pairwise and composite loss. Our findings show that although Adam-type method is more competitive from training perspective, but it does not outperform others from testing perspective.
翻訳日:2022-04-02 23:26:53 公開日:2022-03-27
# (参考訳) mdx: データサイエンスと学際的な研究コラボレーションをサポートするクラウドプラットフォーム [全文訳有]

mdx: A Cloud Platform for Supporting Data Science and Cross-Disciplinary Research Collaborations ( http://arxiv.org/abs/2203.14188v1 )

ライセンス: CC BY 4.0
Toyotaro Suzumura, Akiyoshi Sugiki, Hiroyuki Takizawa, Akira Imakura, Hiroshi Nakamura, Kenjiro Taura, Tomohiro Kudoh, Toshihiro Hanawa, Yuji Sekiya, Hiroki Kobayashi, Shin Matsushima, Yohei Kuga, Ryo Nakamura, Renhe Jiang, Junya Kawase, Masatoshi Hanai, Hiroshi Miyazaki, Tsutomu Ishizaki, Daisuke Shimotoku, Daisuke Miyamoto, Kento Aida, Atsuko Takefusa, Takashi Kurimoto, Koji Sasayama, Naoya Kitagawa, Ikki Fujiwara, Yusuke Tanimura, Takayuki Aoki, Toshio Endo, Satoshi Ohshima, Keiichiro Fukazawa, Susumu Date, Toshihiro Uchibayashi(参考訳) データサイエンスにおけるデータ量の増加と進歩は、ユーザに柔軟性と強力なセキュリティと、高性能ネットワークを介してスーパーコンピュータやエッジデバイスと結合する能力を提供する、新しいタイプのクラウドプラットフォームの必要性を生み出した。 私たちはこのようなニーズに応えるために、全国規模のクラウドプラットフォーム「mdx」を構築しました。 日本の9つの国立大学と2つの国立研究所が共同で運営するmdxプラットフォームの仮想化サービスは2021年に開始され、さらに多くの機能が開発中である。 現在mdxは、材料情報学、地理空間情報科学、生命科学、天文学、経済学、社会科学、コンピュータサイエンスなど、様々な分野の研究者によって使用されている。 本稿では,mdxプラットフォームの概要,開発の動機,現状を報告するとともに,今後の計画について概説する。

The growing amount of data and advances in data science have created a need for a new kind of cloud platform that provides users with flexibility, strong security, and the ability to couple with supercomputers and edge devices through high-performance networks. We have built such a nation-wide cloud platform, called "mdx" to meet this need. The mdx platform's virtualization service, jointly operated by 9 national universities and 2 national research institutes in Japan, launched in 2021, and more features are in development. Currently mdx is used by researchers in a wide variety of domains, including materials informatics, geo-spatial information science, life science, astronomical science, economics, social science, and computer science. This paper provides an the overview of the mdx platform, details the motivation for its development, reports its current status, and outlines its future plans.
翻訳日:2022-04-02 23:25:40 公開日:2022-03-27
# (参考訳) 深部ポラリメトリックHDR再構成 [全文訳有]

Deep Polarimetric HDR Reconstruction ( http://arxiv.org/abs/2203.14190v1 )

ライセンス: CC BY 4.0
Juiwen Ting, Moein Shakeri, Hong Zhang(参考訳) 本稿では,偏光カメラを用いた新しい学習ベースハイダイナミックレンジ(HDR)再構成手法を提案する。 異なる方向の偏光フィルタは自然光を異なる方向に減衰させることができ、偏光カメラが取得した複数の画像を異なる露光時間で取得したセットとして扱い、hdr再構成問題に対する解の開発を紹介する。 偏光カメラから利用できる偏光的手がかりを利用した機能マスキング機構を備えた深部HDR再構成フレームワークを提案し,その手法をDPHR(Deep Polarimetric HDR Reconstruction)と呼ぶ。 提案するDPHRは、有効特徴をネットワークを介してより効果的に伝播し、欠落した画素を退避させるために偏光情報を取得する。 本研究では,DPHRが最先端HDR再構成アルゴリズムよりも有効であることを示す定性的および定量的評価を行った。

This paper proposes a novel learning based high-dynamic-range (HDR) reconstruction method using a polarization camera. We utilize a previous observation that polarization filters with different orientations can attenuate natural light differently, and we treat the multiple images acquired by the polarization camera as a set acquired under different exposure times, to introduce the development of solutions for the HDR reconstruction problem. We propose a deep HDR reconstruction framework with a feature masking mechanism that uses polarimetric cues available from the polarization camera, called Deep Polarimetric HDR Reconstruction (DPHR). The proposed DPHR obtains polarimetric information to propagate valid features through the network more effectively to regress the missing pixels. We demonstrate through both qualitative and quantitative evaluations that the proposed DPHR performs favorably than state-of-the-art HDR reconstruction algorithms.
翻訳日:2022-04-02 23:13:01 公開日:2022-03-27
# (参考訳) Black-Box MLモデルのロバスト化方法 ゼロ次最適化の展望 [全文訳有]

How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective ( http://arxiv.org/abs/2203.14195v1 )

ライセンス: CC BY 4.0
Yimeng Zhang, Yuguang Yao, Jinghan Jia, Jinfeng Yi, Mingyi Hong, Shiyu Chang, Sijia Liu(参考訳) 敵対的堅牢性の欠如は、最先端機械学習(ML)モデル、例えばディープニューラルネットワーク(DNN)の重要な問題として認識されている。 これにより、敵攻撃に対するMLモデルの堅牢化が研究の大きな焦点となっている。 しかし、既存の防御手法のほとんど、特に堅牢な訓練のために、ディフェンダーがMLモデル(または可能であればそのサロゲート代替品)の詳細(例えばアーキテクチャやパラメータ)にアクセスできるというホワイトボックスの仮定を作った。 既存の作業以外にも,本論文では,ブラックボックス防御の問題に対処すべく,入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法について論じる。 このような問題は、予測モデルの所有者がプライバシを維持するためにモデル情報を共有することを嫌う、実用的なシナリオで発生する。 そこで本研究では,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,一階法(FO)認定防衛技術である denoized smoothing (DS) のレンズを用いて設計する。 モデルクエリを単に使用するための設計を可能にするため、DSをゼロ階(漸進自由)最適化と統合する。 しかし、ゼロ次最適化(zo)の直接実装は勾配推定のばらつきに苦しむため、非効率的な防御に繋がる。 この問題に対処するため,本稿では,分散還元ZO最適化を用いてDSをトレーニングできるように,与えられた(ブラックボックス)モデルにオートエンコーダ(AE)をプリペイドすることを提案する。 最終防衛をZO-AE-DSと呼ぶ。 実際に我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。 また,提案手法の有効性は,画像分類と画像再構成課題の両方において正当化される。 コードはhttps://github.com/d amon-demon/Black-Box -Defenseで入手できる。

The lack of adversarial robustness has been recognized as an important issue for state-of-the-art machine learning (ML) models, e.g., deep neural networks (DNNs). Thereby, robustifying ML models against adversarial attacks is now a major focus of research. However, nearly all existing defense methods, particularly for robust training, made the white-box assumption that the defender has the access to the details of an ML model (or its surrogate alternatives if available), e.g., its architectures and parameters. Beyond existing works, in this paper we aim to address the problem of black-box defense: How to robustify a black-box model using just input queries and output feedback? Such a problem arises in practical scenarios, where the owner of the predictive model is reluctant to share model information in order to preserve privacy. To this end, we propose a general notion of defensive operation that can be applied to black-box models, and design it through the lens of denoised smoothing (DS), a first-order (FO) certified defense technique. To allow the design of merely using model queries, we further integrate DS with the zeroth-order (gradient-free) optimization. However, a direct implementation of zeroth-order (ZO) optimization suffers a high variance of gradient estimates, and thus leads to ineffective defense. To tackle this problem, we next propose to prepend an autoencoder (AE) to a given (black-box) model so that DS can be trained using variance-reduced ZO optimization. We term the eventual defense as ZO-AE-DS. In practice, we empirically show that ZO-AE- DS can achieve improved accuracy, certified robustness, and query complexity over existing baselines. And the effectiveness of our approach is justified under both image classification and image reconstruction tasks. Codes are available at https://github.com/d amon-demon/Black-Box -Defense.
翻訳日:2022-04-02 22:50:53 公開日:2022-03-27
# (参考訳) HINT:階層型ニューロン概念記述器

HINT: Hierarchical Neuron Concept Explainer ( http://arxiv.org/abs/2203.14196v1 )

ライセンス: CC BY-SA 4.0
Andong Wang, Wei-Ning Lee, Xiaojuan Qi(参考訳) 深層ネットワークを解釈するには、ニューロンと人間の理解可能な概念を関連付けるアプローチが主流である。 しかし、既存の方法はしばしば異なる概念(例えば犬と猫はどちらも動物に属する)の固有の関係を無視し、より高い概念(例えば動物)に責任を持つニューロンを説明する機会を失う。 本稿では,人間の階層的認知プロセスに触発された階層的概念について考察する。 そこで本稿では,階層的ニューロン概念説明器(hint)を提案し,ニューロンと階層的概念の双方向関係を低コストかつスケーラブルに構築する。 ヒントは、特定の概念(例えば犬)からより抽象的な概念(例えば動物)まで、異なる意味レベルで、ある概念に責任を持つ協調ニューロンや異なる概念のマルチモーダルニューロンを識別するなど、概念の暗黙的な階層的関係がニューロンにどのように埋め込まれているのかを、体系的に、そして定量的に研究できる。 最後に,Weakly Supervised Object Localization を用いてアソシエーションの忠実さを検証し,サリエンシ領域の発見や敵攻撃の説明など,様々なタスクに適用可能性を示す。 コードはhttps://github.com/A ntonotnaWang/HINTで入手できる。

To interpret deep networks, one main approach is to associate neurons with human-understandable concepts. However, existing methods often ignore the inherent relationships of different concepts (e.g., dog and cat both belong to animals), and thus lose the chance to explain neurons responsible for higher-level concepts (e.g., animal). In this paper, we study hierarchical concepts inspired by the hierarchical cognition process of human beings. To this end, we propose HIerarchical Neuron concepT explainer (HINT) to effectively build bidirectional associations between neurons and hierarchical concepts in a low-cost and scalable manner. HINT enables us to systematically and quantitatively study whether and how the implicit hierarchical relationships of concepts are embedded into neurons, such as identifying collaborative neurons responsible to one concept and multimodal neurons for different concepts, at different semantic levels from concrete concepts (e.g., dog) to more abstract ones (e.g., animal). Finally, we verify the faithfulness of the associations using Weakly Supervised Object Localization, and demonstrate its applicability in various tasks such as discovering saliency regions and explaining adversarial attacks. Code is available on https://github.com/A ntonotnaWang/HINT.
翻訳日:2022-04-02 22:27:39 公開日:2022-03-27
# (参考訳) 重みバランスによるロングテール認識 [全文訳有]

Long-Tailed Recognition via Weight Balancing ( http://arxiv.org/abs/2203.14197v1 )

ライセンス: CC BY 4.0
Shaden Alshammari, Yu-Xiong Wang, Deva Ramanan, Shu Kong(参考訳) 実際のオープンな世界では、データは長い尾のクラス分布に従う傾向があり、よく研究された長い尾の認識(LTR)問題を動機付けている。 ナイーブトレーニングは、より高い精度で共通のクラスに偏ったモデルを生成する。 LTRに対処する鍵は、データの分散、トレーニング損失、学習の勾配など、さまざまな側面のバランスをとることだ。 直交方向, 重みバランスを探索し, 比例的に訓練された分類器は普通クラスに対して「厳密に」大きな重みを持つという経験的観察に動機づけられた(希少クラスとは異なり、訓練するデータが豊富にあるため)。 重量バランス, L2-正規化, 重量崩壊, MaxNormの3つの手法について検討した。 まず、L2-正規化はクラスごとの重みを単位ノルムとして「完全に」バランスをとることを指摘したが、そのような厳しい制約はクラスがより良い分類器を学ぶことを妨げかねない。 対照的に、重量減衰はより重い重量をペナル化するので、小さなバランスの取れた重量を学習する。 我々の広範な研究は、両者がバランスの取れた重量を学習し、LTRの精度を大幅に改善することを示しています。 驚くべきことに、LTRであまり探索されていないが、以前の作業よりも大幅に改善されている。 そこで我々は,2段階の学習パラダイムを採用し,(1)ウェイト減衰のチューニングによるクロスエントロピー損失を用いた学習特徴,(2)ウェイト減衰のチューニングによるクラスバランス損失を用いた学習分類器を提案する。 提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。

In the real open world, data tends to follow long-tailed class distributions, motivating the well-studied long-tailed recognition (LTR) problem. Naive training produces models that are biased toward common classes in terms of higher accuracy. The key to addressing LTR is to balance various aspects including data distribution, training losses, and gradients in learning. We explore an orthogonal direction, weight balancing, motivated by the empirical observation that the naively trained classifier has "artificially" larger weights in norm for common classes (because there exists abundant data to train them, unlike the rare classes). We investigate three techniques to balance weights, L2-normalization, weight decay, and MaxNorm. We first point out that L2-normalization "perfectly" balances per-class weights to be unit norm, but such a hard constraint might prevent classes from learning better classifiers. In contrast, weight decay penalizes larger weights more heavily and so learns small balanced weights; the MaxNorm constraint encourages growing small weights within a norm ball but caps all the weights by the radius. Our extensive study shows that both help learn balanced weights and greatly improve the LTR accuracy. Surprisingly, weight decay, although underexplored in LTR, significantly improves over prior work. Therefore, we adopt a two-stage training paradigm and propose a simple approach to LTR: (1) learning features using the cross-entropy loss by tuning weight decay, and (2) learning classifiers using class-balanced loss by tuning weight decay and MaxNorm. Our approach achieves the state-of-the-art accuracy on five standard benchmarks, serving as a future baseline for long-tailed recognition.
翻訳日:2022-04-02 22:23:58 公開日:2022-03-27
# (参考訳) DepthFormer: 正確な単眼深度推定のための長距離相関と局所情報の爆発 [全文訳有]

DepthFormer: Exploiting Long-Range Correlation and Local Information for Accurate Monocular Depth Estimation ( http://arxiv.org/abs/2203.14211v1 )

ライセンス: CC BY 4.0
Zhenyu Li, Zehui Chen, Xianming Liu, Junjun Jiang(参考訳) 本稿では,教師付き単眼深度推定の問題に対処することを目的とする。 まず、精密な深度推定には長距離相関が不可欠であることを示すため、綿密なパイロット実験から始める。 そこで本研究では,このグローバルコンテキストを効果的な注意機構でモデル化するトランスフォーマを提案する。 また,変換器の空間的帰納バイアスが欠如しているため,局所的な情報を保存するために,新たな畳み込み分岐も導入する。 しかし、独立したブランチは機能間の接続不足につながる。 このギャップを埋めるために,階層的なアグリゲーションと不均質なインタラクションモジュールを設計し,要素間インタラクションによるトランスフォーマー機能を強化し,トランスフォーマとcnnの機能間の親和性をセット・ツー・セットの翻訳方法でモデル化する。 高精細度特徴マップのグローバルな注目によるメモリコストの低下により,複雑性を低減するための変形可能なスキームが導入された。 KITTI,NYU,SUN RGB-Dデータセットの大規模な実験により,提案したモデルであるDepthFormerが,最先端のモノクル深度推定法をはるかに上回っていることが示された。 特に、競争の激しいkitti深度推定ベンチマークにおいて、最も競争力のある結果が得られる。 私たちのコードとモデルはhttps://github.com/z hyever/monocular-dep th-estimation-toolbo xで利用可能です。

This paper aims to address the problem of supervised monocular depth estimation. We start with a meticulous pilot study to demonstrate that the long-range correlation is essential for accurate depth estimation. Therefore, we propose to leverage the Transformer to model this global context with an effective attention mechanism. We also adopt an additional convolution branch to preserve the local information as the Transformer lacks the spatial inductive bias in modeling such contents. However, independent branches lead to a shortage of connections between features. To bridge this gap, we design a hierarchical aggregation and heterogeneous interaction module to enhance the Transformer features via element-wise interaction and model the affinity between the Transformer and the CNN features in a set-to-set translation manner. Due to the unbearable memory cost caused by global attention on high-resolution feature maps, we introduce the deformable scheme to reduce the complexity. Extensive experiments on the KITTI, NYU, and SUN RGB-D datasets demonstrate that our proposed model, termed DepthFormer, surpasses state-of-the-art monocular depth estimation methods with prominent margins. Notably, it achieves the most competitive result on the highly competitive KITTI depth estimation benchmark. Our codes and models are available at https://github.com/z hyever/Monocular-Dep th-Estimation-Toolbo x.
翻訳日:2022-04-02 22:01:52 公開日:2022-03-27
# (参考訳) listen, adapt, better wer:自動音声認識のためのソースフリー単一発話テスト時間適応 [全文訳有]

Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition ( http://arxiv.org/abs/2203.14222v1 )

ライセンス: CC BY 4.0
Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee(参考訳) 近年,深層学習に基づくエンドツーエンド音声認識 (ASR) は顕著な性能を示したが, 異なるデータ分布から抽出した試験結果に対して, 高い性能の劣化がみられた。 コンピュータビジョン領域で以前に検討されたテスト時間適応(tta)は、ソースドメインでトレーニングされたモデルを適用し、ソースデータにアクセスせずに、テストサンプル(しばしばドメイン外)の予測を改善することを目的としている。 本稿では,ASRのための単一発話テスト時間適応(SUTA)フレームワークを提案する。 単発TTAは、テストデータが同一分布からサンプリングされることを前提とせず、適応データのバッチに対する事前コンパイルによるオンデマンド推論を遅らせないより現実的な設定である。 SUTAは、効率的な適応戦略を備えた教師なしの目標で構成されている。 実験の結果,SUTAは複数のドメイン外ターゲットコーパスとドメイン内テストサンプルで評価したソースASRモデルの性能を効果的に向上することが示された。

Although deep learning-based end-to-end Automatic Speech Recognition (ASR) has shown remarkable performance in recent years, it suffers severe performance regression on test samples drawn from different data distributions. Test-time Adaptation (TTA), previously explored in the computer vision area, aims to adapt the model trained on source domains to yield better predictions for test samples, often out-of-domain, without accessing the source data. Here, we propose the Single-Utterance Test-time Adaptation (SUTA) framework for ASR, which is the first TTA study in speech area to our best knowledge. The single-utterance TTA is a more realistic setting that does not assume test data are sampled from identical distribution and does not delay on-demand inference due to pre-collection for the batch of adaptation data. SUTA consists of unsupervised objectives with an efficient adaptation strategy. The empirical results demonstrate that SUTA effectively improves the performance of the source ASR model evaluated on multiple out-of-domain target corpora and in-domain test samples.
翻訳日:2022-04-02 21:27:24 公開日:2022-03-27
# (参考訳) OneLabeler: データラベリングツールを構築するための柔軟なシステム [全文訳有]

OneLabeler: A Flexible System for Building Data Labeling Tools ( http://arxiv.org/abs/2203.14227v1 )

ライセンス: CC BY 4.0
Yu Zhang, Yun Wang, Haidong Zhang, Bin Zhu, Siming Chen, Dongmei Zhang(参考訳) 教師付き機械学習にはラベル付きデータセットが不可欠である。 さまざまな利用シナリオでラベルを収集するために、さまざまなデータラベリングツールが構築されている。 しかし、ラベリングツールの開発には時間がかかり、コストがかかり、ソフトウェア開発に専門知識が要求される。 本稿では,データラベリングの概念フレームワークとOneLabelerを提案する。 このフレームワークは、既存のツールのコーディングを通じて要約されたラベルツールの共通モジュールとステートで構成されている。 OneLabelerは、ビジュアルプログラミングを通じて共通ソフトウェアモジュールの構成と構成をサポートし、データラベリングツールを構築する。 モジュールは、データラベリングにおける人、機械、または混合計算手順である。 OneLabelerで構築した10種類のラベリングツールを用いて,システムの表現性と実用性を実証する。 開発者とのユーザスタディは、OneLabelerが多様なデータラベリングツールの効率的な構築をサポートする証拠を提供する。

Labeled datasets are essential for supervised machine learning. Various data labeling tools have been built to collect labels in different usage scenarios. However, developing labeling tools is time-consuming, costly, and expertise-demanding on software development. In this paper, we propose a conceptual framework for data labeling and OneLabeler based on the conceptual framework to support easy building of labeling tools for diverse usage scenarios. The framework consists of common modules and states in labeling tools summarized through coding of existing tools. OneLabeler supports configuration and composition of common software modules through visual programming to build data labeling tools. A module can be a human, machine, or mixed computation procedure in data labeling. We demonstrate the expressiveness and utility of the system through ten example labeling tools built with OneLabeler. A user study with developers provides evidence that OneLabeler supports efficient building of diverse data labeling tools.
翻訳日:2022-04-02 21:14:17 公開日:2022-03-27
# (参考訳) 映像領域にまたがる音声適応行動認識 [全文訳有]

Audio-Adaptive Activity Recognition Across Video Domains ( http://arxiv.org/abs/2203.14240v1 )

ライセンス: CC BY 4.0
Yunhua Zhang, Hazel Doughty, Ling Shao, Cees G. M. Snoek(参考訳) 本稿では,例えば景色の変化やカメラの視点の変化など,領域シフト下での活動認識について検討する。 指導的アプローチは、対人訓練と自己指導学習による活動の出現のシフトを減少させる。 これらの視覚に焦点を当てた作業と異なり、ドメイン間の差異が少なく、どのアクティビティが起こっていないかを確実に示すことができるため、ドメイン適応のためにアクティビティサウンドを利用する。 本稿では,視覚特徴表現を識別的に調整し,意味分布の変化に対応するオーディオ適応エンコーダと関連する学習手法を提案する。 ドメイン固有の特徴をさらに排除し、認識のためのドメイン不変活動音を含むために、ドメイン間のクロスモーダルインタラクションを効果的にモデル化するオーディオ干渉認識器を提案する。 また,アクタシフトの新たなタスクと対応する視聴覚データセットを導入し,アクティビティの出現が劇的に変化する状況で提案手法に挑戦する。 このデータセットの実験では、EPIC-KitchensとCharadesEgoが我々のアプローチの有効性を示している。

This paper strives for activity recognition under domain shift, for example caused by change of scenery or camera viewpoint. The leading approaches reduce the shift in activity appearance by adversarial training and self-supervised learning. Different from these vision-focused works we leverage activity sounds for domain adaptation as they have less variance across domains and can reliably indicate which activities are not happening. We propose an audio-adaptive encoder and associated learning methods that discriminatively adjust the visual feature representation as well as addressing shifts in the semantic distribution. To further eliminate domain-specific features and include domain-invariant activity sounds for recognition, an audio-infused recognizer is proposed, which effectively models the cross-modal interaction across domains. We also introduce the new task of actor shift, with a corresponding audio-visual dataset, to challenge our method with situations where the activity appearance changes dramatically. Experiments on this dataset, EPIC-Kitchens and CharadesEgo show the effectiveness of our approach.
翻訳日:2022-04-02 20:14:53 公開日:2022-03-27
# (参考訳) barcor: 会話レコメンデーションシステムのための統一フレームワークを目指して [全文訳有]

BARCOR: Towards A Unified Framework for Conversational Recommendation Systems ( http://arxiv.org/abs/2203.14257v1 )

ライセンス: CC BY 4.0
Ting-Chun Wang, Shang-Yu Su, Yun-Nung Chen(参考訳) 推奨システムは,ユーザの嗜好が過去の観察行動によって推定される情報過負荷の状況において,ユーザが関心を持つ項目を見つけるのを支援することに焦点を当てている。 対照的に、会話レコメンデーションシステム(CRS)は、会話フローにおける対話を通してユーザの好みを理解することを目的としている。 CRSは,(1)レコメンデーションと(2)応答生成という2つの主要なタスクからなる複雑な問題である。 従来の作業では、リコメンダとレスポンスジェネレータが別々のニューラルモデルであるような、モジュール的な方法でこの問題を解決することが多かった。 このようなモジュラーアーキテクチャは、しばしばモジュール間の複雑で直観的なつながりを持ち、非効率な学習やその他の問題につながる。 本稿では,1つのモデルで2つのタスクに取り組む会話推薦のための,bartに基づく統一フレームワークを提案する。 さらに,映画領域におけるCRSのための軽量知識グラフの設計と収集を行う。 実験の結果,提案手法は自動評価と人間評価の両面で最先端の性能を得ることができた。

Recommendation systems focus on helping users find items of interest in the situations of information overload, where users' preferences are typically estimated by the past observed behaviors. In contrast, conversational recommendation systems (CRS) aim to understand users' preferences via interactions in conversation flows. CRS is a complex problem that consists of two main tasks: (1) recommendation and (2) response generation. Previous work often tried to solve the problem in a modular manner, where recommenders and response generators are separate neural models. Such modular architectures often come with a complicated and unintuitive connection between the modules, leading to inefficient learning and other issues. In this work, we propose a unified framework based on BART for conversational recommendation, which tackles two tasks in a single model. Furthermore, we also design and collect a lightweight knowledge graph for CRS in the movie domain. The experimental results show that the proposed methods achieve the state-of-the-art performance in terms of both automatic and human evaluation.
翻訳日:2022-04-02 19:53:48 公開日:2022-03-27
# (参考訳) bitsa_nlp@LT-EDI-ACL 2022: ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアの検出のための事前訓練言語モデルの活用 [全文訳有]

bitsa_nlp@LT-EDI-ACL 2022: Leveraging Pretrained Language Models for Detecting Homophobia and Transphobia in Social Media Comments ( http://arxiv.org/abs/2203.14267v1 )

ライセンス: CC BY 4.0
Vitthal Bhandari and Poonam Goyal(参考訳) オンラインソーシャルネットワークはユビキタスでユーザーフレンドリーだ。 それでも、軽蔑と共感を維持するために攻撃的コンテンツの検出と適度な対応が不可欠である。 しかし、ソーシャルメディアのテキストのマイニングは、ユーザーが固定パターンに従わないため、複雑な作業である。 コメントはどんな言語でも書けるし、その多くが低リソースかもしれない。 本稿では,ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアを検出するためのLT-EDI共有タスクについて述べる。 我々は,mBERTのようなモノリンガルおよび多言語トランスフォーマーモデルと,クラス不均衡に対処するためのデータ拡張手法を実験した。 このような事前学習された大規模モデルは最近、自然言語処理における様々なベンチマークタスクで大きな成功を収めている。 私たちは、タミル語だけでなく、英語でYouTubeコメントの注意深い注釈付き実生活データセット上で、彼らのパフォーマンスを観察します。 提案は、英語、タミル語、タミル英語のサブタスクでそれぞれ$0.42$、$0.64$、$0.58$というマクロ平均f1-scoreで$9$、$6$、$3$で達成しました。 システムのコードはオープンソース化された。

Online social networks are ubiquitous and user-friendly. Nevertheless, it is vital to detect and moderate offensive content to maintain decency and empathy. However, mining social media texts is a complex task since users don't adhere to any fixed patterns. Comments can be written in any combination of languages and many of them may be low-resource. In this paper, we present our system for the LT-EDI shared task on detecting homophobia and transphobia in social media comments. We experiment with a number of monolingual and multilingual transformer based models such as mBERT along with a data augmentation technique for tackling class imbalance. Such pretrained large models have recently shown tremendous success on a variety of benchmark tasks in natural language processing. We observe their performance on a carefully annotated, real life dataset of YouTube comments in English as well as Tamil. Our submission achieved ranks $9$, $6$ and $3$ with a macro-averaged F1-score of $0.42$, $0.64$ and $0.58$ in the English, Tamil and Tamil-English subtasks respectively. The code for the system has been open sourced.
翻訳日:2022-04-02 19:40:32 公開日:2022-03-27
# (参考訳) out-of-distribution generalizationのためのサンプルベースのハイパーネットワーク [全文訳有]

Example-based Hypernetworks for Out-of-Distribution Generalization ( http://arxiv.org/abs/2203.14276v1 )

ライセンス: CC BY 4.0
Tomer Volk, Eyal Ben-David, Ohad Amosy, Gal Chechik, Roi Reichart(参考訳) 自然言語処理(NLP)アルゴリズムは先例のないマイルストーンに達し続けているが、分布外一般化はまだ難しい。 本稿では,未知領域へのマルチソース適応の問題に対処する:複数のソースドメインからのラベル付きデータを与えられた場合,トレーニング時に未知領域から抽出されたデータに一般化することを目的とする。 入力例が与えられたとき、t5エンコーダ-デコーダはまず、この例をソースドメインの意味空間に埋め込むユニークなシグネチャを生成し、そのシグネチャは、タスク分類器の重みを生成するハイパーネットワークに供給されます。 我々のモデルの高度なバージョンでは、学習されたシグネチャは入力例の表現を改善するのにも役立ちます。 感情分類と自然言語推論という2つのタスクを用いた実験では、29の適応設定において、この適応設定のために既存のアルゴリズムを実質的に上回っています。 私たちの知る限りでは、Hypernetworksがドメイン適応やNLPの例ベースの方法に適用されたのはこれが初めてです。

While Natural Language Processing (NLP) algorithms keep reaching unprecedented milestones, out-of-distribution generalization is still challenging. In this paper we address the problem of multi-source adaptation to unknown domains: Given labeled data from multiple source domains, we aim to generalize to data drawn from target domains that are unknown to the algorithm at training time. We present an algorithmic framework based on example-based Hypernetwork adaptation: Given an input example, a T5 encoder-decoder first generates a unique signature which embeds this example in the semantic space of the source domains, and this signature is then fed into a Hypernetwork which generates the weights of the task classifier. In an advanced version of our model, the learned signature also serves for improving the representation of the input example. In experiments with two tasks, sentiment classification and natural language inference, across 29 adaptation settings, our algorithms substantially outperform existing algorithms for this adaptation setup. To the best of our knowledge, this is the first time Hypernetworks are applied to domain adaptation or in example-based manner in NLP.
翻訳日:2022-04-02 19:32:52 公開日:2022-03-27
# (参考訳) 超解法ガイドのためのグラフ正規化の学習 [全文訳有]

Learning Graph Regularisation for Guided Super-Resolution ( http://arxiv.org/abs/2203.14297v1 )

ライセンス: CC BY 4.0
Riccardo de Lutio and Alexander Becker and Stefano D'Aronco and Stefania Russo and Jan D. Wegner and Konrad Schindler(参考訳) 超解像誘導のための新しい定式化を提案する。 そのコアは、学習親和性グラフ上で動作する微分可能な最適化層である。 学習されたグラフポテンシャルは、ガイド画像からのリッチなコンテキスト情報を活用することができる一方、アーキテクチャ内の明示的なグラフ最適化は、低解像度のソースに対する高解像度ターゲットの厳密な忠実さを保証する。 予測の入力としてのみではなく、ソースを制約として利用するという決定により、本手法はガイド付き超解像のための最先端の深層アーキテクチャとは違い、ダウンサンプリングされた場合、ソースをほぼ再現するターゲットを生成する。 これは理論的に魅力的であるだけでなく、より鮮明でより自然なイメージを生み出す。 提案手法の重要な特徴は,グラフ接続は画素格子に制限されているものの,関連するエッジポテンシャルは深い特徴抽出器を用いて学習し,大きな受容領域上のリッチコンテキスト情報をエンコードできる点である。 疎グラフ接続を利用することで、最適化層を通して勾配を伝播させ、データからエッジポテンシャルを学ぶことができる。 本手法を複数のデータセット上で広範囲に評価し,近年の基準値よりも定量的に比較し,視覚的にシャープなアウトプットを提供する。 さらに,本手法はトレーニング中に見ることのない新しいデータセットに特によく適用できることを示す。

We introduce a novel formulation for guided super-resolution. Its core is a differentiable optimisation layer that operates on a learned affinity graph. The learned graph potentials make it possible to leverage rich contextual information from the guide image, while the explicit graph optimisation within the architecture guarantees rigorous fidelity of the high-resolution target to the low-resolution source. With the decision to employ the source as a constraint rather than only as an input to the prediction, our method differs from state-of-the-art deep architectures for guided super-resolution, which produce targets that, when downsampled, will only approximately reproduce the source. This is not only theoretically appealing, but also produces crisper, more natural-looking images. A key property of our method is that, although the graph connectivity is restricted to the pixel lattice, the associated edge potentials are learned with a deep feature extractor and can encode rich context information over large receptive fields. By taking advantage of the sparse graph connectivity, it becomes possible to propagate gradients through the optimisation layer and learn the edge potentials from data. We extensively evaluate our method on several datasets, and consistently outperform recent baselines in terms of quantitative reconstruction errors, while also delivering visually sharper outputs. Moreover, we demonstrate that our method generalises particularly well to new datasets not seen during training.
翻訳日:2022-04-02 19:10:10 公開日:2022-03-27
# (参考訳) 自動プレート認識のためのベンチマークアルゴリズム [全文訳有]

Benchmarking Algorithms for Automatic License Plate Recognition ( http://arxiv.org/abs/2203.14298v1 )

ライセンス: CC BY 4.0
Marcel Del Castillo Velarde and Gissel Velarde(参考訳) 我々はLPR(Automatic License Plate Recognition)のためのLPRNet [1]と呼ばれる軽量畳み込みニューラルネットワーク(CNN)を評価した。 本アルゴリズムは,実際のライセンスプレート画像と合成ライセンスプレート画像からなる2つのデータセット上で評価した。 また,その性能を光学式文字認識エンジンのtesseract [2]と比較した。 認識精度とレベンシュテイン距離に基づいて性能を測定した。 lprnetはエンドツーエンドのフレームワークであり、両方のデータセットで堅牢なパフォーマンスを示し、それぞれ1000のrealとsynthetic license plateイメージのテストセットで90と89パーセントの認識精度を提供する。 tesseractは実際のライセンスプレートイメージを使用してトレーニングされず、93パーセントの認識精度を提供する前処理ステップの後に合成データセット上でのみうまく動作した。 最後に、誤分類文字の周波数解析のためのパレート分析により、累積誤差の割合に応じて、どの文字が最も矛盾する文字であるかを詳細に知ることができた。 地域によっては、ナンバープレート画像に特有の特徴がある。 適切にトレーニングされたLPRNetは、特定のリージョンとデータセットの文字を認識するために使用することができる。 将来的には、LPRNetが学んだ機能を活用するために転送学習を適用することに注力し、ライセンスプレートのより小さく、より新しいデータセットを付与する。

We evaluated a lightweight Convolutional Neural Network (CNN) called LPRNet [1] for automatic License Plate Recognition (LPR). We evaluated the algorithm on two datasets, one composed of real license plate images and the other of synthetic license plate images. In addition, we compared its performance against Tesseract [2], an Optical Character Recognition engine. We measured performance based on recognition accuracy and Levenshtein Distance. LPRNet is an end-to-end framework and demonstrated robust performance on both datasets, delivering 90 and 89 percent recognition accuracy on test sets of 1000 real and synthetic license plate images, respectively. Tesseract was not trained using real license plate images and performed well only on the synthetic dataset after pre-processing steps delivering 93 percent recognition accuracy. Finally, Pareto analysis for frequency analysis of misclassified characters allowed us to find in detail which characters were the most conflicting ones according to the percentage of accumulated error. Depending on the region, license plate images possess particular characteristics. Once properly trained, LPRNet can be used to recognize characters from a specific region and dataset. Future work can focus on applying transfer learning to utilize the features learned by LPRNet and fine-tune it given a smaller, newer dataset of license plates.
翻訳日:2022-04-02 18:51:56 公開日:2022-03-27
# (参考訳) CGUA: コンテキストガイドとアンペア支援による弱視者検索

CGUA: Context-Guided and Unpaired-Assisted Weakly Supervised Person Search ( http://arxiv.org/abs/2203.14307v1 )

ライセンス: CC BY 4.0
Chengyou Jia, Minnan Luo, Caixia Yan, Xiaojun Chang, Qinghua Zheng(参考訳) 近年, 弱教師付き人物探索法が提案され, 人身認証を廃止し, ボックスアノテーションのみを用いてモデルを訓練している。 この問題を解決する自然な方法は、それを検出と教師なしの再識別(Re-ID)ステップに分けることである。 しかし、この方法では、制約のないシーンイメージには2つの重要な手がかりが無視される。 一方、既存の教師なしRe-IDモデルでは、シーンイメージから取得した画像のみを活用するが、リッチなコンテキスト情報を無視する。 一方、現実世界の風景画像には多数の未舗装の人物が写っている。 それらを独立したアイデンティティとして直接扱うことは、ロングテール効果をもたらすが、完全に捨ててしまうと深刻な情報喪失につながる。 これらの課題を踏まえて、我々は、弱い教師付き人物検索フレームワーク(CGUA)を導入する。 具体的には,クラスタ化プロセスにおけるコンテキスト情報を活用するcgc(context-guided cluster)アルゴリズムと,非ペア化支援メモリ(unpaired-assisted memory, uam)ユニットを提案する。 大規模な実験により、提案手法は最先端の弱い教師付き手法を大きなマージン(CUHK-SYSUでは5%以上のmAP)で超えることを示した。 さらに,より多様なラベルなしデータを活用することにより,最先端の教師付き手法と同等あるいは優れた性能を実現する。 コードとモデルはまもなくリリースされる。

Recently, weakly supervised person search is proposed to discard human-annotated identities and train the model with only bounding box annotations. A natural way to solve this problem is to separate it into detection and unsupervised re-identification (Re-ID) steps. However, in this way, two important clues in unconstrained scene images are ignored. On the one hand, existing unsupervised Re-ID models only leverage cropped images from scene images but ignore its rich context information. On the other hand, there are numerous unpaired persons in real-world scene images. Directly dealing with them as independent identities leads to the long-tail effect, while completely discarding them can result in serious information loss. In light of these challenges, we introduce a Context-Guided and Unpaired-Assisted (CGUA) weakly supervised person search framework. Specifically, we propose a novel Context-Guided Cluster (CGC) algorithm to leverage context information in the clustering process and an Unpaired-Assisted Memory (UAM) unit to distinguish unpaired and paired persons by pushing them away. Extensive experiments demonstrate that the proposed approach can surpass the state-of-the-art weakly supervised methods by a large margin (more than 5% mAP on CUHK-SYSU). Moreover, our method achieves comparable or better performance to the state-of-the-art supervised methods by leveraging more diverse unlabeled data. Codes and models will be released soon.
翻訳日:2022-04-02 18:45:12 公開日:2022-03-27
# (参考訳) beyond masking:視覚トランスフォーマーのためのトークンベースのプリトレーニング [全文訳有]

Beyond Masking: Demystifying Token-Based Pre-Training for Vision Transformers ( http://arxiv.org/abs/2203.14313v1 )

ライセンス: CC BY 4.0
Yunjie Tian and Lingxi Xie and Jiemin Fang and Mengnan Shi and Junran Peng and Xiaopeng Zhang and Jianbin Jiao and Qi Tian and Qixiang Ye(参考訳) 昨年は、マスク画像モデリング(mim)の急速な発展を目撃した。 MIMは、主に視覚変換器上に構築されており、入力画像部分をマスキングし、ターゲットモデルに欠落したコンテンツを復元する必要があることを示唆している。 MIMは下流のタスクに有望な結果を示してきたが、「不足したコンテンツを復元して学習する」他の効果的な方法があるかどうかに興味を持っている。 本稿では,MIMと同じ手順を踏襲する5つの学習目標を設計し,異なる方法で入力画像を劣化させることにより,この話題を考察する。 広範な実験によって、トークンベースの視覚トランスフォーマーの事前学習のためのいくつかの設計原則をまとめることができた。 特に,従来の画像スタイルを保ち,空間的ミスアライメントを伴って空間マスキングを充実させることで,一連の下流認識タスクにおいて,余分な計算コストを伴わずにMIMよりも優れた性能を実現する。 コードはhttps://github.com/s unsmarterjie/beyond_ maskingで入手できる。

The past year has witnessed a rapid development of masked image modeling (MIM). MIM is mostly built upon the vision transformers, which suggests that self-supervised visual representations can be done by masking input image parts while requiring the target model to recover the missing contents. MIM has demonstrated promising results on downstream tasks, yet we are interested in whether there exist other effective ways to `learn by recovering missing contents'. In this paper, we investigate this topic by designing five other learning objectives that follow the same procedure as MIM but degrade the input image in different ways. With extensive experiments, we manage to summarize a few design principles for token-based pre-training of vision transformers. In particular, the best practice is obtained by keeping the original image style and enriching spatial masking with spatial misalignment -- this design achieves superior performance over MIM in a series of downstream recognition tasks without extra computational cost. The code is available at https://github.com/s unsmarterjie/beyond_ masking.
翻訳日:2022-04-02 18:44:06 公開日:2022-03-27
# (参考訳) PatchNet: ファイングラインドパッチ認識によるシンプルな顔アンチスプーフィングフレームワーク [全文訳有]

PatchNet: A Simple Face Anti-Spoofing Framework via Fine-Grained Patch Recognition ( http://arxiv.org/abs/2203.14325v1 )

ライセンス: CC BY 4.0
Chien-Yi Wang, Yu-Ding Lu, Shang-Ta Yang, Shang-Hong Lai(参考訳) 対面防止(FAS)は、異なる提示攻撃から顔認識システムを保護する上で重要な役割を果たす。 以前の研究では、ピクセルレベルの補助的な監督とドメインの一般化アプローチを利用して、見当たらないspoof型に対処している。 しかし,画像キャプチャの局所的特徴,すなわちキャプチャ装置と提示材料は,既存の作品では無視されているため,ネットワークがライブ画像とスプーフ画像を区別するためには,そのような情報が必要である。 本研究では,顔の偽造をきめ細かなパッチ型認識問題として再構成するPatchNetを提案する。 具体的には, 顔画像から切り取ったパッチに基づいて, 撮影装置と提示材料の組み合わせを認識する。 この改定はデータの変化を大幅に改善し、ネットワークに局所的なキャプチャパターンから識別的特徴を学習させる。 さらに,スプーフ特徴の一般化能力をさらに向上するため,パッチ埋め込み空間を正規化するための非対称マージン型分類損失と自己教師型類似損失を提案する。 実験の結果,本モデルでは局所領域のみを観察することで,未知のspoof型をロバストに認識できることが確認された。 さらに、fasのきめ細かいパッチレベルの改革は、イントラデータセット、クロスデータセット、ドメイン一般化ベンチマークの既存のアプローチを上回っている。 さらに,我々のPatchNetフレームワークはFew-Shot Reference-based FASのような実用的アプリケーションを実現し,スプーフ関連本質的手がかりの今後の探索を容易にする。

Face anti-spoofing (FAS) plays a critical role in securing face recognition systems from different presentation attacks. Previous works leverage auxiliary pixel-level supervision and domain generalization approaches to address unseen spoof types. However, the local characteristics of image captures, i.e., capturing devices and presenting materials, are ignored in existing works and we argue that such information is required for networks to discriminate between live and spoof images. In this work, we propose PatchNet which reformulates face anti-spoofing as a fine-grained patch-type recognition problem. To be specific, our framework recognizes the combination of capturing devices and presenting materials based on the patches cropped from non-distorted face images. This reformulation can largely improve the data variation and enforce the network to learn discriminative feature from local capture patterns. In addition, to further improve the generalization ability of the spoof feature, we propose the novel Asymmetric Margin-based Classification Loss and Self-supervised Similarity Loss to regularize the patch embedding space. Our experimental results verify our assumption and show that the model is capable of recognizing unseen spoof types robustly by only looking at local regions. Moreover, the fine-grained and patch-level reformulation of FAS outperforms the existing approaches on intra-dataset, cross-dataset, and domain generalization benchmarks. Furthermore, our PatchNet framework can enable practical applications like Few-Shot Reference-based FAS and facilitate future exploration of spoof-related intrinsic cues.
翻訳日:2022-04-02 18:24:22 公開日:2022-03-27
# (参考訳) グラフベースメタクラスタリングと正規化適応による局所適応型顔認識

Local-Adaptive Face Recognition via Graph-based Meta-Clustering and Regularized Adaptation ( http://arxiv.org/abs/2203.14327v1 )

ライセンス: CC BY 4.0
Wenbin Zhu, Chien-Yi Wang, Kuan-Lun Tseng, Shang-Hong Lai, Baoyuan Wang(参考訳) データプライバシに関する懸念が高まっているため、ローカルクライアントデータが集中型サーバに転送できず、関連するIDラベルが提供されないと仮定することは合理的です。 連続学習をサポートし,最後の1マイルの品質ギャップを埋めるために,局所適応顔認識(LaFR)と呼ばれる新しい問題設定を導入する。 初期グローバルモデルのデプロイ後に環境固有のローカルデータを活用することで、LaFRは、初期グローバルモデルの修正とは対照的に、局所適応モデルの自動的かつ非監督的なトレーニングによって最適なパフォーマンスを得ることを目指している。 メタ最適化手法を用いて学習したグラフ畳み込みネットワーク(GCN)に基づく新しい埋め込みクラスタモデルによりこれを実現できる。 従来の研究と比較すると,我々のメタクラスタリングモデルは見当たらないローカル環境においてよく一般化できる。 さらに,クラスタリング結果から擬似識別ラベルを抽出し,モデル適応性能を向上させるための新たな正規化手法を提案する。 人種的および内部的センサ適応に関する広範な実験により,提案手法が,各環境における顔認識モデルの適用に有効であることを実証した。 一方、LaFRは、更新されたローカルモデルに対する単純な連合集約により、グローバルモデルをさらに改善できることを示す。

Due to the rising concern of data privacy, it's reasonable to assume the local client data can't be transferred to a centralized server, nor their associated identity label is provided. To support continuous learning and fill the last-mile quality gap, we introduce a new problem setup called Local-Adaptive Face Recognition (LaFR). Leveraging the environment-specific local data after the deployment of the initial global model, LaFR aims at getting optimal performance by training local-adapted models automatically and un-supervisely, as opposed to fixing their initial global model. We achieve this by a newly proposed embedding cluster model based on Graph Convolution Network (GCN), which is trained via meta-optimization procedure. Compared with previous works, our meta-clustering model can generalize well in unseen local environments. With the pseudo identity labels from the clustering results, we further introduce novel regularization techniques to improve the model adaptation performance. Extensive experiments on racial and internal sensor adaptation demonstrate that our proposed solution is more effective for adapting face recognition models in each specific environment. Meanwhile, we show that LaFR can further improve the global model by a simple federated aggregation over the updated local models.
翻訳日:2022-04-02 18:10:11 公開日:2022-03-27
# (参考訳) 自己教師付き対応学習のための位置認識型映像間再構成 [全文訳有]

Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised Correspondence Learning ( http://arxiv.org/abs/2203.14333v1 )

ライセンス: CC BY 4.0
Liulei Li, Tianfei Zhou, Wenguan Wang, Lu Yang, Jianwu Li, Yi Yang(参考訳) 私たちの目標は、ラベルのないビデオから視覚的対応を学ぶことです。 自己教師付き通信学習パズルの3つの欠片(例えば、識別、位置認識、空間コンパクト性)を満たした、局所性認識とビデオ内リコンストラクションフレームワークであるliirを開発した。 まず,映像内自己監督のみに焦点を当てた既存の取り組みではなく,映像間及び映像内再構成方式において,映像間の親和性を付加陰性サンプルとして活用する。 これにより、望まれる映像内関連と負の映像間対応とを対比することにより、インスタンス識別表現学習が可能となる。 第2に,位置情報を対応マッチングにマージし,映像間親和性計算における位置符号化の副作用を除去し,liir位置に敏感な位置シフト戦略を設計する。 第3に,ビデオデータの空間連続性特性をフル活用するために,対応マッチングにコンパクト性に基づく制約を課し,よりスパースで信頼性の高い解を得る。 学習された表現は、オブジェクト、意味部分、キーポイントを含むラベル伝搬タスクの自己教師あり状態を超える。

Our target is to learn visual correspondence from unlabeled videos. We develop LIIR, a locality-aware inter-and intra-video reconstruction framework that fills in three missing pieces, i.e., instance discrimination, location awareness, and spatial compactness, of self-supervised correspondence learning puzzle. First, instead of most existing efforts focusing on intra-video self-supervision only, we exploit cross video affinities as extra negative samples within a unified, inter-and intra-video reconstruction scheme. This enables instance discriminative representation learning by contrasting desired intra-video pixel association against negative inter-video correspondence. Second, we merge position information into correspondence matching, and design a position shifting strategy to remove the side-effect of position encoding during inter-video affinity computation, making our LIIR location-sensitive. Third, to make full use of the spatial continuity nature of video data, we impose a compactness-based constraint on correspondence matching, yielding more sparse and reliable solutions. The learned representation surpasses self-supervised state-of-the-arts on label propagation tasks including objects, semantic parts, and keypoints.
翻訳日:2022-04-02 17:47:41 公開日:2022-03-27
# (参考訳) 機械学習と臨床データによる甲状腺癌の診断の改善 [全文訳有]

Improving The Diagnosis of Thyroid Cancer by Machine Learning and Clinical Data ( http://arxiv.org/abs/2203.15804v1 )

ライセンス: CC BY 4.0
Nan Miles Xi, Lin Wang, and Chuanjia Yang(参考訳) 甲状腺癌は、甲状腺に発生する一般的な内分泌癌である。 診断の改善に多くの努力が注がれており、甲状腺切除が主要な治療方法である。 副作用のない手術は、正確な術前診断に頼っている。 甲状腺結節悪性腫瘍の現時点のヒト評価は誤りを来し,正確な術前診断が得られない可能性がある。 本研究は,新しい臨床データから甲状腺結節悪性腫瘍を予測するための機械枠組みを提案する。 10倍のクロスバリデーション,ブートストラップ解析,および置換予測器の重要性を適用し,不確実性を考慮したモデル性能の推定と解釈を行った。 甲状腺結節悪性度予測における, モデル予測と専門家評価の比較は, 人間の判断に対する枠組みの優位性を示している。 甲状腺癌の術前診断において,本手法は正確であり,解釈可能であり,追加の証拠として有用である。

Thyroid cancer is a common endocrine carcinoma that occurs in the thyroid gland. Much effort has been invested in improving its diagnosis, and thyroidectomy remains the primary treatment method. A successful operation without unnecessary side injuries relies on an accurate preoperative diagnosis. Current human assessment of thyroid nodule malignancy is prone to errors and may not guarantee an accurate preoperative diagnosis. This study proposed a machine framework to predict thyroid nodule malignancy based on a novel clinical dataset we collected. The 10-fold cross-validation, bootstrap analysis, and permutation predictor importance were applied to estimate and interpret the model performance under uncertainty. The comparison between model prediction and expert assessment shows the advantage of our framework over human judgment in predicting thyroid nodule malignancy. Our method is accurate, interpretable, and thus useable as additional evidence in the preoperative diagnosis for thyroid cancer.
翻訳日:2022-04-02 16:56:22 公開日:2022-03-27
# 人物認識のためのmmW画像からの身体テクスチャ探索

Exploring Body Texture from mmW Images for Person Recognition ( http://arxiv.org/abs/2203.15618v1 )

ライセンス: Link先を確認
E. Gonzalez-Sosa, J. Fierrez, R. Vera-Rodriguez, F. Alonso-Fernandez, V. M. Patel(参考訳) ミリ波 (mmWs) を用いたイメージングには, 衣服やポリマーなどの異色物質を透過する能力など多くの利点がある。 本研究は, 人物認識のためのmmW画像から得られる形状情報について検討した後, mmW顔だけでなく, mmW胴体, mmW体全体についても検討し, 同一タスクにmmWテクスチャ情報を使用することの可能性について考察する。 本研究は,alexnetおよびvgg-face pretrained convolutional neural networks (cnn) モデルから得られた手作りおよび学習機能に基づく50名からなるmmw tnoデータベースを用いた実験結果について報告する。 まず,3mmWのボディパーツの個々の性能を解析し,以下の結果を得た。 一)mmW胴体領域は、mmW面及び全身より識別性が高い。 二 CNNの特徴は、mmW顔及び全身に手作りの特徴と比べ、より良い結果をもたらす。 iii)mmw torsoのcnn機能よりも若干優れた手作り機能。 本研究の第2部では,新しいcnnベースの核融合技術,検証結果の2%er化,識別ランク1の最大99%の精度向上など,多言語およびマルチモーダル技術を解析した。 また,視光スペクトル帯とNIRスペクトル帯におけるmmW体形状情報と顔認識との比較分析を行った。

Imaging using millimeter waves (mmWs) has many advantages including the ability to penetrate obscurants such as clothes and polymers. After having explored shape information retrieved from mmW images for person recognition, in this work we aim to gain some insight about the potential of using mmW texture information for the same task, considering not only the mmW face, but also mmW torso and mmW wholebody. We report experimental results using the mmW TNO database consisting of 50 individuals based on both hand-crafted and learned features from Alexnet and VGG-face pretrained Convolutional Neural Networks (CNN) models. First, we analyze the individual performance of three mmW body parts, concluding that: i) mmW torso region is more discriminative than mmW face and the whole body, ii) CNN features produce better results compared to hand-crafted features on mmW faces and the entire body, and iii) hand-crafted features slightly outperform CNN features on mmW torso. In the second part of this work, we analyze different multi-algorithmic and multi-modal techniques, including a novel CNN-based fusion technique, improving verification results to 2% EER and identification rank-1 results up to 99%. Comparative analyses with mmW body shape information and face recognition in the visible and NIR spectral bands are also reported.
翻訳日:2022-03-30 15:41:07 公開日:2022-03-27
# ギリシャ演劇における音声感情認識のためのデータセット

A Dataset for Speech Emotion Recognition in Greek Theatrical Plays ( http://arxiv.org/abs/2203.15568v1 )

ライセンス: Link先を確認
Maria Moutti, Sofia Eleftheriou, Panagiotis Koromilas, Theodoros Giannakopoulos(参考訳) 機械学習の手法は、文化的な応用に適用でき、文化的なコンテンツを大衆に配布したり、提示したりする新しい方法を提案する。 例えば、演劇の字幕を自動的に生成するために、音声分析が採用され、(他の目的で)聴覚障害の人を助ける。 ASR(Automatic Speech Recognition)による一般的な音声テキストの書き起こしとは別に、SER(A Speech Emotion Recognition)は、劇場劇における音声対話の根底にある感情的内容を自動的に予測し、俳優がその行をどう発声するかをより深く理解する。 しかし、演劇の現実世界のデータセットは文学では入手できない。 本稿では,ギリシャ演劇における音声感情認識のための新しい公開データ収集であるギリシャ演劇感情データセットであるGreThEを紹介する。 データセットには、さまざまなアクターとプレイからの発声と、各値と覚醒アノテーションが含まれている。 この目的のために、複数のアノテータに各音声記録に対する入力を依頼し、最終的な真実生成において、アノテータ間合意を考慮に入れた。 さらに,このデータセットを用いて機械学習とディープラーニングのフレームワークを用いて行ったいくつかの実演実験の結果と,音声感情認識の分野で広く使われているデータベースについて述べる。

Machine learning methodologies can be adopted in cultural applications and propose new ways to distribute or even present the cultural content to the public. For instance, speech analytics can be adopted to automatically generate subtitles in theatrical plays, in order to (among other purposes) help people with hearing loss. Apart from a typical speech-to-text transcription with Automatic Speech Recognition (ASR), Speech Emotion Recognition (SER) can be used to automatically predict the underlying emotional content of speech dialogues in theatrical plays, and thus to provide a deeper understanding how the actors utter their lines. However, real-world datasets from theatrical plays are not available in the literature. In this work we present GreThE, the Greek Theatrical Emotion dataset, a new publicly available data collection for speech emotion recognition in Greek theatrical plays. The dataset contains utterances from various actors and plays, along with respective valence and arousal annotations. Towards this end, multiple annotators have been asked to provide their input for each speech recording and inter-annotator agreement is taken into account in the final ground truth generation. In addition, we discuss the results of some indicative experiments that have been conducted with machine and deep learning frameworks, using the dataset, along with some widely used databases in the field of speech emotion recognition.
翻訳日:2022-03-30 13:39:50 公開日:2022-03-27
# 誤り訂正符号変換器

Error Correction Code Transformer ( http://arxiv.org/abs/2203.14966v1 )

ライセンス: Link先を確認
Yoni Choukroun, Lior Wolf(参考訳) エラー訂正コードは通信物理層の主要な部分であり、ノイズの多いチャネル上でデータの信頼できる転送を保証する。 近年、ニューラルデコーダは古典的デコーダよりも優れていた。 しかし、既存のニューラルアプローチは、指数的トレーニングの複雑さや、信念の伝播への依存による制限的な帰納バイアスにより、強い過適合を示す。 近年、トランスフォーマーは、要素間の複雑な相互作用を表現する能力のおかげで、多くのアプリケーションで選択の方法となっている。 本研究では,任意のブロック長の線形符号のソフトデコードにトランスフォーマアーキテクチャを初めて拡張することを提案する。 各チャンネルの出力次元を高次元に符号化し、個別に処理すべきビット情報の表現を改善する。 要素ワイズ処理はチャネル出力の信頼性を解析し、代数コードとビット間の相互作用を適応されたマスク付き自己保持モジュールを介してモデルに挿入する。 提案手法はトランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを時間的複雑さのごく一部で大きなマージンで上回る。

Error correction code is a major part of the communication physical layer, ensuring the reliable transfer of data over noisy channels. Recently, neural decoders were shown to outperform classical decoding techniques. However, the existing neural approaches present strong overfitting due to the exponential training complexity, or a restrictive inductive bias due to reliance on Belief Propagation. Recently, Transformers have become methods of choice in many applications thanks to their ability to represent complex interactions between elements. In this work, we propose to extend for the first time the Transformer architecture to the soft decoding of linear codes at arbitrary block lengths. We encode each channel's output dimension to high dimension for better representation of the bits information to be processed separately. The element-wise processing allows the analysis of the channel output reliability, while the algebraic code and the interaction between the bits are inserted into the model via an adapted masked self-attention module. The proposed approach demonstrates the extreme power and flexibility of Transformers and outperforms existing state-of-the-art neural decoders by large margins at a fraction of their time complexity.
翻訳日:2022-03-30 13:36:39 公開日:2022-03-27
# (参考訳) 階層的セマンティックセマンティックセグメンテーション [全文訳有]

Deep Hierarchical Semantic Segmentation ( http://arxiv.org/abs/2203.14335v1 )

ライセンス: CC BY 4.0
Liulei Li, Tianfei Zhou, Wenguan Wang, Jianwu Li, Yi Yang(参考訳) 人間は観察において構造化された関係を認識することができ、複雑なシーンをより単純な部分に分解し、視覚世界を複数のレベルで抽象化することができる。 しかしながら、人間の知覚のこのような階層的推論能力は、現在のセマンティックセグメンテーションの文献ではほとんど解明されていない。 既存の作業はしばしばラベルをフラットにし、各ピクセルに対してのみターゲットクラスを予測する。 本稿では,階層的セマンティクスセグメンテーション(hss)に代えて,階層的セマンティクス(階層的セグメンテーション,階層的セグメンテーション,階層的セグメンテーション,階層的セグメンテーション,階層的セグメンテーション,階層的セグメンテーション)について述べる。 このタスクにおいて2つの重要な問題に取り組む一般的なHSSフレームワークであるHSSNを考案する。 一 既存の階層に依存しないセグメンテーションネットワークをHSS設定に効率的に適応する方法及び 二 階層情報を利用してHSSネットワーク学習を正規化する方法。 宛て i) HSSN は HSS を画素単位のマルチラベル分類タスクとして直接キャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらす。 解決する ii)hssnは,階層構造に従うためにセグメント化予測を強制するトレーニング目標として,階層構造固有の特性を最初に検討する。 さらに階層的マージン制約により、hssnはピクセル埋め込み空間を再構成し、適切に構造化されたピクセル表現を生成し、最終的にはセグメンテーションを改善する。 我々は,4つのセマンティックセグメンテーションデータセット(Mapillary Vistas 2.0,Cityscapes,LIP,P ASCAL-Person-Part)について,クラス階層,セグメンテーションネットワークアーキテクチャ,バックボーンを用いて実験を行い,HSSNの一般化と優位性を示した。

Humans are able to recognize structured relations in observation, allowing us to decompose complex scenes into simpler parts and abstract the visual world in multiple levels. However, such hierarchical reasoning ability of human perception remains largely unexplored in current literature of semantic segmentation. Existing work is often aware of flatten labels and predicts target classes exclusively for each pixel. In this paper, we instead address hierarchical semantic segmentation (HSS), which aims at structured, pixel-wise description of visual observation in terms of a class hierarchy. We devise HSSN, a general HSS framework that tackles two critical issues in this task: i) how to efficiently adapt existing hierarchy-agnostic segmentation networks to the HSS setting, and ii) how to leverage the hierarchy information to regularize HSS network learning. To address i), HSSN directly casts HSS as a pixel-wise multi-label classification task, only bringing minimal architecture change to current segmentation models. To solve ii), HSSN first explores inherent properties of the hierarchy as a training objective, which enforces segmentation predictions to obey the hierarchy structure. Further, with hierarchy-induced margin constraints, HSSN reshapes the pixel embedding space, so as to generate well-structured pixel representations and improve segmentation eventually. We conduct experiments on four semantic segmentation datasets (i.e., Mapillary Vistas 2.0, Cityscapes, LIP, and PASCAL-Person-Part), with different class hierarchies, segmentation network architectures and backbones, showing the generalization and superiority of HSSN.
翻訳日:2022-03-30 12:19:20 公開日:2022-03-27
# (参考訳) 対称性制約を持つ結晶材料生成のための物理ガイド生成逆ネットワーク [全文訳有]

Physics Guided Generative Adversarial Networks for Generations of Crystal Materials with Symmetry Constraints ( http://arxiv.org/abs/2203.14352v1 )

ライセンス: CC BY 4.0
Yong Zhao, Edirisuriya M. Dilanga Siriwardane, Zhenyao Wu, Ming Hu, Nihang Fu, and Jianjun Hu(参考訳) 新たな素材の発見は、人類社会の進歩に不可欠な長年にわたる課題である。 試行錯誤実験や計算シミュレーションのような従来のアプローチは、専門家のヒューリスティックスに大きく依存する、労働集約的あるいはコストがかかる。 近年, 資料データセットから暗黙的な知識を学習し, 特定の資料群に制限されたり, 物理的ルールをモデル学習プロセスに組み込まなかったりして, 資料生成に成功している。 本稿では、隣り合う原子と対称的な幾何学的制約の対の原子間距離制約を捕捉し、活用する新しい材料生成のための物理ガイド結晶生成モデル(PGCGM)を提案する。 材料の基本原子サイトを増強することにより,20個の宇宙グループからなる新しい材料を生成できる。 生成結晶構造上でのアトムクラスタリングとマージにより, 生成体の有効性は1つのベースラインと比較して8倍, 従来の立方体ganと比較して143\%向上し, 特性分布と多様性に優れる。 さらに,2000 年から 1869 材料を最適化・相対化することに成功し,39.6 %が負の生成エネルギーを持つ密度汎関数理論 (dft) 計算により,生成候補の安定性を検証した。

Discovering new materials is a long-standing challenging task that is critical to the progress of human society. Conventional approaches such as trial-and-error experiments and computational simulations are labor-intensive or costly with their success heavily depending on experts' heuristics. Recently deep generative models have been successfully proposed for materials generation by learning implicit knowledge from known materials datasets, with performance however limited by their confinement to a special material family or failing to incorporate physical rules into the model training process. Here we propose a Physics Guided Crystal Generative Model (PGCGM) for new materials generation, which captures and exploits the pairwise atomic distance constraints among neighbor atoms and symmetric geometric constraints. By augmenting the base atom sites of materials, our model can generates new materials of 20 space groups. With atom clustering and merging on generated crystal structures, our method increases the generator's validity by 8 times compared to one of the baselines and by 143\% compared to the previous CubicGAN along with its superiority in properties distribution and diversity. We further validated our generated candidates by Density Functional Theory (DFT) calculation, which successfully optimized/relaxed 1869 materials out of 2000, of which 39.6\% are with negative formation energy, indicating their stability.
翻訳日:2022-03-30 10:31:10 公開日:2022-03-27
# (参考訳) 画像アニメーションのための薄板スプライン運動モデル [全文訳有]

Thin-Plate Spline Motion Model for Image Animation ( http://arxiv.org/abs/2203.14367v1 )

ライセンス: CC BY 4.0
Jian Zhao and Hui Zhang(参考訳) イメージアニメーションは、駆動ビデオに従って、ソースイメージ内の静的オブジェクトに生命をもたらす。 近年の研究では、事前知識を使わずに、教師なし手法による任意の物体の移動を試みている。 しかし、ソース内のオブジェクトとイメージの駆動との間に大きなポーズギャップがある場合、現在の教師なしメソッドでは依然として大きな課題である。 本稿では,この問題を解決するために,新しいエンドツーエンドの非教師ありモーショントランスファーフレームワークを提案する。 まず, より柔軟な光流を生成するために, 薄板のスプライン運動推定を提案し, 原画像の特徴地図を駆動画像の特徴領域にゆがめる。 第2に, 欠落領域をより現実的に復元するために, マルチレゾリューション・オクルージョン・マスクを用いてより効果的な特徴融合を実現する。 最後に、ネットワークモジュールに明らかな分業を保証するために補助損失関数が設計され、ネットワークが高品質な画像を生成するように促される。 提案手法は,話し相手や人体,ピクセルアニメーションなど,さまざまな物体をアニメーション化することができる。 実験により,ポーズ関連指標の可視性が向上し,ほとんどのベンチマークで性能が向上することを示した。

Image animation brings life to the static object in the source image according to the driving video. Recent works attempt to perform motion transfer on arbitrary objects through unsupervised methods without using a priori knowledge. However, it remains a significant challenge for current unsupervised methods when there is a large pose gap between the objects in the source and driving images. In this paper, a new end-to-end unsupervised motion transfer framework is proposed to overcome such issue. Firstly, we propose thin-plate spline motion estimation to produce a more flexible optical flow, which warps the feature maps of the source image to the feature domain of the driving image. Secondly, in order to restore the missing regions more realistically, we leverage multi-resolution occlusion masks to achieve more effective feature fusion. Finally, additional auxiliary loss functions are designed to ensure that there is a clear division of labor in the network modules, encouraging the network to generate high-quality images. Our method can animate a variety of objects, including talking faces, human bodies, and pixel animations. Experiments demonstrate that our method performs better on most benchmarks than the state of the art with visible improvements in pose-related metrics.
翻訳日:2022-03-30 10:11:29 公開日:2022-03-27
# (参考訳) CaCo: 正のサンプルと負のサンプルは、協調的対人的コントラスト学習を通して直接学習できる [全文訳有]

CaCo: Both Positive and Negative Samples are Directly Learnable via Cooperative-adversar ial Contrastive Learning ( http://arxiv.org/abs/2203.14370v1 )

ライセンス: CC BY 4.0
Xiao Wang, Yuhang Huang, Dan Zeng, Guo-Jun Qi(参考訳) 代表的自己指導手法として、コントラスト学習は、教師なし表現訓練において大きな成功を収めた。 クエリアンカーが与えられた負のサンプルと正のサンプルを区別することで、エンコーダを訓練する。 これらの正および負のサンプルは、識別エンコーダを学習する目的を定義する上で重要な役割を果たす。 既存の手法ではこれらのサンプルをヒューリスティックに選択するが、正のサンプルと負のサンプルの両方がエンコーダでエンドツーエンドで直接学習できる原理的な方法を提案する。 比較損失の最小化と最大化により,正および負のサンプルを協調的に学習できることが示唆された。 これにより、エンコーダに関する協調正と逆負が得られ、ミニバッチ上でクエリアンカーの学習された表現を継続的に追跡するように更新される。 提案手法は,ImageNet1Kで事前学習したResNet-50バックボーンの200と800のエポックに対して,それぞれ71.3%,75.3%の精度を実現している。 Multi-Cropではさらに75.7%に向上できる。 ソースコードと事前学習されたモデルはhttps://github.com/m aple-research-lab/ca coでリリースされている。

As a representative self-supervised method, contrastive learning has achieved great successes in unsupervised training of representations. It trains an encoder by distinguishing positive samples from negative ones given query anchors. These positive and negative samples play critical roles in defining the objective to learn the discriminative encoder, avoiding it from learning trivial features. While existing methods heuristically choose these samples, we present a principled method where both positive and negative samples are directly learnable end-to-end with the encoder. We show that the positive and negative samples can be cooperatively and adversarially learned by minimizing and maximizing the contrastive loss, respectively. This yields cooperative positives and adversarial negatives with respect to the encoder, which are updated to continuously track the learned representation of the query anchors over mini-batches. The proposed method achieves 71.3% and 75.3% in top-1 accuracy respectively over 200 and 800 epochs of pre-training ResNet-50 backbone on ImageNet1K without tricks such as multi-crop or stronger augmentations. With Multi-Crop, it can be further boosted into 75.7%. The source code and pre-trained model are released in https://github.com/m aple-research-lab/ca co.
翻訳日:2022-03-30 09:58:55 公開日:2022-03-27
# (参考訳) 連続学習:特徴抽出形式化、効率的なアルゴリズム、基本的な障害 [全文訳有]

Continual learning: a feature extraction formalization, an efficient algorithm, and fundamental obstructions ( http://arxiv.org/abs/2203.14383v1 )

ライセンス: CC BY 4.0
Binghui Peng and Andrej Risteski(参考訳) 連続学習は機械学習における新たなパラダイムであり、モデルは複数の異なる分布(環境)のデータにオンライン形式で公開され、分布の変化に適応することが期待される。 Precisely, the goal is to perform well in the new environment, while simultaneously retaining the performance on the previous environments (i.e. avoid "catastrophic forgetting") -- without increasing the size of the model. While this setup has enjoyed a lot of attention in the applied community, there hasn't be theoretical work that even formalizes the desired guarantees. In this paper, we propose a framework for continual learning through the framework of feature extraction -- namely, one in which features, as well as a classifier, are being trained with each environment. 特徴が線形であれば、現在の環境でうまく機能し、破滅的な忘れを回避できる効率的な勾配に基づくアルゴリズム $\mathsf{dpgd}$ を設計します。 一般に、特徴が非線形である場合、効率的かどうかに関わらず、そのようなアルゴリズムは存在できないことを示す。

Continual learning is an emerging paradigm in machine learning, wherein a model is exposed in an online fashion to data from multiple different distributions (i.e. environments), and is expected to adapt to the distribution change. Precisely, the goal is to perform well in the new environment, while simultaneously retaining the performance on the previous environments (i.e. avoid "catastrophic forgetting") -- without increasing the size of the model. While this setup has enjoyed a lot of attention in the applied community, there hasn't be theoretical work that even formalizes the desired guarantees. In this paper, we propose a framework for continual learning through the framework of feature extraction -- namely, one in which features, as well as a classifier, are being trained with each environment. When the features are linear, we design an efficient gradient-based algorithm $\mathsf{DPGD}$, that is guaranteed to perform well on the current environment, as well as avoid catastrophic forgetting. In the general case, when the features are non-linear, we show such an algorithm cannot exist, whether efficient or not.
翻訳日:2022-03-30 09:39:14 公開日:2022-03-27
# (参考訳) 加速不確実性定量化のためのフーリエニューラル演算子による速度継続 [全文訳有]

Velocity continuation with Fourier neural operators for accelerated uncertainty quantification ( http://arxiv.org/abs/2203.14386v1 )

ライセンス: CC BY 4.0
Ali Siahkoohi and Mathias Louboutin and Felix J. Herrmann(参考訳) 地震イメージングは、ノイズの多いデータや不正確なモデリングによって、背景の2乗速度モデルに誤差があるため、不適切な逆問題である。 不確かさの定量化は,背景モデルの変動が地震イメージングに与える影響を決定する上で不可欠である。 フォワードボルンモデリングオペレータに関連するコストと地震画像の高次元性のため、不確実性の定量化は計算的にコストがかかる。 このようにして、この研究の主な貢献は、ある背景モデルに関連付けられた地震動画像を仮想的に自由にマッピングする速度継続にサーベイ特有のフーリエニューラルネットワークである。 このサーロゲートは、200個の背景と地震画像ペアで訓練されているが、新しい背景モデルに関連する地震画像を正確に予測することができ、地震イメージングの不確かさの定量化を加速することができる。 本稿では, フーリエ型ニューラル演算子を用いた地震画像の不確かさの定量化を行い, 背景モデルの変動が地震画像の反射体位置に与える影響について考察する。

Seismic imaging is an ill-posed inverse problem that is challenged by noisy data and modeling inaccuracies -- due to errors in the background squared-slowness model. Uncertainty quantification is essential for determining how variability in the background models affects seismic imaging. Due to the costs associated with the forward Born modeling operator as well as the high dimensionality of seismic images, quantification of uncertainty is computationally expensive. As such, the main contribution of this work is a survey-specific Fourier neural operator surrogate to velocity continuation that maps seismic images associated with one background model to another virtually for free. While being trained with only 200 background and seismic image pairs, this surrogate is able to accurately predict seismic images associated with new background models, thus accelerating seismic imaging uncertainty quantification. We support our method with a realistic data example in which we quantify seismic imaging uncertainties using a Fourier neural operator surrogate, illustrating how variations in background models affect the position of reflectors in a seismic image.
翻訳日:2022-03-30 09:05:25 公開日:2022-03-27
# (参考訳) 脳波bcisの生理的インフォーメーションをめざして [全文訳有]

Towards physiology-informed data augmentation for EEG-based BCIs ( http://arxiv.org/abs/2203.14392v1 )

ライセンス: CC BY-SA 4.0
Oleksandr Zlatov and Benjamin Blankertz(参考訳) ほとんどのEEGベースのBrain-Computer Interface(BCI)は、EEGデータの変動が大きいため、分類モデルを調整するためにかなりの量のトレーニングデータを必要とします。 一般的に、モデルが複雑になるほど、トレーニングのためのデータが必要になる。 本稿では,手元に設定したデータから新たなデータを生成することにより,トレーニングデータを増強する新しい手法を提案する。 従来の手法とは違って,本手法では,ソースローカライゼーションとヘッドモデルを用いて,現行のソースダイポールを変更することにより,参加者間の変動を生理学的に意味のある方法で生成する。 本書では,本手法を解説し,参加者非依存型運動画像分類のための第1次予備結果を示す。 提案手法を用いて深部ニューラルネットワーク,浅部ニューラルネットワーク,LDAを用いた場合,それぞれ13,6,2ポイントの精度向上を実現した。

Most EEG-based Brain-Computer Interfaces (BCIs) require a considerable amount of training data to calibrate the classification model, owing to the high variability in the EEG data, which manifests itself between participants, but also within participants from session to session (and, of course, from trial to trial). In general, the more complex the model, the more data for training is needed. We suggest a novel technique for augmenting the training data by generating new data from the data set at hand. Different from existing techniques, our method uses backward and forward projection using source localization and a head model to modify the current source dipoles of the model, thereby generating inter-participant variability in a physiologically meaningful way. In this manuscript, we explain the method and show first preliminary results for participant-independ ent motor-imagery classification. The accuracy was increased when using the proposed method of data augmentation by 13, 6 and 2 percentage points when using a deep neural network, a shallow neural network and LDA, respectively.
翻訳日:2022-03-30 08:56:23 公開日:2022-03-27
# (参考訳) フーリエニューラル演算子を用いた炭素沈降モニタリングと予測のための学習的結合インバージョン [全文訳有]

Learned coupled inversion for carbon sequestration monitoring and forecasting with Fourier neural operators ( http://arxiv.org/abs/2203.14396v1 )

ライセンス: CC BY 4.0
Ziyi Yin and Ali Siahkoohi and Mathias Louboutin and Felix J. Herrmann(参考訳) 炭素貯蔵隔離の地震モニタリングは流体-流れ物理学と波動物理学の両方の難しい問題である。 さらに、監視は通常、これらの物理学が結合され、関心の地下の性質を効果的に逆転するために微分可能であることを要求する。 計算コストを大幅に削減するために,波動モデリング演算子,岩石特性変換,プロキシ流体流シミュレータに基づく学習結合型逆変換フレームワークを導入する。 本研究では,流体流シミュレータのプロキシとしてフーリエニューラル演算子を計算コストのごく一部で正確に利用できることを示す。 合成実験により提案手法の有効性を実証した。 最後に、我々のフレームワークは炭素沈降予測に拡張され、サロゲートフーリエニューラル演算子を効果的に使用して、将来のCO2配管をほぼゼロの追加コストで予測する。

Seismic monitoring of carbon storage sequestration is a challenging problem involving both fluid-flow physics and wave physics. Additionally, monitoring usually requires the solvers for these physics to be coupled and differentiable to effectively invert for the subsurface properties of interest. To drastically reduce the computational cost, we introduce a learned coupled inversion framework based on the wave modeling operator, rock property conversion and a proxy fluid-flow simulator. We show that we can accurately use a Fourier neural operator as a proxy for the fluid-flow simulator for a fraction of the computational cost. We demonstrate the efficacy of our proposed method by means of a synthetic experiment. Finally, our framework is extended to carbon sequestration forecasting, where we effectively use the surrogate Fourier neural operator to forecast the CO2 plume in the future at near-zero additional cost.
翻訳日:2022-03-30 08:43:39 公開日:2022-03-27
# 強化学習による風力エネルギーの最適化

Optimizing Airborne Wind Energy with Reinforcement Learning ( http://arxiv.org/abs/2203.14271v1 )

ライセンス: Link先を確認
N. Orzan, C. Leone, A. Mazzolini, J. Oyero, A. Celani(参考訳) 空力風力エネルギーは、カイトやグライダーなどの空力装置を用いて風から電力を抽出する軽量技術であり、性能を最大化するために翼方向を動的に制御することができる。 乱流空力学の動的複雑さにより、この最適化問題は古典的制御理論のような従来の手法では適用不可能となり、これは手前の力学系の正確かつトラクタブルな解析モデルに依存する。 本稿では,環境との繰り返しの試行錯誤によって,システムの事前知識を必要とせずに,観測と利益ある行動とを関連付ける手法である強化学習(Reinforcement Learning)を通じてこの問題に取り組むことを提案する。 シミュレーション環境において、強化学習は、遠距離で車両を牽引できるように、カイトを効率的に制御する方法を見出した。 私たちが使用するアルゴリズムは、直感的な観察の小さなセットに基づいており、物理的に透明な解釈により、概最適戦略を操作命令の単純なリストとして記述することができる。

Airborne Wind Energy is a lightweight technology that allows power extraction from the wind using airborne devices such as kites and gliders, where the airfoil orientation can be dynamically controlled in order to maximize performance. The dynamical complexity of turbulent aerodynamics makes this optimization problem unapproachable by conventional methods such as classical control theory, which rely on accurate and tractable analytical models of the dynamical system at hand. Here we propose to attack this problem through Reinforcement Learning, a technique that -- by repeated trial-and-error interactions with the environment -- learns to associate observations with profitable actions without requiring prior knowledge of the system. We show that in a simulated environment Reinforcement Learning finds an efficient way to control a kite so that it can tow a vehicle for long distances. The algorithm we use is based on a small set of intuitive observations and its physically transparent interpretation allows to describe the approximately optimal strategy as a simple list of manoeuvring instructions.
翻訳日:2022-03-29 17:46:37 公開日:2022-03-27
# Bunched LPCNet2: クラウドからエッジまでデバイスをカバーする効率的なニューラルネットワークヴォコーダ

Bunched LPCNet2: Efficient Neural Vocoders Covering Devices from Cloud to Edge ( http://arxiv.org/abs/2203.14416v1 )

ライセンス: Link先を確認
Sangjun Park, Kihyun Choo, Joohyung Lee, Anton V. Porov, Konstantin Osipov, June Sig Sung(参考訳) エッジデバイス上で動作するText-to-Speech(TTS)サービスには、レイテンシやプライバシの問題など、クラウド TTS と比較して多くのメリットがある。 しかし、複雑さが低く、モデルフットプリントが小さいニューラルボコーダは、必然的に迷惑な音を生成する。 本研究は,クラウドサーバの高品質,低リソースエッジデバイスの低複雑さで高効率な性能を実現する改良型LPCNetアーキテクチャである Bunched LPCNet2を提案する。 単一ロジスティック分布は計算効率を達成し、洞察力のあるトリックは音声品質を維持しながらモデルのフットプリントを削減する。 プロソディモデルから低サンプリング率を生成するDualRateアーキテクチャも提案され,メンテナンスコストの低減が図られた。 実験により,LPCNet2はモデルフットプリントが1.1MBであり,RPi 3Bではリアルタイムよりも高速に動作し,良好な音声品質が得られることが示された。 オーディオサンプルはhttps://srtts.github .io/bunchedlpcnet2で入手できます。

Text-to-Speech (TTS) services that run on edge devices have many advantages compared to cloud TTS, e.g., latency and privacy issues. However, neural vocoders with a low complexity and small model footprint inevitably generate annoying sounds. This study proposes a Bunched LPCNet2, an improved LPCNet architecture that provides highly efficient performance in high-quality for cloud servers and in a low-complexity for low-resource edge devices. Single logistic distribution achieves computational efficiency, and insightful tricks reduce the model footprint while maintaining speech quality. A DualRate architecture, which generates a lower sampling rate from a prosody model, is also proposed to reduce maintenance costs. The experiments demonstrate that Bunched LPCNet2 generates satisfactory speech quality with a model footprint of 1.1MB while operating faster than real-time on a RPi 3B. Our audio samples are available at https://srtts.github .io/bunchedLPCNet2.
翻訳日:2022-03-29 17:45:11 公開日:2022-03-27
# 敵対的表現共有:定量的かつセキュアな協調学習フレームワーク

Adversarial Representation Sharing: A Quantitative and Secure Collaborative Learning Framework ( http://arxiv.org/abs/2203.14299v1 )

ライセンス: Link先を確認
Jikun Chen, Feng Qiang, Na Ruan(参考訳) ディープラーニングモデルの性能は、トレーニングデータの量に大きく依存します。 今日のデータ保有者がデータセットをマージし、モデルを協調的にトレーニングすることは、一般的なプラクティスである。 セキュアなマルチパーティ計算 (MPC) やフェデレーション学習 (FL) といった既存の手法と異なり, コミュニケーションオーバーヘッドの低減とタスク独立性のため, 協調学習において表現学習は独特な利点がある。 しかし、データ表現はモデル反転攻撃の脅威に直面している。 本稿では,協調学習シナリオを形式的に定義し,データユーティリティとプライバシを定量化する。 次に,モデル学習のためのデータ表現をユーザが共有し,再構成や属性抽出攻撃に対するデータ表現に不可避の逆ノイズを加える,協調学習フレームワークであるARSを提案する。 異なる文脈におけるarsを評価することにより,我々のメカニズムがモデル反転攻撃に対して有効であることを実証し,プライバシとユーティリティのバランスを実現する。 ARSフレームワークは幅広い適用性を持っている。 まず、ARSは様々なデータ型に対して有効であり、画像に限らない。 第二に、ユーザが共有するデータ表現は、異なるタスクで利用することができる。 第三に、フレームワークは垂直データパーティショニングシナリオに容易に拡張できます。

The performance of deep learning models highly depends on the amount of training data. It is common practice for today's data holders to merge their datasets and train models collaboratively, which yet poses a threat to data privacy. Different from existing methods such as secure multi-party computation (MPC) and federated learning (FL), we find representation learning has unique advantages in collaborative learning due to the lower communication overhead and task-independency. However, data representations face the threat of model inversion attacks. In this article, we formally define the collaborative learning scenario, and quantify data utility and privacy. Then we present ARS, a collaborative learning framework wherein users share representations of data to train models, and add imperceptible adversarial noise to data representations against reconstruction or attribute extraction attacks. By evaluating ARS in different contexts, we demonstrate that our mechanism is effective against model inversion attacks, and achieves a balance between privacy and utility. The ARS framework has wide applicability. First, ARS is valid for various data types, not limited to images. Second, data representations shared by users can be utilized in different tasks. Third, the framework can be easily extended to the vertical data partitioning scenario.
翻訳日:2022-03-29 17:23:00 公開日:2022-03-27
# グラフニューラルネットワークを用いたスケーラブルスケジューリングのための分散リンクスパーシフィケーション

Distributed Link Sparsification for Scalable Scheduling Using Graph Neural Networks ( http://arxiv.org/abs/2203.14339v1 )

ライセンス: Link先を確認
Zhongyuan Zhao, Ananthram Swami, Santiago Segarra(参考訳) 密集した無線マルチホップネットワークにおけるスループットやユーティリティの最大化のための分散スケジューリングアルゴリズムは、オーバーヘッドが圧倒的に高くなり、混雑、エネルギー消費、無線フットプリント、セキュリティ脆弱性が増大する。 本稿では,ネットワーク容量の大部分を維持しつつスケジューリングオーバーヘッドを低減できるグラフ畳み込みネットワーク (gcns) とのリンクスパース化のための分散方式を提案する。 簡単に言えば、トレーニング可能なgcnモジュールは、リンクが勝てない場合、スケジュール競合から自分自身を引き出すことができるローカル決定機構のトポロジー認識および再利用可能なパラメータとしてノード埋め込みを生成する。 中規模無線ネットワークにおいて、提案するスパース・スケジューラは、ポイント・ツー・ポイントのメッセージ複雑性の0.4\%、リンク当たりの干渉する隣人の平均数の2.6\%$の分散型最大重み型スケジューラによって達成された総容量の約70\%を保ち、従来のしきい値に基づくスパース化ポリシーに匹敵する。

Distributed scheduling algorithms for throughput or utility maximization in dense wireless multi-hop networks can have overwhelmingly high overhead, causing increased congestion, energy consumption, radio footprint, and security vulnerability. For wireless networks with dense connectivity, we propose a distributed scheme for link sparsification with graph convolutional networks (GCNs), which can reduce the scheduling overhead while keeping most of the network capacity. In a nutshell, a trainable GCN module generates node embeddings as topology-aware and reusable parameters for a local decision mechanism, based on which a link can withdraw itself from the scheduling contention if it is not likely to win. In medium-sized wireless networks, our proposed sparse scheduler beats classical threshold-based sparsification policies by retaining almost $70\%$ of the total capacity achieved by a distributed greedy max-weight scheduler with $0.4\%$ of the point-to-point message complexity and $2.6\%$ of the average number of interfering neighbors per link.
翻訳日:2022-03-29 17:22:41 公開日:2022-03-27
# piRank:Facebook検索のための確率的インテントベースのランキングフレームワーク

piRank: A Probabilistic Intent Based Ranking Framework for Facebook Search ( http://arxiv.org/abs/2203.14363v1 )

ライセンス: Link先を確認
Zhen Liao(参考訳) 検索ランキングのさまざまなタイプの機械学習アプローチを探求する文献で多くの研究が行われているが、その多くは特定の事前定義された問題に焦点を当てているが、商用検索エンジンに適用可能なランキングフレームワークをスケーラブルに研究しているのはごくわずかである。 一方,既存のランキングモデルは,通常値引き累積ゲイン (NDCG) やオンラインクリックスルーレート (CTR) に最適化されることが多い。 実際にFacebook検索では、MLモデルのトレーニングデータに何らかの問題があることが分かりました。 まず、尾行クエリインテントは、人間のレーティングデータセットではほとんどカバーされていません。 第二に、検索クリックログは、様々な理由から、しばしば騒々しく、クリーンアップが難しい。 本稿では,上記の問題に対処するために,確率的意図に基づくランキングフレームワーク(pirank の略)を提案する。 1) 異なるクエリインテントに対するさまざまなランク付け問題に分割・参照方式で対処するスケーラブルなフレームワークを提供する。 2) イテレーション速度やシステムデバッグ性など,システム開発のアジリティを改善する。 3) 機械学習と経験に基づくアルゴリズム手法を体系的な方法で組み合わせる。 facebookの検索エンジンシステム上で広範な実験と研究を行い、この新しいランキングアーキテクチャの有効性を検証した。

While numerous studies have been conducted in the literature exploring different types of machine learning approaches for search ranking, most of them are focused on specific pre-defined problems but only a few of them have studied the ranking framework which can be applied in a commercial search engine in a scalable way. In the meantime, existing ranking models are often optimized for normalized discounted cumulative gains (NDCG) or online click-through rate (CTR), and both types of machine learning models are built based on the assumption that high-quality training data can be easily obtained and well applied to unseen cases. In practice at Facebook search, we observed that our training data for ML models have certain issues. First, tail query intents are hardly covered in our human rating dataset. Second, search click logs are often noisy and hard to clean up due to various reasons. To address the above issues, in this paper, we propose a probabilistic intent based ranking framework (short for piRank), which can: 1) provide a scalable framework to address various ranking issues for different query intents in a divide-and-conquer way; 2) improve system development agility including iteration speed and system debuggability; 3) combine both machine learning and empirical-based algorithmic methods in a systematic way. We conducted extensive experiments and studies on top of Facebook search engine system and validated the effectiveness of this new ranking architecture.
翻訳日:2022-03-29 17:22:14 公開日:2022-03-27
# SDO/HMIベクトル磁気データと双方向LSTMネットワークを用いた太陽エネルギー粒子の予測

Predicting Solar Energetic Particles Using SDO/HMI Vector Magnetic Data Products and a Bidirectional LSTM Network ( http://arxiv.org/abs/2203.14393v1 )

ライセンス: Link先を確認
Yasser Abduallah, Vania K. Jordanova, Hao Liu, Qin Li, Jason T. L. Wang, Haimin Wang(参考訳) 太陽エネルギー粒子(SEP)は宇宙放射線の重要な源であり、宇宙、宇宙船、技術全般において人類にとって危険である。 本稿では、アクティブ領域(AR)がSEPイベントを生成するかどうかを予測するための深層学習手法、特に双方向長短期記憶(biLSTM)ネットワークを提案する。 i)ARは、そのフレアに関連するM型又はX型フレア及びコロナ質量放出(CME)を生成するか、又は 二)ARは、そのフレアがCMEと関連しているか否かにかかわらず、M級又はX級フレアを生成する。 本研究で使用したデータサンプルは,国立環境情報センターが提供する静止運用環境衛星のX線フレアカタログから収集した。 我々は2010年から2021年までの期間、カタログに特定されたARを持つM級とX級のフレアを選択し、同じ期間に宇宙気象データベース(Space Weather Database of Notifications, Knowledge, Information)にフレア、CME、SEPの関連を見出した。 それぞれのデータサンプルには、太陽動力学観測所のヘリオサイスミックおよび磁気撮像装置から収集された物理パラメータが含まれている。 異なる性能指標に基づく実験結果から,提案したbiLSTMネットワークは,2つのSEP予測タスクにおいて,関連する機械学習アルゴリズムよりも優れていることが示された。 また,確率的予測とキャリブレーションのためのアプローチの拡張を経験的評価により検討する。

Solar energetic particles (SEPs) are an essential source of space radiation, which are hazards for humans in space, spacecraft, and technology in general. In this paper we propose a deep learning method, specifically a bidirectional long short-term memory (biLSTM) network, to predict if an active region (AR) would produce an SEP event given that (i) the AR will produce an M- or X-class flare and a coronal mass ejection (CME) associated with the flare, or (ii) the AR will produce an M- or X-class flare regardless of whether or not the flare is associated with a CME. The data samples used in this study are collected from the Geostationary Operational Environmental Satellite's X-ray flare catalogs provided by the National Centers for Environmental Information. We select M- and X-class flares with identified ARs in the catalogs for the period between 2010 and 2021, and find the associations of flares, CMEs and SEPs in the Space Weather Database of Notifications, Knowledge, Information during the same period. Each data sample contains physical parameters collected from the Helioseismic and Magnetic Imager on board the Solar Dynamics Observatory. Experimental results based on different performance metrics demonstrate that the proposed biLSTM network is better than related machine learning algorithms for the two SEP prediction tasks studied here. We also discuss extensions of our approach for probabilistic forecasting and calibration with empirical evaluation.
翻訳日:2022-03-29 17:20:36 公開日:2022-03-27
# エンドツーエンドアクティブ話者検出

End-to-End Active Speaker Detection ( http://arxiv.org/abs/2203.14250v1 )

ライセンス: Link先を確認
Juan Leon Alcazar, Moritz Cordes, Chen Zhao, and Bernard Ghanem(参考訳) 能動話者検出(asd)問題の最近の進歩は、特徴抽出と時空間的文脈集約という2段階のプロセスに基づいている。 本稿では,機能学習と文脈予測を共同で学習するエンドツーエンドasdワークフローを提案する。 エンドツーエンドのトレーニング可能なネットワークは,マルチモーダル埋め込みと時空間の集約を同時に学習する。 これにより、より適切な特徴表現とasdタスクのパフォーマンスが向上する。 また、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割するインターリーブグラフニューラルネットワーク(iGNN)ブロックも導入する。 実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。 最後に,オーディオビジュアルデータを活用することで,オーディオアノテーションのみに頼らず,ASD問題にもアプローチできることを実証する弱い教師付き戦略を設計する。 音声信号と可能な音源(スピーカ)との直接的関係をモデル化し、コントラスト的な損失を生じさせることにより、これを実現する。

Recent advances in the Active Speaker Detection (ASD) problem build upon a two-stage process: feature extraction and spatio-temporal context aggregation. In this paper, we propose an end-to-end ASD workflow where feature learning and contextual predictions are jointly learned. Our end-to-end trainable network simultaneously learns multi-modal embeddings and aggregates spatio-temporal context. This results in more suitable feature representations and improved performance in the ASD task. We also introduce interleaved graph neural network (iGNN) blocks, which split the message passing according to the main sources of context in the ASD problem. Experiments show that the aggregated features from the iGNN blocks are more suitable for ASD, resulting in state-of-the art performance. Finally, we design a weakly-supervised strategy, which demonstrates that the ASD problem can also be approached by utilizing audiovisual data but relying exclusively on audio annotations. We achieve this by modelling the direct relationship between the audio signal and the possible sound sources (speakers), as well as introducing a contrastive loss.
翻訳日:2022-03-29 17:18:49 公開日:2022-03-27
# 抽象的議論と解集合プログラミング:ネルソンの論理の2つの面

Abstract argumentation and answer set programming: two faces of Nelson's logic ( http://arxiv.org/abs/2203.14405v1 )

ライセンス: Link先を確認
Jorge Fandinno and Luis Fari\~nas del Cerro(参考訳) 本稿では,論理プログラミングフレームワークと抽象的議論フレームワークの両方をネルソンのコンストラクティブ論理 n4 を用いて解釈可能であることを示す。 我々は、この論理学において、矛盾しない推論(non-contradictory inference)と強化された閉世界仮定(stronged closed world assumption)と呼ばれる2つの原則を定式化することによって、そうする: 第一の主張は、矛盾する証拠に基づいては信頼できないが、後者は未知の証拠と矛盾する証拠の両方を虚偽と見なすように強制する。 これらの原則を用いることで、論理プログラミングと抽象的議論のフレームワークはモジュラーな方法で構成論理に変換され、オブジェクト言語を使用する。 論理プログラミングの含意と抽象的議論は、翻訳において、非矛盾推論原理に従う新しい含意結合体となる。 攻撃は、この新しい意味と強い否定を組み合わせることで表現される。 論理プログラミングの理論と実践(tplp)における考察。

In this work, we show that both logic programming and abstract argumentation frameworks can be interpreted in terms of Nelson's constructive logic N4. We do so by formalizing, in this logic, two principles that we call non-contradictory inference and strengthened closed world assumption: the first states that no belief can be held based on contradictory evidence while the latter forces both unknown and contradictory evidence to be regarded as false. Using these principles, both logic programming and abstract argumentation frameworks are translated into constructive logic in a modular way and using the object language. Logic programming implication and abstract argumentation supports become, in the translation, a new implication connective following the non-contradictory inference principle. Attacks are then represented by combining this new implication with strong negation. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-03-29 16:39:50 公開日:2022-03-27
# 遅延ホモフィリーと測定誤差による因果ネットワークの影響:治療コミュニティへの応用

Causal Network Influence with Latent Homophily and Measurement Error: An Application to Therapeutic Community ( http://arxiv.org/abs/2203.14223v1 )

ライセンス: Link先を確認
Subhadeep Paul, Shanjukta Nath, Keith Warren(参考訳) 空間的あるいはネットワーク自己回帰モデル(sar, nam)は、ネットワークに接続された隣人が個人の結果に影響を及ぼす影響をモデル化するのによく用いられる。 しかし、多くの著者は、ホモフィリーの存在により、観測データから \textit{causal} ネットワークの影響や感染は特定できないと指摘している。 本稿では,ネットワーク応答に対する潜在ホモフィア調整空間自己回帰モデルを提案し,因果感染と文脈効果を同定する。 潜在ホモフィリーは、ネットワークの隣接行列のスペクトル埋め込みから推定される。 また,共変量と誤差を測る際の測定誤差を補正するSARモデルのパラメータの最大推定器を開発した。 バイアス補正されたMLEは整合性を示し,その漸近的制限分布を導出する。 SARモデルにおけるバイアス補正MLEを用いてネットワークの影響を推定し,共変量として潜在性ホモフィリーを推定する。 シミュレーションの結果, 有限サンプルの場合, 手法が良好であることが判明した。 本手法は,薬物乱用と犯罪行動に対する治療コミュニティ(tc)における女性犯罪者のデータセットに適用する。 我々は,tcの卒業および潜在性相同性を考慮した再受刑におけるネットワークの影響を因果的に見積もる。

The Spatial or Network Autoregressive model (SAR, NAM) is popular for modeling the influence network connected neighbors exert on the outcome of individuals. However, many authors have noted that the \textit{causal} network influence or contagion cannot be identified from observational data due to the presence of homophily. We propose a latent homophily-adjusted spatial autoregressive model for networked responses to identify the causal contagion and contextual effects. The latent homophily is estimated from the spectral embedding of the network's adjacency matrix. Separately, we develop maximum likelihood estimators for the parameters of the SAR model correcting for measurement error when covariates are measured with error. We show that the bias corrected MLE are consistent and derive its asymptotic limiting distribution. We propose to estimate network influence using the bias corrected MLE in a SAR model with the estimated latent homophily added as a covariate. Our simulations show that the methods perform well in finite sample. We apply our methodology to a data-set of female criminal offenders in a therapeutic community (TC) for substance abuse and criminal behavior. We provide causal estimates of network influence on graduation from TC and re-incarceration after accounting for latent homophily.
翻訳日:2022-03-29 16:36:40 公開日:2022-03-27
# 辞書学習の評価による虹彩バイオメトリックスの超解像調査

A Survey of Super-Resolution in Iris Biometrics with Evaluation of Dictionary-Learning ( http://arxiv.org/abs/2203.14203v1 )

ライセンス: Link先を確認
F. Alonso-Fernandez, R. A. Farrugia, J. Bigun, J. Fierrez, E. Gonzalez-Sosa(参考訳) 解像度の欠如は、画像ベースのバイオメトリックスの性能に悪影響を及ぼす。 低解像度画像を復元するために多くの一般的な超解像法が提案されているが、通常は視覚的外観を高めることを目的としている。 しかし、生体画像の視覚的強調は、必ずしもより良い認識性能と相関しない。 レコンストラクションアプローチは、効果的に認識を改善するために、ターゲットのバイオメトリックモダリティから特定の情報を取り込む必要がある。 本稿では,本論文で提案されているiris超解像手法の包括的調査を行う。 また,局所像パッチのPCA固有変換に基づく固有パッチ再構成手法を適用した。 irisの構造はパッチ位置依存辞書を構築することで活用される。 また、画像パッチは別々に復元され、独自の復元重みを有する。 これにより、ソリューションをローカルに最適化し、ローカル情報を保存できる。 このアルゴリズムを評価するため,CASIA Interval V3データベースから高分解能画像を分解した。 15×15ピクセルは最小の解像度である。 私たちの知る限りでは、これは文学で使用される最小の解決法の一つである。 このフレームワークは6つの公共アイリスコンパレータで補完され、生体認証と識別実験に使用された。 実験結果から,提案手法は双線形補間とバイコビック補間の両方を極めて低分解能で有意に優れていた。 多数のコンパレータの性能は、わずか15×15ピクセルの虹彩画像を考えると、印象的な等値誤差率を5%、トップ1の精度を77~84%に達する。 これらの結果は,一致前の虹彩画像の品質向上のために,訓練された超解像技術を用いることの利点を明らかに示している。

The lack of resolution has a negative impact on the performance of image-based biometrics. While many generic super-resolution methods have been proposed to restore low-resolution images, they usually aim to enhance their visual appearance. However, a visual enhancement of biometric images does not necessarily correlate with a better recognition performance. Reconstruction approaches need thus to incorporate specific information from the target biometric modality to effectively improve recognition. This paper presents a comprehensive survey of iris super-resolution approaches proposed in the literature. We have also adapted an Eigen-patches reconstruction method based on PCA Eigen-transformation of local image patches. The structure of the iris is exploited by building a patch-position dependent dictionary. In addition, image patches are restored separately, having their own reconstruction weights. This allows the solution to be locally optimized, helping to preserve local information. To evaluate the algorithm, we degraded high-resolution images from the CASIA Interval V3 database. Different restorations were considered, with 15x15 pixels being the smallest resolution. To the best of our knowledge, this is among the smallest resolutions employed in the literature. The framework is complemented with six public iris comparators, which were used to carry out biometric verification and identification experiments. Experimental results show that the proposed method significantly outperforms both bilinear and bicubic interpolation at very low-resolution. The performance of a number of comparators attains an impressive Equal Error Rate as low as 5%, and a Top-1 accuracy of 77-84% when considering iris images of only 15x15 pixels. These results clearly demonstrate the benefit of using trained super-resolution techniques to improve the quality of iris images prior to matching.
翻訳日:2022-03-29 16:33:56 公開日:2022-03-27
# 実世界画像超解像のための効率的かつ分解適応型ネットワーク

Efficient and Degradation-Adaptive Network for Real-World Image Super-Resolution ( http://arxiv.org/abs/2203.14216v1 )

ライセンス: Link先を確認
Jie Liang and Hui Zeng and Lei Zhang(参考訳) 超解像(Real-ISR)は、実世界の画像の未知の複雑な劣化と、実用上の限られた計算資源のため、困難な課題である。 近年のリアルisrの研究は、画像劣化空間をモデル化することで大きな進歩を遂げているが、これらの手法は主に重いバックボーンネットワークに依存しており、異なる劣化レベルの画像を扱うには柔軟性がない。 本稿では,各入力画像の劣化を推定してパラメータを適応的に指定する,効率よく効果的な分解適応型超解像ネットワークを提案する。 具体的には、入力画像の劣化パラメータを予測するために小さな回帰ネットワークを用い、同じトポロジーを持つ複数の畳み込み専門家を共同で最適化して、専門家の非線形混合を介してネットワークパラメータを指定する。 複数の専門家による共同最適化と劣化適応パイプラインは,入力画像の超解像に1つの適応型ネットワークのみを使用するため,様々なレベルの劣化に対処するためにモデル能力を大幅に拡張するが,推論は効率的である。 大規模な実験により,提案したDASRは,分解レベルが異なる実世界の画像を扱う既存の手法よりも効果的であるだけでなく,デプロイが容易であることが示された。 コード、モデル、データセットはhttps://github.com/c sjliang/dasrで入手できる。

Efficient and effective real-world image super-resolution (Real-ISR) is a challenging task due to the unknown complex degradation of real-world images and the limited computation resources in practical applications. Recent research on Real-ISR has achieved significant progress by modeling the image degradation space; however, these methods largely rely on heavy backbone networks and they are inflexible to handle images of different degradation levels. In this paper, we propose an efficient and effective degradation-adaptive super-resolution (DASR) network, whose parameters are adaptively specified by estimating the degradation of each input image. Specifically, a tiny regression network is employed to predict the degradation parameters of the input image, while several convolutional experts with the same topology are jointly optimized to specify the network parameters via a non-linear mixture of experts. The joint optimization of multiple experts and the degradation-adaptive pipeline significantly extend the model capacity to handle degradations of various levels, while the inference remains efficient since only one adaptively specified network is used for super-resolving the input image. Our extensive experiments demonstrate that the proposed DASR is not only much more effective than existing methods on handling real-world images with different degradation levels but also efficient for easy deployment. Codes, models and datasets are available at https://github.com/c sjliang/DASR.
翻訳日:2022-03-29 16:33:32 公開日:2022-03-27
# メタ強化学習を用いた機械学習タスクの画質評価

Image quality assessment for machine learning tasks using meta-reinforcement learning ( http://arxiv.org/abs/2203.14258v1 )

ライセンス: Link先を確認
Shaheer U. Saeed, Yunguan Fu, Vasilis Stavrinides, Zachary M.C. Baum, Qianye Yang, Mirabela Rusu, Richard E. Fan, Geoffrey A. Sonn, J. Alison Noble, Dean C. Barratt, Yipeng Hu(参考訳) 本稿では,画像品質アセスメント(iqa)を,与えられた下流タスクに対する画像の適性,あるいはタスクの適性を評価する尺度として検討する。 画像分類やセグメンテーションのためのニューラルネットワークベースのタスク予測器などの機械学習アルゴリズムを用いてタスクを実行すると、タスク予測器の性能はタスクのアメナビリティを客観的に推定する。 本研究では、IQAコントローラを用いてタスクアメニビリティを予測し、ニューラルネットワークによってパラメータ化されているタスクアメニビリティをタスク予測器と同時にトレーニングする。 我々はさらに、新しいデータセットやメタタスクで効率的に調整できるように、iqaコントローラとタスク予測器の両方の適応性を向上させるメタ強化学習フレームワークを開発した。 X線画像における超音波ガイド下前立腺介入と肺炎検出の2つの臨床応用を用いて,提案手法の有効性を実証した。

In this paper, we consider image quality assessment (IQA) as a measure of how images are amenable with respect to a given downstream task, or task amenability. When the task is performed using machine learning algorithms, such as a neural-network-based task predictor for image classification or segmentation, the performance of the task predictor provides an objective estimate of task amenability. In this work, we use an IQA controller to predict the task amenability which, itself being parameterised by neural networks, can be trained simultaneously with the task predictor. We further develop a meta-reinforcement learning framework to improve the adaptability for both IQA controllers and task predictors, such that they can be fine-tuned efficiently on new datasets or meta-tasks. We demonstrate the efficacy of the proposed task-specific, adaptable IQA approach, using two clinical applications for ultrasound-guided prostate intervention and pneumonia detection on X-ray images.
翻訳日:2022-03-29 16:33:10 公開日:2022-03-27
# 深部ニューラルネットワークと光GBMを用いた胸部X線画像からのCOVID-19症例の診断

Diagnosis of COVID-19 Cases from Chest X-ray Images Using Deep Neural Network and LightGBM ( http://arxiv.org/abs/2203.14275v1 )

ライセンス: Link先を確認
Mobina Ezzoddin, Hamid Nasiri, Morteza Dorrigiv(参考訳) コロナウイルスは2019年末に中国の武漢で検出され、世界的な感染拡大でパンデミックに繋がった。 それ以来、感染者数は急速に増えている。 そこで本研究では,深層ニューラルネットワーク(dnn)を用いたx線画像からのコロナ疾患の自動診断法を提案する。 提案手法では,患者の胸部x線像の特徴抽出にdensnet169を用いた。 抽出された特徴は特徴選択アルゴリズム(すなわちanova)に与えられ、それらのいくつかを選択する。 最後に、選択した特徴をLightGBMアルゴリズムで分類した。 提案手法はChestX-ray8データセットを用いて評価され、2クラス(COVID-19, No-findings)と複数クラス(COVID-19, Pneumonia, No-findings)で99.20%, 94.22%の精度に達した。

The Coronavirus was detected in Wuhan, China in late 2019 and then led to a pandemic with a rapid worldwide outbreak. The number of infected people has been swiftly increasing since then. Therefore, in this study, an attempt was made to propose a new and efficient method for automatic diagnosis of Corona disease from X-ray images using Deep Neural Networks (DNNs). In the proposed method, the DensNet169 was used to extract the features of the patients' Chest X-Ray (CXR) images. The extracted features were given to a feature selection algorithm (i.e., ANOVA) to select a number of them. Finally, the selected features were classified by LightGBM algorithm. The proposed approach was evaluated on the ChestX-ray8 dataset and reached 99.20% and 94.22% accuracies in the two-class (i.e., COVID-19 and No-findings) and multi-class (i.e., COVID-19, Pneumonia, and No-findings) classification problems, respectively.
翻訳日:2022-03-29 16:32:54 公開日:2022-03-27
# Video Polyp Segmentation: ディープラーニングの展望

Video Polyp Segmentation: A Deep Learning Perspective ( http://arxiv.org/abs/2203.14291v1 )

ライセンス: Link先を確認
Ge-Peng Ji, Guobao Xiao, Yu-Cheng Chou, Deng-Ping Fan, Kai Zhao, Geng Chen, Huazhu Fu, and Luc Van Gool(参考訳) 深層学習時代には,第1回総合的ビデオポリプセグメンテーション(vps)研究を行った。 長年にわたり、VPSの開発は、大規模なきめ細かいセグメンテーションアノテーションが欠如しているため、容易に前進していません。 この問題に対処するために、私たちはまず、有名なSUNデータセットから158,690フレームを含む、SUN-SEGという高品質なフレーム単位のVPSデータセットを導入しました。 属性やオブジェクトマスク,バウンダリ,スクリブル,ポリゴンといった,さまざまなタイプのアノテーションも提供しています。 第2に、グローバルエンコーダ、ローカルエンコーダ、正規化自己アテンション(ns)ブロックからなるpns+と呼ばれる、シンプルで効率的なベースラインを設計した。 グローバルおよびローカルエンコーダはアンカーフレームと複数の連続フレームを受け取り、長期および短期の特徴表現を抽出し、2つのNSブロックによって徐々に更新する。 大規模な実験により、PNS+は最高の性能とリアルタイム推論速度(170fps)を達成し、VPSタスクに有望なソリューションであることが示された。 第3に、SUN-SEGデータセット上で13の代表的なポリプ/オブジェクトセグメンテーションモデルを評価し、属性に基づく比較を行った。 ベンチマーク結果はhttps: //github.com/gewelsj i/vpsで確認できる。

In the deep learning era, we present the first comprehensive video polyp segmentation (VPS) study. Over the years, developments in VPS are not moving forward with ease due to the lack of large-scale fine-grained segmentation annotations. To tackle this issue, we first introduce a high-quality per-frame annotated VPS dataset, named SUN-SEG, which includes 158,690 frames from the famous SUN dataset. We provide additional annotations with diverse types, i.e., attribute, object mask, boundary, scribble, and polygon. Second, we design a simple but efficient baseline, dubbed PNS+, consisting of a global encoder, a local encoder, and normalized self-attention (NS) blocks. The global and local encoders receive an anchor frame and multiple successive frames to extract long-term and short-term feature representations, which are then progressively updated by two NS blocks. Extensive experiments show that PNS+ achieves the best performance and real-time inference speed (170fps), making it a promising solution for the VPS task. Third, we extensively evaluate 13 representative polyp/object segmentation models on our SUN-SEG dataset and provide attribute-based comparisons. Benchmark results are available at https: //github.com/GewelsJ I/VPS.
翻訳日:2022-03-29 16:32:34 公開日:2022-03-27
# 2分岐顔偽造検出における適応周波数学習

Adaptive Frequency Learning in Two-branch Face Forgery Detection ( http://arxiv.org/abs/2203.14315v1 )

ライセンス: Link先を確認
Neng Wang, Yang Bai, Kun Yu, Yong Jiang, Shu-tao Xia, Yan Wang(参考訳) 顔偽造はコンピュータビジョンの最近の応用において注目を集めている。 既存の2分岐フレームワークによる検出技術は、周波数の観点から多くの恩恵を受けるが、その固定周波数分解と変換によって制限される。 本稿では,afdと呼ばれる2分岐検出フレームワークにおいて,周波数情報を適応的に学習する手法を提案する。 具体的には、不均一性制約を導入して周波数領域の分解を自動的に学習し、空間的手がかりに周波数特徴を適応的に組み込むアテンションベースモジュールを提案する。 そして、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。 大規模な実験により、AFDは概して優れていた。

Face forgery has attracted increasing attention in recent applications of computer vision. Existing detection techniques using the two-branch framework benefit a lot from a frequency perspective, yet are restricted by their fixed frequency decomposition and transform. In this paper, we propose to Adaptively learn Frequency information in the two-branch Detection framework, dubbed AFD. To be specific, we automatically learn decomposition in the frequency domain by introducing heterogeneity constraints, and propose an attention-based module to adaptively incorporate frequency features into spatial clues. Then we liberate our network from the fixed frequency transforms, and achieve better performance with our data- and task-dependent transform layers. Extensive experiments show that AFD generally outperforms.
翻訳日:2022-03-29 16:32:12 公開日:2022-03-27
# 質問型分布学習とイベント中心要約による児童ストーリーブックの教育的質問生成

Educational Question Generation of Children Storybooks via Question Type Distribution Learning and Event-Centric Summarization ( http://arxiv.org/abs/2203.14187v1 )

ライセンス: Link先を確認
Zhenjie Zhao, Yufang Hou, Dakuo Wang, Mo Yu, Chengzhong Liu, Xiaojuan Ma(参考訳) 童話やストーリーブックの教育的質問を生み出すことは、児童のリテラシー能力を向上させるのに不可欠である。 しかし、おとぎ話の興味深い側面を教育的な有意義さで捉えた疑問を生み出すことは困難である。 本稿では、まず、入力されたストーリー段落の質問型分布を学習し、その後、高度な要求質問を生成するのに使用できるサルエントイベントを要約した新しい質問生成手法を提案する。 イベントセントリック・サマリーサを訓練するために,教育用質問者ペアで構成した銀サンプルを用いて,事前学習したトランスフォーマト・シーケンス・ツー・シーケンスモデルを微調整する。 提案する学習質問応答データセットfairytaleqaでは,提案手法が自動評価と人間評価指標の両方において優れた性能を示す。 本研究は,質問型分布学習とイベント中心要約生成の分離の必要性を示唆するものである。

Generating educational questions of fairytales or storybooks is vital for improving children's literacy ability. However, it is challenging to generate questions that capture the interesting aspects of a fairytale story with educational meaningfulness. In this paper, we propose a novel question generation method that first learns the question type distribution of an input story paragraph, and then summarizes salient events which can be used to generate high-cognitive-deman d questions. To train the event-centric summarizer, we finetune a pre-trained transformer-based sequence-to-sequence model using silver samples composed by educational question-answer pairs. On a newly proposed educational question answering dataset FairytaleQA, we show good performance of our method on both automatic and human evaluation metrics. Our work indicates the necessity of decomposing question type distribution learning and event-centric summary generation for educational question generation.
翻訳日:2022-03-29 16:07:25 公開日:2022-03-27
# 交通システムにおけるモード分割予測のための解釈可能な機械学習モデル

Interpretable Machine Learning Models for Modal Split Prediction in Transportation Systems ( http://arxiv.org/abs/2203.14191v1 )

ライセンス: Link先を確認
Aron Brenner, Manxi Wu, and Saurabh Amin(参考訳) 交通ネットワークにおけるモーダル分割予測は、交通渋滞の管理と交通サービスの信頼性向上にネットワークオペレーターをサポートする可能性がある。 本研究では,1つの交通手段を選択する旅行者の割合を,高次元の移動時間データを用いて時間単位で予測する問題に焦点をあてる。 我々は,ロジスティック回帰を基本モデルとし,変数選択に様々な正規化手法を用いて,過度に適合し,多重線形性の問題を解決する。 重要なのは,モーダルスプリットの固有変動率と旅行時間の変化に対する旅行者の総合応答性について,予測精度結果を解釈することである。 モデルパラメータを可視化することにより,時間単位から時間単位の予測精度の変化に重要なセグメントのサブセットが,トポロジ的に中心的,あるいは混雑性の高いセグメントを含むことがわかった。 提案手法をサンフランシスコベイエリア高速道路および高速交通網に適用し,提案手法の予測精度と解釈性について,あらかじめ特定した変数選択法と比較した。

Modal split prediction in transportation networks has the potential to support network operators in managing traffic congestion and improving transit service reliability. We focus on the problem of hourly prediction of the fraction of travelers choosing one mode of transportation over another using high-dimensional travel time data. We use logistic regression as base model and employ various regularization techniques for variable selection to prevent overfitting and resolve multicollinearity issues. Importantly, we interpret the prediction accuracy results with respect to the inherent variability of modal splits and travelers' aggregate responsiveness to changes in travel time. By visualizing model parameters, we conclude that the subset of segments found important for predictive accuracy changes from hour-to-hour and include segments that are topologically central and/or highly congested. We apply our approach to the San Francisco Bay Area freeway and rapid transit network and demonstrate superior prediction accuracy and interpretability of our method compared to pre-specified variable selection methods.
翻訳日:2022-03-29 16:04:17 公開日:2022-03-27
# 深層学習における注意メカニズムに関する総合調査

A General Survey on Attention Mechanisms in Deep Learning ( http://arxiv.org/abs/2203.14263v1 )

ライセンス: Link先を確認
Gianni Brauwers and Flavius Frasincar(参考訳) 注意力は、さまざまなドメインやタスクにわたるさまざまなディープラーニングモデルに活用可能な、重要なメカニズムである。 本研究は,文献に提案されている最も重要な注意メカニズムの概要を述べる。 様々な注意機構は、一般的な注意モデル、一様表記、および注意機構の包括的な分類からなる枠組みによって説明される。 さらに,注意モデル評価のための様々な尺度について検討し,提案手法に基づいて注意モデルの構造を特徴付ける手法について検討した。 最後に,注意モデルの分野における今後の取り組みについて考察する。

Attention is an important mechanism that can be employed for a variety of deep learning models across many different domains and tasks. This survey provides an overview of the most important attention mechanisms proposed in the literature. The various attention mechanisms are explained by means of a framework consisting of a general attention model, uniform notation, and a comprehensive taxonomy of attention mechanisms. Furthermore, the various measures for evaluating attention models are reviewed, and methods to characterize the structure of attention models based on the proposed framework are discussed. Last, future work in the field of attention models is considered.
翻訳日:2022-03-29 16:03:59 公開日:2022-03-27
# 機械学習説明評価尺度の統一化に関する研究

A Unified Study of Machine Learning Explanation Evaluation Metrics ( http://arxiv.org/abs/2203.14265v1 )

ライセンス: Link先を確認
Yipei Wang, Xiaoqian Wang(参考訳) 信頼できる機械学習の必要性が高まり、解釈可能性の研究が盛んになった。 この目的のために多くの説明方法が開発されている。 しかし、これらの手法は不十分で不適切に評価されている。 説明のための既存の指標の多くは,提案手法の副産物として研究者によって導入されている。 広く使われているが、多かれ少なかれ問題で非難されている。 私たちは、これらの説明方法のベンチマークにおいて、認識され、正当化されたメトリクスの欠如がカオスをもたらすと主張している。 既存のメトリクスを2つのカテゴリに分割し、複数の理由から説明を適切に評価できないことを示しています。 本稿では,機械学習の解説評価における課題に対処するためのガイドラインを提案し,説明手法やメトリクスを開発する際に,研究者がこれらの問題に慎重に対処するよう促す。

The growing need for trustworthy machine learning has led to the blossom of interpretability research. Numerous explanation methods have been developed to serve this purpose. However, these methods are deficiently and inappropriately evaluated. Many existing metrics for explanations are introduced by researchers as by-products of their proposed explanation techniques to demonstrate the advantages of their methods. Although widely used, they are more or less accused of problems. We claim that the lack of acknowledged and justified metrics results in chaos in benchmarking these explanation methods -- Do we really have good/bad explanation when a metric gives a high/low score? We split existing metrics into two categories and demonstrate that they are insufficient to properly evaluate explanations for multiple reasons. We propose guidelines in dealing with the problems in evaluating machine learning explanation and encourage researchers to carefully deal with these problems when developing explanation techniques and metrics.
翻訳日:2022-03-29 16:03:50 公開日:2022-03-27
# ランダムに刈り取られた広帯域ニューラルネットワークの神経接核解析について

On the Neural Tangent Kernel Analysis of Randomly Pruned Wide Neural Networks ( http://arxiv.org/abs/2203.14328v1 )

ライセンス: Link先を確認
Hongru Yang, Zhangyang Wang(参考訳) 我々は,超広義のニューラルネットワークの初期化時に,神経タンジェントカーネル(NTK)のレンズを用いて,その重みをランダムに刈り取る場合の挙動について検討した。 ネットワークの初期化時にネットワークがランダムに切断された場合、各層の幅が無限大になるにつれて、切断されたニューラルネットワークの経験的NTKは、ある程度のスケーリング係数を持つ元の(未切断)ネットワークに収束することを示す。 さらに,初期化時にプルーニング後の適切なスケーリングを適用すると,プルーニングされたネットワークの経験的ntkが元のネットワークの正確なntkに収束し,プルーニング確率の観点から近似誤差に対する非漸近的境界を与える。 さらに,実験の結果を未発表のネットワークに適用する場合(すなわち,与えられた重みをゼロにプルーニングする確率を設定),解析は,<cite{arora2019exact} の結果と比較して,幅の対数係数に最適である。 我々は理論結果を検証する実験を行う。 さらに,mnist と cifar-10 の画像分類により異なるアーキテクチャをまたいだランダムプルーニングの評価を行い,その性能を他のプルーニング戦略と比較した。

We study the behavior of ultra-wide neural networks when their weights are randomly pruned at the initialization, through the lens of neural tangent kernels (NTKs). We show that for fully-connected neural networks when the network is pruned randomly at the initialization, as the width of each layer grows to infinity, the empirical NTK of the pruned neural network converges to that of the original (unpruned) network with some extra scaling factor. Further, if we apply some appropriate scaling after pruning at the initialization, the empirical NTK of the pruned network converges to the exact NTK of the original network, and we provide a non-asymptotic bound on the approximation error in terms of pruning probability. Moreover, when we apply our result to an unpruned network (i.e., we set the probability of pruning a given weight to be zero), our analysis is optimal up to a logarithmic factor in width compared with the result in \cite{arora2019exact}. We conduct experiments to validate our theoretical results. We further test our theory by evaluating random pruning across different architectures via image classification on MNIST and CIFAR-10 and compare its performance with other pruning strategies.
翻訳日:2022-03-29 16:02:39 公開日:2022-03-27
# LibMTL:マルチタスク学習のためのPythonライブラリ

LibMTL: A Python Library for Multi-Task Learning ( http://arxiv.org/abs/2203.14338v1 )

ライセンス: Link先を確認
Baijiong Lin and Yu Zhang(参考訳) 本稿では,PyTorch上に構築されたオープンソースのPythonライブラリLibMTLについて述べる。 LibMTLはMLLの異なる設定とアプローチを考慮し、12の損失重み付け戦略、7のアーキテクチャ、84の異なるアーキテクチャと損失重み付け方法の組み合わせを含む、数多くの最先端MTLメソッドをサポートしている。 さらに、LibMTLのモジュール設計は使いやすく、拡張性も良く、ユーザが新しいMTLメソッドを簡単に開発したり、既存のMTLメソッドを公平に比較したり、LibMTLをサポートする現実世界のアプリケーションにMTLアルゴリズムを適用することができる。 LibMTLのソースコードと詳細なドキュメントは、https://github.com/m edian-research-group /LibMTLとhttps://libmtl.readt hedocs.ioで公開されている。

This paper presents LibMTL, an open-source Python library built on PyTorch, which provides a unified, comprehensive, reproducible, and extensible implementation framework for Multi-Task Learning (MTL). LibMTL considers different settings and approaches in MTL, and it supports a large number of state-of-the-art MTL methods, including 12 loss weighting strategies, 7 architectures, and 84 combinations of different architectures and loss weighting methods. Moreover, the modular design in LibMTL makes it easy-to-use and well extensible, thus users can easily and fast develop new MTL methods, compare with existing MTL methods fairly, or apply MTL algorithms to real-world applications with the support of LibMTL. The source code and detailed documentations of LibMTL are available at https://github.com/m edian-research-group /LibMTL and https://libmtl.readt hedocs.io, respectively.
翻訳日:2022-03-29 16:02:12 公開日:2022-03-27
# 視覚言語事前学習のための単一ストリーム多レベルアライメント

Single-Stream Multi-Level Alignment for Vision-Language Pretraining ( http://arxiv.org/abs/2203.14395v1 )

ライセンス: Link先を確認
Zaid Khan, Vijay Kumar BG, Xiang Yu, Samuel Schulter, Manmohan Chandraker, Yun Fu(参考訳) 大規模視覚言語事前学習の最近の進歩は、下流視覚言語タスクにおける視覚とテキストの調整の重要性を示している。 多くの手法は、表現学習後に視覚トークンと言語トークンを融合させるデュアルストリームアーキテクチャを用いており、グローバルレベルでしか整列せず、より微細な意味論を抽出できない。 i) インスタンスレベル ii) きめ細かいパッチレベル iii)概念意味レベル。 対称クロスモダリティ再構築と疑似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。 前者では、モダリティの1つから入力トークンをマスキングし、クロスモーダル情報を用いてマスクトークンを再構築し、2つのモダリティ間の微粒化アライメントを改善する。 後段では、キャプションを解析していくつかのキーワードを選択し、モーメントエンコーダ擬似信号と共に入力し、視覚エンコーダを自己監督し、テキストトークンを画像領域に基底付けるのに不可欠な、リッチなセマンティックな概念を学習させる。 我々は,ゼロショット/微調整画像/テキスト検索,参照表現,vqaなどの視覚言語下流タスクにおいて,トップパフォーマンスを示す。 また、提案したモデルが複数のレベルでモダリティを整列させる方法を示す。

Recent progress in large-scale vision-language pre-training has shown the importance of aligning the visual and text modalities for downstream vision-language tasks. Many methods use a dual-stream architecture that fuses visual tokens and language tokens after representation learning, which aligns only at a global level and cannot extract finer-scale semantics.In contrast, we propose a single stream model that aligns the modalities at multiple levels: i) instance level, ii) fine-grained patch level, iii) conceptual semantic level. We achieve this using two novel tasks: symmetric cross-modality reconstruction and a pseudo-labeled key word prediction. In the former part, we mask the input tokens from one of the modalities and use the cross-modal information to reconstruct the masked token, thus improving fine-grained alignment between the two modalities. In the latter part, we parse the caption to select a few key words and feed it together with the momentum encoder pseudo signal to self-supervise the visual encoder, enforcing it to learn rich semantic concepts that are essential for grounding a textual token to an image region. We demonstrate top performance on a set of Vision-Language downstream tasks such as zero-shot/fine-tuned image/text retrieval, referring expression, and VQA. We also demonstrate how the proposed models can align the modalities at multiple levels.
翻訳日:2022-03-29 15:38:00 公開日:2022-03-27
# 編集可能なフリービュー人間パフォーマンスのリアルタイムレンダリングのためのUVボリューム

UV Volumes for Real-time Rendering of Editable Free-view Human Performance ( http://arxiv.org/abs/2203.14402v1 )

ライセンス: Link先を確認
Yue Chen, Xuan Wang, Qi Zhang, Xiaoyu Li, Xingyu Chen, Yu Guo, Jue Wang, Fei Wang(参考訳) ニューラルボリュームレンダリングは、多くの没入型VR/ARアプリケーションにおいて重要なタスクであるフリービューにおける人間のパフォーマーの効率的でリアルなレンダリングのための有望な方法であることが証明されている。 しかし、既存の手法はレンダリングプロセスにおける計算コストの増大によって著しく制限されている。 この問題を解決するために,人間のパフォーマーの編集可能なフリービュー映像をリアルタイムでレンダリングするUVボリュームを提案する。 3dボリュームから高周波(すなわち非スムース)の人間のテクスチャを取り除き、それらを2dニューラルテクスチャスタック(nts)にエンコードすることで実現される。 このスムーズなUV体積は,3次元CNNとMLPのためにより小さく,より浅い構造を用いて,画像の詳細を損なうことなく,密度とテクスチャの座標を求めることができる。 一方、NTSは、そのRGB値を取得するために、UV画像の各ピクセルに対して一度だけクエリされる必要がある。 3D CNNとMPPデコーダは、入力された構造化および配置された潜在符号を比較的滑らかな密度とテクスチャ座標にマッピングする関数に容易に適合させることができる。 これは我々のモデルに、新しいポーズや形を扱うためのより良い一般化能力を与える。 さらに、NSTを使用することで、リテクスチャなどの新しいアプリケーションが可能になる。 cmu panoptic、zju mocap、およびh36mデータセットに関する広範囲な実験により、我々のモデルは平均して40fpsで900 * 500の画像をレンダリングできることを示した。 プロジェクトと追加資料はhttps://fanegg.githu b.io/UV-Volumes.comで入手できる。

Neural volume rendering has been proven to be a promising method for efficient and photo-realistic rendering of a human performer in free-view, a critical task in many immersive VR/AR applications. However, existing approaches are severely limited by their high computational cost in the rendering process. To solve this problem, we propose the UV Volumes, an approach that can render an editable free-view video of a human performer in real-time. It is achieved by removing the high-frequency (i.e., non-smooth) human textures from the 3D volume and encoding them into a 2D neural texture stack (NTS). The smooth UV volume allows us to employ a much smaller and shallower structure for 3D CNN and MLP, to obtain the density and texture coordinates without losing image details. Meanwhile, the NTS only needs to be queried once for each pixel in the UV image to retrieve its RGB value. For editability, the 3D CNN and MLP decoder can easily fit the function that maps the input structured-and-posed latent codes to the relatively smooth densities and texture coordinates. It gives our model a better generalization ability to handle novel poses and shapes. Furthermore, the use of NST enables new applications, e.g., retexturing. Extensive experiments on CMU Panoptic, ZJU Mocap, and H36M datasets show that our model can render 900 * 500 images in 40 fps on average with comparable photorealism to state-of-the-art methods. The project and supplementary materials are available at https://fanegg.githu b.io/UV-Volumes.
翻訳日:2022-03-29 15:37:36 公開日:2022-03-27
# iplan:対話型および手続き型レイアウト計画

iPLAN: Interactive and Procedural Layout Planning ( http://arxiv.org/abs/2203.14412v1 )

ライセンス: Link先を確認
Feixiang He, Yanlong Huang, He Wang(参考訳) レイアウト設計は、アーキテクチャやアーバン計画など、長い反復的な設計プロセスを含む多くのアプリケーションでユビキタスである。 近年、画像生成によるレイアウトの自動生成にディープラーニングが活用され、デザイナーを退屈なルーチンから解放する大きな可能性を秘めている。 自動生成は生産性を大幅に向上させるが、デザイナーの入力は間違いなく重要だ。 理想的なai支援デザインツールは、反復ルーチンを自動化し、一方で人間のガイダンスを受け入れ、スマートで積極的な提案を提供する。 しかしながら、ループに人間を巻き込む能力は、主にエンドツーエンドのアプローチである既存の手法では無視されている。 そこで本研究では, レイアウトを自動生成するだけでなく, 設計者とのインタラクションを全体を通して行うことが可能で, 人間とaiが, スケッチのアイデアを徐々に最終設計に組み込むことができる新しい生成モデルiplanを提案する。 iPLANは多様なデータセットで評価され、既存の手法と比較される。 以上の結果から,iplanは,人間の設計者と類似したレイアウトの制作に高い忠実性,設計者の入力を受け付け,設計提案を提供することの柔軟性,目に見えない設計課題や限られたトレーニングデータに対して強い一般化性を有することがわかった。

Layout design is ubiquitous in many applications, e.g. architecture/urban planning, etc, which involves a lengthy iterative design process. Recently, deep learning has been leveraged to automatically generate layouts via image generation, showing a huge potential to free designers from laborious routines. While automatic generation can greatly boost productivity, designer input is undoubtedly crucial. An ideal AI-aided design tool should automate repetitive routines, and meanwhile accept human guidance and provide smart/proactive suggestions. However, the capability of involving humans into the loop has been largely ignored in existing methods which are mostly end-to-end approaches. To this end, we propose a new human-in-the-loop generative model, iPLAN, which is capable of automatically generating layouts, but also interacting with designers throughout the whole procedure, enabling humans and AI to co-evolve a sketchy idea gradually into the final design. iPLAN is evaluated on diverse datasets and compared with existing methods. The results show that iPLAN has high fidelity in producing similar layouts to those from human designers, great flexibility in accepting designer inputs and providing design suggestions accordingly, and strong generalizability when facing unseen design tasks and limited training data.
翻訳日:2022-03-29 15:37:08 公開日:2022-03-27
# RSTT:時空ビデオ超解像のためのリアルタイム時空間変換器

RSTT: Real-time Spatial Temporal Transformer for Space-Time Video Super-Resolution ( http://arxiv.org/abs/2203.14186v1 )

ライセンス: Link先を確認
Zhicheng Geng, Luming Liang, Tianyu Ding, Ilya Zharkov(参考訳) 時空ビデオ超解像(STVSR)は、低フレームレート(LFR)と低解像度(LR)の両方でビデオを補間し、高フレームレート(HFR)と高解像度(HR)の両方を生成するタスクである。 convolutional neural network~(cnn)に基づく既存の手法は、視覚的に満足した結果を達成するのに成功し、その重いアーキテクチャのために推論速度が遅い。 本稿では,空間的・時間的超分解能モジュールを単一モデルに自然に組み込んだ時空間変換器を用いてこの問題を解決することを提案する。 cnnベースの方法とは異なり、時間的補間や空間的超解像のために分離されたビルディングブロックは明示的に使用せず、代わりに1つのエンドツーエンドトランスフォーマーアーキテクチャのみを使用する。 具体的には、入力されたLFRとLRフレームに基づいてエンコーダで再利用可能な辞書を構築し、デコーダ部で使用してHFRとHRフレームを合成する。 最先端のTMNet \cite{xu2021temporal} と比較すると、我々のネットワークは、パフォーマンスを犠牲にすることなく、60\%$小さく(4.5M対12.3Mパラメータ)80\%$高速(26.2fps対720\times576$フレームで14.3fps)である。 ソースコードはhttps://github.com/l lmpass/RSTTで入手できる。

Space-time video super-resolution (STVSR) is the task of interpolating videos with both Low Frame Rate (LFR) and Low Resolution (LR) to produce High-Frame-Rate (HFR) and also High-Resolution (HR) counterparts. The existing methods based on Convolutional Neural Network~(CNN) succeed in achieving visually satisfied results while suffer from slow inference speed due to their heavy architectures. We propose to resolve this issue by using a spatial-temporal transformer that naturally incorporates the spatial and temporal super resolution modules into a single model. Unlike CNN-based methods, we do not explicitly use separated building blocks for temporal interpolations and spatial super-resolutions; instead, we only use a single end-to-end transformer architecture. Specifically, a reusable dictionary is built by encoders based on the input LFR and LR frames, which is then utilized in the decoder part to synthesize the HFR and HR frames. Compared with the state-of-the-art TMNet \cite{xu2021temporal}, our network is $60\%$ smaller (4.5M vs 12.3M parameters) and $80\%$ faster (26.2fps vs 14.3fps on $720\times576$ frames) without sacrificing much performance. The source code is available at https://github.com/l lmpass/RSTT.
翻訳日:2022-03-29 15:01:11 公開日:2022-03-27
# 最近のFew-Shotオブジェクト検出アルゴリズムの実証的研究と比較

An Empirical Study and Comparison of Recent Few-Shot Object Detection Algorithms ( http://arxiv.org/abs/2203.14205v1 )

ライセンス: Link先を確認
Tianying Liu, Lu Zhang, Yang Wang, Jihong Guan, Yanwei Fu, Shuigeng Zhou(参考訳) ジェネリックオブジェクト検出(GOD)タスクは、いくつかの一般的なクラスからの注釈付きトレーニングサンプルの雪崩によってトレーニングされた、最近のディープニューラルネットワークによってうまく取り組まれている。 しかし、これらの物体検出器を、ラベル付きトレーニングサンプルがほとんどない新しいロングテールオブジェクトクラスに一般化するのは、いまだに自明ではない。 この目的のために、Few-Shot Object Detection (FSOD) は、人間の学習能力を模倣し、学習したジェネリックオブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトのクラスにインテリジェントに転送するため、最近話題になっている。 特に、この新興分野の研究は近年盛んであり、様々なベンチマーク、バックボーン、方法論が提案されている。 これらのFSODの成果を概観するために、体系的に研究し、それらを微調整/トランスファー学習とメタラーニング手法の群として比較するいくつかの洞察に富んだFSOD調査記事がある。 対照的に、これらのfsodアルゴリズムを、データ指向、モデル指向、アルゴリズム指向といった貢献の新しい視点と分類から比較する。 そこで,最近のFSODの業績について,実証的研究と比較を行った。 さらに,これらの手法の技術的課題,メリット,デメリットを分析し,FSODの今後の方向性を考察する。 具体的には、問題定義、共通データセット、評価プロトコルを含むFSODの概要を示す。 新たな分類法は,新規クラスの対象検出における事前知識の役割に基づいて提案される。 この分類に続き、FSODの進歩を体系的にレビューする。 最後に,パフォーマンス,課題,今後の方向性に関するさらなる議論を行う。

The generic object detection (GOD) task has been successfully tackled by recent deep neural networks, trained by an avalanche of annotated training samples from some common classes. However, it is still non-trivial to generalize these object detectors to the novel long-tailed object classes, which has only few labeled training samples. To this end, the Few-Shot Object Detection (FSOD) has been topical recently, as it mimics the humans' ability of learning to learn, and intelligently transfers the learnt generic object knowledge from the common heavy-tailed, to the novel long-tailed object classes. Especially, the research in this emerging field has been flourish in the recent years with various benchmarks, backbones, and methodologies proposed. To review these FSOD works, there are several insightful FSOD survey articles that systematically study and compare them as the groups of fine-tuning/transfer learning, and meta-learning methods. In contrast, we compare these FSOD algorithms from the new perspective and taxonomy of their contributions, i.e., data-oriented, model-oriented, and algorithm oriented ones. Thus, an empirical study and comparison has been conducted on the recent achievements of FSOD. Furthermore, we also analyze the technical challenges, the merits and demerits of these methods, and envision the future directions of FSOD. Specifically, we give an overview of FSOD, including the problem definition, common datasets, and evaluation protocols. A new taxonomy is then proposed based on the role of prior knowledge during object detection of novel classes. Following this taxonomy, we provide a systematic review of the advances in FSOD. Finally, further discussions on performance, challenges, and future directions are presented.
翻訳日:2022-03-29 15:00:40 公開日:2022-03-27
# 識別表現に向けて:オンライン多目的追跡のための多視点軌跡コントラスト学習

Towards Discriminative Representation: Multi-view Trajectory Contrastive Learning for Online Multi-object Tracking ( http://arxiv.org/abs/2203.14208v1 )

ライセンス: Link先を確認
En Yu, Zhuoling Li, Shoudong Han(参考訳) 識別表現は多目的追跡における関連ステップにおいて重要である。 最近の研究は、主に1フレームまたは隣接フレームの特徴を利用してメートル法損失を構築し、ネットワークに目標の表現を付与している。 この戦略は効果的であるが、全軌道に含まれる情報を十分に活用できない。 そこで本研究では,各軌跡を中心ベクトルとして表現する多視点軌跡コントラスト学習手法を提案する。 全てのベクトルを動的に更新されたメモリバンクに保持することにより、トラジェクトリレベルのコントラスト損失を考案し、トラジェクトリ全体のフレーム間情報を探索する。 さらに、この戦略では、各ターゲットは事前定義されたアンカーや中心ではなく、複数の適応的に選択されたキーポイントとして表現される。 この設計により、ネットワークは同じターゲットの複数のビューからよりリッチな表現を生成することができる。 さらに, 推定段階では, 軌道表現の品質をさらに高めるため, 類似性誘導型特徴融合戦略が開発されている。 提案手法の有効性を検証するため,MOTChallengeで大規模な実験を行った。 実験の結果,提案手法は先行トラッカーを超え,新しい最先端性能を確立した。

Discriminative representation is crucial for the association step in multi-object tracking. Recent work mainly utilizes features in single or neighboring frames for constructing metric loss and empowering networks to extract representation of targets. Although this strategy is effective, it fails to fully exploit the information contained in a whole trajectory. To this end, we propose a strategy, namely multi-view trajectory contrastive learning, in which each trajectory is represented as a center vector. By maintaining all the vectors in a dynamically updated memory bank, a trajectory-level contrastive loss is devised to explore the inter-frame information in the whole trajectories. Besides, in this strategy, each target is represented as multiple adaptively selected keypoints rather than a pre-defined anchor or center. This design allows the network to generate richer representation from multiple views of the same target, which can better characterize occluded objects. Additionally, in the inference stage, a similarity-guided feature fusion strategy is developed for further boosting the quality of the trajectory representation. Extensive experiments have been conducted on MOTChallenge to verify the effectiveness of the proposed techniques. The experimental results indicate that our method has surpassed preceding trackers and established new state-of-the-art performance.
翻訳日:2022-03-29 15:00:13 公開日:2022-03-27
# 微粒化認識のためのシーンテキストによる知識マイニング

Knowledge Mining with Scene Text for Fine-Grained Recognition ( http://arxiv.org/abs/2203.14215v1 )

ライセンス: Link先を確認
Hao Wang, Junchao Liao, Tianheng Cheng, Zewen Gao, Hao Liu, Bo Ren, Xiang Bai, Wenyu Liu(参考訳) 近年,シーンテキストのセマンティクスはきめ細かい画像分類に欠かせないことが証明されている。 しかし,既存の手法では,オブジェクトやシーンに大きく関係しない場合には,微粒化認識にシーンテキストの文字通りの意味を利用することが多い。 本稿では,シーンテキスト画像の背景に暗黙的な文脈知識を抽出し,画像表現を微調整するための意味と相関性を高めるエンドツーエンド学習ネットワークを提案する。 既存の手法とは異なり,本モデルは視覚的特徴抽出,テキスト意味抽出,背景知識ときめ細かな画像分類の3つのモードを統合している。 具体的には,KnowBertを用いて意味表現の関連知識を取得し,それを画像特徴と組み合わせて詳細な分類を行う。 Con-Text と Drink Bottle という2つのベンチマークデータセットの実験により、我々の手法は最先端の mAP を 3.72 % mAP と 5.39 % mAP でそれぞれ上回っていることがわかった。 提案手法の有効性をさらに検証するため,評価のための集団行動認識のための新しいデータセットを作成した。 この作業のソースコードと新しいデータセットはhttps://github.com/l anfeng4659/Knowledge MiningWithSceneTextで公開されている。

Recently, the semantics of scene text has been proven to be essential in fine-grained image classification. However, the existing methods mainly exploit the literal meaning of scene text for fine-grained recognition, which might be irrelevant when it is not significantly related to objects/scenes. We propose an end-to-end trainable network that mines implicit contextual knowledge behind scene text image and enhance the semantics and correlation to fine-tune the image representation. Unlike the existing methods, our model integrates three modalities: visual feature extraction, text semantics extraction, and correlating background knowledge to fine-grained image classification. Specifically, we employ KnowBert to retrieve relevant knowledge for semantic representation and combine it with image features for fine-grained classification. Experiments on two benchmark datasets, Con-Text, and Drink Bottle, show that our method outperforms the state-of-the-art by 3.72\% mAP and 5.39\% mAP, respectively. To further validate the effectiveness of the proposed method, we create a new dataset on crowd activity recognition for the evaluation. The source code and new dataset of this work are available at https://github.com/l anfeng4659/Knowledge MiningWithSceneText.
翻訳日:2022-03-29 14:59:52 公開日:2022-03-27
# ビデオ自己監督学習におけるベンチマーク感度はどれほど重要か?

How Severe is Benchmark-Sensitivit y in Video Self-Supervised Learning? ( http://arxiv.org/abs/2203.14221v1 )

ライセンス: Link先を確認
Fida Mohammad Thoker, Hazel Doughty, Piyush Bagad, Cees Snoek(参考訳) 近年,ビデオ自己教師型学習の成功にもかかわらず,その一般化能力については理解が難しい。 本稿では,現在使用されているベンチマーク・コンベンションに対して,ビデオによる自己教師型学習がいかに敏感か,また,手法が標準的評価設定を超えて一般化されているかを検討する。 これは、ドメイン、サンプル、アクション、タスクの4つの異なる感度要因にまたがっています。 7つのビデオデータセット、9つの自己教師あり手法、6つのビデオ理解タスクを含む、500以上の実験の包括的なセットは、ビデオ自己教師あり学習における現在のベンチマークが、これらの感度因子に沿った一般化のよい指標ではないことを示している。 さらに,バニラ指導による事前訓練の遅れ,特にドメインシフトが大きく,下流サンプルの量が少ない場合には,自己監督法がかなり遅れることが判明した。 本分析から,実験のサブセットであるSEVERE-benchmarkを蒸留し,既存の自己教師型ビデオ学習手法による表現の一般化性を評価することの意味について考察した。

Despite the recent success of video self-supervised learning, there is much still to be understood about their generalization capability. In this paper, we investigate how sensitive video self-supervised learning is to the currently used benchmark convention and whether methods generalize beyond the canonical evaluation setting. We do this across four different factors of sensitivity: domain, samples, actions and task. Our comprehensive set of over 500 experiments, which encompasses 7 video datasets, 9 self-supervised methods and 6 video understanding tasks, reveals that current benchmarks in video self-supervised learning are not a good indicator of generalization along these sensitivity factors. Further, we find that self-supervised methods considerably lag behind vanilla supervised pre-training, especially when domain shift is large and the amount of available downstream samples are low. From our analysis we distill the SEVERE-benchmark, a subset of our experiments, and discuss its implication for evaluating the generalizability of representations obtained by existing and future self-supervised video learning methods.
翻訳日:2022-03-29 14:59:29 公開日:2022-03-27
# 自己結合学習によるヒューマン・オブジェクトインタラクション概念の発見

Discovering Human-Object Interaction Concepts via Self-Compositional Learning ( http://arxiv.org/abs/2203.14272v1 )

ライセンス: Link先を確認
Zhi Hou, Baosheng Yu, Dacheng Tao(参考訳) ヒューマン・オブジェクト間インタラクション(hoi)の包括的理解は、事前定義されたhoi概念(あるいはカテゴリ)のごく一部だけでなく、他の合理的なhoi概念も検出する必要があるが、現在のアプローチでは、未知のhoi概念(例えば、未知であるが、動詞とオブジェクトの合理的な組み合わせ)の膨大な部分を探索することができない。 この論文では 1) HOI概念発見と呼ばれる包括的HOI理解のための新規かつ挑戦的な課題を導入する。 2) HOI概念発見のための自己構成学習フレームワーク(SCL)を考案した。 具体的には、トレーニング中にオンライン更新された概念信頼マトリックスを維持します。 1) 自己学習のための概念信頼行列に従って, すべての複合HOIインスタンスに擬似ラベルを割り当てる。 2)すべての複合HOIインスタンスの予測を用いて,概念信頼度行列を更新する。 そこで,提案手法では,既知概念と未知概念の両方を学習できる。 提案手法の有効性を実証するために,いくつかの一般的なHOIデータセットを用いた広範囲な実験を行った。 例えば、提案する自己構成学習フレームワークは、性能を著しく向上させる。 1)HOI概念の発見はHICO-DETで10%以上,V-COCOで3%以上であった。 2) ms-coco と hico-det 上の9% 以上のマップによるオブジェクトアプライアンス認識 3) レアファーストおよび非レアファースト未発見HOI検出は, それぞれ30%以上, 20%以上であった。 コードとモデルはhttps://github.com/z hihou7/HOI-CLで公開される。

A comprehensive understanding of human-object interaction (HOI) requires detecting not only a small portion of predefined HOI concepts (or categories) but also other reasonable HOI concepts, while current approaches usually fail to explore a huge portion of unknown HOI concepts (i.e., unknown but reasonable combinations of verbs and objects). In this paper, 1) we introduce a novel and challenging task for a comprehensive HOI understanding, which is termed as HOI Concept Discovery; and 2) we devise a self-compositional learning framework (or SCL) for HOI concept discovery. Specifically, we maintain an online updated concept confidence matrix during training: 1) we assign pseudo-labels for all composite HOI instances according to the concept confidence matrix for self-training; and 2) we update the concept confidence matrix using the predictions of all composite HOI instances. Therefore, the proposed method enables the learning on both known and unknown HOI concepts. We perform extensive experiments on several popular HOI datasets to demonstrate the effectiveness of the proposed method for HOI concept discovery, object affordance recognition and HOI detection. For example, the proposed self-compositional learning framework significantly improves the performance of 1) HOI concept discovery by over 10% on HICO-DET and over 3% on V-COCO, respectively; 2) object affordance recognition by over 9% mAP on MS-COCO and HICO-DET; and 3) rare-first and non-rare-first unknown HOI detection relatively over 30% and 20%, respectively. Code and models will be made publicly available at https://github.com/z hihou7/HOI-CL.
翻訳日:2022-03-29 14:59:11 公開日:2022-03-27
# Few-Shot Video Object Segmentationのための時間的トランスダクティブ推論

Temporal Transductive Inference for Few-Shot Video Object Segmentation ( http://arxiv.org/abs/2203.14308v1 )

ライセンス: Link先を確認
Mennatullah Siam, Konstantinos G. Derpanis, Richard P. Wildes(参考訳) Few-shot Video Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。 本稿では,ノンラベリングビデオフレームの時間的一貫性を利用した,単純かつ効果的な時間的トランスダクティブ推論(tti)手法を提案する。 私たちのアプローチの鍵は、グローバルとローカルの両方の時間制約を使うことです。 大域的制約の目的は、画像シーケンス全体にわたって新しいクラスの一貫した線形分類器を学習することであり、一方、局所的制約は、各フレームにおける前景/背景領域の比率を局所的時間的ウィンドウ全体にわたって整合させる。 これらの制約は、時間的コヒーレンスを高め、少数ショットのサポートセットのオーバーフィッティングを減らすために、トランスダクティブ推論中に時空間正規化器として機能する。 経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。 さらに,改良されたベンチマークを徹底的にラベル付けし,トレーニングとテストセット間のデータ分散シフトを目標とした,より現実的な評価パラダイムを提案する。 実験結果と詳細な分析により,時間的コヒーレンスの改善とオーバーフィットシナリオの克服を目的として提案する時空間正規化器の付加効果が確認できた。

Few-shot video object segmentation (FS-VOS) aims at segmenting video frames using a few labelled examples of classes not seen during initial training. In this paper, we present a simple but effective temporal transductive inference (TTI) approach that leverages temporal consistency in the unlabelled video frames during few-shot inference. Key to our approach is the use of both global and local temporal constraints. The objective of the global constraint is to learn consistent linear classifiers for novel classes across the image sequence, whereas the local constraint enforces the proportion of foreground/backgroun d regions in each frame to be coherent across a local temporal window. These constraints act as spatiotemporal regularizers during the transductive inference to increase temporal coherence and reduce overfitting on the few-shot support set. Empirically, our model outperforms state-of-the-art meta-learning approaches in terms of mean intersection over union on YouTube-VIS by 2.8%. In addition, we introduce improved benchmarks that are exhaustively labelled (i.e. all object occurrences are labelled, unlike the currently available), and present a more realistic evaluation paradigm that targets data distribution shift between training and testing sets. Our empirical results and in-depth analysis confirm the added benefits of the proposed spatiotemporal regularizers to improve temporal coherence and overcome certain overfitting scenarios.
翻訳日:2022-03-29 14:57:33 公開日:2022-03-27
# SuperMVS:高解像度マルチビューステレオ用非均一コストボリューム

SuperMVS: Non-Uniform Cost Volume For High-Resolution Multi-View Stereo ( http://arxiv.org/abs/2203.14331v1 )

ライセンス: Link先を確認
Tao Zhang(参考訳) 多くの仮説平面を持つ静的および均一なサンプリング手法を用いて詳細な深度サンプリングを行う、ほとんどの最先端〜(SOTA)アルゴリズムとは異なる。 本稿では,広い深さ範囲で動的かつ非一様サンプリングを行うための自由移動仮説平面法を提案する。 我々はsupermvsネットワークを用いて,非一様コストボリュームのマルチビューステレオを実現する。 SuperMVSは4段階の粗大なフレームワークである。 より高解像度で正確な深度マップを出力できる。 我々のスーパーMVSは、低メモリ、低ランタイム、DTUデータセットとTurps \& Templeデータセット上の少ないプレーンでSOTA結果を達成しました。

Different from most state-of-the-art~(SO TA) algorithms that use static and uniform sampling methods with a lot of hypothesis planes to get fine depth sampling. In this paper, we propose a free-moving hypothesis plane method for dynamic and non-uniform sampling in a wide depth range, which not only greatly reduce the number of planes but also finer sampling, for achieving the purpose of reducing computational and improving accuracy, named Non-Uniform Cost Volume. We present the SuperMVS network to implement Multi-View Stereo with Non-Uniform Cost Volume. SuperMVS is a coarse-to-fine framework with four stages. It can output a higher resolution and higher accurate depth map. Our SuperMVS achieved the SOTA results with low memory, low runtime, and fewer planes on the DTU datasets and Tanks \& Temples dataset.
翻訳日:2022-03-29 14:57:08 公開日:2022-03-27
# 観測中心SORT:ロバスト多物体追跡のためのSORTの再考

Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking ( http://arxiv.org/abs/2203.14360v1 )

ライセンス: Link先を確認
Jinkun Cao, Xinshuo Weng, Rawal Khirodkar, Jiangmiao Pang, Kris Kitani(参考訳) マルチオブジェクト追跡(MOT)は,物体検出と再同定の開発で急速に進展している。 しかし, 短期軌跡を過去の観測で予測し, 物体の関連性を高める動きのモデリングは近年, 比較的不十分に行われている。 現在のMOTの運動モデルでは、物体の動きは小さな時間窓で線形であり、連続的な観察が必要であると仮定しているため、これらの手法は閉塞や非線形運動に敏感であり、高いフレームレート動画を必要とする。 そこで本研究では,単純な動作モデルにより,外観のような他の手段を使わずに,最先端のトラッキング性能が得られることを示す。 我々は,トラックの喪失から回復する際の「観測」の役割を強調し,損失期間中に線形運動モデルによって蓄積される誤差を低減する。 そこで,提案手法をOC-SORT, OC-SORTと呼ぶ。 シンプルでオンラインでリアルタイムだが、オクルージョンや非線形動作よりも堅牢性を向上させる。 MOT17 と MOT20 では 63.2 と 62.1 HOTA をそれぞれ達成し、公表されたすべての方法を上回る。 また、KITTI Pedestrian Tracking and DanceTrackでは、物体の動きが非線形である新しい状態も設定している。 コードとモデルはhttps://github.com/n oahcao/oc_sortで入手できる。

Multi-Object Tracking (MOT) has rapidly progressed with the development of object detection and re-identification. However, motion modeling, which facilitates object association by forecasting short-term trajectories with past observations, has been relatively under-explored in recent years. Current motion models in MOT typically assume that the object motion is linear in a small time window and needs continuous observations, so these methods are sensitive to occlusions and non-linear motion and require high frame-rate videos. In this work, we show that a simple motion model can obtain state-of-the-art tracking performance without other cues like appearance. We emphasize the role of "observation" when recovering tracks from being lost and reducing the error accumulated by linear motion models during the lost period. We thus name the proposed method as Observation-Centric SORT, OC-SORT for short. It remains simple, online, and real-time but improves robustness over occlusion and non-linear motion. It achieves 63.2 and 62.1 HOTA on MOT17 and MOT20, respectively, surpassing all published methods. It also sets new states of the art on KITTI Pedestrian Tracking and DanceTrack where the object motion is highly non-linear. The code and model are available at https://github.com/n oahcao/OC_SORT.
翻訳日:2022-03-29 14:56:54 公開日:2022-03-27
# MFSNet:皮膚病変分割のためのマルチフォーカスセグメントネットワーク

MFSNet: A Multi Focus Segmentation Network for Skin Lesion Segmentation ( http://arxiv.org/abs/2203.14341v1 )

ライセンス: Link先を確認
Hritam Basak, Rohit Kundu, Ram Sarkar(参考訳) 医学画像解析において, 形態変化を計測し, 識別的特徴を抽出し, さらなる診断を行うためには, セグメンテーションが不可欠である。 皮膚がんは世界でも最も一般的ながんの1つであり、その早期診断は体から悪性腫瘍を完全に取り除く上で重要である。 本研究は,深層学習を用いた皮膚病変の制御のための人工知能(AI)フレームワークを開発する。 MFSNet(Multi-Focus Segmentation Network)と呼ばれるこのフレームワークは、皮膚病変の生のRGB画像を用いて最終セグメンテーションマスクを計算するために、異なるスケールのフィーチャマップを使用する。 まず最初に、画像は不要なアーティファクトやノイズを取り除くために前処理される。 mfsnetは、最近提案された畳み込みニューラルネットワーク(cnn)であるres2net backboneを使用して、並列部分デコーダ(ppd)モジュールで使用される深い特徴を取得し、セグメンテーションマスクのグローバルマップを取得する。 ネットワークの異なる段階では、畳み込み特徴と多スケールマップが2つの境界注意(ba)モジュールと2つの逆注意(ra)モジュールで使われ、最終的なセグメンテーション出力を生成する。 mfsnetは、$ph^2$、isic 2017、ham10000の3つの公開データセットで評価され、最先端のメソッドよりも優れており、フレームワークの信頼性を正当化している。 提案されたアプローチに関連するコードはhttps://github.com/R ohit-Kundu/MFSNetで参照できる。

Segmentation is essential for medical image analysis to identify and localize diseases, monitor morphological changes, and extract discriminative features for further diagnosis. Skin cancer is one of the most common types of cancer globally, and its early diagnosis is pivotal for the complete elimination of malignant tumors from the body. This research develops an Artificial Intelligence (AI) framework for supervised skin lesion segmentation employing the deep learning approach. The proposed framework, called MFSNet (Multi-Focus Segmentation Network), uses differently scaled feature maps for computing the final segmentation mask using raw input RGB images of skin lesions. In doing so, initially, the images are preprocessed to remove unwanted artifacts and noises. The MFSNet employs the Res2Net backbone, a recently proposed convolutional neural network (CNN), for obtaining deep features used in a Parallel Partial Decoder (PPD) module to get a global map of the segmentation mask. In different stages of the network, convolution features and multi-scale maps are used in two boundary attention (BA) modules and two reverse attention (RA) modules to generate the final segmentation output. MFSNet, when evaluated on three publicly available datasets: $PH^2$, ISIC 2017, and HAM10000, outperforms state-of-the-art methods, justifying the reliability of the framework. The relevant codes for the proposed approach are accessible at https://github.com/R ohit-Kundu/MFSNet
翻訳日:2022-03-29 14:15:44 公開日:2022-03-27
# 近線形計算複雑度を有する正弦波混合系のブラインド音源分離

Blind Source Separation for Mixture of Sinusoids with Near-Linear Computational Complexity ( http://arxiv.org/abs/2203.14324v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本研究では, 基本正弦波の周波数, 振幅, 位相を雑音観測列で検出できるマルチトーン分解アルゴリズムを提案する。 独立に分布するガウス雑音下では, 汚染された観測から関連する音色パラメータを推定するために, 最大極度アプローチを用いる。 正弦波源数を推定すると,その周波数を連続的に推定し,振幅と位相を同時最適化する。 また,$m$に関する情報がなければ,ブラインドソースセパレータとして実装することも可能である。 我々のアルゴリズムの計算複雑性は、ほぼ線形、すなわち$\tilde{O}(N)$である。

We propose a multi-tone decomposition algorithm that can find the frequencies, amplitudes and phases of the fundamental sinusoids in a noisy observation sequence. Under independent identically distributed Gaussian noise, our method utilizes a maximum likelihood approach to estimate the relevant tone parameters from the contaminated observations. When estimating $M$ number of sinusoidal sources, our algorithm successively estimates their frequencies and jointly optimizes their amplitudes and phases. Our method can also be implemented as a blind source separator in the absence of the information about $M$. The computational complexity of our algorithm is near-linear, i.e., $\tilde{O}(N)$.
翻訳日:2022-03-29 14:12:26 公開日:2022-03-27
# Rebuild and Ensemble: テキスト管理者に対する防御を探る

Rebuild and Ensemble: Exploring Defense Against Text Adversaries ( http://arxiv.org/abs/2203.14207v1 )

ライセンス: Link先を確認
Linyang Li, Demin Song, Jiehang Zeng, Ruotian Ma, Xipeng Qiu(参考訳) 敵対的攻撃は強力なニューラルモデルを誤解させる可能性があるため、NLPタスクでは置換に基づく攻撃は防御が難しい。 現在の防衛方法は、置換候補がアクセス可能であり、攻撃のメカニズムを知らなければ敵攻撃に対して広く適用できないと仮定している。 本稿では,テキスト中の敵の攻撃に対して,候補を知らずに防御するための \textbf{rebuild and ensemble} フレームワークを提案する。 我々は,ロバストなモデルを訓練し,推論中に再構成されたテキストをアンサンブルし,良好な防御結果を得る再構築機構を提案する。 実験の結果,現在の強攻撃法では精度が向上することがわかった。

Adversarial attacks can mislead strong neural models; as such, in NLP tasks, substitution-based attacks are difficult to defend. Current defense methods usually assume that the substitution candidates are accessible, which cannot be widely applied against adversarial attacks unless knowing the mechanism of the attacks. In this paper, we propose a \textbf{Rebuild and Ensemble} Framework to defend against adversarial attacks in texts without knowing the candidates. We propose a rebuild mechanism to train a robust model and ensemble the rebuilt texts during inference to achieve good adversarial defense results. Experiments show that our method can improve accuracy under the current strong attack methods.
翻訳日:2022-03-29 14:10:27 公開日:2022-03-27
# アスペクトベース感性分類に関する調査

A Survey on Aspect-Based Sentiment Classification ( http://arxiv.org/abs/2203.14266v1 )

ライセンス: Link先を確認
Gianni Brauwers and Flavius Frasincar(参考訳) Web上でのレビューや、その他の感情的テキストの増加に伴い、自動感情分析アルゴリズムの需要は拡大し続けている。 アスペクトベースの感情分類(ABSC)は、テキスト文書や文章から非常にきめ細かい感情情報を自動抽出することができる。 本調査では,ABSC研究の急速な発展状況について概説する。 ABSCモデルを知識ベース、機械学習、ハイブリッドモデルという3つの主要なカテゴリに分類する新しい分類法が提案されている。 この分類法には、報告されたモデル性能の概要と、様々なABSCモデルの技術的および直感的な説明が伴う。 トランスフォーマーモデルに基づくモデルや知識ベースを組み込んだハイブリッドディープラーニングモデルなど,最先端のabscモデルについて議論した。 さらに、モデル入力を表現し、モデル出力を評価するための様々な技術についてレビューする。 さらに,ABSC研究の動向を把握し,今後ABSCの分野を前進させる方法について議論する。

With the constantly growing number of reviews and other sentiment-bearing texts on the Web, the demand for automatic sentiment analysis algorithms continues to expand. Aspect-based sentiment classification (ABSC) allows for the automatic extraction of highly fine-grained sentiment information from text documents or sentences. In this survey, the rapidly evolving state of the research on ABSC is reviewed. A novel taxonomy is proposed that categorizes the ABSC models into three major categories: knowledge-based, machine learning, and hybrid models. This taxonomy is accompanied with summarizing overviews of the reported model performances, and both technical and intuitive explanations of the various ABSC models. State-of-the-art ABSC models are discussed, such as models based on the transformer model, and hybrid deep learning models that incorporate knowledge bases. Additionally, various techniques for representing the model inputs and evaluating the model outputs are reviewed. Furthermore, trends in the research on ABSC are identified and a discussion is provided on the ways in which the field of ABSC can be advanced in the future.
翻訳日:2022-03-29 14:10:15 公開日:2022-03-27
# Pyramid-BERT: 逐次コアセットに基づくトークン選択による複雑性の低減

Pyramid-BERT: Reducing Complexity via Successive Core-set based Token Selection ( http://arxiv.org/abs/2203.14380v1 )

ライセンス: Link先を確認
Xin Huang, Ashish Khetan, Rene Bidart, Zohar Karnin(参考訳) BERTのようなトランスフォーマーベースの言語モデルは、様々なNLPタスクで最先端のパフォーマンスを達成したが、計算的に禁止されている。 最近の作品では、予測のために単一のトークン埋め込みを必要とする分類やランク付けといったタスクにおいて、エンコーダを通じてトークンを変換しながらシーケンス長を連続的に短縮するために様々なヒューリスティックを使用する。 そこで我々は,従来使用されていたヒューリスティックスを,理論的な結果によって正当化された"em core-set"に基づくトークン選択法に置き換える。 コアセットベースのトークン選択技術は、高価な事前トレーニングを避け、空間効率の良い微調整を可能にし、長いシーケンス長の処理に適している。 いくつかのベースラインにまたがるピラミッドBERTの利点とGLUEベンチマークとLong Range Arenaデータセットに関する既存の研究を実証する広範な実験を行った。

Transformer-based language models such as BERT have achieved the state-of-the-art performance on various NLP tasks, but are computationally prohibitive. A recent line of works use various heuristics to successively shorten sequence length while transforming tokens through encoders, in tasks such as classification and ranking that require a single token embedding for prediction. We present a novel solution to this problem, called Pyramid-BERT where we replace previously used heuristics with a {\em core-set} based token selection method justified by theoretical results. The core-set based token selection technique allows us to avoid expensive pre-training, gives a space-efficient fine tuning, and thus makes it suitable to handle longer sequence lengths. We provide extensive experiments establishing advantages of pyramid BERT over several baselines and existing works on the GLUE benchmarks and Long Range Arena datasets.
翻訳日:2022-03-29 14:10:00 公開日:2022-03-27
# 顧客要求の処理を自動化するパーソナル仮想アシスタントのアルゴリズム支援

Algorithmic support of a personal virtual assistant for automating the processing of client requests ( http://arxiv.org/abs/2203.14372v1 )

ライセンス: Link先を確認
Konstantin Dobratulin, Marina Nezhurina(参考訳) 本稿では、顧客要求の自動処理を可能にするパーソナルバーチャルアシスタントの機能のためのアルゴリズムサポートの作成について述べる。 この研究は、テキスト転写システムを用いたテキストチャットや音声チャネルなど、ビジネスシステムにおけるクライアント要求のエラーと処理時間を短縮することを目的としている。 アルゴリズム支援の開発と, 合成データに対する作業品質の評価結果について検討した。

This article describes creating algorithmic support for the functioning of a personal virtual assistant, which allows automating the processing of customer requests. The study aims to reduce errors and processing time for a client request in business systems - text chats or voice channels using a text transcription system. The results of the development of algorithmic support and an assessment of the quality of work on synthetic data presented.
翻訳日:2022-03-29 13:45:09 公開日:2022-03-27
# 条件付スコアベースデータ生成のための発声適性スコアマッチング

Denoising Likelihood Score Matching for Conditional Score-based Data Generation ( http://arxiv.org/abs/2203.14206v1 )

ライセンス: Link先を確認
Chen-Hao Chao, Wei-Fang Sun, Bo-Wun Cheng, Yi-Chen Lo, Chia-Che Chang, Yu-Lun Liu, Yu-Lin Chang, Chia-Ping Chen, Chun-Yi Lee(参考訳) 既存の条件付きスコアベースのデータ生成手法の多くはベイズの定理を用いて、ログ後密度の勾配をスコアの混合に分解する。 これらの方法は、スコアモデルと分類器を用いてスコアの混合を別々に推定できるため、条件付スコアモデルのトレーニング手順を容易にする。 しかし,本手法における分類器の訓練目的は,推定値が真から逸脱している状況に対応して,重大なスコアミスマッチ問題を引き起こす可能性が示唆された。 このような問題により、拡散過程中にずれたスコアでサンプルを誤認させ、結果としてサンプリング品質が低下する。 そこで我々は, 真の対数確率密度の勾配に適合する分類器に対して, denoising likelihood score matching (dlsm) loss と呼ばれる新しい学習目標を定式化した。 提案手法は,Cifar-10およびCifar-100ベンチマークにおいて,いくつかの重要な評価指標において,従来手法よりも顕著に優れていることを示す。 その結果,DLSMを採用することで条件付きスコアを正確にモデル化することができ,スコアミスマッチ問題の影響が軽減されることがわかった。

Many existing conditional score-based data generation methods utilize Bayes' theorem to decompose the gradients of a log posterior density into a mixture of scores. These methods facilitate the training procedure of conditional score models, as a mixture of scores can be separately estimated using a score model and a classifier. However, our analysis indicates that the training objectives for the classifier in these methods may lead to a serious score mismatch issue, which corresponds to the situation that the estimated scores deviate from the true ones. Such an issue causes the samples to be misled by the deviated scores during the diffusion process, resulting in a degraded sampling quality. To resolve it, we formulate a novel training objective, called Denoising Likelihood Score Matching (DLSM) loss, for the classifier to match the gradients of the true log likelihood density. Our experimental evidence shows that the proposed method outperforms the previous methods on both Cifar-10 and Cifar-100 benchmarks noticeably in terms of several key evaluation metrics. We thus conclude that, by adopting DLSM, the conditional scores can be accurately modeled, and the effect of the score mismatch issue is alleviated.
翻訳日:2022-03-29 13:40:28 公開日:2022-03-27
# DeepDPM: 未知の数のクラスタによるディープクラスタリング

DeepDPM: Deep Clustering With an Unknown Number of Clusters ( http://arxiv.org/abs/2203.14309v1 )

ライセンス: Link先を確認
Meitar Ronen, Shahaf E. Finder, Oren Freifeld(参考訳) ディープラーニング(DL)はクラスタリングの教師なしタスクにおいて大きな可能性を示しています。 とは言っても、古典的な(すなわち、非ディープな)クラスタリングでは、非パラメトリックアプローチの利点はよく知られているが、ほとんどのディープクラスタリング手法はパラメトリックである:すなわち、Kで表される事前定義された固定数のクラスタを必要とする。 本研究では,学習中にKの価値を知る必要のない効果的な深層クラスタリング手法を導入することにより,このギャップを埋める。 スプリット/マージフレームワーク、変化するkに適応する動的アーキテクチャ、そして新しい損失を用いて、提案手法は既存の非パラメトリックメソッド(古典的メソッドと深層メソッドの両方)を上回る。 既存の非常に深い非パラメトリックなメソッドはスケーラビリティを欠いているが、imagenetでそのようなメソッドのパフォーマンスを最初に報告することで、我々の成果を実証する。 また、特に不均衡データセットにおいて、仮定されたk値が基底値よりさらに大きくなると性能が低下する手法を示すことにより、kを推測することの重要性を実証する。 私たちのコードはhttps://github.com/B GU-CS-VIL/DeepDPMで利用可能です。

Deep Learning (DL) has shown great promise in the unsupervised task of clustering. That said, while in classical (i.e., non-deep) clustering the benefits of the nonparametric approach are well known, most deep-clustering methods are parametric: namely, they require a predefined and fixed number of clusters, denoted by K. When K is unknown, however, using model-selection criteria to choose its optimal value might become computationally expensive, especially in DL as the training process would have to be repeated numerous times. In this work, we bridge this gap by introducing an effective deep-clustering method that does not require knowing the value of K as it infers it during the learning. Using a split/merge framework, a dynamic architecture that adapts to the changing K, and a novel loss, our proposed method outperforms existing nonparametric methods (both classical and deep ones). While the very few existing deep nonparametric methods lack scalability, we demonstrate ours by being the first to report the performance of such a method on ImageNet. We also demonstrate the importance of inferring K by showing how methods that fix it deteriorate in performance when their assumed K value gets further from the ground-truth one, especially on imbalanced datasets. Our code is available at https://github.com/B GU-CS-VIL/DeepDPM.
翻訳日:2022-03-29 13:40:10 公開日:2022-03-27
# ドメイン一般化のための因果性に基づく表現学習

Causality Inspired Representation Learning for Domain Generalization ( http://arxiv.org/abs/2203.14237v1 )

ライセンス: Link先を確認
Fangrui Lv, Jian Liang, Shuang Li, Bin Zang, Chi Harold Liu, Ziteng Wang, Di Liu(参考訳) ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインから学習した知識を、目に見えないターゲットドメインに一般化することを目的とした、配布外問題である。 主流は統計モデルを利用してデータとラベル間の依存をモデル化し、ドメインに依存しない表現を学習することである。 それにもかかわらず、統計的モデルは現実の表層的記述であり、それらは内在的因果メカニズムではなく依存のモデルにのみ要求される。 対象分布の依存性が変化すると、統計モデルは一般化に失敗する。 本稿では,DG問題を形式化する一般的な構造因果モデルを提案する。 具体的には、各入力は因果因子(ラベルとの関係はドメイン間で不変)と非因果因子(カテゴリ非依存)の混合から構成され、前者のみが分類判断の原因となると仮定する。 我々の目標は、入力から因果因子を抽出し、不変因果メカニズムを再構築することである。 しかし,dgの理論的考え方は,必須因果/非因果因子が観察できないため,実用的ではない。 理想的な因果因子は、非因果的要因から分離され、共同独立であり、分類に十分な因果的要因である。 そこで本研究では,上記の性質を満たすために表現を強制し,それを用いて因果因子をシミュレートし,一般化能力を向上させる因果性インスパイア表現学習(cirl)アルゴリズムを提案する。 本手法の有効性を検証するために,いくつかのデータセットを用いた大規模実験を行った。

Domain generalization (DG) is essentially an out-of-distribution problem, aiming to generalize the knowledge learned from multiple source domains to an unseen target domain. The mainstream is to leverage statistical models to model the dependence between data and labels, intending to learn representations independent of domain. Nevertheless, the statistical models are superficial descriptions of reality since they are only required to model dependence instead of the intrinsic causal mechanism. When the dependence changes with the target distribution, the statistic models may fail to generalize. In this regard, we introduce a general structural causal model to formalize the DG problem. Specifically, we assume that each input is constructed from a mix of causal factors (whose relationship with the label is invariant across domains) and non-causal factors (category-independen t), and only the former cause the classification judgments. Our goal is to extract the causal factors from inputs and then reconstruct the invariant causal mechanisms. However, the theoretical idea is far from practical of DG since the required causal/non-causal factors are unobserved. We highlight that ideal causal factors should meet three basic properties: separated from the non-causal ones, jointly independent, and causally sufficient for the classification. Based on that, we propose a Causality Inspired Representation Learning (CIRL) algorithm that enforces the representations to satisfy the above properties and then uses them to simulate the causal factors, which yields improved generalization ability. Extensive experimental results on several widely used datasets verify the effectiveness of our approach.
翻訳日:2022-03-29 13:37:04 公開日:2022-03-27
# mutexmatch: mutexベースの一貫性規則化による半教師付き学習

MutexMatch: Semi-supervised Learning with Mutex-based Consistency Regularization ( http://arxiv.org/abs/2203.14316v1 )

ライセンス: Link先を確認
Yue Duan, Zhen Zhao, Lei Qi, Lei Wang, Luping Zhou, Yinghuan Shi, Yang Gao(参考訳) 半教師付き学習(ssl)の核となる問題は、ラベルのないデータを効果的に活用する方法にあるが、既存の方法の多くは、信頼性の高いサンプルの利用に重点を置いている傾向がある。 本稿では,提案するmutexベースの一貫性規則化であるmutexmatchを用いて,低信頼サンプルを新しい方法で活用することを目的とする。 具体的には、信頼度の高いサンプルは、従来のTrue-Positive Classifierによって「何であるか」を正確に予測し、低信頼度サンプルは、True-Negative Classifierによって「何でないのか」を簡単に予測するために、より単純なゴールを達成するために使用される。 この意味で、擬似ラベル誤りを緩和するだけでなく、異種度の整合性によって低信頼なラベル付きデータをフル活用する。 MutexMatchは、CIFAR-10、CIFAR-100、SVHN、STL-10、mini-ImageNetなど、複数のベンチマークデータセットで優れたパフォーマンスを実現する。 さらに,CIFAR-10のラベル付きデータに対して,92.23%の精度でラベル付きデータの量が不足している場合に,さらに優位性を示す。 コードはhttps://github.com/N JUyued/MutexMatch4SS Lでリリースされた。

The core issue in semi-supervised learning (SSL) lies in how to effectively leverage unlabeled data, whereas most existing methods tend to put a great emphasis on the utilization of high-confidence samples yet seldom fully explore the usage of low-confidence samples. In this paper, we aim to utilize low-confidence samples in a novel way with our proposed mutex-based consistency regularization, namely MutexMatch. Specifically, the high-confidence samples are required to exactly predict "what it is" by conventional True-Positive Classifier, while the low-confidence samples are employed to achieve a simpler goal -- to predict with ease "what it is not" by True-Negative Classifier. In this sense, we not only mitigate the pseudo-labeling errors but also make full use of the low-confidence unlabeled data by consistency of dissimilarity degree. MutexMatch achieves superior performance on multiple benchmark datasets, i.e., CIFAR-10, CIFAR-100, SVHN, STL-10, and mini-ImageNet. More importantly, our method further shows superiority when the amount of labeled data is scarce, e.g., 92.23% accuracy with only 20 labeled data on CIFAR-10. Code has been released at https://github.com/N JUyued/MutexMatch4SS L.
翻訳日:2022-03-29 13:36:37 公開日:2022-03-27
# 教師なし視覚言語解析:依存性関係による言語構造付き視覚シーングラフのシームレスブリッジ

Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships ( http://arxiv.org/abs/2203.14260v1 )

ライセンス: Link先を確認
Chao Lou, Wenjuan Han, Yuhuan Lin, Zilong Zheng(参考訳) 現実的な視覚シーンイメージと言語記述を理解することは、汎用的な視覚理解のための基本的なタスクである。 以前の研究は、視覚シーン(シーングラフなど)と自然言語(依存性木など)の階層構造を個別に構築することで、魅力的な包括的な結果を示している。 しかし,共同視覚言語(VL)構造の構築方法についてはほとんど研究されていない。 より難しいが重要なことは、そのような共同VL構造を教師なしで誘導することを目的とした新しいタスクを導入することである。 私たちの目標は、視覚シーングラフと言語依存木をシームレスに橋渡しすることです。 VL構造データがないため、私たちはまず、新しいデータセットであるVLParseを構築します。 労働集約的なラベリングをスクラッチから使うのではなく, 粗い構造を生産し, 高品質な構造を生産する自動アライメント手法を提案する。 さらに、我々は、Vision-Language Graph Autoencoderの略であるCLベースのフレームワークVLGAEを提案し、データセットをベンチマークする。 本モデルでは,2つの派生課題,すなわち言語文法の帰納化とVL句の接地処理において,優れた性能が得られる。 アブレーションは、微細なVL構造構築における視覚的手がかりと依存関係の両方の有効性を示す。

Understanding realistic visual scene images together with language descriptions is a fundamental task towards generic visual understanding. Previous works have shown compelling comprehensive results by building hierarchical structures for visual scenes (e.g., scene graphs) and natural languages (e.g., dependency trees), individually. However, how to construct a joint vision-language (VL) structure has barely been investigated. More challenging but worthwhile, we introduce a new task that targets on inducing such a joint VL structure in an unsupervised manner. Our goal is to bridge the visual scene graphs and linguistic dependency trees seamlessly. Due to the lack of VL structural data, we start by building a new dataset VLParse. Rather than using labor-intensive labeling from scratch, we propose an automatic alignment procedure to produce coarse structures followed by human refinement to produce high-quality ones. Moreover, we benchmark our dataset by proposing a contrastive learning (CL)-based framework VLGAE, short for Vision-Language Graph Autoencoder. Our model obtains superior performance on two derived tasks, i.e., language grammar induction and VL phrase grounding. Ablations show the effectiveness of both visual cues and dependency relationships on fine-grained VL structure construction.
翻訳日:2022-03-29 13:10:57 公開日:2022-03-27
# Mugs: マルチグラニュラーな自己監視型学習フレームワーク

Mugs: A Multi-Granular Self-Supervised Learning Framework ( http://arxiv.org/abs/2203.14415v1 )

ライセンス: Link先を確認
Pan Zhou and Yichen Zhou and Chenyang Si and Weihao Yu and Teck Khim Ng and Shuicheng Yan(参考訳) 自己教師付き学習では、異なる下流タスク(例えば、一般的な分類ときめ細かな分類)は、しばしば異なるまたは複数の粒度の特徴を必要とするため、多粒度の特徴が強く望まれるが、ほとんど調査されない。 本研究は,マルチグラニュラー視覚特徴を明示的に学習するための効果的なMUlti-Granular Self-supervised Learning (Mugs) フレームワークを初めて提案する。 mugsには3つの相補的な細かな監督がある。 1) インスタンス識別監督(IDS) 2)新しい局所集団差別監督(lgds)、及び 3)グループ差別監督(GDS)。 IDSはインスタンスレベルのきめ細かい機能を学ぶために異なるインスタンスを区別する。 LGDSは、画像とその隣人の機能をローカルグループ機能に集約し、同じ画像の異なる作物からローカルグループ機能を抽出し、それらを他のものにプッシュする。 IDSに補完的なインスタンス管理を提供するため、近隣住民に追加のアライメントを施し、差別性を高めるために異なるローカルグループを別々に散布する。 したがって、ローカルグループレベルで高レベルのきめ細かい機能を学ぶのに役立つ。 最後に、類似の局所群がランダムにあるいは遠くに散らばることを防ぐため、GDSは類似のサンプルを近くに持ち込み、類似の局所群をまとめ、(意味)群レベルで粗粒度の特徴を捉える。 結果として、Mugは、対照的な学習において、単一粒度よりも様々な下流タスクにおいて高い一般化を享受する3つの粒度の特徴を捉えることができる。 ImageNet-1Kでのみ事前トレーニングを行うことで、Mugsは新しいSoTA線形探索精度82.1$\%$をImageNet-1Kで設定し、以前のSoTAを1.1\%$で改善する。 また、転送学習、検出、セグメンテーションなど他のタスクではSoTAを超越している。

In self-supervised learning, multi-granular features are heavily desired though rarely investigated, as different downstream tasks (e.g., general and fine-grained classification) often require different or multi-granular features, e.g.~fine- or coarse-grained one or their mixture. In this work, for the first time, we propose an effective MUlti-Granular Self-supervised learning (Mugs) framework to explicitly learn multi-granular visual features. Mugs has three complementary granular supervisions: 1) an instance discrimination supervision (IDS), 2) a novel local-group discrimination supervision (LGDS), and 3) a group discrimination supervision (GDS). IDS distinguishes different instances to learn instance-level fine-grained features. LGDS aggregates features of an image and its neighbors into a local-group feature, and pulls local-group features from different crops of the same image together and push them away for others. It provides complementary instance supervision to IDS via an extra alignment on local neighbors, and scatters different local-groups separately to increase discriminability. Accordingly, it helps learn high-level fine-grained features at a local-group level. Finally, to prevent similar local-groups from being scattered randomly or far away, GDS brings similar samples close and thus pulls similar local-groups together, capturing coarse-grained features at a (semantic) group level. Consequently, Mugs can capture three granular features that often enjoy higher generality on diverse downstream tasks over single-granular features, e.g.~instance-level fine-grained features in contrastive learning. By only pretraining on ImageNet-1K, Mugs sets new SoTA linear probing accuracy 82.1$\%$ on ImageNet-1K and improves previous SoTA by $1.1\%$. It also surpasses SoTAs on other tasks, e.g. transfer learning, detection and segmentation.
翻訳日:2022-03-29 13:07:23 公開日:2022-03-27
# 対角状態空間は構造化状態空間と同じくらい有効である

Diagonal State Spaces are as Effective as Structured State Spaces ( http://arxiv.org/abs/2203.14343v1 )

ライセンス: Link先を確認
Ankit Gupta(参考訳) シーケンシャルデータにおける長距離依存関係のモデリングは、テキスト、ビジョン、オーディオなど多くのモダリティにおいて人間レベルのパフォーマンスを達成するための基本的なステップである。 注意に基づくモデルは、近距離相互作用のモデリングにおいて人気があり効果的な選択であるが、長距離推論を必要とするタスクのパフォーマンスは、概ね不十分である。 画期的な結果として、Gu et al. (2022) は、様々なモードにわたる長距離タスクにおける最先端モデルよりも大きな利益をもたらす $\textit{Structured State Space}$ (S4) アーキテクチャを提案した。 s4 の核となる命題は対角プラス低ランク構造による状態行列のパラメータ化であり、効率的な計算を可能にする。 本研究では,低階補正がなくてもs4の性能に適合し,状態行列を対角的に仮定できることを示す。 当社の$\textit{diagonal state space}$ (dss)モデルは、長距離アリーナタスク、音声コマンドデータセットでの音声分類、概念的にはシンプルで実装が容易なs4のパフォーマンスに適合しています。

Modeling long range dependencies in sequential data is a fundamental step towards attaining human-level performance in many modalities such as text, vision and audio. While attention-based models are a popular and effective choice in modeling short-range interactions, their performance on tasks requiring long range reasoning has been largely inadequate. In a breakthrough result, Gu et al. (2022) proposed the $\textit{Structured State Space}$ (S4) architecture delivering large gains over state-of-the-art models on several long-range tasks across various modalities. The core proposition of S4 is the parameterization of state matrices via a diagonal plus low rank structure, allowing efficient computation. In this work, we show that one can match the performance of S4 even without the low rank correction and thus assuming the state matrices to be diagonal. Our $\textit{Diagonal State Space}$ (DSS) model matches the performance of S4 on Long Range Arena tasks, speech classification on Speech Commands dataset, while being conceptually simpler and straightforward to implement.
翻訳日:2022-03-29 13:04:50 公開日:2022-03-27
# 物体検出における領域一般化に向けて

Towards Domain Generalization in Object Detection ( http://arxiv.org/abs/2203.14387v1 )

ライセンス: Link先を確認
Xingxuan Zhang, Zekai Xu, Renzhe Xu, Jiashuo Liu, Peng Cui, Weitao Wan, Chong Sun, Chen Li(参考訳) トレーニングデータとテストデータが同一あるいは類似の分布からサンプリングされる場合、現代の検出器が達成した顕著な性能にもかかわらず、未知の分布シフト下での検出器の一般化能力はほとんど研究されていない。 近年、検出器は様々な環境や状況に遭遇する可能性があるため、現実の応用では適用できない特定の対象領域への適応能力について議論されている。 本稿では,オブジェクト検出(DGOD)における重要な問題,ドメインの一般化について検討し,検出器をソースドメインで訓練し,未知のターゲットドメインで評価する。 未知分布シフト下の検出器を徹底的に評価するために,dgod問題を定式化し,空隙を満たすための総合評価ベンチマークを提案する。 さらに,roi特徴の依存性をなくすため,rapt法という新しい手法を提案する。 大規模な実験により、現在のDG法はDGOD問題に対処できず、我々の手法は他の最先端の手法よりも優れていることが示された。

Despite the striking performance achieved by modern detectors when training and test data are sampled from the same or similar distribution, the generalization ability of detectors under unknown distribution shifts remains hardly studied. Recently several works discussed the detectors' adaptation ability to a specific target domain which are not readily applicable in real-world applications since detectors may encounter various environments or situations while pre-collecting all of them before training is inconceivable. In this paper, we study the critical problem, domain generalization in object detection (DGOD), where detectors are trained with source domains and evaluated on unknown target domains. To thoroughly evaluate detectors under unknown distribution shifts, we formulate the DGOD problem and propose a comprehensive evaluation benchmark to fill the vacancy. Moreover, we propose a novel method named Region Aware Proposal reweighTing (RAPT) to eliminate dependence within RoI features. Extensive experiments demonstrate that current DG methods fail to address the DGOD problem and our method outperforms other state-of-the-art counterparts.
翻訳日:2022-03-29 12:43:04 公開日:2022-03-27
# (参考訳) MedMCQA : 医療領域質問応答のための大規模マルチオブジェクトマルチコースデータセット [全文訳有]

MedMCQA : A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering ( http://arxiv.org/abs/2203.14371v1 )

ライセンス: CC BY 4.0
Ankit Pal, Logesh Kumar Umapathi and Malaikannan Sankarasubbu(参考訳) 本稿では,実世界の医学受験問題に対処するために設計された,大規模マルチチョイス質問応答(mcqa)データセットであるmedmcqaについて述べる。 194k以上のハイクオリティなaiims \&neet pg入試mqsが2.4kの医療トピックをカバーし、21の医療被験者を平均12.77のトークン長で収集し、トピックの多様性が高い。 それぞれのサンプルには質問、正しい回答、その他の選択肢が含まれており、様々な医学科目におけるモデルの10以上の推論能力をテストする際に、より深い言語理解を必要とする。 本研究では, この解の詳細な説明と, 上記の情報について述べる。

This paper introduces MedMCQA, a new large-scale, Multiple-Choice Question Answering (MCQA) dataset designed to address real-world medical entrance exam questions. More than 194k high-quality AIIMS \& NEET PG entrance exam MCQs covering 2.4k healthcare topics and 21 medical subjects are collected with an average token length of 12.77 and high topical diversity. Each sample contains a question, correct answer(s), and other options which requires a deeper language understanding as it tests the 10+ reasoning abilities of a model across a wide range of medical subjects \& topics. A detailed explanation of the solution, along with the above information, is provided in this study.
翻訳日:2022-03-29 12:37:27 公開日:2022-03-27
# 低リソースステレオタイプ検出のための強化型マルチタスク学習フレームワーク

Reinforcement Guided Multi-Task Learning Framework for Low-Resource Stereotype Detection ( http://arxiv.org/abs/2203.14349v1 )

ライセンス: Link先を確認
Rajkumar Pujari, Erik Oveson, Priyanka Kulkarni, Elnaz Nouri(参考訳) 大量のデータを教師なしでトレーニングした大規模事前学習言語モデル(plm)がよりユビキタスになるにつれて、テキスト中のさまざまな種類のバイアスの識別が注目されるようになった。 既存の「ステレオタイプ検出」データセットは主に大規模PLMに対する診断手法を採用している。 Blodgettなど。 al (2021a) は、既存のベンチマークデータセットには大きな信頼性の問題があることを示している。 信頼できるデータセットに注釈を付けるには、テキストでステレオタイプがどのように現れるかの微妙なニュアンスを正確に理解する必要がある。 本稿では,テキストにステレオタイプが現れる様々な方法をデコンストラクションすることで,これらの落とし穴に対処する「ステレオタイプ検出」に焦点をあてた評価セットを提案する。 さらに,ヘイトスピーチ検出,攻撃的言語検出,ミソジニー検出など,データ豊富な隣接タスクを多用し,ステレオタイプ検出における経験的性能を向上させるマルチタスクモデルを提案する。 そこで本研究では,マルチタスク学習モデルを指導する強化学習エージェントを提案する。 提案したモデルが,既存のタスクのベースラインよりも有意に向上したことを示す。

As large Pre-trained Language Models (PLMs) trained on large amounts of data in an unsupervised manner become more ubiquitous, identifying various types of bias in the text has come into sharp focus. Existing "Stereotype Detection" datasets mainly adopt a diagnostic approach toward large PLMs. Blodgett et. al (2021a) show that there are significant reliability issues with the existing benchmark datasets. Annotating a reliable dataset requires a precise understanding of the subtle nuances of how stereotypes manifest in text. In this paper, we annotate a focused evaluation set for "Stereotype Detection" that addresses those pitfalls by de-constructing various ways in which stereotypes manifest in text. Further, we present a multi-task model that leverages the abundance of data-rich neighboring tasks such as hate speech detection, offensive language detection, misogyny detection, etc., to improve the empirical performance on "Stereotype Detection". We then propose a reinforcement-learni ng agent that guides the multi-task learning model by learning to identify the training examples from the neighboring tasks that help the target task the most. We show that the proposed models achieve significant empirical gains over existing baselines on all the tasks.
翻訳日:2022-03-29 12:17:14 公開日:2022-03-27
# MERLIN -- 強化学習によるマルウェアの侵入

MERLIN -- Malware Evasion with Reinforcement LearnINg ( http://arxiv.org/abs/2203.12980v2 )

ライセンス: Link先を確認
Tony Quertier and Benjamin Marais and St\'ephane Morucci and Bertrand Fournel(参考訳) シグネチャベースおよびヒューリスティックスベースの検出技術に加えて、機械学習(ml)は、新しい、かつてない悪質なソフトウェア(malware)に一般化するために広く使われている。 しかし、分類器を騙して不正なラベルを返すことでMLモデルを騙すことが実証されている。 これらの研究は通常、勾配に基づく攻撃に対して脆弱な予測スコアに依存する。 攻撃者がマルウェア検出エンジンの出力に関する情報をほとんど持っていないより現実的な状況において、控えめな回避率を達成する。 本稿では,dqnを用いた強化学習とアルゴリズム強化を用いて,2つの最先端mlベース検出エンジン(malconv \&ember)とgartnerがリードする商用avに挑戦する手法を提案する。 提案手法は,Windows ポータブル実行 (PE) ファイルの機能を損なうことなく,複数のアクションを組み合わせる。 また,どの動作が良好かを特定し,詳細な脆弱性レポートをコンパイルして回避を緩和する手法を提案する。 限られた情報しか持たない商用AVでも,REINFORCEは高い回避率を達成できることを実証する。

In addition to signature-based and heuristics-based detection techniques, machine learning (ML) is widely used to generalize to new, never-before-seen malicious software (malware). However, it has been demonstrated that ML models can be fooled by tricking the classifier into returning the incorrect label. These studies, for instance, usually rely on a prediction score that is fragile to gradient-based attacks. In the context of a more realistic situation where an attacker has very little information about the outputs of a malware detection engine, modest evasion rates are achieved. In this paper, we propose a method using reinforcement learning with DQN and REINFORCE algorithms to challenge two state-of-the-art ML-based detection engines (MalConv \& EMBER) and a commercial AV classified by Gartner as a leader AV. Our method combines several actions, modifying a Windows portable execution (PE) file without breaking its functionalities. Our method also identifies which actions perform better and compiles a detailed vulnerability report to help mitigate the evasion. We demonstrate that REINFORCE achieves very good evasion rates even on a commercial AV with limited available information.
翻訳日:2022-03-29 10:45:09 公開日:2022-03-27
# トランスフォーマー圧縮型グローバルイメージトークンによるセンシング

Transformer Compressed Sensing via Global Image Tokens ( http://arxiv.org/abs/2203.12861v2 )

ライセンス: Link先を確認
Marlon Bran Lorenzana, Craig Engstrom, Feng Liu and Shekhar S. Chandra(参考訳) 畳み込みニューラルネットワーク(cnn)は、従来の手作り方式に比べて優れた圧縮センシング(cs)性能を示している。 しかし、それらは一般化可能性、帰納的バイアス、長距離関係のモデル化の困難さという観点で広く制限されている。 トランスフォーマーニューラルネットワーク(tnn)は、入力間の依存関係をキャプチャするアテンションメカニズムを実装することで、このような問題を克服する。 しかし、高解像度のタスクは通常、イメージをパッチベースのトークンに分解するために視覚変換器(ViT)を必要とする。 低解像度入力に自然に画像を埋め込む新しい画像分解法を提案する。 これらのカレイドスコープトークン(KD)は、パッチベースのアプローチと同じ計算コストで、グローバルな注目のメカニズムを提供する。 この発展を示すために、よく知られたCS-MRIニューラルネットワークのCNNコンポーネントをTNNブロックで置き換え、KDがもたらす改善を実証する。 また,画像品質を向上し,モデルサイズを小さくする画像トークンのアンサンブルを提案する。 追加資料:https://github.com/ uqmarlonbran/TCS.git

Convolutional neural networks (CNN) have demonstrated outstanding Compressed Sensing (CS) performance compared to traditional, hand-crafted methods. However, they are broadly limited in terms of generalisability, inductive bias and difficulty to model long distance relationships. Transformer neural networks (TNN) overcome such issues by implementing an attention mechanism designed to capture dependencies between inputs. However, high-resolution tasks typically require vision Transformers (ViT) to decompose an image into patch-based tokens, limiting inputs to inherently local contexts. We propose a novel image decomposition that naturally embeds images into low-resolution inputs. These Kaleidoscope tokens (KD) provide a mechanism for global attention, at the same computational cost as a patch-based approach. To showcase this development, we replace CNN components in a well-known CS-MRI neural network with TNN blocks and demonstrate the improvements afforded by KD. We also propose an ensemble of image tokens, which enhance overall image quality and reduces model size. Supplementary material is available: https://github.com/u qmarlonbran/TCS.git
翻訳日:2022-03-29 10:28:39 公開日:2022-03-27
# 立方体DUCGに基づく産業故障診断における因果的知識表現と推論のためのプラットフォーム

A platform for causal knowledge representation and inference in industrial fault diagnosis based on cubic DUCG ( http://arxiv.org/abs/2203.12802v2 )

ライセンス: Link先を確認
Bu XuSong and Nie Hao and Zhang Zhan and Zhang Qin(参考訳) 大規模産業システムの作業条件は非常に複雑である。 障害が発生したら、産業生産に影響し、財産に損害を与え、労働者の生命を危険にさらす。 したがって、システムの動作状況を正確に把握し、時間内に故障を検知するために、システムの動作を制御することが重要である。 システム障害の発生は段階的なプロセスであり、現在のシステム障害の発生は、シーケンシャルであるシステムの前の状態に依存する可能性がある。 時系列に基づく故障診断技術は、リアルタイムにシステムの動作状態を監視し、許容時間間隔内でシステムの異常動作を検出し、障害の根本原因を診断し、状態傾向を予測する。 本稿では, 技術的人材のトラブルシュートを指導し, 関連障害を解消するために, 立方体DUCG理論に基づく産業的故障診断システムを構築した。 システムの診断モデルは専門家の知識と経験に基づいて構築される。 同時に、タイムシーケンスに基づいたリアルタイム故障診断を行うことができ、サンプルデータなしで産業システムの故障診断の問題を解決することができる。

The working conditions of large-scale industrial systems are very complex. Once a failure occurs, it will affect industrial production, cause property damage, and even endanger the workers' lives. Therefore, it is important to control the operation of the system to accurately grasp the operation status of the system and find out the failure in time. The occurrence of system failure is a gradual process, and the occurrence of the current system failure may depend on the previous state of the system, which is sequential. The fault diagnosis technology based on time series can monitor the operating status of the system in real-time, detect the abnormal operation of the system within the allowable time interval, diagnose the root cause of the fault and predict the status trend. In order to guide the technical personnel to troubleshoot and solve related faults, in this paper, an industrial fault diagnosis system is implemented based on the cubic DUCG theory. The diagnostic model of the system is constructed based on expert knowledge and experience. At the same time, it can perform real-time fault diagnosis based on time sequence, which solves the problem of fault diagnosis of industrial systems without sample data.
翻訳日:2022-03-29 10:27:52 公開日:2022-03-27