論文の概要: Domain Information Control at Inference Time for Acoustic Scene
Classification
- arxiv url: http://arxiv.org/abs/2306.08010v1
- Date: Tue, 13 Jun 2023 10:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 23:32:14.536076
- Title: Domain Information Control at Inference Time for Acoustic Scene
Classification
- Title(参考訳): 音響シーン分類のための推論時のドメイン情報制御
- Authors: Shahed Masoudian, Khaled Koutini, Markus Schedl, Gerhard Widmer, Navid
Rekabsaz
- Abstract要約: ドメインシフトは、モデルパフォーマンスの大幅な低下を引き起こすため、機械学習における課題と考えられている。
制御可能なゲートアダプタ ConGater は、バイアス付きトレーニングデータ問題に対処するために自然言語処理で提案されている。
ConGaterは、学習した表現からデバイス情報を段階的に取り除き、モデル一般化を改善することができることを示す。
- 参考スコア(独自算出の注目度): 14.608209031489812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain shift is considered a challenge in machine learning as it causes
significant degradation of model performance. In the Acoustic Scene
Classification task (ASC), domain shift is mainly caused by different recording
devices. Several studies have already targeted domain generalization to improve
the performance of ASC models on unseen domains, such as new devices. Recently,
the Controllable Gate Adapter ConGater has been proposed in Natural Language
Processing to address the biased training data problem. ConGater allows
controlling the debiasing process at inference time. ConGater's main advantage
is the continuous and selective debiasing of a trained model, during inference.
In this work, we adapt ConGater to the audio spectrogram transformer for an
acoustic scene classification task. We show that ConGater can be used to
selectively adapt the learned representations to be invariant to device domain
shifts such as recording devices. Our analysis shows that ConGater can
progressively remove device information from the learned representations and
improve the model generalization, especially under domain shift conditions
(e.g. unseen devices). We show that information removal can be extended to both
device and location domain. Finally, we demonstrate ConGater's ability to
enhance specific device performance without further training.
- Abstract(参考訳): ドメインシフトは、モデルのパフォーマンスが著しく低下する原因となるため、機械学習の課題と見なされる。
音響シーン分類タスク(ASC)では、ドメインシフトは主に異なる記録装置によって引き起こされる。
既にいくつかの研究は、新しいデバイスなど、未知のドメインにおけるascモデルのパフォーマンスを改善するために、ドメインの一般化を目標としている。
近年,制御可能なゲートアダプタであるConGaterが自然言語処理で提案され,バイアス付きトレーニングデータ問題に対処している。
ConGaterは推論時にデバイアス処理を制御することができる。
ConGaterの主な利点は、推論中にトレーニングされたモデルの連続的かつ選択的デバイアス化である。
本研究では,音響シーン分類タスクにおいて,ConGaterを音響スペクトログラム変換器に適用する。
ConGaterは、学習した表現をレコードデバイスなどのデバイスドメインシフトに不変にするために、選択的に適応するために使用できることを示す。
分析の結果,ConGaterは学習した表現からデバイス情報を段階的に取り除き,特にドメインシフト条件下でのモデル一般化を改善することができることがわかった。
情報除去はデバイスと位置情報の両方に拡張可能であることを示す。
最後に、さらにトレーニングすることなく、特定のデバイスパフォーマンスを向上させるConGaterの能力を実証する。
関連論文リスト
- A Study on Unsupervised Domain Adaptation for Semantic Segmentation in the Era of Vision-Language Models [1.2499537119440245]
ドメインシフトは、ディープラーニングベースのコンピュータビジョンにおける大きな課題の1つです。
UDAメソッドは、そのドメインのラベルのないデータのみを使用することで、モデルを新しいターゲットドメインに適応させる。
最近の視覚言語モデルは、ドメイン適応を促進する強力な一般化能力を示している。
既存のUDAメソッドのエンコーダを視覚言語で事前学習したエンコーダに置き換えることで,大幅な性能向上が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-25T14:12:24Z) - UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models [75.77651291095565]
我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。
この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。
このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
論文 参考訳(メタデータ) (2024-11-11T12:25:02Z) - DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-Level Adaptation and Prototypical Alignment [7.768332621617199]
我々は、オブジェクト検出の教師なし領域適応のために、ドメイン適応検出TRansformer(DATR)と呼ばれる強力なDETRベースの検出器を導入する。
提案するDATRは,教師モデルによって生成された擬似ラベルを用いて,平均教師に基づく自己学習フレームワークを組み込んで,ドメインバイアスをさらに緩和する。
複数のドメイン適応シナリオにおいて,提案したDATRの性能と一般化性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:48:45Z) - Vision Transformer-based Adversarial Domain Adaptation [5.611768906855499]
視覚変換器(ViT)は出現以来注目され、様々なコンピュータビジョンタスクで広く利用されている。
本稿では,このギャップを,対向領域適応における特徴抽出器としてViTを用いて埋める。
敵領域適応において, ViT がプラグイン・アンド・プレイコンポーネントとなることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-24T11:41:28Z) - CHATTY: Coupled Holistic Adversarial Transport Terms with Yield for
Unsupervised Domain Adaptation [1.87446486236017]
我々はCHATTYと呼ばれる新しい手法を提案する。
敵対的トレーニングは、ニューラルネットワークの特徴抽出層をトレーニングするために、ドメイン判別器ヘッドからの勾配を反転させることで、ドメイン不変表現の学習に一般的に使用される。
本稿では,ソースとターゲットドメインの出力を学習可能な方法で置き換えるサブネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-19T13:00:23Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Learning Instance-Specific Augmentations by Capturing Local Invariances [62.70897571389785]
InstaAugは、データから入力固有の拡張を自動的に学習する方法である。
InstaAugは、幅広い変換クラスに対して意味のある入力依存の強化を学ぶことを実証的に示す。
論文 参考訳(メタデータ) (2022-05-31T18:38:06Z) - Exploring Sequence Feature Alignment for Domain Adaptive Detection
Transformers [141.70707071815653]
本稿では,検出変圧器の適応に特化して設計された新しいシーケンス特徴アライメント(SFA)法を提案する。
SFAはドメインクエリベースの機能アライメント(DQFA)モジュールとトークンワイド機能アライメント(TDA)モジュールで構成される。
3つの挑戦的なベンチマーク実験により、SFAは最先端のドメイン適応オブジェクト検出方法より優れていることが示された。
論文 参考訳(メタデータ) (2021-07-27T07:17:12Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Self-Supervised Domain Adaptation with Consistency Training [0.2462953128215087]
画像分類における教師なし領域適応の問題点を考察する。
ラベルのないデータをある種の変換で拡張することにより、自己教師付きプレテキストタスクを作成する。
我々は、拡張データの表現を元のデータと整合するように強制する。
論文 参考訳(メタデータ) (2020-10-15T06:03:47Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。