論文の概要: How Contrastive Decoding Enhances Large Audio Language Models?
- arxiv url: http://arxiv.org/abs/2603.09232v1
- Date: Tue, 10 Mar 2026 06:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.080858
- Title: How Contrastive Decoding Enhances Large Audio Language Models?
- Title(参考訳): コントラストデコーディングはどのようにして大規模オーディオ言語モデルを強化するか?
- Authors: Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee,
- Abstract要約: Contrastive Decoding (CD) は,Large Audio Language Models (LALM) の強化に有効であることが証明された。
本研究はLALMアーキテクチャの異なる4つのCD戦略を体系的に評価する。
オーディオ・アウェア・デコーディングとオーディオ・コントラスト・デコーディングを最も効果的な方法として同定する。
- 参考スコア(独自算出の注目度): 49.26664187543512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Contrastive Decoding (CD) has proven effective at enhancing Large Audio Language Models (LALMs), the underlying mechanisms driving its success and the comparative efficacy of different strategies remain unclear. This study systematically evaluates four distinct CD strategies across diverse LALM architectures. We identify Audio-Aware Decoding and Audio Contrastive Decoding as the most effective methods. However, their impact varies significantly by model. To explain this variability, we introduce a Transition Matrix framework to map error pattern shifts during inference. Our analysis demonstrates that CD reliably rectifies errors in which models falsely claim an absence of audio or resort to uncertainty-driven guessing. Conversely, it fails to correct flawed reasoning or confident misassertions. Ultimately, these findings provide a clear guideline for determining which LALM architectures are most suitable for CD enhancement based on their baseline error profiles.
- Abstract(参考訳): Contrastive Decoding (CD) は、Large Audio Language Models (LALM) の強化に有効であることが証明されているが、その成功の根底にあるメカニズムと、異なる戦略の比較効果はいまだ不明である。
本研究はLALMアーキテクチャの異なる4つのCD戦略を体系的に評価する。
オーディオ・アウェア・デコーディングとオーディオ・コントラスト・デコーディングを最も効果的な方法として同定する。
しかし、その影響はモデルによって大きく異なる。
この可変性を説明するために、推論中にエラーパターンのシフトをマップするTransition Matrixフレームワークを導入する。
分析の結果,CDは音声の欠如や不確実性に基づく推測を誤認するような誤りを確実に修正することがわかった。
逆に、欠陥のある推論や確実な誤認を正すことに失敗する。
最終的に、これらの知見は、LALMアーキテクチャがベースラインエラープロファイルに基づいて、CD拡張に最も適しているかを決定するための明確なガイドラインを提供する。
関連論文リスト
- A SUPERB-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection [2.432576583937997]
Spoof-SUPERBはオーディオディープフェイク検出のためのベンチマークである。
生成性,差別性,およびスペクトログラムに基づくアーキテクチャにまたがる20のSSLモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T05:45:55Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Decoding Uncertainty: The Impact of Decoding Strategies for Uncertainty Estimation in Large Language Models [58.198220611190884]
大規模言語モデル(LLM)における復号化戦略が不確実性推定に与える影響について検討する。
実験の結果,反復を緩和するContrastive Searchは,所望のLLMに対して,平均不確かさを推定できることがわかった。
論文 参考訳(メタデータ) (2025-09-20T13:48:13Z) - AVCD: Mitigating Hallucinations in Audio-Visual Large Language Models through Contrastive Decoding [38.71842806548495]
本稿では,3モーダル相互作用をモデル化し,大言語モデル(MLLM)における幻覚を抑制するために,AVCD(Audio-Visual Contrastive Decoding)を提案する。
効率を向上させるために,モデルの予測に対する信頼度に基づいて不要な復号ステップをスキップするエントロピー誘導適応復号を導入する。
論文 参考訳(メタデータ) (2025-05-27T08:13:57Z) - FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。
FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。
本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文 参考訳(メタデータ) (2025-04-22T07:40:35Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。