論文の概要: Attention-guided Evidence Grounding for Spoken Question Answering
- arxiv url: http://arxiv.org/abs/2603.16292v1
- Date: Tue, 17 Mar 2026 09:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.196198
- Title: Attention-guided Evidence Grounding for Spoken Question Answering
- Title(参考訳): 音声質問応答のための注意誘導エビデンスグラウンドリング
- Authors: Ke Yang, Bolin Chen, Yuejie Li, Yueying Hua, Jianhao Nie, Yueping He, Bowen Li, Chengjun Mao,
- Abstract要約: Spoken Question Answering (Spoken QA)は、クロスモーダルな問題である。
AEG(Attention-guided Evidence Grounding)について紹介する。
SQuAD、HotpotQA、MuSiQueの実験は、AEGが幻覚を減らし、強い効率向上を達成することを示した。
- 参考スコア(独自算出の注目度): 9.840810764019668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Question Answering (Spoken QA) presents a challenging cross-modal problem: effectively aligning acoustic queries with textual knowledge while avoiding the latency and error propagation inherent in cascaded ASR-based systems. In this paper, we introduce Attention-guided Evidence Grounding (AEG), a novel end-to-end framework that leverages the internal cross-modal attention of Speech Large Language Models (SpeechLLMs) to explicitly locate and ground key evidence in the model's latent space. To address the diffuse attention distribution in pre-trained models, we propose Learning to Focus on Evidence (LFE), a supervised fine-tuning paradigm that calibrates the model's attention mechanism to distinguish query-relevant segments from irrelevant context. Experiments on SQuAD, HotpotQA, and MuSiQue demonstrate that AEG reduces hallucinations and achieves strong efficiency gains, outperforming large-scale cascaded baselines (Whisper-Large-v3 + Reranker) while reducing inference latency by approximately 62%.
- Abstract(参考訳): Spoken Question Answering (Spoken QA) は、ASRベースのシステムに固有の遅延やエラーの伝播を回避しつつ、音声クエリをテキストの知識と効果的に整合させるという、難しいクロスモーダルな問題を提示している。
本稿では,音声大言語モデル(SpeechLLMs)の内部的横断的注意を生かし,モデルの潜在空間における重要な証拠の特定と根拠を明確にする,新たなエンドツーエンドフレームワークであるAEG(Attention-guided Evidence Grounding)を紹介する。
事前学習されたモデルにおける拡散注意分布に対処するため,教師付き微調整パラダイムであるLearning to Focus on Evidence (LFE)を提案する。
SQuAD、HotpotQA、MuSiQueの実験では、AEGは幻覚を減らし、強い効率向上を実現し、大規模なカスケードベースライン(Whisper-Large-v3 + Reranker)より優れ、推論遅延を約62%低減した。
関連論文リスト
- Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA [45.82614927888644]
本稿では、関連性のあるビューリファインメントと選択的メモリアクセプションを結合した学習自由フレームワークを提案する。
DynHiL-EQAは、人間の活動と時間的変化を特徴とする動的サブセットと、時間的に安定な観測を伴う静的サブセットの2つのサブセットを持つ、人間のループ内EQAデータセットである。
論文 参考訳(メタデータ) (2026-03-10T11:51:54Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - When More Is Less: A Systematic Analysis of Spatial and Commonsense Information for Visual Spatial Reasoning [14.364968874702107]
視覚的空間的推論のための情報注入の仮説駆動分析を行う。
より多くの情報が必ずしもより良い推論をもたらすとは限らないことが分かっています。
これらの知見は,タスク整合性情報注入の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2026-02-25T06:22:48Z) - SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent [39.43590030917357]
SIGHTは、セルフエビデンスサポートと情報ゲイン駆動のディバースブランチを通じて、検索ベースの推論を強化するフレームワークである。
SIGHTは、検索結果をSESを介して高忠実性証拠に蒸留し、インフォメーションゲインスコアを算出して、重要な状態を特定する。
シングルホップとマルチホップのQAベンチマークの実験では、SIGHTが既存のアプローチを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-12T04:16:55Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes [39.61443457073034]
EviNote-RAGは検索ノート・アンサーのワークフローに従うフレームワークである。
生の外部情報を直接推論する代わりに、モデルが最初にサポート・エビデンス・ノートを生成する。
EviNote-RAGは最先端のパフォーマンスを実現し、回答の正確性、トレーニングの安定性、堅牢性、効率性を向上する。
論文 参考訳(メタデータ) (2025-08-31T14:44:45Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。
13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。
ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文 参考訳(メタデータ) (2025-04-02T20:18:50Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。