論文の概要: Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning
- arxiv url: http://arxiv.org/abs/2602.11909v1
- Date: Thu, 12 Feb 2026 13:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.822189
- Title: Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning
- Title(参考訳): Echo:Audio-Interleaved Reasoningによる高度なオーディオ理解を目指して
- Authors: Daiqing Wu, Xuan Zhang, Dongbao Yang, Jiashu Yao, Longfei Chen, Qingsong Liu, Sicheng Zhao, Can Ma, Yangyang Kang, Yu Zhou,
- Abstract要約: 現在の取り組みは、ワンタイムエンコーディングを通じて音声コンテンツを文脈化することで、テキストベースの推論を再現している。
本稿では,このボトルネックを突破するための音声インターリーブ推論を提案する。
本稿では,要求時に音声に動的に再登録できるLALMのEchoについて述べる。
- 参考スコア(独自算出の注目度): 39.264735719707154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The maturation of Large Audio Language Models (LALMs) has raised growing expectations for them to comprehend complex audio much like humans. Current efforts primarily replicate text-based reasoning by contextualizing audio content through a one-time encoding, which introduces a critical information bottleneck. Drawing inspiration from human cognition, we propose audio-interleaved reasoning to break through this bottleneck. It treats audio as an active reasoning component, enabling sustained audio engagement and perception-grounded analysis. To instantiate it, we introduce a two-stage training framework, first teaching LALMs to localize salient audio segments through supervised fine-tuning, and then incentivizing proficient re-listening via reinforcement learning. In parallel, a structured data generation pipeline is developed to produce high-quality training data. Consequently, we present Echo, a LALM capable of dynamically re-listening to audio in demand during reasoning. On audio comprehension benchmarks, Echo achieves overall superiority in both challenging expert-level and general-purpose tasks. Comprehensive analysis further confirms the efficiency and generalizability of audio-interleaved reasoning, establishing it as a promising direction for advancing audio comprehension. Project page: https://github.com/wdqqdw/Echo.
- Abstract(参考訳): LALM(Large Audio Language Models)の成熟は、人間のように複雑な音声を理解することへの期待が高まっている。
現在の取り組みは、音声コンテンツをワンタイムエンコーディングすることで、主にテキストベースの推論を再現し、重要な情報のボトルネックをもたらす。
人間の認知からインスピレーションを得て,このボトルネックを突破するための音声インターリーブ推論を提案する。
音声をアクティブな推論コンポーネントとして扱い、持続的なオーディオエンゲージメントと知覚地上分析を可能にする。
そこで我々は,2段階の学習フレームワークを導入し,まず,教師付き微調整による有能な音声セグメントのローカライズをLALMに教え,さらに強化学習による有能な再リスニングのインセンティブを与える。
並行して、高品質なトレーニングデータを生成するために構造化データ生成パイプラインが開発されている。
その結果,推理中に音声に動的に再登録できるLALMであるEchoについて述べる。
オーディオ理解ベンチマークでは、Echoはエキスパートレベルの課題と汎用タスクの両方において、全体的な優位性を達成する。
包括的分析は、音声インターリーブ推論の効率性と一般化性をさらに確認し、音声理解を進めるための有望な方向として確立する。
プロジェクトページ: https://github.com/wdqqdw/Echo
関連論文リスト
- Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation [30.42124709340273]
我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。
以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。
これらの知見は,汎用音声表現への有効な経路として,音声事前学習を確立した。
論文 参考訳(メタデータ) (2025-11-20T19:17:35Z) - SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models [18.802543558300044]
より強力なLVLM教師から弱いLALM学生に高度な推論を伝達するクロスモーダル蒸留フレームワークであるSightSound-R1を提案する。
その結果、SightSound-R1は、ドメイン内AVQAテストセットと見えない聴覚シーンと疑問の両方においてLALM推論性能を改善した。
論文 参考訳(メタデータ) (2025-09-19T06:39:39Z) - AudioStory: Generating Long-Form Narrative Audio with Large Language Models [87.23256929520743]
AudioStoryは、大きな言語モデルとテキストからオーディオシステムを統合して、構造化された長文の音声物語を生成するフレームワークである。
LLMを用いて複雑な物語クエリを時間順に並べたサブタスクに分解する。
広汎な実験により,単一音声生成と物語音声生成の両方においてAudioStoryの優位性が,指示追従能力と音声忠実性の両方において,TTAベースラインを上回った。
論文 参考訳(メタデータ) (2025-08-27T17:55:38Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Probing Audio-Generation Capabilities of Text-Based Language Models [5.4211188445379825]
本研究では,大規模言語モデルが音声を生成できる範囲について検討する。
我々は、音声生成の複雑さを徐々に増大させる3層アプローチを採用する。
以上の結果から,LLMは基本的音声特徴を生成できるが,音声の複雑さが増すにつれて性能が低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-05-04T23:46:01Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。