論文の概要: Extending Audio Context for Long-Form Understanding in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2510.15231v1
- Date: Fri, 17 Oct 2025 01:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.432687
- Title: Extending Audio Context for Long-Form Understanding in Large Audio-Language Models
- Title(参考訳): 大規模音声言語モデルにおける長期理解のための音環境の拡張
- Authors: Yuatyong Chaichana, Pittawat Taveekitworachai, Warit Sirichotedumrong, Potsawee Manakul, Kunat Pipatanakul,
- Abstract要約: 部分YARNは、大規模オーディオ言語モデル(LALM)のためのトレーニングフリーで、音声のみのコンテキスト拡張手法である。
VLATはトレーニング中に様々なオーディオ長をシミュレートし、トレーニングで見られるものよりもはるかに長い入力への一般化を可能にする。
SALMONN と Qwen2-Audio に関する実験により、Arial YaRN は様々な設定でオリジナルのモデルよりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 13.333718377388713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio-Language Models (LALMs) are often constrained by short audio context windows, even when their text backbones support long contexts, limiting long-form audio understanding. Prior work has introduced context-extension methods (e.g. YaRN) on unimodal LLMs, yet their application to LALMs remains unexplored. First, building on RoPE-based context extension, we introduce Partial YaRN, a training-free, audio-only extension method that modifies only audio token positions, leaving text positions intact to preserve the base LLM's text capabilities. Second, we propose Virtual Longform Audio Training (VLAT), a training strategy that extends Partial YaRN into a training-time positional augmentation. VLAT simulates diverse audio lengths during training, enabling generalization to inputs far longer than those seen in training and improving robustness for long-context audio understanding. Our experiments on SALMONN and Qwen2-Audio show that Partial YaRN outperforms the original models across wide range of settings, and VLAT training strategy provides substantial improvement, achieving strong performance on long audio of unseen lengths.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、テキストバックボーンが長いコンテキストをサポートし、長い形式の音声理解を制限している場合でも、短いオーディオコンテキストウィンドウによって制約されることが多い。
以前の研究は、一様LLMに文脈拡張法(例えばYaRN)を導入しているが、LALMへの応用は未定である。
まず、RoPEベースのコンテキスト拡張を基盤として、トレーニング不要で音声のみの拡張手法であるPartial YaRNを導入し、音声トークンの位置だけを調整し、テキスト位置をそのまま残してLLMのテキスト機能を維持する。
次に,VLAT(Virtual Longform Audio Training)を提案する。
VLATはトレーニング中に様々なオーディオ長をシミュレートし、トレーニングで見られるものよりもはるかに長い入力を一般化し、長文音声理解の堅牢性を向上させる。
SALMONN と Qwen2-Audio に関する実験により,Arial YaRN は様々な設定においてオリジナルモデルよりも優れており,VLAT トレーニング戦略は,未確認長の長い音声に対して高い性能を達成し,大幅な改善をもたらすことが示された。
関連論文リスト
- FastLongSpeech: Enhancing Large Speech-Language Models for Efficient Long-Speech Processing [48.84039953531356]
FastLongSpeechは、LSLM機能を拡張して効率的な長音声処理を実現するように設計されている。
過度に長い音声シーケンスを管理可能な長さに圧縮できる反復融合戦略が組み込まれている。
提案手法は,長音・短音の両タスクにおいて高い性能を示し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-20T04:11:06Z) - DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment [94.0709779805955]
DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。
タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。
DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-03T16:28:25Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - BLAB: Brutally Long Audio Bench [90.20616799311578]
Brutally Long Audio Bench (BLAB) は、音像定位、時間推定、感情、計数タスクについて、音声のLMを評価するロングフォームオーディオベンチマークである。
BLABは833時間以上の多様なフル長の音声クリップで構成されており、それぞれに人間の注釈付き、テキストベースの自然言語の質問と回答が組み合わされている。
BLAB 上で6つのオープンソースおよびプロプライエタリなオーディオ LM を評価し,Gemini 2.0 Pro や GPT-4o などの先進的なモデルを含む,すべてのタスクが苦労していることを確認した。
論文 参考訳(メタデータ) (2025-05-05T22:28:53Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。