論文の概要: Frame-Level Internal Tool Use for Temporal Grounding in Audio LMs
- arxiv url: http://arxiv.org/abs/2602.10230v1
- Date: Tue, 10 Feb 2026 19:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.2482
- Title: Frame-Level Internal Tool Use for Temporal Grounding in Audio LMs
- Title(参考訳): オーディオフィルムにおける時間的グラウンド化のためのフレームレベル内部ツール
- Authors: Joesph An, Phillip Keung, Jiaqi Wang, Orevaoghene Ahia, Noah A. Smith,
- Abstract要約: 大規模な音声言語モデルは、複雑な音声理解タスクにますます使われている。
彼らは、単語アライメントや話者ダイアリゼーションのような正確な時間的根拠を必要とする時間的タスクに苦労する。
本稿では,フレームレベルの内部ツール使用法を提案する。これは,内部の音声表現を用いて時間的グラウンドを直接行うように音声LMを訓練する手法である。
- 参考スコア(独自算出の注目度): 48.50855715191533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large audio language models are increasingly used for complex audio understanding tasks, but they struggle with temporal tasks that require precise temporal grounding, such as word alignment and speaker diarization. The standard approach, where we generate timestamps as sequences of text tokens, is computationally expensive and prone to hallucination, especially when processing audio lengths outside the model's training distribution. In this work, we propose frame-level internal tool use, a method that trains audio LMs to use their own internal audio representations to perform temporal grounding directly. We introduce a lightweight prediction mechanism trained via two objectives: a binary frame classifier and a novel inhomogeneous Poisson process (IHP) loss that models temporal event intensity. Across word localization, speaker diarization, and event localization tasks, our approach outperforms token-based baselines. Most notably, it achieves a >50x inference speedup and demonstrates robust length generalization, maintaining high accuracy on out-of-distribution audio durations where standard token-based models collapse completely.
- Abstract(参考訳): 大規模な音声言語モデルは、複雑な音声理解タスクにますます使われているが、単語アライメントや話者ダイアリゼーションのような正確な時間的接地を必要とする時間的タスクに苦慮している。
タイムスタンプをテキストトークンのシーケンスとして生成する標準的なアプローチは、特にトレーニング分布外の音声長を処理する場合、計算コストが高く、幻覚を起こす傾向があります。
本研究では,フレームレベルの内部ツール使用法を提案する。これは,内部音響表現を用いて時間的接地を直接行うように,音声LMを訓練する手法である。
本稿では,2次フレーム分類器と時間事象強度をモデル化した新しい不均一なポアソン過程(IHP)損失という,2つの目的によって訓練された軽量な予測機構を導入する。
単語のローカライゼーション、話者ダイアリゼーション、イベントローカライゼーションタスクなどを通じて、トークンベースのベースラインよりも優れています。
最も注目すべきは、50倍の推論スピードアップを達成し、標準トークンベースのモデルが完全に崩壊するアウト・オブ・ディストリビューション・オーディオの持続時間において高い精度を維持しながら、堅牢な長さの一般化を示すことである。
関連論文リスト
- Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。