論文の概要: Not in Sync: Unveiling Temporal Bias in Audio Chat Models
- arxiv url: http://arxiv.org/abs/2510.12185v1
- Date: Tue, 14 Oct 2025 06:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.975004
- Title: Not in Sync: Unveiling Temporal Bias in Audio Chat Models
- Title(参考訳): Not in Sync:オーディオチャットモデルにおける一時的なバイアスの発見
- Authors: Jiayu Yao, Shenghua Liu, Yiwei Wang, Rundong Cheng, Lingrui Mei, Baolong Bi, Zhen Xiong, Xueqi Cheng,
- Abstract要約: 大規模音声言語モデル(LALM)は、音声理解やマルチモーダル推論にますます応用されている。
LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
- 参考スコア(独自算出の注目度): 59.146710538620816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio Language Models (LALMs) are increasingly applied to audio understanding and multimodal reasoning, yet their ability to locate when events occur remains underexplored. We present the first systematic study of temporal bias in LALMs, revealing a key limitation in their timestamp prediction. For example, when asked "At which second does the lecturer introduce the key formula?", models often predict timestamps that are consistently earlier or later than the ground truth. Through controlled experiments on timestamped datasets, we find that temporal bias (i) is prevalent across datasets and models, (ii) increases with audio length - even accumulating to tens of seconds in extended recordings, and (iii) varies across event types and positions. We quantify this effect with the Temporal Bias Index (TBI), measuring systematic misalignment in predicted event timings, and complement it with a visualization framework. Our findings highlight a fundamental limitation in current LALMs and call for the development of temporally robust architectures.
- Abstract(参考訳): 大規模音声言語モデル (LALM) は、音声理解やマルチモーダル推論にますます応用されているが、事象がいつ発生したかを特定する能力は未解明のままである。
LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
例えば、講師が鍵となる式をどの秒で導入するのか?」という質問に対して、モデルはしばしば、基礎的な真実よりもずっと早い時間スタンプを予測します。
タイムスタンプデータセットの制御実験を通して、時間的バイアスが見つかる
i)データセットやモデルにまたがる。
(ii) 音声長とともに増大する - 拡張録音で数秒まで蓄積する。
(iii)イベントの種類や位置によって異なる。
この効果をTBI(Temporal Bias Index)で定量化し、予測イベントタイミングにおける系統的不一致を測定し、可視化フレームワークで補完する。
本研究は,現在のLALMの基本的な限界と,時間的ロバストなアーキテクチャ開発の必要性を明らかにするものである。
関連論文リスト
- TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents [52.13094810313054]
TimeCAPは、時系列データのコンテキスト化ツールとしてLarge Language Models(LLM)を創造的に利用する時系列処理フレームワークである。
TimeCAPには2つの独立したLCMエージェントが組み込まれており、1つは時系列のコンテキストをキャプチャするテキスト要約を生成し、もう1つはより情報のある予測を行うためにこのリッチな要約を使用する。
実世界のデータセットによる実験結果から,TimeCAPは時系列イベント予測の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:17:27Z) - TimeRefine: Temporal Grounding with Time Refining Video LLM [75.99665302872901]
ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。
我々は時間的接地タスクを時間的精錬タスクとして再構成する。
我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
論文 参考訳(メタデータ) (2024-12-12T18:59:11Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。