論文の概要: ChronusOmni: Improving Time Awareness of Omni Large Language Models
- arxiv url: http://arxiv.org/abs/2512.09841v1
- Date: Wed, 10 Dec 2025 17:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.608981
- Title: ChronusOmni: Improving Time Awareness of Omni Large Language Models
- Title(参考訳): ChronusOmni:Omni大規模言語モデルの時間意識向上
- Authors: Yijing Chen, Yihan Wu, Kaisi Guan, Yuchen Ren, Yuyue Wang, Ruihua Song, Liyun Ru,
- Abstract要約: 時間認識は、特に長いビデオを理解し、複雑な質問に答えるために、大規模な言語モデルの基本的な能力である。
そこで我々はChronosOmniを提案する。ChronosOmniは、暗黙と暗黙の両方の時間的認識を高めるために設計されたオムニ大言語モデルである。
時間的精度,モダリティ完全性,相互整合性を備えたデータセットであるChronusAVを構築し,視覚的時間的接地作業のトレーニングと評価を支援する。
- 参考スコア(独自算出の注目度): 29.685563616290352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time awareness is a fundamental ability of omni large language models, especially for understanding long videos and answering complex questions. Previous approaches mainly target vision-language scenarios and focus on the explicit temporal grounding questions, such as identifying when a visual event occurs or determining what event happens at aspecific time. However, they often make insufficient use of the audio modality, and overlook implicit temporal grounding across modalities--for example, identifying what is visually present when a character speaks, or determining what is said when a visual event occurs--despite such cross-modal temporal relations being prevalent in real-world scenarios. In this paper, we propose ChronusOmni, an omni large language model designed to enhance temporal awareness for both explicit and implicit audiovisual temporal grounding. First, we interleave text-based timestamp tokens with visual and audio representations at each time unit, enabling unified temporal modeling across modalities. Second, to enforce correct temporal ordering and strengthen fine-grained temporal reasoning, we incorporate reinforcement learning with specially designed reward functions. Moreover, we construct ChronusAV, a temporally-accurate, modality-complete, and cross-modal-aligned dataset to support the training and evaluation on audiovisual temporal grounding task. Experimental results demonstrate that ChronusOmni achieves state-of-the-art performance on ChronusAV with more than 30% improvement and top results on most metrics upon other temporal grounding benchmarks. This highlights the strong temporal awareness of our model across modalities, while preserving general video and audio understanding capabilities.
- Abstract(参考訳): 時間認識は、特に長いビデオを理解し、複雑な質問に答えるために、大規模な言語モデルの基本的な能力である。
以前のアプローチは主に視覚言語シナリオをターゲットにしており、視覚イベントの発生時期の特定や特定の時間におけるイベントの特定など、明確な時間的根拠に重点を置いている。
しかし、それらはしばしばオーディオモダリティを不十分に利用し、例えば、キャラクターが話すときの視覚的存在を識別したり、視覚的な出来事が発生したときの言葉を決定するなど、モダリティ全体にわたって暗黙的な時間的接地を見落としている。
本稿では,暗黙的および暗黙的音声視覚的時間的グラウンド化の両面において,時間的認識を高めるために設計されたオムニ大言語モデルであるChronusOmniを提案する。
まず、テキストベースのタイムスタンプトークンを各時間単位に視覚的および音声的表現でインターリーブし、モーダル性にまたがる時間的モデリングを可能にする。
第二に, 時間的秩序の厳格化と微細な時間的推論の強化を図るため, 特別に設計された報酬関数を用いた強化学習を取り入れた。
さらに,ChronusAVは時間的精度,モダリティ完全性,相互整合性を備えたデータセットで,視覚的時間的接地作業のトレーニングと評価を支援する。
実験の結果,ChronusOmniは30%以上の改善を達成し,他の時間的グラウンドベンチマークではほとんどの指標でトップとなる結果を得た。
これは、一般的なビデオと音声の理解能力を保ちながら、モダリティを越えたモデルに対する時間的認識を強く強調する。
関連論文リスト
- Not in Sync: Unveiling Temporal Bias in Audio Chat Models [59.146710538620816]
大規模音声言語モデル(LALM)は、音声理解やマルチモーダル推論にますます応用されている。
LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
論文 参考訳(メタデータ) (2025-10-14T06:29:40Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Game-Time: Evaluating Temporal Dynamics in Spoken Language Models [93.844257719952]
時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。
多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。
GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:23:39Z) - Deep Temporal Reasoning in Video Language Models: A Cross-Linguistic Evaluation of Action Duration and Completion through Perfect Times [0.0]
時間的推論に基づいてビデオ言語モデル(VLM)を評価するために設計された,4次的(英語,イタリア語,ロシア語,日本語)な質問応答ベンチマークである textbfPerfect Times データセットを紹介した。
実験結果から、現状のモデルは、テキストベースのタスクで成功したにも拘わらず、ビデオに根ざした時間的・因果的推論の反映に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-01T09:45:41Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models [27.280311932711847]
VITATECS, 診断用VIdeo-Text dAtasetについて述べる。
まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。
特定の時間的側面においてのみ、オリジナルと異なる反実的な映像記述を生成する。
論文 参考訳(メタデータ) (2023-11-29T07:15:34Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention
Estimation for Non-Profilic Faces [28.245662058349854]
本稿では,音声誘導型粗いヘッドポジションが,非プロデューフィック顔に対する視覚的注意度推定性能をさらに向上させるかどうかを考察する。
オフ・ザ・シェルフ・オブ・ザ・アーティファクト・モデルを用いて、クロスモーダルな弱いスーパービジョンを促進する。
我々のモデルは、タスク固有の推論に利用可能な任意のモダリティを利用することができる。
論文 参考訳(メタデータ) (2022-07-07T02:23:02Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。