論文の概要: FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2601.13836v1
- Date: Tue, 20 Jan 2026 10:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.270377
- Title: FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
- Title(参考訳): FutureOmni:マルチモーダルLLMのためのOmni-Modalコンテキストによる将来予測の評価
- Authors: Qian Chen, Jinlan Fu, Changsong Li, See-Kiong Ng, Xipeng Qiu,
- Abstract要約: Future Omniは、オーディオ視覚環境から全モードの将来の予測を評価するために設計された最初のベンチマークである。
Future Omniは、スケーラブルなLCM支援の人-イン-ザ-ループパイプラインで構築されており、919のビデオと1,034のマルチチョイスQAペアを含んでいる。
13のOmni-modalモデルと7つのビデオオンリーモデルによる評価は、現在のシステムは、特に音声の重みのあるシナリオにおいて、音声・視覚の将来の予測に苦慮していることを示している。
- 参考スコア(独自算出の注目度): 94.33687833634275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、強大なオムニモーダル認識を示すが、既存のベンチマークは、主に振り返りの理解に焦点を当てているため、音声・視覚的手がかりから将来の事象を予測する能力はほとんど探索されていない。
このギャップを埋めるために、オーディオ視覚環境から全モードの将来の予測を評価するために設計された最初のベンチマークであるFutureOmniを紹介する。
評価されたモデルは、モーダルな因果関係と時間的推論を実行すること、および将来の事象を予測するために内部知識を効果的に活用することが必要である。
FutureOmniは、スケーラブルなLCM支援の人-イン-ザ-ループパイプラインで構築されており、8つの主要ドメインにわたる919のビデオと1,034のマルチチョイスQAペアを含んでいる。
13のOmni-modalモデルと7つのビデオオンリーモデルの評価によると、現在のシステムは音声・視覚の将来の予測に苦戦しており、特に音声の重みのあるシナリオでは64.8%の精度でGemini 3 Flashが達成している。
この制限を緩和するため、7Kサンプルの命令チューニングデータセットをキュレートし、Omni-Modal Future Forecasting (OFF) トレーニング戦略を提案する。
FutureOmniと人気オーディオビジュアルおよびビデオオンリーのベンチマークによる評価は、OFが将来の予測と一般化を強化することを示している。
すべてのコード(https://github.com/OpenMOSS/FutureOmni)とデータセット(https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni)を公開しています。
関連論文リスト
- OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [146.029449832893]
我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。
モデルアーキテクチャでは、(i)OmniAlignNetで視覚とオーディオの埋め込みのアライメントを強化する方法、(ii)視覚と音声信号の時間的アライメントをキャプチャするための時間的エンベディンググループ、(iii)オムニモーダル埋め込みにおける絶対時間的情報をエンコードするための制約付きロータリー時間エンベディングという3つの重要なイノベーションを提示する。
論文 参考訳(メタデータ) (2025-10-17T17:59:59Z) - PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling [95.2927277964409]
On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。
本稿では,(a)予測的マルチモーダル・フューチャー・モデリングが特徴とする予測的未来・モデリング・フレームワークを提案する。
実験により、PreFMは、パラメータが大幅に少ない大きなマージンで最先端の手法を著しく上回ることが示された。
論文 参考訳(メタデータ) (2025-05-29T06:46:19Z) - Fostering Video Reasoning via Next-Event Prediction [61.70045315542766]
我々は,将来的なビデオセグメントを,時間的推論を促進するためのリッチで自己指導的な信号として活用する学習タスクとして,次世代予測(NEP)を提案する。
このタスクを支援するために,V1-33Kという,多様な実世界のシナリオにまたがる33,000のビデオセグメントを自動抽出したデータセットをキュレートする。
NEPはMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供する。
論文 参考訳(メタデータ) (2025-05-28T15:13:34Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。