論文の概要: Thinking Ahead: Foresight Intelligence in MLLMs and World Models
- arxiv url: http://arxiv.org/abs/2511.18735v1
- Date: Mon, 24 Nov 2025 04:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.006929
- Title: Thinking Ahead: Foresight Intelligence in MLLMs and World Models
- Title(参考訳): MLLMと世界モデルにおけるフォレストインテリジェンス
- Authors: Zhantao Gong, Liaoyuan Fan, Qing Guo, Xun Xu, Xulei Yang, Shijie Li,
- Abstract要約: 我々は、フォレストインテリジェンスを抽出し評価するために設計された新しいデータセットであるFSU-QAを紹介する。
我々は,視覚・言語モデル(VLM)をフォレスト指向のタスクで,初めて包括的に研究する。
さらに, FSU-QAは, フォレスト推論を効果的に促進できることを示した。
- 参考スコア(独自算出の注目度): 26.62276691417068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we define Foresight Intelligence as the capability to anticipate and interpret future events-an ability essential for applications such as autonomous driving, yet largely overlooked by existing research. To bridge this gap, we introduce FSU-QA, a new Visual Question-Answering (VQA) dataset specifically designed to elicit and evaluate Foresight Intelligence. Using FSU-QA, we conduct the first comprehensive study of state-of-the-art Vision-Language Models (VLMs) under foresight-oriented tasks, revealing that current models still struggle to reason about future situations. Beyond serving as a benchmark, FSU-QA also enables the assessment of world models by measuring the semantic coherence of their generated predictions, quantified through performance gains when VLMs are augmented with such outputs. Our experiments further demonstrate that FSU-QA can effectively enhance foresight reasoning: even small VLMs fine-tuned on FSU-QA surpass much larger, advanced models by a substantial margin. Together, these findings position FSU-QA as a principled foundation for developing next-generation models capable of truly anticipating and understanding future events.
- Abstract(参考訳): 本研究では、フォレストインテリジェンス(Foresight Intelligence)を、未来の事象を予測し、解釈する能力として定義する。
このギャップを埋めるために、フォレストインテリジェンスを抽出し評価するために設計された新しいビジュアル質問回答(VQA)データセットであるFSU-QAを導入する。
FSU-QAを用いて、フォレスト指向タスクにおける最先端のビジョン・ランゲージ・モデル(VLM)の総合的研究を行い、現在のモデルが将来の状況について考えるのに苦戦していることを明らかにした。
ベンチマークの他に、FSU-QAは、VLMがそのような出力で拡張されたときのパフォーマンスゲインを通じて定量化される、生成された予測のセマンティックコヒーレンスを測定することで、世界モデルの評価を可能にする。
さらに, FSU-QAは, FSU-QAに微調整された小型のVLMでさえ, より大型で先進的なモデルを上回る精度で, フォアセプションを効果的に向上させることができることを示した。
これらの知見は、FSU-QAを、将来の事象を真に予測し理解することのできる次世代モデル開発の基礎として位置づけている。
関連論文リスト
- Rethinking Visual Intelligence: Insights from Video Pretraining [75.32388528274224]
大規模言語モデル(LLM)は、大規模事前学習によってシステムが新しい問題に迅速に適応できることを実証している。
本稿では,映像拡散モデル(VDM)をギャップを埋めるための有望な方向として検討する。
論文 参考訳(メタデータ) (2025-10-28T14:12:11Z) - NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation [43.673180802522864]
本研究は,目標指向ビジョン・アンド・ランゲージナビゲーション(VLN)の課題に焦点を当てる。
大規模未ラベルトラジェクトリデータを用いて,Q-ラーニングを用いてQ-モデルを訓練する。
タスクに依存しないQ-Featureをナビゲーション命令と統合し、将来の展望を反映した一連のアクションスコアを生成する。
論文 参考訳(メタデータ) (2025-10-18T11:29:33Z) - Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Spatio-Temporal Foundation Models: Vision, Challenges, and Opportunities [48.45951497996322]
ファンデーションモデル(STFM)は、人工知能に革命をもたらし、パフォーマンスの新たなベンチマークを設定し、幅広いビジョンと言語タスクにわたる変換機能を実現する。
本稿では,STFMの今後の展望を概説し,その本質的特徴と汎用性について概説する。
我々は,STFMを効果的かつ広範に適用する目的で研究を進める可能性や方向性を探究する。
論文 参考訳(メタデータ) (2025-01-15T08:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。