論文の概要: ST-Think: How Multimodal Large Language Models Reason About 4D Worlds from Ego-Centric Videos
- arxiv url: http://arxiv.org/abs/2503.12542v1
- Date: Sun, 16 Mar 2025 15:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:56.219189
- Title: ST-Think: How Multimodal Large Language Models Reason About 4D Worlds from Ego-Centric Videos
- Title(参考訳): ST-Think:Ego-Centric Videosの4Dワールドに関するマルチモーダルな大規模言語モデル
- Authors: Peiran Wu, Yunze Liu, Chonghan Liu, Miao Liu, Junxiao Shen,
- Abstract要約: 人間は自我中心的な視点から多モーダル時間的推論に優れる。
本稿では,言語モデル(ML)に人間的な推論能力を持たせることを目的とする。
- 参考スコア(独自算出の注目度): 7.717530894542638
- License:
- Abstract: Humans excel at spatio-temporal reasoning, effortlessly interpreting dynamic visual events from an egocentric viewpoint. However, whether multimodal large language models (MLLMs) can similarly comprehend the 4D world remains uncertain. This paper explores multimodal spatio-temporal reasoning from an egocentric perspective, aiming to equip MLLMs with human-like reasoning capabilities. To support this objective, we introduce Ego-ST Bench, a novel benchmark containing over 5,000 question-answer pairs across four categories, systematically evaluating spatial, temporal, and integrated spatio-temporal reasoning. Additionally, we propose the ST-R1 Video model, a video-based reasoning model that incorporates reverse thinking into its reinforcement learning process, significantly enhancing performance. We combine long-chain-of-thought (long-CoT) supervised fine-tuning with Group Relative Policy Optimization (GRPO) reinforcement learning, achieving notable improvements with limited high-quality data. Ego-ST Bench and ST-R1 provide valuable insights and resources for advancing video-based spatio-temporal reasoning research.
- Abstract(参考訳): 人間は時空間的推論において優れ、エゴセントリックな視点から動的視覚イベントを熱心に解釈する。
しかし,Multimodal Large Language Model (MLLM) が4次元世界を理解することができるかどうかは不明だ。
本稿では,マルチモーダルな時空間推論をエゴセントリックな視点から検討し,MLLMに人間のような推論能力を持たせることを目的とする。
この目的を達成するために、Ego-ST Benchは、4つのカテゴリにまたがる5000以上の質問対を含む新しいベンチマークであり、空間的、時間的、統合時空間的推論を体系的に評価する。
さらに,その強化学習プロセスにリバース思考を組み込んだビデオベース推論モデルST-R1ビデオモデルを提案する。
ロングチェーン・オブ・ソート(ロングCoT)を監督する微調整とグループ相対政策最適化(GRPO)強化学習を組み合わせることで,高品質なデータに制限された顕著な改善を実現した。
Ego-ST BenchとST-R1は、ビデオベースの時空間推論研究を進めるための貴重な洞察とリソースを提供する。
関連論文リスト
- Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - EAGLE: Egocentric AGgregated Language-video Engine [34.60423566630983]
我々は,Eagle(Egocentric AGgregated Language-video Engine)モデルとEagle-400Kデータセットを導入し,エゴセントリックなビデオ理解タスクを統合する統一フレームワークを提供する。
エゴセントリックなビデオ分析は、一人称視点から人間の活動や意図を理解するための新たな洞察をもたらす。
論文 参考訳(メタデータ) (2024-09-26T04:17:27Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - TopViewRS: Vision-Language Models as Top-View Spatial Reasoners [38.406430696146714]
トップビューの視点は、人間が様々な種類の地図を読み、推論する典型的な方法である。
11,384の質問からなるTopViewRSデータセットを視覚入力として,現実的あるいは意味的なトップビューマップで紹介する。
次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。
論文 参考訳(メタデータ) (2024-06-04T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。