論文の概要: Spatio-Temporal LLM: Reasoning about Environments and Actions
- arxiv url: http://arxiv.org/abs/2507.05258v2
- Date: Wed, 15 Oct 2025 06:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.71981
- Title: Spatio-Temporal LLM: Reasoning about Environments and Actions
- Title(参考訳): 時空間LLM:環境と行動に関する推論
- Authors: Haozhen Zheng, Beitong Tian, Mingyuan Wu, Zhenggang Tang, Klara Nahrstedt, Alex Schwing,
- Abstract要約: S-temporal」は現在のマルチモーダル大言語モデル(MLLM)に挑戦を促す
近年のMLLMは「s-temporal」のプロンプトを正しく答えることに苦慮している。
我々はこのデータセットに基づいて2時間LLMベースラインを構築した。
- 参考スコア(独自算出の注目度): 6.341762228330488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant recent progress of Multimodal Large Language Models (MLLMs), current MLLMs are challenged by "spatio-temporal" prompts, i.e., prompts that refer to 1) the entirety of an environment encoded in a point cloud that the MLLM should consider; and simultaneously also refer to 2) actions that happened in part of the environment and are encoded in a short ego-centric video clip. However, such a holistic spatio-temporal understanding is important for agents operating in the real world. To address this challenge, we first develop a framework to collect a large-scale dataset. Using the collected "Reasoning about Environments and Actions" (REA) dataset, we show that recent MLLMs indeed struggle to correctly answer "spatio-temporal" prompts. Building on this dataset, we study two spatio-temporal LLM (STLLM) baselines: 1) STLLM-3D, which directly fuses point cloud, video, and text representations as inputs to the LLM; and 2) STLLM-Aligner, which aligns spatial context with video and text before LLM decoding. Both baselines aim to enhance spatial understanding of environments and temporal grounding of egocentric observations. On REA, the STLLM baselines outperform existing models, demonstrating the effectiveness of our designs. Code and data are available at https://zoezheng126.github.io/STLLM-website/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩にもかかわらず、現在のMLLMは「時空間的」プロンプト、すなわち「時空間的」プロンプトによって挑戦されている。
1)MLLMが考慮すべき点雲に符号化された環境全体,及び同時に参照すること
2)環境の一部で発生した行動は,短いエゴ中心のビデオクリップにエンコードされる。
しかし、このような全体論的時空間的理解は、現実世界で活動するエージェントにとって重要である。
この課題に対処するために、我々はまず大規模なデータセットを集めるためのフレームワークを開発する。
収集したReasoning about Environments and Actions (REA)データセットを用いて、最近のMLLMは「時空間的」なプロンプトを正しく答えるのに本当に苦労していることを示す。
このデータセットに基づいて,2つの時空間LLM (spatio-temporal LLM) ベースラインについて検討する。
1)LSLMへの入力として、ポイントクラウド、ビデオ、テキスト表現を直接フューズするSTLLM-3D
2) STLLM-Aligner - LLM復号前の映像やテキストと空間的コンテキストを一致させる。
どちらのベースラインも環境の空間的理解を高め、エゴセントリックな観測の時間的基盤を構築することを目的としている。
REAでは,STLLMのベースラインが既存のモデルより優れており,設計の有効性が実証されている。
コードとデータはhttps://zoezheng126.github.io/STLLM-website/で公開されている。
関連論文リスト
- LLM-Prompt: Integrated Heterogeneous Prompts for Unlocking LLMs in Time Series Forecasting [4.881217428928315]
時系列予測は、変数間の時間的依存関係を将来の状態推論のためにモデル化することを目的としている。
近年の研究では,大規模言語モデル (LLM) が時系列予測において有望な性能を達成することが示されている。
マルチプロンプト情報とモーダル間セマンティックアライメントを組み合わせたLLMベースの時系列予測フレームワークLLM-Promptを提案する。
論文 参考訳(メタデータ) (2025-06-21T08:22:25Z) - MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding [55.32878803528196]
ビデオの時間的理解は、マルチモーダルな大言語モデル(MLLM)において、ビデオ内のイベントを推論するために不可欠である。
タイムスタンプを意識したマルチセグメントグラウンドの導入により時間的理解を高める新しいRLに基づくMUSEGを提案する。
効果的な学習を容易にするため,段階的な報酬付きRL学習レシピを設計し,時間的根拠に基づく推論に向けてモデルを段階的に導く。
論文 参考訳(メタデータ) (2025-05-27T04:50:07Z) - debug-gym: A Text-Based Environment for Interactive Debugging [55.11603087371956]
大規模言語モデル(LLM)は、コーディングタスクにますます依存している。
LLMは、タスクに関連する情報を集めるために対話的にAを探索する能力の恩恵を受けることができると仮定する。
対話型符号化環境において,LLMベースのエージェントを開発するためのテキスト環境,すなわちデバッグジャムを提案する。
論文 参考訳(メタデータ) (2025-03-27T14:43:28Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - LLM4DyG: Can Large Language Models Solve Spatial-Temporal Problems on Dynamic Graphs? [56.85995048874959]
本稿では,大規模言語モデルの動的グラフ上での時空間理解能力を評価することを提案する。
我々は、異なるデータ生成装置、データ統計、プロンプト技術、LLMがモデル性能に与える影響を分析する実験を行う。
最後に, LLM の時空間理解能力を高めるために, 動的グラフ上の LLM に対する Disentangled Spatial-Temporal Thoughts (DST2) を提案する。
論文 参考訳(メタデータ) (2023-10-26T02:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。