論文の概要: Spatio-Temporal LLM: Reasoning about Environments and Actions
- arxiv url: http://arxiv.org/abs/2507.05258v1
- Date: Mon, 07 Jul 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.56536
- Title: Spatio-Temporal LLM: Reasoning about Environments and Actions
- Title(参考訳): 時空間LLM:環境と行動に関する推論
- Authors: Haozhen Zheng, Beitong Tian, Mingyuan Wu, Zhenggang Tang, Klara Nahrstedt, Alex Schwing,
- Abstract要約: MLLMは、全体論的時間的理解を必要とするプロンプトに正しく答えるのに依然として苦労していることを示す。
環境の空間的理解と最近の観測の時間的理解を両立させるプロジェクタを備えたモデル「s-temporal LLM」(LLM)を開発した。
- 参考スコア(独自算出の注目度): 6.224087801093545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant recent progress of Multimodal Large Language Models (MLLMs), MLLMs still struggle to correctly answer prompts that require a holistic spatio-temporal understanding. Specifically, it is challenging to address prompts that refer to 1) the entirety of an environment that an agent equipped with an MLLM can operate in; and simultaneously also refer to 2) recent actions that just happened and are encoded in a video clip. However, such a holistic spatio-temporal understanding is important for agents operating in the real world. To address this issue, we first develop a framework to collect a large-scale dataset. Using the collected "Reasoning about Environments and Actions" (REA) dataset, we show that recent methods indeed struggle to correctly answer the prompts. To improve, we develop a "spatio-temporal LLM" (ST-LLM), a model equipped with projectors to improve both spatial understanding of an environment and temporal understanding of recent observations. On the collected REA data, we show that the proposed method significantly improves results compared to prior work. Code and data are available at https://zoezheng126.github.io/STLLM-website/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩にもかかわらず、MLLMは時空間の全体的理解を必要とするプロンプトに正しく答えることに苦慮している。
具体的には、参照するプロンプトに対処することは困難です。
1)MLLMを装備したエージェントが操作できる環境の全体及び同時に参照できる環境
2) 発生したばかりの最近のアクションをビデオクリップにエンコードする。
しかし、このような全体論的時空間的理解は、現実世界で活動するエージェントにとって重要である。
この問題に対処するため、我々はまず大規模なデータセットを収集するフレームワークを開発する。
収集した"Reasoning about Environments and Actions"データセット(REA)を用いて、最近の手法がプロンプトに正しく答えるのに本当に苦労していることを示す。
環境の空間的理解と最近の観測の時間的理解を両立させるプロジェクタを備えたモデル「時空間LLM」(ST-LLM)を開発した。
収集したREAデータから,提案手法が先行作業と比較して有意に改善したことを示す。
コードとデータはhttps://zoezheng126.github.io/STLLM-website/で公開されている。
関連論文リスト
- LLM-Prompt: Integrated Heterogeneous Prompts for Unlocking LLMs in Time Series Forecasting [4.881217428928315]
時系列予測は、変数間の時間的依存関係を将来の状態推論のためにモデル化することを目的としている。
近年の研究では,大規模言語モデル (LLM) が時系列予測において有望な性能を達成することが示されている。
マルチプロンプト情報とモーダル間セマンティックアライメントを組み合わせたLLMベースの時系列予測フレームワークLLM-Promptを提案する。
論文 参考訳(メタデータ) (2025-06-21T08:22:25Z) - debug-gym: A Text-Based Environment for Interactive Debugging [55.11603087371956]
大規模言語モデル(LLM)は、コーディングタスクにますます依存している。
LLMは、タスクに関連する情報を集めるために対話的にAを探索する能力の恩恵を受けることができると仮定する。
対話型符号化環境において,LLMベースのエージェントを開発するためのテキスト環境,すなわちデバッグジャムを提案する。
論文 参考訳(メタデータ) (2025-03-27T14:43:28Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。