Fugu-MT 論文翻訳(概要): Spatio-Temporal Grounding of Large Language Models from Perception Streams

論文の概要: Spatio-Temporal Grounding of Large Language Models from Perception Streams

arxiv url: http://arxiv.org/abs/2604.07592v1
Date: Wed, 08 Apr 2026 20:49:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.559506
Title: Spatio-Temporal Grounding of Large Language Models from Perception Streams
Title（参考訳）: 知覚ストリームからの大規模言語モデルの時空間的接地
Authors: Jacob Anderson, Bardh Hoxha, Georgios Fainekos, Hideki Okamoto, Danil Prokhorov,
Abstract要約: 本稿では,検証可能な時間的監督を大規模言語モデルに注入するFESTS(Formally Explainable Scenes)を紹介する。 27kで3ビリオンレベルのモデルを訓練すると、フレームサイズは桁違いに88.5%に向上し、複雑な時間的推論において GPT-4.1 と一致する。
参考スコア（独自算出の注目度）: 3.426888015461207
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embodied-AI agents must reason about how objects move and interact in 3-D space over time, yet existing smaller frontier Large Language Models (LLMs) still mis-handle fine-grained spatial relations, metric distances, and temporal orderings. We introduce the general framework Formally Explainable Spatio-Temporal Scenes (FESTS) that injects verifiable spatio-temporal supervision into an LLM by compiling natural-language queries into Spatial Regular Expression (SpRE) -- a language combining regular expression syntax with S4u spatial logic and extended here with universal and existential quantification. The pipeline matches each SpRE against any structured video log and exports aligned (query, frames, match, explanation) tuples, enabling unlimited training data without manual labels. Training a 3-billion-parameter model on 27k such tuples boosts frame-level F1 from 48.5% to 87.5%, matching GPT-4.1 on complex spatio-temporal reasoning while remaining two orders of magnitude smaller, and, hence, enabling spatio-temporal intelligence for Video LLM.
Abstract（参考訳）: Embodied-AIエージェントは、オブジェクトが時間とともに3次元空間でどのように動き、相互作用するかを推論する必要があるが、既存のより小さなフロンティア大言語モデル(LLM)は、きめ細かい空間関係、距離距離、時間順序を誤って処理している。本稿では、自然言語クエリを空間正規表現(SpRE)にコンパイルすることで、検証可能な時空間的監視をLLMに注入するFESTS(Formally Explainable Spatio-Temporal Scenes)について紹介する。パイプラインは各SpREと任意の構造化ビデオログとマッチングし、アライメントされた(クエリ、フレーム、マッチ、説明)タプルをエクスポートすることで、手動ラベルなしで無制限のトレーニングデータを可能にする。 27kでの3ビリオンパラメータモデルのトレーニングでは、フレームレベルF1が48.5%から87.5%に向上し、複雑な時空間的推論においてGPT-4.1と一致する。

関連論文リスト

Bridging Time and Space: Decoupled Spatio-Temporal Alignment for Video Grounding [6.673833357112721]
textbfBridge-STGは、意味的コヒーレンスを維持しながら時間的および空間的ローカライゼーションを分離するエンドツーエンドフレームワークである。 Bridge-STGはMLLM方式の最先端性能を実現する。
論文参考訳（メタデータ） (2026-04-09T09:14:00Z)
MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence [50.11889361459544]
人間は視覚に基づく4D空間時間知能で生まれる。その重要性にもかかわらず、この機能は現在の大規模言語モデル(MLLM)にとって重要なボトルネックであり続けている。
論文参考訳（メタデータ） (2026-02-28T07:23:36Z)
TOGGLE: Temporal Logic-Guided Large Language Model Compression for Edge [0.0]
大規模言語モデル(LLM)は、自然言語のタスクにまたがる例外的なパフォーマンスを提供する。量子化やプルーニングといった既存の圧縮技術は、しばしば重要な言語特性を劣化させる。本稿では,時間論理ガイド型大規模言語モデル圧縮(TOGGLE)を提案する。
論文参考訳（メタデータ） (2025-12-18T18:27:42Z)
NL2SpaTiaL: Generating Geometric Spatio-Temporal Logic Specifications from Natural Language for Manipulation Tasks [8.178210432886237]
Spatio-Temporal Logic (SpaTiaL) は幾何学的空間的要求を表現するための定式化を提供する。本稿では、SpaTiaL仕様を合成し、それらを自然言語記述に変換するデータセット生成フレームワークを提案する。このパイプラインはNL2SpaTiaLデータセットを生成する。
論文参考訳（メタデータ） (2025-12-15T18:56:34Z)
A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文参考訳（メタデータ） (2025-07-09T10:20:38Z)
SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。この制限は2つの大きな課題に起因している。時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文参考訳（メタデータ） (2025-03-18T07:40:36Z)
LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding [29.42797944919497]
LLaVA-STは空間的・時間的マルチモーダル理解のためのMLLMである。 LLaVA-STでは,座標の特別なトークンを視覚空間に埋め込んだLanguage-Aligned Positional Embeddingを提案する。また、時間分解能と空間分解能の特徴圧縮を2つの異なるポイント・ツー・リージョンのアテンション処理ストリームに分離する空間-テンポラル・パッカーを設計する。
論文参考訳（メタデータ） (2025-01-14T17:58:12Z)
Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文参考訳（メタデータ） (2024-08-01T17:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。