論文の概要: Agentic Spatio-Temporal Grounding via Collaborative Reasoning
- arxiv url: http://arxiv.org/abs/2602.13313v1
- Date: Tue, 10 Feb 2026 10:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.843811
- Title: Agentic Spatio-Temporal Grounding via Collaborative Reasoning
- Title(参考訳): 協調推論によるエージェント時空間接地
- Authors: Heng Zhao, Yew-Soon Ong, Joey Tianyi Zhou,
- Abstract要約: 時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
- 参考スコア(独自算出の注目度): 80.83158605034465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-Temporal Video Grounding (STVG) aims to retrieve the spatio-temporal tube of a target object or person in a video given a text query. Most existing approaches perform frame-wise spatial localization within a predicted temporal span, resulting in redundant computation, heavy supervision requirements, and limited generalization. Weakly-supervised variants mitigate annotation costs but remain constrained by the dataset-level train-and-fit paradigm with an inferior performance. To address these challenges, we propose the Agentic Spatio-Temporal Grounder (ASTG) framework for the task of STVG towards an open-world and training-free scenario. Specifically, two specialized agents SRA (Spatial Reasoning Agent) and TRA (Temporal Reasoning Agent) constructed leveraging on modern Multimoal Large Language Models (MLLMs) work collaboratively to retrieve the target tube in an autonomous and self-guided manner. Following a propose-and-evaluation paradigm, ASTG duly decouples spatio-temporal reasoning and automates the tube extraction, verification and temporal localization processes. With a dedicate visual memory and dialogue context, the retrieval efficiency is significantly enhanced. Experiments on popular benchmarks demonstrate the superiority of the proposed approach where it outperforms existing weakly-supervised and zero-shot approaches by a margin and is comparable to some of the fully-supervised methods.
- Abstract(参考訳): Spatio-Temporal Video Grounding (STVG) は、対象物や人物の時空間管をテキストクエリで検索することを目的としている。
既存のほとんどのアプローチは、予測時空間の範囲内でフレームワイドな空間的局所化を行い、冗長な計算、重い監督要件、限定的な一般化をもたらす。
弱監督型はアノテーションのコストを軽減しますが、パフォーマンスが劣るデータセットレベルのトレイン・アンド・フィットパラダイムによって制約され続けます。
これらの課題に対処するために,STVGの課題に対するエージェント時空間グラウンド(ASTG)フレームワークを,オープンワールドとトレーニングフリーシナリオに向けて提案する。
具体的には、SRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)という2つの特殊エージェントが、現代のマルチモーダル大言語モデル(MLLM)を活用して、自律的かつ自己誘導的な方法で目標管の検索を行う。
ASTGは提案と評価のパラダイムに従い、時空間推論を二重に分離し、管抽出、検証、時間的局所化プロセスを自動化する。
視覚記憶と対話のコンテキストに特化することで、検索効率が大幅に向上する。
人気のあるベンチマークの実験では、既存の弱教師付きアプローチとゼロショットアプローチをマージンで上回り、完全な教師付き手法のいくつかに匹敵する、提案されたアプローチの優位性を実証している。
関連論文リスト
- The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis [24.51410516475904]
The Prompt Injection (PI) landscape, including attack, Defenses, and their evaluation practices。
我々は,コンテキストに依存したインタラクション設定下でエージェントの振る舞いを体系的に評価する新しいベンチマークであるAgentPIを紹介する。
我々は,文脈依存推論が不可欠である現実的なエージェント設定に一般化することができないが,文脈依存的入力を抑えることで,既存のベンチマークにおいて多くの防御が有効であることを示す。
論文 参考訳(メタデータ) (2026-02-11T02:47:10Z) - SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning [31.665287327579026]
SpotAgentは、地理的ローカライゼーションをエージェント推論プロセスにフォーマル化するフレームワークである。
外部ツール(例えば、Web検索、マップ)をReActダイアグラムを通じて活用することで、視覚的手がかりを積極的に探索し検証する。
最先端のパフォーマンスを実現し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供する。
論文 参考訳(メタデータ) (2026-02-10T06:57:12Z) - Cascading multi-agent anomaly detection in surveillance systems via vision-language models and embedding-based classification [0.0]
この研究は、補完パラダイムをコヒーレントで解釈可能なアーキテクチャに統一するカスケーディングマルチエージェントフレームワークを導入している。
初期モジュールは再構成ゲートフィルタリングとオブジェクトレベルの評価を行い、高レベルの推論エージェントは、意味的に曖昧な事象を解釈するために選択的に呼び出される。
このフレームワークは、早期出力効率、適応型マルチエージェント推論、説明可能な異常属性を組み合わせることで、従来の検出パイプラインを超えて進歩し、スケーラブルなインテリジェントなビジュアル監視のための再現可能でエネルギー効率の良い基盤を確立する。
論文 参考訳(メタデータ) (2026-01-08T11:31:47Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - RePST: Language Model Empowered Spatio-Temporal Forecasting via Semantic-Oriented Reprogramming [24.9561009415531]
我々は,事前学習言語モデル(PLM)の推論と一般化能力を活用して,複雑な時間的予測を実現することを目的とする。
本稿では,時間的予測に適した意味指向型 PLM プログラミングフレームワーク RePST を提案する。
論文 参考訳(メタデータ) (2024-08-24T07:59:36Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。