論文の概要: ToG-Bench: Task-Oriented Spatio-Temporal Grounding in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2512.03666v1
- Date: Wed, 03 Dec 2025 10:54:44 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:55:12.879169
- Title: ToG-Bench: Task-Oriented Spatio-Temporal Grounding in Egocentric Videos
- Title(参考訳): ToG-Bench:エゴセントリックビデオにおけるタスク指向の時空間グラウンド
- Authors: Qi'ao Xu, Tianwen Qian, Yuqian Fu, Kailing Li, Yang Jiao, Jiacheng Zhang, Xiaoling Wang, Liang He,
- Abstract要約: ToG-Benchは、Egoビデオのためのタスク指向固有の時間的ビデオグラウンドティングベンチマークである。
ToG-Benchは、ScanNetからソースされたビデオに基づいて、100の注釈付きクリップと2,704のタスク指向の接地命令で構成されている。
広範囲な実験により、タスク指向STVGの課題と、明示的かつ多目的的なグラウンドリングにおけるパフォーマンスギャップが明らかになる。
- 参考スコア(独自算出の注目度): 44.050522958181496
- License:
- Abstract: A core capability towards general embodied intelligence lies in localizing task-relevant objects from an egocentric perspective, formulated as Spatio-Temporal Video Grounding (STVG). Despite recent progress, existing STVG studies remain largely confined to object-centric and descriptive instructions, neglecting the task-oriented reasoning that is crucial for embodied agents to accomplish goal-directed interactions. To bridge this gap, we introduce \textbf{ToG-Bench}, the first task-oriented spatio-temporal video grounding benchmark for egocentric videos. ToG-Bench is characterized by three key features: (1) \textbf{Task-oriented Grounding}, which requires identifying and localizing objects based on intended tasks rather than straightforward descriptions; (2) \textbf{Explicit-Implicit Dual Grounding}, where target objects can be either explicitly mentioned or implicitly inferred by contextual reasoning; (3) \textbf{One-to-Many Grounding}, where a single instruction may correspond to multiple objects involved in task execution. Built upon videos sourced from ScanNet, ToG-Bench comprises 100 annotated clips with 2,704 task-oriented grounding instructions, constructed via a semi-automated pipeline that combines foundation model annotation and human refinement. In addition, we introduce a set of task-level evaluation metrics tailored for multi-object and explicit-implicit object grounding, and systematically benchmark seven state-of-the-art MLLMs. Extensive experiments reveal the intrinsic challenges of task-oriented STVG and substantial performance gaps across explicit-implicit and multi-object grounding, highlighting the difficulty of bridging perception and interaction in embodied scenarios. Data and code will be released at: \href{https://github.com/qaxuDev/ToG-Bench}{https://github.com/qaxuDev/ToG-Bench}..
- Abstract(参考訳): 一般的なインボディードインテリジェンスに対する中心的な能力は、エゴセントリックな視点からタスク関連オブジェクトをローカライズすることであり、STVG(Spatio-Temporal Video Grounding)として定式化されている。
近年の進歩にもかかわらず、既存のSTVG研究は、目標指向の対話を達成するために実施されるタスク指向の推論を無視し、主にオブジェクト指向と記述的な指示に限られている。
このギャップを埋めるために、最初のタスク指向の時空間ビデオグラウンドベンチマークである \textbf{ToG-Bench} を導入する。
ToG-Benchは次の3つの主要な特徴を特徴付けている: (1) \textbf{Task-oriented Grounding}; 単純な記述ではなく、目的のタスクに基づいてオブジェクトを特定し、ローカライズする必要がある; (2) \textbf{Explicit-Implicit Dual Grounding}; ターゲットオブジェクトを明示的に記述するか、文脈的推論によって暗黙的に推測することができる; (3) \textbf{One-to-Many Grounding}; 単一の命令はタスク実行に関わる複数のオブジェクトに対応できる。
ToG-Benchは、ScanNetからソースされたビデオに基づいて、100の注釈付きクリップと2,704のタスク指向の接地命令で構成され、基礎モデルアノテーションと人間の洗練を組み合わせた半自動化パイプラインで構築されている。
さらに,多目的・明示的オブジェクトグラウンディングに適したタスクレベル評価指標のセットを導入するとともに,7つの最先端MLLMを体系的にベンチマークする。
広範囲な実験により、タスク指向STVGの本質的な課題と、明示的かつ多目的的なグラウンドリングにおけるパフォーマンスギャップが明らかとなり、具体的シナリオにおける認知と相互作用のブリッジの難しさが浮き彫りになった。
データとコードは次の通りリリースされる。 \href{https://github.com/qaxuDev/ToG-Bench}{https://github.com/qaxuDev/ToG-Bench}。
と。
関連論文リスト
- SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。