論文の概要: Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly
- arxiv url: http://arxiv.org/abs/2605.21625v1
- Date: Wed, 20 May 2026 18:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.957684
- Title: Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly
- Title(参考訳): フラットパックベンチ:家具組み立てによる大規模視覚言語モデルにおける時空間的空間的理解の評価
- Authors: Aditya Chetan, Eric Cai, Peeyush Kushwaha, Bharath Raj Nagoor Kani, Utkarsh Mall, Qianqian Wang, Noah Snavely, Bharath Hariharan,
- Abstract要約: 家具組み立てタスクを中心とした新しいベンチマークであるFlat-Pack Benchを紹介する。
本ベンチマークでは,組立動作の時間的順序付け,組立状態の時間的局所化,組立状態の理解,トラッキングなど,ニュアンスタスクのLVLMを評価した。
我々の実験は、最先端のLVLMが微粒な時間的推論にかなり苦労していることを示し、ビデオから時間的情報を効果的に活用する際の限界を強調した。
- 参考スコア(独自算出の注目度): 49.02458752761219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Large Vision-Language Models (LVLMs) has significantly advanced video understanding capabilities. However, existing benchmarks focus predominantly on coarse-grained tasks such as action segmentation, classification, captioning, and retrieval. Furthermore, these benchmarks often rely on entities that can be easily identified verbally, like household objects, animals, human subjects, etc., limiting their applicability to complex, in-the-wild video scenarios. But, many applications such as furniture assembly, cooking, etc., require step-by-step fine-grained spatio-temporal understanding of the video, which is not sufficiently evaluated in current benchmarks. To address this gap, we introduce Flat-Pack Bench, a novel benchmark centered on furniture assembly tasks. Our benchmark evaluates LVLMs on nuanced tasks, including temporal ordering of assembly actions, temporal localization of assembly state, understanding part mating, and tracking, using multiple-choice questions paired with visual prompts highlighting relevant parts as references for fine-grained questions. Our experiments reveal that state-of-the-art LVLMs struggle significantly with fine-grained spatio-temporal reasoning, highlighting their limitations in effectively leveraging temporal information from videos, limited tracking ability, and understanding of spatial interactions like physical contact.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の出現により,映像理解能力は飛躍的に向上した。
しかし、既存のベンチマークは主にアクションセグメンテーション、分類、キャプション、検索といった粗いタスクに焦点を当てている。
さらに、これらのベンチマークは、家庭の物、動物、人間など、言葉で容易に識別できるエンティティに依存しており、複雑な動画シナリオに適用性を制限する。
しかし、家具組み立てや調理などの多くの応用では、ビデオの詳細な時空間的理解が必要であり、現在のベンチマークでは十分に評価されていない。
このギャップに対処するために、家具組み立てタスクを中心とした新しいベンチマークであるFlat-Pack Benchを紹介します。
本ベンチマークでは,組立動作の時間的順序付け,組立状態の時間的局所化,理解部分の交互化,追跡などのニュアンスタスクのLVLMを視覚的プロンプトと組み合わせた複数選択質問を用いて評価する。
実験の結果,現在最先端のLVLMは微細な時空間推論にかなり苦労しており,ビデオからの時間情報の有効活用,追跡能力の制限,物理的接触などの空間的相互作用の理解に限界があることが明らかになった。
関連論文リスト
- SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data [100.5266292850922]
Streferはビデオ大モデルに参照と推論機能を持たせるために設計された合成データ生成フレームワークである。
Streferは、時間的に密度が高くきめ細かなビデオメタデータを擬似アノテーションするデータエンジンを使用して、多様な命令生成データを生成する。
我々のアプローチは、ビデオLLMが空間的および時間的参照を解釈する能力を高め、現実のAIコンパニオンに不可欠な、より汎用的で時空間対応の推論を育む。
論文 参考訳(メタデータ) (2025-09-03T17:33:20Z) - Temporal Grounding as a Learning Signal for Referring Video Object Segmentation [29.646697516547558]
Referring Video Object (RVOS)は、自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションと追跡を目的としており、ビジュアルコンテンツとテキストクエリの正確なアライメントを必要とする。
既存の手法は、主に訓練中にフレームサンプリングとすべての可視物体の監督が区別できないため、意味的ミスアライメントに悩まされることが多い。
私たちは、MeViSベンチマークに基づいて構築されたデータセットであるMeViS-Mを紹介します。
論文 参考訳(メタデータ) (2025-08-16T07:34:43Z) - Moment Quantization for Video Temporal Grounding [29.081100914208974]
我々は、新しいモーメント量子化に基づくビデオ時間グラウンド法(MQVTG)を提案する。
MQVTGは入力ビデオを様々な離散ベクトルに量子化し、関連するモーメントと無関係なモーメントの識別を強化する。
本手法は,関係する特徴を効果的にグループ化し,無関係な特徴を分離し,差別の強化を目標とする。
論文 参考訳(メタデータ) (2025-04-03T05:21:14Z) - Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs [66.57518905079262]
VideoMindは、重要なビデオモーメントを、アロジカルに構造化されたセマンティックグラフに整理する。
ミンドパレス」は、(i)手動追跡、(ii)繰り返し活動の特定領域を表すクラスタ化されたゾーン活動、(iii)環境レイアウトマッピングを通じて重要な情報を整理する。
論文 参考訳(メタデータ) (2025-01-08T08:15:29Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。