論文の概要: Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment
- arxiv url: http://arxiv.org/abs/2604.00913v1
- Date: Wed, 01 Apr 2026 13:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.017775
- Title: Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment
- Title(参考訳): クロスフィルタアセンブリ命令アライメントのための視覚言語モデルのベンチマークと力学解析
- Authors: Zhuchenyang Liu, Yao Zhang, Yu Xiao,
- Abstract要約: 2Dアセンブリ図は、しばしば抽象的で従うのが難しいため、進捗を監視し、エラーを検出し、ステップバイステップのガイダンスを提供するインテリジェントアシスタントの必要性が生じる。
視覚言語モデル(VLM)は、このタスクを約束するが、アセンブリ図やビデオフレームがほとんど視覚的特徴を共有しないため、描写のギャップに直面している。
このギャップを系統的に評価するために,29のIKEA家具製品上で6種類のタスクタイプにまたがる1,623質問のベンチマークであるIKEA-Benchを構築した。
- 参考スコア(独自算出の注目度): 8.720698253117837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/
- Abstract(参考訳): 2Dアセンブリ図は、しばしば抽象的で従うのが難しいため、進捗を監視し、エラーを検出し、ステップバイステップのガイダンスを提供するインテリジェントアシスタントの必要性が生じる。
複合現実感では、このようなシステムは、カメラフィードからの完了したステップと進行中のステップを認識して、図の指示に合わせる必要がある。
視覚言語モデル(VLM)は、このタスクを約束するが、アセンブリ図やビデオフレームがほとんど視覚的特徴を共有しないため、描写のギャップに直面している。
このギャップをシステマティックに評価するために,29のIKEA家具の6種類のタスクタイプに対して1,623の質問をベンチマークし,19のVLM(2B-38B)を3つのアライメント戦略で評価するIKEA-Benchを構築した。
主な知見は,(1) 組立命令理解はテキストによって回復可能であるが,テキストは図と映像のアライメントを同時に劣化させる; (2) アーキテクチャファミリーはパラメータカウントよりもアライメントの精度を強く予測する;(3) ビデオ理解は戦略の影響を受けないハードボトルネックのままである。
3段階のメカニスティック分析により、図表とビデオが相反するViT部分空間を占有し、テキストを追加することで、モデルが視覚的からテキスト駆動の推論へと変化することが明らかになった。
これらの結果から,視覚的エンコーディングが横断的ロバスト性向上の主目的であることが明らかとなった。
プロジェクトページ:https://ryenhails.github.io/IKEA-Bench/
関連論文リスト
- STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - Qwen3-VL Technical Report [153.3964813640593]
Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。
最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。
Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
論文 参考訳(メタデータ) (2025-11-26T17:59:08Z) - Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning [24.17324180628543]
本稿では,Retrieval-Augmented Reasoningを用いたOpen-World 3D Scene Graph Generationの統一フレームワークを提案する。
本手法は,視覚言語モデル(VLM)と検索に基づく推論を統合し,マルチモーダル探索と言語誘導インタラクションを支援する。
本研究では,3DSSG と Replica ベンチマークを用いて,多様な環境下での堅牢な一般化と優れた性能を実証する4つのタスクシーンの質問応答,視覚的グラウンド,インスタンス検索,タスク計画の検証を行った。
論文 参考訳(メタデータ) (2025-11-08T07:37:29Z) - VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning [69.64660280965971]
VideoAnchorは、サブスペース親和性を活用してフレーム間の視覚的手がかりを強化するプラグイン・アンド・プレイモジュールである。
InternVL2-8BとQ2.5VL-72Bのベンチマークで一貫した性能向上を示した。
私たちのコードはhttps://github.com/feufhd/VideoAnchor.comで公開されます。
論文 参考訳(メタデータ) (2025-09-29T17:54:04Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。