論文の概要: BOP-ASK: Object-Interaction Reasoning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.16857v1
- Date: Thu, 20 Nov 2025 23:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.844424
- Title: BOP-ASK: Object-Interaction Reasoning for Vision-Language Models
- Title(参考訳): BOP-ASK:視覚言語モデルのためのオブジェクトインタラクション推論
- Authors: Vineet Bhat, Sungsu Kim, Valts Blukis, Greg Heinrich, Prashanth Krishnamurthy, Ramesh Karri, Stan Birchfield, Farshad Khorrami, Jonathan Tremblay,
- Abstract要約: 視覚言語モデル (VLM) は空間推論ベンチマークにおいて顕著な性能を達成した。
現在のベンチマークでは、高レベルな関係をテストするが、現実世界のアプリケーションに必要な詳細な空間的理解は無視されている。
BOP-ASKは、トレーニングとベンチマークの両方のためのオブジェクトインタラクション推論のための、新しい大規模データセットである。
- 参考スコア(独自算出の注目度): 34.62272296627845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) have achieved impressive performance on spatial reasoning benchmarks, yet these evaluations mask critical weaknesses in understanding object interactions. Current benchmarks test high level relationships ('left of,' 'behind', etc.) but ignore fine-grained spatial understanding needed for real world applications: precise 3D localization, physical compatibility between objects, object affordances and multi step spatial planning. In this work, we present BOP-ASK, a novel large scale dataset for object interaction reasoning for both training and benchmarking. Our data generation pipeline leverages 6D object poses from the Benchmark for Object Pose Estimation (BOP) datasets from which we derive fine grained annotations such as grasp poses, referred object poses, path planning trajectories, relative spatial and depth relationships, and object-to-object relationships. BOP-ASK comprises over 150k images and 33M question answer pairs spanning six tasks (four novel), providing a rich resource for training and evaluating VLMs. We evaluate proprietary and open sourced VLMs, and conduct human evaluations on BOP-ASK-core, a contributed test benchmark. We also release BOP-ASK-lab, an out-of-distribution benchmark with images not sourced from BOP, enabling testing of generalization. Our experiments demonstrate that models trained on BOP-ASK outperform baselines and exhibit emergent capabilities such as precise object and grasp pose estimation, trajectory planning, and fine-grained object-centric spatial reasoning in cluttered environments. We will publicly release our datasets and dataset generation pipeline.
- Abstract(参考訳): 視覚言語モデル (VLM) は空間推論ベンチマークにおいて顕著な性能を達成しているが、これらの評価はオブジェクトの相互作用を理解する上で重要な弱点を隠蔽している。
現在のベンチマークでは、高レベルの関係('left of'、'behind'など)をテストするが、現実世界のアプリケーションに必要な詳細な空間的理解(正確な3Dローカライゼーション、オブジェクト間の物理的互換性、オブジェクトの空き時間、マルチステップ空間計画)は無視する。
本稿では,BOP-ASKについて述べる。BOP-ASKは,トレーニングとベンチマークの両方のためのオブジェクトインタラクション推論のための,新しい大規模データセットである。
我々のデータ生成パイプラインは、 Benchmark for Object Pose Estimation (BOP)データセットから得られた6Dオブジェクトのポーズを利用しており、そこから、グリップポーズ、参照オブジェクトのポーズ、経路計画軌跡、相対空間と深さの関係、オブジェクトとオブジェクトの関係など、きめ細かいアノテーションを導き出す。
BOP-ASKは、150k以上の画像と6つのタスク(4つの新しい)にまたがる33Mの質問応答ペアで構成され、VLMのトレーニングと評価のための豊富なリソースを提供する。
我々は,プロプライエタリかつオープンソースなVLMを評価し,BOP-ASKコア上で人為的な評価を行う。
またBOP-ASK-labは,BOPから出力されていない画像によるアウト・オブ・ディストリビューション・ベンチマークであり,一般化の検証を可能にする。
実験により,BOP-ASKで訓練したモデルは, 粗い環境下での粗い物体中心空間推論, 軌道計画, 微粒な物体中心空間推論など, 精度の高い物体と把握ポーズ推定, 創発的な能力を示すことが示された。
データセットとデータセット生成パイプラインを公開します。
関連論文リスト
- Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Collaborative Perceiver: Elevating Vision-based 3D Object Detection via Local Density-Aware Spatial Occupancy [7.570294108494611]
視覚に基づく鳥眼視(BEV)3次元物体検出は、自律運転において著しく進歩している。
既存の方法では、抽出した物体の特徴を分解して3次元のBEV表現を構築することが多い。
本研究では,空間表現のギャップを埋めるマルチタスク学習フレームワークであるCollaborative Perceiverを導入する。
論文 参考訳(メタデータ) (2025-07-28T21:56:43Z) - A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。