論文の概要: ArtiBench and ArtiBrain: Benchmarking Generalizable Vision-Language Articulated Object Manipulation
- arxiv url: http://arxiv.org/abs/2511.20330v2
- Date: Thu, 27 Nov 2025 16:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.796594
- Title: ArtiBench and ArtiBrain: Benchmarking Generalizable Vision-Language Articulated Object Manipulation
- Title(参考訳): ArtiBench と ArtiBrain: 一般化可能な視覚言語人工物体マニピュレーションのベンチマーク
- Authors: Yuhan Wu, Tiantian Wei, Shuo Wang, ZhiChao Wang, Yanyong Zhang, Daniel Cremers, Yan Xia,
- Abstract要約: ArtiBrainは、適応的な低レベル制御と高レベル推論を統一するモジュラーフレームワークである。
Affordance Memory Bankは、未確認の部品や構成に対して、部分レベルの実行可能な価格を宣伝している。
- 参考スコア(独自算出の注目度): 57.27764479291693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive articulated manipulation requires long-horizon, multi-step interactions with appliances while maintaining physical consistency. Existing vision-language and diffusion-based policies struggle to generalize across parts, instances, and categories. We first introduce ArtiBench, a five-level benchmark covering kitchen, storage, office, and tool environments. ArtiBench enables structured evaluation from cross-part and cross-instance variation to long-horizon multi-object tasks, revealing the core generalization challenges of articulated object manipulation. Building on this benchmark, we propose ArtiBrain, a modular framework that unifies high-level reasoning with adaptive low-level control. ArtiBrain uses a VLM-based Task Reasoner (GPT-4.1) to decompose and validate subgoals, and employs a Hybrid Controller that combines geometry-aware keyframe execution with affordance-guided diffusion for precise and interpretable manipulation. An Affordance Memory Bank continually accumulates successful execution episodes and propagates part-level actionable affordances to unseen articulated parts and configurations. Extensive experiments on ArtiBench show that our ArtiBrain significantly outperforms state-of-the-art multimodal and diffusion-based methods in robustness and generalization. Code and dataset will be released upon acceptance.
- Abstract(参考訳): 対話的な調音操作は、物理的整合性を維持しながら、アプライアンスとの長時間の多段階の相互作用を必要とする。
既存の視覚言語と拡散に基づくポリシーは、部分、インスタンス、カテゴリをまたいだ一般化に苦慮している。
まず、キッチン、ストレージ、オフィス、ツール環境をカバーする5レベルのベンチマークであるArtiBenchを紹介します。
ArtiBenchは、クロスパーツとクロスインスタンスのばらつきから、長距離多目的タスクへの構造化評価を可能にし、調音オブジェクト操作における中核的な一般化課題を明らかにする。
このベンチマークに基づいて、適応的な低レベル制御と高レベル推論を統一するモジュラーフレームワークArtiBrainを提案する。
ArtiBrain は VLM ベースの Task Reasoner (GPT-4.1) を使用してサブゴールを分解し、検証し、幾何学的に認識されたキーフレームの実行と精度と解釈可能な操作を組み合わせた Hybrid Controller を使用している。
Affordance Memory Bankは、成功した実行エピソードを継続的に蓄積し、未確認の部品や構成に対して、部分レベルの実行可能な余裕を伝播する。
ArtiBenchの大規模な実験により、ArtiBrainはロバストネスと一般化において、最先端のマルチモーダルおよび拡散に基づく手法よりも著しく優れていることが示された。
コードとデータセットは受理時にリリースされる。
関連論文リスト
- VCU-Bridge: Hierarchical Visual Connotation Understanding via Semantic Bridging [49.55286536996476]
視覚的意味理解の人間的な階層を運用するフレームワークであるVCU-Bridgeを提案する。
このフレームワーク上に構築したHVCU-Benchは、階層的視覚的意味理解のためのベンチマークであり、明確なレベルの診断を行う。
論文 参考訳(メタデータ) (2025-11-22T17:01:03Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - SAGE: Bridging Semantic and Actionable Parts for GEneralizable Manipulation of Articulated Objects [9.500480417077272]
本稿では,自然言語命令下での汎用的な操作を実現するために,意味的および動作可能なオブジェクトをブリッジする新しいフレームワークを提案する。
パーシャルグラウンドモジュールは、セマンティックな部分を「ジェネリザブル・アクティブル・パート(GAParts)」と表現し、パートモーションに関する情報を本質的に保持する。
インタラクティブなフィードバックモジュールが障害に対応するために組み込まれており、ループを閉じ、全体的なフレームワークの堅牢性を高める。
論文 参考訳(メタデータ) (2023-12-03T07:22:42Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。