論文の概要: Text-Guided 6D Object Pose Rearrangement via Closed-Loop VLM Agents
- arxiv url: http://arxiv.org/abs/2604.09781v1
- Date: Fri, 10 Apr 2026 18:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.669642
- Title: Text-Guided 6D Object Pose Rearrangement via Closed-Loop VLM Agents
- Title(参考訳): 閉ループVLMエージェントによるテキストガイド型6次元オブジェクト空間再構成
- Authors: Sangwon Baik, Gunhee Kim, Mingi Choi, Hanbyul Joo,
- Abstract要約: VLM(Vision-Language Models)は、強力な視覚的推論能力を持つが、3D理解に苦慮している。
この閉ループプロセスに不可欠な3つの推論時間手法を導入する。
本手法は,対象物体のテキスト誘導目標6Dポーズの予測において,従来の手法を超越した手法である。
- 参考スコア(独自算出の注目度): 52.53348718474685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) exhibit strong visual reasoning capabilities, yet they still struggle with 3D understanding. In particular, VLMs often fail to infer a text-consistent goal 6D pose of a target object in a 3D scene. However, we find that with some inference-time techniques and iterative reasoning, VLMs can achieve dramatic performance gains. Concretely, given a 3D scene represented by an RGB-D image (or a compositional scene of 3D meshes) and a text instruction specifying a desired state change, we repeat the following loop: observe the current scene; evaluate whether it is faithful to the instruction; propose a pose update for the target object; apply the update; and render the updated scene. Through this closed-loop interaction, the VLM effectively acts as an agent. We further introduce three inference-time techniques that are essential to this closed-loop process: (i) multi-view reasoning with supporting view selection, (ii) object-centered coordinate system visualization, and (iii) single-axis rotation prediction. Without any additional fine-tuning or new modules, our approach surpasses prior methods at predicting the text-guided goal 6D pose of the target object. It works consistently across both closed-source and open-source VLMs. Moreover, when combining our 6D pose prediction with simple robot motion planning, it enables more successful robot manipulation than existing methods. Finally, we conduct an ablation study to demonstrate the necessity of each proposed technique.
- Abstract(参考訳): VLM(Vision-Language Models)は、強力な視覚的推論能力を持つが、3D理解に苦慮している。
特に、VLMは、3Dシーンでターゲットオブジェクトのテキスト一貫性のあるゴール6Dポーズを推測するのに失敗することが多い。
しかし,いくつかの推論時間技術と反復的推論により,VLMは劇的な性能向上を達成できることがわかった。
具体的には、RGB-D画像(または3Dメッシュの合成シーン)と所望の状態変化を示すテキスト命令で表される3Dシーンが与えられた場合、次のループを繰り返す。
この閉ループ相互作用により、VLMは事実上エージェントとして機能する。
さらに、この閉ループプロセスに不可欠な3つの推論時手法を紹介します。
(i)ビュー選択をサポートするマルチビュー推論
(II)オブジェクト中心座標系可視化、及び
(三)単軸回転予測
追加の微調整や新たなモジュールがなければ,本手法は対象オブジェクトのテキスト誘導目標6Dポーズを予測する従来の手法を超越する。
クローズドソースとオープンソースの両方のVLMで一貫して動作する。
さらに,6次元ポーズ予測とシンプルなロボット動作計画を組み合わせることで,既存の手法よりもロボット操作を成功させることができる。
最後に,提案手法の必要性を実証するためのアブレーション研究を行った。
関連論文リスト
- Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding [34.1504914582344]
3D Visual Groundingは、自然言語記述を通じてオブジェクトを3Dシーンにローカライズすることを目的としている。
生のRGB-Dストリーム上で直接動作する2次元から3次元の再生パラダイムである"Think, Act, Build (TAB)"を提案する。
厳密なVLMセマンティックトラッキングによる多視点カバレッジ障害を克服するために,セマンティックアンコレッド幾何拡張を導入する。
論文 参考訳(メタデータ) (2026-04-01T06:12:16Z) - VULCAN: Tool-Augmented Multi Agents for Iterative 3D Object Arrangement [66.13644883379087]
MLLMを用いた3次元オブジェクト配置における3つの課題に対処する。
まず、MLLMの弱い視覚的基盤に対処するために、MPPベースのAPIを導入する。
第2に、MLLMの3Dシーン理解を、特殊な視覚ツール群で強化する。
第3に,反復的かつエラーを起こしやすい更新を管理するために,協調的なマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T19:22:39Z) - AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models [20.05010202296243]
エージェントが3Dシーンの各参照余剰要素、その位置、動きタイプ、動き軸について予測する必要がある。
本稿では,MLLM(Multimodal Large Language Models)とCoT(Chere-of-Thought)推論パラダイムを統合した新しいフレームワークであるAffordBotを提案する。
AffordBotは最先端のパフォーマンスを実現し、3Dポイントのクラウド入力とMLLMだけで強力な一般化と物理的根拠を持つ推論を実証する。
論文 参考訳(メタデータ) (2025-11-13T06:43:00Z) - NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - Any6D: Model-free 6D Pose Estimation of Novel Objects [76.30057578269668]
我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。
新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。
提案手法を5つの挑戦的データセットで評価する。
論文 参考訳(メタデータ) (2025-03-24T13:46:21Z) - 6D Object Pose Tracking in Internet Videos for Robotic Manipulation [20.22297850525832]
本研究では,入力画像中の物体の6次元ポーズを,物体自体の事前の知識を使わずに推定する手法を開発した。
インターネットビデオからスムーズな6次元物体軌跡を抽出し,検出された物体をビデオフレーム間で注意深く追跡する。
既存のRGB 6Dのポーズ推定手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-03-13T12:33:34Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation [50.15926681475939]
逆グラフィックスは2次元画像から3次元シーン構造を推論することを目的としている。
確率モデルを導入し,不確実性を定量化し,6次元ポーズ推定タスクにおけるロバスト性を実現する。
3DNELは、RGBから学んだニューラルネットワークの埋め込みと深度情報を組み合わせることで、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-02-07T20:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。