論文の概要: Zero-shot Interactive Perception
- arxiv url: http://arxiv.org/abs/2602.18374v1
- Date: Fri, 20 Feb 2026 17:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.396597
- Title: Zero-shot Interactive Perception
- Title(参考訳): ゼロショットインタラクティブ・パーセプション
- Authors: Venkatesh Sripada, Frank Guerin, Amir Ghalamzan,
- Abstract要約: 我々は,Zero-Shot IP(ZS-IP)を,メモリ駆動型視覚言語モデル(VLM)とマルチストラテジー操作(プッシングとグリップ)を結合した新しいフレームワークとして提示する。
1)従来のキーポイントと提案したプッシュラインの両方でVLMの視覚知覚を増強する拡張観察(EO)モジュール。
ピック・アンド・プレイスに最適化されたグリッドベースの拡張とは異なり、プッシュラインはコンタクトリッチなアクションの余裕を捉え、パフォーマンスを大幅に向上する。
- 参考スコア(独自算出の注目度): 5.277507079014855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive perception (IP) enables robots to extract hidden information in their workspace and execute manipulation plans by physically interacting with objects and altering the state of the environment -- crucial for resolving occlusions and ambiguity in complex, partially observable scenarios. We present Zero-Shot IP (ZS-IP), a novel framework that couples multi-strategy manipulation (pushing and grasping) with a memory-driven Vision Language Model (VLM) to guide robotic interactions and resolve semantic queries. ZS-IP integrates three key components: (1) an Enhanced Observation (EO) module that augments the VLM's visual perception with both conventional keypoints and our proposed pushlines -- a novel 2D visual augmentation tailored to pushing actions, (2) a memory-guided action module that reinforces semantic reasoning through context lookup, and (3) a robotic controller that executes pushing, pulling, or grasping based on VLM output. Unlike grid-based augmentations optimized for pick-and-place, pushlines capture affordances for contact-rich actions, substantially improving pushing performance. We evaluate ZS-IP on a 7-DOF Franka Panda arm across diverse scenes with varying occlusions and task complexities. Our experiments demonstrate that ZS-IP outperforms passive and viewpoint-based perception techniques such as Mark-Based Visual Prompting (MOKA), particularly in pushing tasks, while preserving the integrity of non-target elements.
- Abstract(参考訳): 対話的知覚(IP)は、ロボットが作業空間に隠された情報を抽出し、オブジェクトと物理的に相互作用し、環境の状態を変更することで操作計画を実行することを可能にする。
我々は,Zero-Shot IP(ZS-IP)を提案する。Zero-Shot IP(ZS-IP)は,マルチストラテジー操作(プッシングとグリップ)とメモリ駆動型ビジョン言語モデル(VLM)を結合して,ロボットインタラクションのガイドとセマンティッククエリの解決を行う新しいフレームワークである。
ZS-IPは、(1)従来のキーポイントと提案したプッシュラインの両方でVLMの視覚的知覚を増強する強化観察(EO)モジュール、(2)コンテキストルックアップを通じてセマンティック推論を強化するメモリ誘導アクションモジュール、(3)VLM出力に基づいてプッシュ、プル、あるいはグルーピングを実行するロボットコントローラの3つの重要なコンポーネントを統合している。
ピック・アンド・プレイスに最適化されたグリッドベースの拡張とは異なり、プッシュラインはコンタクトリッチなアクションの余裕を捉え、パフォーマンスを大幅に向上する。
7-DOFフランカパンダアームを用いたZS-IPの評価を行った。
実験により,ZS-IPは,非対象要素の整合性を維持しつつ,特にプッシュタスクにおいて,Mark-based Visual Prompting (Moka) などの受動的・視点的認識技術より優れることが示された。
関連論文リスト
- PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments [36.84821207878773]
マルチモーダル大言語モデル(MLLM)における視覚的推論は、主に静的で完全に観測可能な設定で研究されている。
AVR(Active Visual Reasoning)タスクを導入し、視覚的推論を部分的に観察可能で対話的な環境に拡張する。
推論と情報収集の効率性の両方を評価するために,複数ラウンドの対話型環境を特徴とするベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:59:00Z) - Knowledge Transfer from Interaction Learning [16.83991179271622]
現在の視覚基礎モデル(VFM)は、視覚言語モデル(VLM)から知識を伝達する際の基本的な制限に直面している。
視覚的理解をインタラクティブなプロセスとして明示的にモデル化する,認知に触発されたフレームワークであるLearning from Interactions (LFI)を提案する。
論文 参考訳(メタデータ) (2025-09-23T07:27:36Z) - EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning [27.511627003202538]
伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
論文 参考訳(メタデータ) (2025-05-14T04:04:23Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。