論文の概要: I-Perceive: A Foundation Model for Active Perception with Language Instructions
- arxiv url: http://arxiv.org/abs/2603.00600v1
- Date: Sat, 28 Feb 2026 11:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.782424
- Title: I-Perceive: A Foundation Model for Active Perception with Language Instructions
- Title(参考訳): I-Perceive: 言語指導によるアクティブ・パーセプションの基礎モデル
- Authors: Yongxi Huang, Zhuohang Wang, Wenjing Tang, Cewu Lu, Panpan Cai,
- Abstract要約: I-Perceiveは,自然言語命令に基づく能動的知覚の基礎モデルである。
I-Perceiveは、画像ベースのシーンコンテキストに基づいて、オープンな言語命令に従うカメラビューを予測する。
実験により、I-Perceiveは、生成したカメラビューの予測精度とインストラクションの両方において、最先端のVLMを大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 41.67607728608853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active perception, the ability of a robot to proactively adjust its viewpoint to acquire task-relevant information, is essential for robust operation in unstructured real-world environments. While critical for downstream tasks such as manipulation, existing approaches have largely been confined to local settings (e.g., table-top scenes) with fixed perception objectives (e.g., occlusion reduction). Addressing active perception with open-ended intents in large-scale environments remains an open challenge. To bridge this gap, we propose I-Perceive, a foundation model for active perception conditioned on natural language instructions, designed for mobile manipulators and indoor environments. I-Perceive predicts camera views that follows open-ended language instructions, based on image-based scene contexts. By fusing a Vision-Language Model (VLM) backbone with a geometric foundation model, I-Perceive bridges semantic and geometric understanding, thus enabling effective reasoning for active perception. We train I-Perceive on a diverse dataset comprising real-world scene-scanning data and simulation data, both processed via an automated and scalable data generation pipeline. Experiments demonstrate that I-Perceive significantly outperforms state-of-the-art VLMs in both prediction accuracy and instruction following of generated camera views, and exhibits strong zero-shot generalization to novel scenes and tasks.
- Abstract(参考訳): アクティブな知覚は、ロボットがその視点を積極的に調整してタスク関連情報を取得する能力であり、非構造化現実環境におけるロバストな操作に不可欠である。
操作などの下流タスクには必須だが、既存のアプローチは、固定された知覚目標(例えば、オクルージョン削減)を持つローカル設定(例えば、テーブルトップシーン)に限られている。
大規模環境でのオープンな意図による積極的な認識に対処することは、依然としてオープンな課題である。
このギャップを埋めるために,移動マニピュレータや屋内環境向けに設計された自然言語命令に基づく能動的知覚基盤モデルI-Perceiveを提案する。
I-Perceiveは、画像ベースのシーンコンテキストに基づいて、オープンな言語命令に従うカメラビューを予測する。
視覚言語モデル(VLM)のバックボーンを幾何学的基礎モデルと融合することにより、I-Perceiveブリッジは意味論と幾何学的理解を融合し、アクティブな知覚のための効果的な推論を可能にする。
我々は、実世界のシーンスキャンデータとシミュレーションデータからなる多様なデータセット上でI-Perceiveを訓練し、どちらも自動化されたスケーラブルなデータ生成パイプラインで処理する。
実験により、I-Perceiveは、生成したカメラビューの予測精度と命令の両方で最先端のVLMを著しく上回り、新しいシーンやタスクに対して強力なゼロショットの一般化を示すことが示された。
関連論文リスト
- Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception [8.542874528320004]
既存のビジョンモデルと固定RGB-Dカメラシステムは、細かな詳細取得で広域範囲を調整できない。
本研究では,アクティブな視覚知覚のためのロボット眼球であるEyeVLAを提案する。
論文 参考訳(メタデータ) (2025-11-19T09:42:08Z) - Dynamic Context-Aware Scene Reasoning Using Vision-Language Alignment in Zero-Shot Real-World Scenarios [0.0]
この作業では、ゼロショットの現実シナリオに対処するDynamic Context-Aware Scene Reasoningフレームワークを導入している。
提案手法は、学習済みの視覚変換器と大規模言語モデルを統合し、視覚意味論と自然言語記述を整合させる。
実験では、複雑で見えない環境でのベースラインモデルよりも、シーン理解の精度が最大で18%向上した。
論文 参考訳(メタデータ) (2025-10-30T15:07:55Z) - Vision-Language Integration for Zero-Shot Scene Understanding in Real-World Environments [0.0]
本研究では,事前学習した視覚エンコーダと大規模言語モデルを統一する視覚言語統合フレームワークを提案する。
提案システムでは,トップ1の精度が最大18%向上し,セマンティック・コヒーレンス・メトリクスが顕著に向上した。
論文 参考訳(メタデータ) (2025-10-29T01:16:21Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。
既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。
本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文 参考訳(メタデータ) (2023-11-09T22:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。