論文の概要: NVSPolicy: Adaptive Novel-View Synthesis for Generalizable Language-Conditioned Policy Learning
- arxiv url: http://arxiv.org/abs/2505.10359v1
- Date: Thu, 15 May 2025 14:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-18 16:36:57.411006
- Title: NVSPolicy: Adaptive Novel-View Synthesis for Generalizable Language-Conditioned Policy Learning
- Title(参考訳): NVSPolicy: 一般化可能な言語記述型政策学習のための適応的ノベルビュー合成
- Authors: Le Shi, Yifei Shi, Xin Xu, Tenglong Liu, Junhua Xi, Chengyuan Chen,
- Abstract要約: NVSPolicyは、適応型新規ビュー合成モジュールと階層型ポリシーネットワークを結合した、一般化可能な言語条件付きポリシー学習手法である。
NVSPolicyはすべてのタスクで平均90.4%の成功率を実現しており、最近の手法よりも優れています。
さらに,NVSPolicyを実世界のロボットプラットフォーム上で評価し,実用性を示す。
- 参考スコア(独自算出の注目度): 10.880824035303176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep generative models demonstrate unprecedented zero-shot generalization capabilities, offering great potential for robot manipulation in unstructured environments. Given a partial observation of a scene, deep generative models could generate the unseen regions and therefore provide more context, which enhances the capability of robots to generalize across unseen environments. However, due to the visual artifacts in generated images and inefficient integration of multi-modal features in policy learning, this direction remains an open challenge. We introduce NVSPolicy, a generalizable language-conditioned policy learning method that couples an adaptive novel-view synthesis module with a hierarchical policy network. Given an input image, NVSPolicy dynamically selects an informative viewpoint and synthesizes an adaptive novel-view image to enrich the visual context. To mitigate the impact of the imperfect synthesized images, we adopt a cycle-consistent VAE mechanism that disentangles the visual features into the semantic feature and the remaining feature. The two features are then fed into the hierarchical policy network respectively: the semantic feature informs the high-level meta-skill selection, and the remaining feature guides low-level action estimation. Moreover, we propose several practical mechanisms to make the proposed method efficient. Extensive experiments on CALVIN demonstrate the state-of-the-art performance of our method. Specifically, it achieves an average success rate of 90.4\% across all tasks, greatly outperforming the recent methods. Ablation studies confirm the significance of our adaptive novel-view synthesis paradigm. In addition, we evaluate NVSPolicy on a real-world robotic platform to demonstrate its practical applicability.
- Abstract(参考訳): 深部生成モデルの最近の進歩は、前例のないゼロショットの一般化能力を示し、非構造環境におけるロボット操作に大きな可能性を秘めている。
シーンを部分的に観察すると、深い生成モデルは見えない領域を生成し、より多くのコンテキストを提供することができるため、見えない環境をまたいでロボットが一般化する能力を高めることができる。
しかし、生成した画像の視覚的アーティファクトと、ポリシー学習におけるマルチモーダル機能の非効率な統合のため、この方向は未解決の課題である。
NVSPolicyは、適応型新規ビュー合成モジュールと階層型ポリシーネットワークを結合した、一般化可能な言語条件付きポリシー学習手法である。
入力画像が与えられた場合、NVSPolicyは動的に情報的視点を選択し、適応的なノベルビュー画像を合成して視覚的コンテキストを豊かにする。
不完全な合成画像の影響を軽減するために、視覚的特徴を意味的特徴と残りの特徴に分散させるサイクル一貫性のVAE機構を採用する。
セマンティック機能はハイレベルなメタスキルの選択を知らせ、残りの機能は低レベルなアクション推定を導く。
また,提案手法を効率的にするための実用的メカニズムをいくつか提案する。
CALVINに関する大規模な実験により,本手法の最先端性能が実証された。
具体的には、すべてのタスクの平均成功率は90.4\%に達し、最近の手法よりも大幅に優れています。
アブレーション研究は、我々の適応的ノベルビュー合成パラダイムの重要性を裏付けるものである。
さらに,NVSPolicyを実世界のロボットプラットフォーム上で評価し,実用性を示す。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。
本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文 参考訳(メタデータ) (2024-09-05T16:39:21Z) - Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。
本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。
シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Meta-Learning via Classifier(-free) Guidance [5.812784742024491]
最先端のメタ学習技術は、目に見えないタスクへのゼロショット適応を最適化しない。
本稿では,自然言語指導によるゼロショット性能向上のためのメタ学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:09:35Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。