論文の概要: Visual Prompt Guided Unified Pushing Policy
- arxiv url: http://arxiv.org/abs/2602.19193v1
- Date: Sun, 22 Feb 2026 13:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.524811
- Title: Visual Prompt Guided Unified Pushing Policy
- Title(参考訳): Visual Promptが統一プッシュポリシーをガイド
- Authors: Hieu Bui, Ziyan Gao, Yuya Hosoda, Joo-Ho Lee,
- Abstract要約: 本稿では,軽量なプロンプト機構をフローマッチングポリシに組み込んだ統一的なプッシュポリシを提案する。
視覚的なプロンプトはハイレベルなプランナーによって指定することができ、様々な計画上の問題に対してプッシュポリシーの再利用を可能にする。
- 参考スコア(独自算出の注目度): 4.9383356429812215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As one of the simplest non-prehensile manipulation skills, pushing has been widely studied as an effective means to rearrange objects. Existing approaches, however, typically rely on multi-step push plans composed of pre-defined pushing primitives with limited application scopes, which restrict their efficiency and versatility across different scenarios. In this work, we propose a unified pushing policy that incorporates a lightweight prompting mechanism into a flow matching policy to guide the generation of reactive, multimodal pushing actions. The visual prompt can be specified by a high-level planner, enabling the reuse of the pushing policy across a wide range of planning problems. Experimental results demonstrate that the proposed unified pushing policy not only outperforms existing baselines but also effectively serves as a low-level primitive within a VLM-guided planning framework to solve table-cleaning tasks efficiently.
- Abstract(参考訳): 最も単純な非包括的操作技術の一つとして、プッシュはオブジェクトを並べ替える効果的な方法として広く研究されている。
しかし、既存のアプローチは一般的に、アプリケーションスコープが限定された事前定義されたプッシュプリミティブで構成されるマルチステッププッシュプランに依存しており、異なるシナリオにおける効率性と汎用性を制限する。
本研究では,軽量なプロンプト機構をフローマッチングポリシに組み込んだ統一的なプッシュポリシを提案し,リアクティブなマルチモーダルなプッシュアクションの生成を誘導する。
視覚的なプロンプトはハイレベルなプランナーによって指定することができ、様々な計画上の問題に対してプッシュポリシーの再利用を可能にする。
実験の結果,提案手法は既存のベースラインよりも優れているだけでなく,テーブルクリーニングタスクを効率的に解くためのVLM誘導計画フレームワークにおいて,低レベルプリミティブとして有効であることがわかった。
関連論文リスト
- Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies [36.44665658496622]
この研究は、MLES(Multimodal Large Language Model-assisted Evolutionary Search)と呼ばれるプログラム制御ポリシー発見のための新しいアプローチを導入する。
MLESはマルチモーダルな大言語モデルをプログラム型ポリシー生成器として利用し、それらを進化的検索と組み合わせてポリシー生成を自動化する。
実験の結果,MLESは2つの標準制御タスクでPPOに匹敵する性能を達成できた。
論文 参考訳(メタデータ) (2025-08-07T14:24:03Z) - Customize Multi-modal RAI Guardrails with Precedent-based predictions [55.63757336900865]
マルチモーダルガードレールは、ユーザ定義ポリシーに基づいて、画像コンテンツを効果的にフィルタリングする必要がある。
既存の微調整手法は、通常、事前に定義されたポリシーの条件予測を行う。
本稿では、入力に類似した先行データポイントの推論過程である「先行情報」に対する条件モデルの判断を提案する。
論文 参考訳(メタデータ) (2025-07-28T03:45:34Z) - Policy gradient methods for ordinal policies [0.7366405857677227]
強化学習において、ソフトマックスパラメトリゼーション(英: softmax parametrization)は、離散的な作用空間に対するポリシーの標準的なアプローチである。
強化学習環境に適応した順序回帰モデルに基づく新しい政策パラメトリゼーションを提案する。
論文 参考訳(メタデータ) (2025-06-23T13:19:36Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Distilling a Hierarchical Policy for Planning and Control via
Representation and Reinforcement Learning [18.415568038071306]
エージェントが様々なタスクを実行し、新しいタスクに柔軟に対応できる階層的計画制御フレームワークを提案する。
各タスクに対する個別のポリシーを学ぶのではなく、提案するフレームワークであるdisHは、表現と強化学習によって一連のタスクから階層的なポリシーを蒸留する。
論文 参考訳(メタデータ) (2020-11-16T23:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。