論文の概要: EVE: A Generator-Verifier System for Generative Policies
- arxiv url: http://arxiv.org/abs/2512.21430v1
- Date: Wed, 24 Dec 2025 21:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.515059
- Title: EVE: A Generator-Verifier System for Generative Policies
- Title(参考訳): EVE:ジェネレーティブ・ポリシーのためのジェネレータ検証システム
- Authors: Yusuf Ali, Gryphon Patlin, Karthik Kothuri, Muhammad Zubair Irshad, Wuwei Liang, Zsolt Kira,
- Abstract要約: 生成的アーキテクチャに基づくビジュモータポリシーは、強い性能を示すが、分散シフトの下では劣化する。
Eveはモジュール型ジェネレータと検証器のインタラクションフレームワークで、テスト時に事前訓練された生成ポリシーのパフォーマンスを高める。
- 参考スコア(独自算出の注目度): 27.92559083553638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visuomotor policies based on generative architectures such as diffusion and flow-based matching have shown strong performance but degrade under distribution shifts, demonstrating limited recovery capabilities without costly finetuning. In the language modeling domain, test-time compute scaling has revolutionized reasoning capabilities of modern LLMs by leveraging additional inference-time compute for candidate solution refinement. These methods typically leverage foundation models as verification modules in a zero-shot manner to synthesize improved candidate solutions. In this work, we hypothesize that generative policies can similarly benefit from additional inference-time compute that employs zero-shot VLM-based verifiers. A systematic analysis of improving policy performance through the generation-verification framework remains relatively underexplored in the current literature. To this end, we introduce EVE - a modular, generator-verifier interaction framework - that boosts the performance of pretrained generative policies at test time, with no additional training. EVE wraps a frozen base policy with multiple zero-shot, VLM-based verifier agents. Each verifier proposes action refinements to the base policy candidate actions, while an action incorporator fuses the aggregated verifier output into the base policy action prediction to produce the final executed action. We study design choices for generator-verifier information interfacing across a system of verifiers with distinct capabilities. Across a diverse suite of manipulation tasks, EVE consistently improves task success rates without any additional policy training. Through extensive ablations, we isolate the contribution of verifier capabilities and action incorporator strategies, offering practical guidelines to build scalable, modular generator-verifier systems for embodied control.
- Abstract(参考訳): 拡散やフローベースマッチングといった生成的アーキテクチャに基づくビジュモータポリシは, 分散シフトによって性能が低下する一方で, コストのかかる微調整を伴わずに, 限られた回復能力を示す。
言語モデリング分野において、テスト時間計算のスケーリングは、予測時間計算を候補解の洗練に活用することで、現代のLLMの推論能力に革命をもたらした。
これらの手法は通常、改良された候補解を合成するためにゼロショット方式で検証モジュールとして基礎モデルを利用する。
本研究では、ゼロショットVLMベースの検証器を用いた推論時間計算により、生成ポリシーが同様に恩恵を受けることができると仮定する。
ジェネレーション検証フレームワークによる政策改善の体系的分析は、現在の文献では比較的過小評価されている。
この目的のために、モジュール式でジェネレータと検証可能なインタラクションフレームワークであるEVEを導入し、テスト時に事前トレーニングされた生成ポリシーのパフォーマンスを、追加のトレーニングなしで向上させる。
EVEは、凍結したベースポリシーを複数のゼロショット、VLMベースの検証エージェントでラップする。
各検証器は、基本方針候補動作に対して動作改善を提案し、作用インセンタは、集約された検証器出力を基本方針行動予測に融合させ、最終的な実行動作を生成する。
本研究では,異なる機能を持つ検証器システムに面したジェネレータ検証情報の設計選択について検討する。
多様な操作タスクのスイート全体で、EVEは、追加のポリシートレーニングなしでタスクの成功率を継続的に改善する。
本研究では,検証機能とアクション・インコーポレータ・ストラテジーのコントリビューションを分離し,拡張性のあるモジュール型ジェネレータ検証システムを構築するための実践的ガイドラインを提供する。
関連論文リスト
- Self-Evolving Multi-Agent Network for Industrial IoT Predictive Maintenance [5.571627005866756]
産業用IoT予測メンテナンスには、解釈可能性や過剰な計算リソースを犠牲にすることなく、リアルタイムな異常検出が可能なシステムが必要である。
従来のアプローチは、進化する運用条件に適応できない、静的でオフラインでトレーニングされたモデルに依存しています。
我々は、エッジ、フォッグ、クラウドの計算層に特殊なエージェントを分散する自己進化型階層型マルチエージェントシステムSEMASを紹介する。
論文 参考訳(メタデータ) (2026-02-17T22:45:43Z) - Agentic Policy Optimization via Instruction-Policy Co-Evolution [44.74237684380034]
INSPOは、命令-政治共進化のための新しいフレームワークである。
強化学習ループの動的コンポーネントとして命令最適化を統合する。
実験では、INSPOは計算オーバーヘッドを極端に増加させるだけで、かなりの性能向上を達成する。
論文 参考訳(メタデータ) (2025-12-01T17:56:29Z) - Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。