論文の概要: GAPO: Learning Preferential Prompt through Generative Adversarial Policy Optimization
- arxiv url: http://arxiv.org/abs/2503.20194v1
- Date: Wed, 26 Mar 2025 03:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 19:18:47.03626
- Title: GAPO: Learning Preferential Prompt through Generative Adversarial Policy Optimization
- Title(参考訳): GAPO:ジェネレーティブ・ディバイサル・ポリシー・最適化による優先課題の学習
- Authors: Zhouhong Gu, Xingzhou Chen, Xiaoran Shi, Tao Wang, Suhang Zheng, Tianyu Li, Hongwei Feng, Yanghua Xiao,
- Abstract要約: 本稿では,GAPO(Generative Adversarial Policy Optimization)を紹介する。GAPOは,GANベースのトレーニングダイナミクスとエンコーダのみの報酬モデルを組み合わせた新しいフレームワークである。
大規模な実験では、GAPOは複数のベンチマークで優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 28.85371253733727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models have highlighted the critical need for precise control over model outputs through predefined constraints. While existing methods attempt to achieve this through either direct instruction-response synthesis or preferential response optimization, they often struggle with constraint understanding and adaptation. This limitation becomes particularly evident when handling fine-grained constraints, leading to either hallucination or brittle performance. We introduce Generative Adversarial Policy Optimization (GAPO), a novel framework that combines GAN-based training dynamics with an encoder-only reward model to progressively learn and adapt to increasingly complex constraints. GAPO leverages adversarial training to automatically generate training samples of varying difficulty while utilizing the encoder-only architecture to better capture prompt-response relationships. Extensive experiments demonstrate GAPO's superior performance across multiple benchmarks, particularly in scenarios requiring fine-grained constraint handling, where it significantly outperforms existing methods like PPO, DPO, and KTO. Our results suggest that GAPO's unique approach to preferential prompt learning offers a more robust and effective solution for controlling LLM outputs. Code is avaliable in https://github.com/MikeGu721/GAPO.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、事前定義された制約を通じてモデル出力を正確に制御する重要な必要性を強調している。
既存の手法は直接命令応答合成または優先応答最適化によってこれを達成しようとするが、それらはしばしば制約理解と適応に苦慮する。
この制限は、きめ細かい制約を扱う際に特に顕著になり、幻覚または脆いパフォーマンスをもたらす。
我々は,GAPO(Generative Adversarial Policy Optimization)という,GAPO(Generative Adversarial Policy Optimization)という,GAPO(Generative Adversarial Policy Optimization)という,GAPO(Generative Adversarial Policy Optimization)という,GANベースのトレーニングダイナミクスとエンコーダのみの報酬モデルを組み合わせた新たなフレームワークを紹介した。
GAPOは、敵のトレーニングを活用して、エンコーダのみのアーキテクチャを活用して、様々な困難のあるトレーニングサンプルを自動的に生成し、迅速な応答関係をよりよく捉える。
大規模な実験では、GAPOが複数のベンチマークで優れたパフォーマンスを示しており、特にPPO、DPO、KTOといった既存の手法を著しく上回る、きめ細かな制約処理を必要とするシナリオにおいてである。
この結果から,GAPOの優先的学習に対するユニークなアプローチは,LLM出力を制御する上で,より堅牢で効果的なソリューションをもたらすことが示唆された。
コードはhttps://github.com/MikeGu721/GAPOで検証できる。
関連論文リスト
- GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning [17.544255491384046]
グループポリシーグラディエント(GPG)と呼ばれる最小主義的RLアプローチを提案する。
従来の手法とは異なり、GAGは元のRL目標を直接最適化するので、損失関数のサロゲートが不要になる。
本手法は補助的な技術や調整に頼ることなく優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-03T12:53:41Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。