論文の概要: Don't throw away your value model! Making PPO even better via
Value-Guided Monte-Carlo Tree Search decoding
- arxiv url: http://arxiv.org/abs/2309.15028v2
- Date: Wed, 18 Oct 2023 15:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:17:39.327592
- Title: Don't throw away your value model! Making PPO even better via
Value-Guided Monte-Carlo Tree Search decoding
- Title(参考訳): 価値モデルを捨てるな!
値誘導モンテカルロ木探索デコードによるPPOのさらなる改善
- Authors: Jiacheng Liu, Andrew Cohen, Ramakanth Pasunuru, Yejin Choi, Hannaneh
Hajishirzi, Asli Celikyilmaz
- Abstract要約: PPO(Proximal Policy Optimization)に基づいて自然言語テキストを生成する場合、推論時探索アルゴリズムは不要に思えるかもしれない
本稿では,モンテカルロ木探索 (MCTS) を統合することで,PPOから余分な距離を得ることが可能であることを実証する。
提案するPPO-MCTSは,PPOから値ネットワークを統合することで,推論時生成時のポリシネットワークと密接に連携する。
- 参考スコア(独自算出の注目度): 111.01641365246547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time search algorithms such as Monte-Carlo Tree Search (MCTS) may
seem unnecessary when generating natural language text based on
state-of-the-art reinforcement learning such as Proximal Policy Optimization
(PPO). In this paper, we demonstrate that it is possible to get extra mileage
out of PPO by integrating MCTS on top. The key idea is not to throw out the
value network, a byproduct of PPO training for evaluating partial output
sequences, when decoding text out of the policy network. More concretely, we
present a novel value-guided decoding algorithm called PPO-MCTS, which can
integrate the value network from PPO to work closely with the policy network
during inference-time generation. Compared to prior approaches based on MCTS
for controlled text generation, the key strength of our approach is to reduce
the fundamental mismatch of the scoring mechanisms of the partial outputs
between training and test. Evaluation on four text generation tasks demonstrate
that PPO-MCTS greatly improves the preferability of generated text compared to
the standard practice of using only the PPO policy. Our results demonstrate the
promise of search algorithms even on top of the aligned language models from
PPO, and the under-explored benefit of the value network.
- Abstract(参考訳): モンテカルロ木探索 (MCTS) のような推論時探索アルゴリズムは,PPO (Proximal Policy Optimization) のような最先端の強化学習に基づく自然言語テキストを生成する際に不要に思える。
本稿では, MCTSを上面に統合することにより, PPOから余分な距離を得ることが可能であることを実証する。
鍵となるアイデアは、ポリシーネットワークからテキストを復号する際に、部分的な出力シーケンスを評価するためのPPOトレーニングの副産物であるバリューネットワークを捨てないことである。
より具体的には、ppo-mctsと呼ばれる新しい値誘導復号アルゴリズムを提案する。これはppoからの価値ネットワークを統合して、推論時間生成中にポリシーネットワークと密接に連携することができる。
制御テキスト生成のためのMCTSに基づく従来の手法と比較して,本手法の主な強みは,トレーニングとテストの間の部分出力のスコアリング機構の基本的なミスマッチを低減することである。
4つのテキスト生成タスクの評価により, PPO-MCTS は PPO ポリシーのみを使用する標準的な方法に比べて, 生成テキストの優先性を大幅に向上することが示された。
この結果から,PPO の言語モデル上でも検索アルゴリズムが実現可能であること,および,探索されていない価値ネットワークの利点が示された。
関連論文リスト
- Token-level Proximal Policy Optimization for Query Generation [45.81132350185301]
State-of-the-art query generation methodは、文脈理解とテキスト生成における強力な能力にLarge Language Models(LLM)を利用する。
そこで本稿では,LLMのクエリ生成性能向上を目的としたノバルアプローチである,TOken-level Proximal Policy Optimization (TPPO)を提案する。
TPPOはReinforcement Learning from AI Feedback (RLAIF)パラダイムに基づいており、トークンレベルの報酬モデルとトークンレベルのポリシー最適化モジュールで構成されている。
論文 参考訳(メタデータ) (2024-11-01T16:36:14Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [36.97894955691627]
マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。
このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。
実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。
しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文 参考訳(メタデータ) (2023-03-08T10:41:22Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Neural Machine Translation with Monte-Carlo Tree Search [3.8073142980733]
機械翻訳における最近のアルゴリズムは、翻訳の各ステップでどの単語を出力するかを決定する際に、ポリシーネットワークを支援する値ネットワークを含んでいる。
このプロジェクトの主な目的は、モンテカルロ木探索(MCTS)を活用して、ポリシーと価値ネットワークアーキテクチャの組み合わせによる優れた出力語を検索することである。
IWLST14ドイツ語から英語への翻訳データセットを用いた実験では,近年の機械翻訳論文におけるアクター・クリティカルな手法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-27T01:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。