論文の概要: RLSF: Reinforcement Learning via Symbolic Feedback
- arxiv url: http://arxiv.org/abs/2405.16661v1
- Date: Sun, 26 May 2024 18:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:58:15.982344
- Title: RLSF: Reinforcement Learning via Symbolic Feedback
- Title(参考訳): RLSF:シンボリックフィードバックによる強化学習
- Authors: Piyush Jha, Prithwish Jana, Arnav Arora, Vijay Ganesh,
- Abstract要約: シンボリックフィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しいトレーニング/ファインチューニングパラダイムを提案する。
RLSFでは、学習/微調整されているLLMはRLエージェントと見なされ、環境は推論ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、2つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 12.238296793643942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (LLMs) have had a dramatic impact on various sub-fields of AI, most notably on natural language understanding tasks. However, there is widespread agreement that the logical reasoning capabilities of contemporary LLMs are, at best, fragmentary (i.e., may work well on some problem instances but fail dramatically on others). While traditional LLM fine-tuning approaches (e.g., those that use human feedback) do address this problem to some degree, they suffer from many issues, including unsound black-box reward models, difficulties in collecting preference data, and sparse scalar reward values. To address these challenges, we propose a new training/fine-tuning paradigm we refer to as Reinforcement Learning via Symbolic Feedback (RLSF), which is aimed at enhancing the reasoning capabilities of LLMs. In the RLSF setting, the LLM that is being trained/fine-tuned is considered as the RL agent, while the environment is allowed access to reasoning or domain knowledge tools (e.g., solvers, algebra systems). Crucially, in RLSF, these reasoning tools can provide feedback to the LLMs via poly-sized certificates (e.g., proofs), that characterize errors in the LLM-generated object with respect to some correctness specification. The ability of RLSF-based training/fine-tuning to leverage certificate-generating symbolic tools enables sound fine-grained (token-level) reward signals to LLMs, and thus addresses the limitations of traditional reward models mentioned above. Via extensive evaluations, we show that our RLSF-based fine-tuning of LLMs outperforms traditional approaches on two different applications, namely, program synthesis from natural language pseudo-code to programming language (C++) and solving the Game of 24.
- Abstract(参考訳): 近年、大規模言語モデル(LLM)はAIの様々なサブフィールド、特に自然言語理解タスクに劇的な影響を与えている。
しかし、現代のLLMの論理的推論能力は、せいぜい断片的である(例えば、いくつかの問題ではうまく機能するが、他の場合には劇的に失敗する)という意見が広く一致している。
従来のLCMファインチューニングアプローチ(例えば、人間のフィードバックを使用するもの)は、この問題にある程度対処するが、音のないブラックボックス報酬モデル、好みデータ収集の難しさ、スパースススカラー報酬値など、多くの問題に悩まされている。
これらの課題に対処するため,LLMの推論能力の向上を目的とした,RLSF(Reinforcement Learning via Symbolic Feedback)と呼ばれる新たなトレーニング/ファインチューニングパラダイムを提案する。
RLSF設定では、訓練/微調整されているLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツール(例えば、ソルバ、代数システム)へのアクセスが可能である。
重要なことに、RLSFでは、これらの推論ツールはポリサイズ証明書(例えば証明)を通じてLLMにフィードバックを与え、いくつかの正確性仕様に関してLLM生成オブジェクトのエラーを特徴付けることができる。
RLSFベースのトレーニング/ファインチューニングによる証明書生成のシンボリックツールの活用により、LSMに対する音のきめ細かい(トケンレベル)報酬信号が実現され、上述した従来の報酬モデルの制限に対処できる。
広範に評価した結果、我々のRLSFによるLLMの微調整は、自然言語の擬似コードからプログラミング言語(C++)へのプログラム合成と、ゲーム・オブ・24の解決という、2つの異なるアプリケーションにおける従来のアプローチよりも優れていることがわかった。
関連論文リスト
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation [23.182787000804407]
セッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして,大規模言語モデル(LLM)が登場している。
本稿では,SBRのための反射強化大言語モデル(Re2LLM)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:12:18Z) - Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection [24.435121488662897]
反射フィードバックによる強化学習(RLRF)という新しい枠組みを提案する。
RLRFは自己回帰機構を用いて、LLM応答を体系的に探索し、洗練し、RLアルゴリズムを介してモデルを微調整し、有望な応答を与える。
ジャスト・エバル, ファクタリティ, 数学的推論による実験は, RLRFの有効性と変換ポテンシャルを実証した。
論文 参考訳(メタデータ) (2024-03-21T08:57:27Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。