論文の概要: Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.17497v1
- Date: Thu, 19 Feb 2026 16:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.202549
- Title: Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた時間クレジットアサインメントのための反省的インテクスト学習
- Authors: Wen-Tse Chen, Jiayu Chen, Fahim Tajwar, Hao Zhu, Xintong Duan, Ruslan Salakhutdinov, Jeff Schneider,
- Abstract要約: 時間的クレジット割り当ては、スパースフィードバックを密集した監視信号に変換することでこの問題を緩和する。
本稿では,大言語モデル(LLM)から事前学習した知識を利用して,スパース報酬を高密度な学習信号に変換することを提案する。
オンライン学習フレームワークRICOLは、クレジット代入結果に基づいてポリシーを反復的に洗練する。
- 参考スコア(独自算出の注目度): 41.59440766417004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from self-sampled data and sparse environmental feedback remains a fundamental challenge in training self-evolving agents. Temporal credit assignment mitigates this issue by transforming sparse feedback into dense supervision signals. However, previous approaches typically depend on learning task-specific value functions for credit assignment, which suffer from poor sample efficiency and limited generalization. In this work, we propose to leverage pretrained knowledge from large language models (LLMs) to transform sparse rewards into dense training signals (i.e., the advantage function) through retrospective in-context learning (RICL). We further propose an online learning framework, RICOL, which iteratively refines the policy based on the credit assignment results from RICL. We empirically demonstrate that RICL can accurately estimate the advantage function with limited samples and effectively identify critical states in the environment for temporal credit assignment. Extended evaluation on four BabyAI scenarios show that RICOL achieves comparable convergent performance with traditional online RL algorithms with significantly higher sample efficiency. Our findings highlight the potential of leveraging LLMs for temporal credit assignment, paving the way for more sample-efficient and generalizable RL paradigms.
- Abstract(参考訳): 自己サンプルデータから学習し、環境フィードバックを疎結合にすることは、自己進化エージェントを訓練する上での根本的な課題である。
時間的クレジット割り当ては、スパースフィードバックを密集した監視信号に変換することでこの問題を緩和する。
しかし、従来の手法は一般的に、サンプル効率の低下と限定的な一般化に苦しむ信用代入のためのタスク固有値関数の学習に依存する。
本研究では,大言語モデル(LLM)から事前学習した知識を活用して,リフレクション・イン・コンテクスト学習(RICL)を通じて,スパース報酬を高密度な学習信号(アドバンテージ関数)に変換することを提案する。
さらに、RICLのクレジット代入結果に基づいてポリシーを反復的に洗練するオンライン学習フレームワーク RICOL を提案する。
我々は,RICLが限られたサンプルを用いて有効性を正確に推定し,時間的信用割当のための環境における臨界状態を効果的に同定できることを実証的に実証した。
4つのBabyAIシナリオに対する拡張評価は、RICOLが従来のオンラインRLアルゴリズムと同等の収束性能を達成し、サンプル効率が大幅に向上したことを示している。
本研究は,LCMを時間的信用代入に活用し,よりサンプリング効率が高く一般化可能なRLパラダイムを実現する可能性を明らかにする。
関連論文リスト
- LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Blending Imitation and Reinforcement Learning for Robust Policy Improvement [15.46204945792257]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。