論文の概要: Efficient RL for optimizing conversation level outcomes with an LLM-based tutor
- arxiv url: http://arxiv.org/abs/2507.16252v1
- Date: Tue, 22 Jul 2025 05:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.982806
- Title: Efficient RL for optimizing conversation level outcomes with an LLM-based tutor
- Title(参考訳): LLMに基づく教師による会話レベル結果の最適化のための効率的なRL
- Authors: Hyunji Nam, Omer Gottesman, Amy Zhang, Dean Foster, Emma Brunskill, Lyle Ungar,
- Abstract要約: 大規模言語モデル(LLM)は、人間フィードバック(RLHF)フレームワークによる既存の強化学習に基づいて構築される。
学生の低次元潜在状態表現を用いて対話履歴を表現し,LLMに基づくチュータを強化する手法を提案する。
我々のモデルは軽量であり、チューターの次の発話を直接出力するために、チューターポリシーをエンドツーエンドにトレーニングする以前の作業よりも計算資源を少なくする。
- 参考スコア(独自算出の注目度): 28.21843718188098
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) built on existing reinforcement learning with human feedback (RLHF) frameworks typically optimize responses based on immediate turn-level human preferences. However, this approach falls short in multi-turn dialogue settings, such as online math tutoring. We propose a method to enhance LLM-based tutors by representing the dialogue history with a lower-dimensional latent state representation of a student and optimizing a long-term policy to determine high-level actions based on the latent state. The goal is to better align the tutor's behavior with the long-term objective of guiding the student towards solving a target math problem on their own. Our model is lightweight, requiring less computational resources than prior work of training the tutor policy end-to-end to directly output the tutor's next utterance. Our experiment results demonstrate that these modifications lead to improved long-term outcomes compared to prompting in LLM-simulated tutoring tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間フィードバック(RLHF)フレームワークによる既存の強化学習に基づいて構築される。
しかし、このアプローチはオンライン数学の授業など、マルチターンの対話設定では不十分である。
学生の低次元潜在状態表現を用いて対話履歴を表現し、長期ポリシーを最適化し、潜在状態に基づいてハイレベルな行動を決定することによって、LCMベースの講師を強化する方法を提案する。
目的は,教師の行動と長期的目標との整合性を高めることにある。
我々のモデルは軽量であり、チューターの次の発話を直接出力するために、チューターポリシーをエンドツーエンドにトレーニングする以前の作業よりも計算資源を少なくする。
実験の結果,これらの修正が長期成績の改善につながることが明らかとなった。
関連論文リスト
- Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [76.09281171131941]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - Alignment Drift in CEFR-prompted LLMs for Interactive Spanish Tutoring [0.0]
本稿では,第二言語学習における適応型チューターとしてのLarge Language Models(LLMs)の可能性について検討する。
スペイン語の教師と学生の対話を,7Bから12Bまでの大きさの命令調整型オープンソースのLLMを用いてシミュレートした。
次に、チューターモデルからの出力を用いて、3つの習熟度レベルにわたるテキストの難易度を制御するCEFRベースのプロンプトの有効性を評価する。
論文 参考訳(メタデータ) (2025-05-13T08:50:57Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - Developing a Tutoring Dialog Dataset to Optimize LLMs for Educational Use [1.2277343096128712]
大規模言語モデル(LLM)は、スケーラブルな教育アプリケーションへの期待を示している。
本研究は,読解問題における1対1の指導に,より小型で手頃なLPMを用いることを検討した。
論文 参考訳(メタデータ) (2024-10-25T00:40:21Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。