論文の概要: IB-GRPO: Aligning LLM-based Learning Path Recommendation with Educational Objectives via Indicator-Based Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.14686v1
- Date: Wed, 21 Jan 2026 06:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.250964
- Title: IB-GRPO: Aligning LLM-based Learning Path Recommendation with Educational Objectives via Indicator-Based Group Relative Policy Optimization
- Title(参考訳): IB-GRPO: Indicator-based Group Relative Policy OptimizationによるLLMに基づく学習経路勧告と教育目的との連携
- Authors: Shuai Wang, Yaoming Yang, Bingdong Li, Hao Hao, Aimin Zhou,
- Abstract要約: 学習経路勧告(LPR)は、長期学習効果を最大化する学習項目のパーソナライズされたシーケンスを生成することを目的としている。
LLMは、自由形式のレコメンデーションにリッチなセマンティック理解を提供し、それを長期のLPRに適用することは困難である。
LLMに基づくLPRのためのインジケータ誘導アライメント手法であるIB-GRPOを提案する。
- 参考スコア(独自算出の注目度): 20.87328464098245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning Path Recommendation (LPR) aims to generate personalized sequences of learning items that maximize long-term learning effect while respecting pedagogical principles and operational constraints. Although large language models (LLMs) offer rich semantic understanding for free-form recommendation, applying them to long-horizon LPR is challenging due to (i) misalignment with pedagogical objectives such as the Zone of Proximal Development (ZPD) under sparse, delayed feedback, (ii) scarce and costly expert demonstrations, and (iii) multi-objective interactions among learning effect, difficulty scheduling, length controllability, and trajectory diversity. To address these issues, we propose IB-GRPO (Indicator-Based Group Relative Policy Optimization), an indicator-guided alignment approach for LLM-based LPR. To mitigate data scarcity, we construct hybrid expert demonstrations via Genetic Algorithm search and teacher RL agents and warm-start the LLM with supervised fine-tuning. Building on this warm-start, we design a within-session ZPD alignment score for difficulty scheduling. IB-GRPO then uses the $I_{ε+}$ dominance indicator to compute group-relative advantages over multiple objectives, avoiding manual scalarization and improving Pareto trade-offs. Experiments on ASSIST09 and Junyi using the KES simulator with a Qwen2.5-7B backbone show consistent improvements over representative RL and LLM baselines.
- Abstract(参考訳): 学習経路勧告(LPR)は、教育原則や運用上の制約を尊重しながら、長期学習効果を最大化する学習項目のパーソナライズされたシーケンスを生成することを目的としている。
大きな言語モデル(LLM)は、自由形式のレコメンデーションにリッチなセマンティック理解を提供するが、それを長期LPRに適用することは困難である。
一 軽度で遅延したフィードバックの下で、近親開発ゾーン(ZPD)等の教育目的と不一致すること。
(二)希少で費用のかかる専門家によるデモンストレーション
三 学習効果、難易度スケジューリング、長さ制御性、軌跡多様性の多目的相互作用。
これらの問題に対処するために, LLM に基づく LPR のための指標誘導アライメント手法 IB-GRPO (Indicator-based Group Relative Policy Optimization) を提案する。
データ不足を軽減するため、遺伝的アルゴリズム検索と教師RLエージェントによるハイブリッド・エキスパート・デモを構築し、教師による微調整でLLMをウォームスタートする。
このウォームスタートに基づいて、スケジューリングの難しさを考慮し、セッション内ZPDアライメントスコアを設計する。
IB-GRPOは、$I_{ε+}$支配指標を使用して、複数の目的に対するグループ相対的な優位性を計算し、手動のスカラー化を避け、パレートトレードオフを改善する。
KESシミュレータとQwen2.5-7Bバックボーンを用いたASSIST09とJunyiの実験では、代表的なRLとLLMベースラインよりも一貫した改善が見られた。
関連論文リスト
- Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。
LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。
本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:28:29Z) - Guiding Exploration in Reinforcement Learning Through LLM-Augmented Observations [0.0]
大規模言語モデル(LLM)は、手続き的知識とテキスト事前学習による推論能力を持っている。
拡張観測空間を通してLLM生成アクションレコメンデーションを提供するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:54:31Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - The Hidden Link Between RLHF and Contrastive Learning [56.45346439723488]
RLHF(Reinforcement Learning from Human Feedback)とDPO(Simple Direct Preference Optimization)は相互情報(MI)の観点から解釈可能であることを示す。
このフレームワーク内では、RLHFとDPOの両方を、ベースモデルから派生した正と負のサンプルに基づいて対照的な学習を行う方法として解釈することができる。
そこで本稿では,DPO で観測される選択的傾向の後期的低下を軽減するための相互情報最適化 (MIO) を提案する。
論文 参考訳(メタデータ) (2025-06-27T18:51:25Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。