論文の概要: Information-Consistent Language Model Recommendations through Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.12858v1
- Date: Sun, 14 Dec 2025 21:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.474467
- Title: Information-Consistent Language Model Recommendations through Group Relative Policy Optimization
- Title(参考訳): グループ相対的政策最適化による情報一貫性言語モデル勧告
- Authors: Sonal Prabhune, Balaji Padmanabhan, Kaushik Dutta,
- Abstract要約: 大規模言語モデル(LLM)は、金融、教育、医療、顧客サポートといったビジネス上重要な分野にますます導入されている。
LLMは、意味論的に等価であっても、プロンプトが小さな違いで表現されるとき、しばしば変動を示す。
一貫性を最適化するためのグループ相対政策最適化(GRPO)に基づく強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.969918993270049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in business-critical domains such as finance, education, healthcare, and customer support, where users expect consistent and reliable recommendations. Yet LLMs often exhibit variability when prompts are phrased with minor differences, even when semantically equivalent. Such inconsistency undermines trust, complicates compliance, and disrupts user experience. While personalization is desirable in certain contexts, many enterprise scenarios-such as HR onboarding, customer support, or policy disclosure-require invariant information delivery regardless of phrasing or prior conversational history. Existing approaches, including retrieval-augmented generation (RAG) and temperature tuning, improve factuality or reduce stochasticity but cannot guarantee stability across equivalent prompts. In this paper, we propose a reinforcement learning framework based on Group Relative Policy Optimization (GRPO) to directly optimize for consistency. Unlike prior applications of GRPO, which have been limited to reasoning and code generation, we adapt GRPO to enforce stability of information content across groups of semantically equivalent prompts. We introduce entropy-based helpfulness and stability rewards, treating prompt variants as groups and resetting conversational context to isolate phrasing effects. Experiments on investment and job recommendation tasks show that our GRPO-trained model reduces variability more effectively than fine-tuning or decoding-based baselines. To our knowledge, this is a novel application of GRPO for aligning LLMs toward information consistency, reframing variability not as an acceptable feature of generative diversity but as a correctable flaw in enterprise deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、金融、教育、医療、顧客サポートといったビジネスクリティカルな領域にますます展開され、ユーザーは一貫性のある信頼できるレコメンデーションを期待している。
しかし、LLMは、意味論的に等価であっても、プロンプトが小さな違いで表現されるとき、しばしば変動を示す。
このような矛盾は信頼を損ね、コンプライアンスを複雑にし、ユーザエクスペリエンスを損なう。
パーソナライズ(パーソナライズ)は特定の状況において望ましいが、人事のオンボーディング、カスタマーサポート、政策開示要求の不変情報配信など多くのエンタープライズシナリオは、フレーズや以前の会話履歴に関係なく望ましい。
検索強化生成(RAG)や温度調整を含む既存のアプローチは、事実性を改善したり、確率性を低下させるが、等価なプロンプト間の安定性を保証することはできない。
本稿では,グループ相対政策最適化(GRPO)に基づく強化学習フレームワークを提案する。
推論やコード生成に限られていたGRPOの以前の応用とは異なり、GRPOは意味論的に等価なプロンプトのグループ間で情報コンテンツの安定性を強制するために適応する。
我々は,エントロピーに基づく有用性と安定性の報酬を導入し,プロンプト変種をグループとして扱い,言い換えの効果を分離するために会話コンテキストをリセットする。
投資や仕事の推薦タスクの実験では、GRPOが学習したモデルが、微調整や復号化に基づくベースラインよりも、より効果的に変動性を減少させることが示された。
我々の知る限り、これは情報整合性に向けてLLMを整列化するためのGRPOの新たな応用であり、生成多様性の許容できる特徴ではなく、企業展開における修正可能な欠陥として、多様性を反映している。
関連論文リスト
- Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation [18.178060190776858]
GRPOの新たな拡張であるBPGOを導入し、セマンティックな先行アンカーを通して報酬の不確実性を明示的にモデル化する。
BPGOは一貫して強いセマンティックアライメントを提供し、知覚の忠実度を高め、標準GRPOや最近の変種よりも早く収束する。
論文 参考訳(メタデータ) (2025-11-24T09:29:30Z) - POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.829572148850563]
ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。
エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。
ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
論文 参考訳(メタデータ) (2025-10-06T09:30:18Z) - SGPO: Self-Generated Preference Optimization based on Self-Improver [6.528083376369728]
大規模言語モデル(LLM)は、実用的で信頼性の高いデプロイメントのために人間の好みに合わせている必要がある。
SGPO(Self-Generated Preference Optimization)を提案する。
改善者は、ポリシーモデルの直接選好最適化(DPO)のための自己生成選好データに対するポリシーモデルからの応答を洗練する。
AlpacaEval 2.0 と Arena-Hard の実験結果から,提案した SGPO は DPO とベースライン自己改善法を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-27T08:55:40Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization [57.69385990442078]
大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。
セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
論文 参考訳(メタデータ) (2025-05-18T10:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。