論文の概要: GEM: Generative Entropy-Guided Preference Modeling for Few-shot Alignment of LLMs
- arxiv url: http://arxiv.org/abs/2511.13007v1
- Date: Mon, 17 Nov 2025 06:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.703155
- Title: GEM: Generative Entropy-Guided Preference Modeling for Few-shot Alignment of LLMs
- Title(参考訳): GEM:LLMのFew-shotアライメントのための生成エントロピー誘導選好モデリング
- Authors: Yiyang Zhao, Huiyu Bai, Xuejiao Zhao,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のためのジェネレーティブエントロピー誘導選好モデリング手法GEMを提案する。
選好データに基づいて差別的な報酬モデルを訓練する代わりに、LLMを直接訓練してクローズドループ最適化アーキテクチャを内部化する。
一般的なベンチマークとドメイン固有のタスクの実験は、GEMが数ショットの選好データで大幅な改善を達成していることを示している。
- 参考スコア(独自算出の注目度): 5.1816417820270075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment of large language models (LLMs) with human preferences typically relies on supervised reward models or external judges that demand abundant annotations. However, in fields that rely on professional knowledge, such as medicine and law, such large-scale preference labels are often unachievable. In this paper, we propose a generative entropy-guided preference modeling approach named GEM for LLMs aligment at low-resource and domain-specific scenarios. Instead of training a discriminative reward model on preference data, we directly train the LLM to internalize a closed-loop optimization architecture that can extract and exploit the multi-dimensional, fine-grained cognitive signals implicit in human preferences. Specifically, our Cognitive Filtering module, based on entropy theory in decision making, first leverages Chain-of-Thought (CoT) prompting to generate diverse candidate reasoning chains (CoTs) from preference data. Subsequently, it introduces a token scoring mechanism to rank and weight the sampled CoTs, boosting the importance of high-confidence answers and strategically high-entropy tokens. Building on these filtered preferences, we fine-tune the LLM using a novel self-evaluated group advantage algorithm, SEGA, which effectively aggregates group-level cognitive signals and transforms the entropy-based scores into implicit rewards for policy optimization. In these ways, GEM empowers the LLM to rely on its own judgments and establishes an entropy-guided closed-loop cognitive optimization framework, enabling highly efficient few-shot alignment of LLMs. Experiments on general benchmarks and domain-specific tasks (such as mathematical reasoning and medical dialogues) demonstrate that our GEM achieves significant improvements with few-shot preference data.
- Abstract(参考訳): 人間の好みを持つ大きな言語モデル(LLM)のアライメントは通常、豊富なアノテーションを要求する教師付き報酬モデルや外部の判断に依存する。
しかし、医学や法律などの専門知識に依存している分野では、このような大規模な嗜好ラベルは達成不可能であることが多い。
本稿では,低リソースおよびドメイン固有シナリオにおけるLLM配位のためのジェネレーティブエントロピー誘導選好モデリング手法GEMを提案する。
選好データに基づいて識別報酬モデルを訓練する代わりに、LLMを直接訓練してクローズドループ最適化アーキテクチャを内部化し、人間の選好に暗黙的に暗黙的な多次元的、きめ細かい認知信号を抽出し活用することができる。
具体的には、意思決定におけるエントロピー理論に基づく認知フィルタリングモジュールは、まず、好みデータから様々な候補推論チェーン(CoT)を生成するために、Chain-of-Thought(CoT)を活用する。
その後、サンプルCoTのランク付けと重み付けのためのトークンスコアリング機構を導入し、高信頼回答と戦略的に高エントロピートークンの重要性を高めた。
これらの選好に基づいて,グループレベルの認識信号を効果的に集約し,エントロピーに基づくスコアをポリシー最適化のための暗黙の報酬に変換する,新たな自己評価グループ優位アルゴリズムSEGAを用いて,LLMを微調整する。
このようにして、GEM は LLM に独自の判断を委ねる権限を与え、エントロピー誘導型閉ループ認知最適化フレームワークを確立し、LLM の高効率な数ショットアライメントを可能にする。
一般的なベンチマークや領域固有のタスク(数学的推論や医療対話など)の実験は、GEMが数ショットの選好データで大幅な改善を達成していることを示している。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Pareto-Optimal Learning from Preferences with Hidden Context [17.590330740964266]
本稿では,多元的アライメントを実現するPOPLを提案する。
理論的および実証的な評価は,POPLが報酬関数とポリシーの学習において,基本的手法を超越していることを示している。
また,POPLは,グループフェアネスの特定の概念を最適化する手法の基盤としても機能することを示す。
論文 参考訳(メタデータ) (2024-06-21T18:57:38Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。