論文の概要: Approximating Human Preferences Using a Multi-Judge Learned System
- arxiv url: http://arxiv.org/abs/2510.25884v1
- Date: Wed, 29 Oct 2025 18:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.539856
- Title: Approximating Human Preferences Using a Multi-Judge Learned System
- Title(参考訳): マルチジャッジ学習システムを用いた人間の嗜好の近似
- Authors: Eitán Sprejer, Fernando Avalos, Augusto Bernardi, Jose Pedro Brito de Azevedo Faustino, Jacob Haimes, Narmeen Fatimah Oozeer,
- Abstract要約: 本稿では,複数のルーリック条件の審査員から出力を収集することを学ぶことによって,多様なペルソナに基づく選好をモデル化する枠組みを提案する。
コントリビューションには、大規模に好みラベルを合成するペルソナベースの方法と、アグリゲータの2つの異なる実装が含まれている。
- 参考スコア(独自算出の注目度): 35.18016233072556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning LLM-based judges with human preferences is a significant challenge, as they are difficult to calibrate and often suffer from rubric sensitivity, bias, and instability. Overcoming this challenge advances key applications, such as creating reliable reward models for Reinforcement Learning from Human Feedback (RLHF) and building effective routing systems that select the best-suited model for a given user query. In this work, we propose a framework for modeling diverse, persona-based preferences by learning to aggregate outputs from multiple rubric-conditioned judges. We investigate the performance of this approach against naive baselines and assess its robustness through case studies on both human and LLM-judges biases. Our primary contributions include a persona-based method for synthesizing preference labels at scale and two distinct implementations of our aggregator: Generalized Additive Model (GAM) and a Multi-Layer Perceptron (MLP).
- Abstract(参考訳): LLMに基づく判断を人間の好みで調整することは、校正が困難であり、しばしば滑稽な感度、偏見、不安定さに悩まされるため、大きな課題である。
この課題を克服するためには、人間フィードバックからの強化学習(RLHF)のための信頼性の高い報酬モデルの作成や、与えられたユーザクエリに最適なモデルを選択する効果的なルーティングシステムの構築など、主要なアプリケーションの開発が進められている。
本研究では,複数のルーリック条件の判断者から得られる出力を学習することで,多種多様なペルソナに基づく嗜好をモデル化する枠組みを提案する。
本研究は,ヒトおよびLSM-judgesバイアスのケーススタディにより,本手法の有効性を検証し,その堅牢性を評価する。
我々の主な貢献は、大規模に好みラベルを合成するペルソナ法と、一般化付加モデル(GAM)と多層パーセプトロン(MLP)という2つの異なるアグリゲータの実装である。
関連論文リスト
- Bridging Human and LLM Judgments: Understanding and Narrowing the Gap [39.90675202514829]
大規模言語モデルは、モデルアウトプットを大規模に評価するために、審査員(LLM-as-a-judge)として使われることが多い。
我々は、人間とLLMの評価を明示的に橋渡しする統一統計フレームワークであるBridgeを提案する。
論文 参考訳(メタデータ) (2025-08-18T10:14:20Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。
この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2025-02-22T10:59:11Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。