論文の概要: Aligning Black-box Language Models with Human Judgments
- arxiv url: http://arxiv.org/abs/2502.04997v1
- Date: Fri, 07 Feb 2025 15:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:52.177500
- Title: Aligning Black-box Language Models with Human Judgments
- Title(参考訳): 人間の判断によるブラックボックス言語モデルの調整
- Authors: Gerrit J. J. van den Burg, Gen Suzuki, Wei Liu, Murat Sensoy,
- Abstract要約: 大規模言語モデル(LLM)は、リコメンデーションシステム、検索エンジン、その他の主観的なタスクを評価するために、自動化された判断器としてますます使われる。
本研究では,LLM判定を個人評価者あるいはその集約的判断と整合させる枠組みを提案する。
提案手法は,29タスク間の合意平均142%以上の改善を実現し,少数の校正例のみをトレーニングに用いた。
- 参考スコア(独自算出の注目度): 8.30794246257544
- License:
- Abstract: Large language models (LLMs) are increasingly used as automated judges to evaluate recommendation systems, search engines, and other subjective tasks, where relying on human evaluators can be costly, time-consuming, and unscalable. LLMs offer an efficient solution for continuous, automated evaluation. However, since the systems that are built and improved with these judgments are ultimately designed for human use, it is crucial that LLM judgments align closely with human evaluators to ensure such systems remain human-centered. On the other hand, aligning LLM judgments with human evaluators is challenging due to individual variability and biases in human judgments. We propose a simple yet effective framework to align LLM judgments with individual human evaluators or their aggregated judgments, without retraining or fine-tuning the LLM. Our approach learns a linear mapping between the LLM's outputs and human judgments, achieving over 142% average improvement in agreement across 29 tasks with only a small number of calibration examples used for training. Notably, our method works in zero-shot and few-shot settings, exceeds inter-human agreement on four out of six tasks, and enables smaller LLMs to achieve performance comparable to that of larger models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、リコメンデーションシステム、検索エンジン、その他の主観的なタスクを評価するために、自動化された判断器としてますます使われており、人間の評価器に依存するのはコストがかかり、時間がかかり、計算不可能である。
LLMは、継続的かつ自動化された評価のための効率的なソリューションを提供する。
しかし、これらの判断によって構築・改善されたシステムは、究極的には人間の目的のために設計されているため、LLMの判断は人間中心のシステムを維持するために人間評価者と密接に一致することが重要である。
一方,LLM判定と人間評価との整合性は,個人差と人間の判断の偏りにより困難である。
我々は,LSMの再訓練や微調整をすることなく,LSMの判断を個人評価者やそれらの集約的判断と整合させる,シンプルで効果的な枠組みを提案する。
提案手法はLLMの出力と人的判断の線形マッピングを学習し,29のタスク間で平均142%以上の平均的な改善を実現した。
特に,本手法はゼロショットと少数ショットで動作し、6つのタスクのうち4つのタスクにおいて人間間合意を超え,より小さなLCMがより大きなモデルに匹敵する性能を実現する。
関連論文リスト
- Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。
自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-12-31T17:46:51Z) - Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation [2.933641361932625]
オープンなLCMを人間の好みに合わせるために、限られたデータからより効果的なサンプルを選択するためのデータ拡張手法を提案する。
本研究はPearsonの基準値に対する基準値との相関を約7%改善する。
論文 参考訳(メタデータ) (2024-12-10T11:40:11Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [10.091146498861333]
GPT-4のような商用の大規模言語モデル(LLM)は、近年、異なるアライメントアプローチの評価と比較に使われている。
LLM審査員の信頼性とアライメントを評価・比較・可視化する枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。