論文の概要: Exploring the Effects of Alignment on Numerical Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.16444v2
- Date: Mon, 26 Jan 2026 02:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:06.990755
- Title: Exploring the Effects of Alignment on Numerical Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるアライメントが数値バイアスに及ぼす影響の探索
- Authors: Ayako Sato, Hwichan Kim, Zhousi Chen, Masato Mita, Mamoru Komachi,
- Abstract要約: 大規模言語モデル(LLM)を評価指標として利用する「LLM-as-a-judge」は,多くの評価課題において有効であることが証明されている。
本研究では,評価器における数値バイアスの原因について検討する。
- 参考スコア(独自算出の注目度): 14.918747967803734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "LLM-as-a-judge," which utilizes large language models (LLMs) as evaluators, has proven effective in many evaluation tasks. However, evaluator LLMs exhibit numerical bias, a phenomenon where certain evaluation scores are generated disproportionately often, leading reduced evaluation performance. This study investigates the cause of this bias. Given that most evaluator LLMs are aligned through instruction tuning and preference tuning, and that prior research suggests alignment reduces output diversity, we hypothesize that numerical bias arises from alignment. To test this, we compare outputs from pre- and post-alignment LLMs, and observe that alignment indeed increases numerical bias. We also explore mitigation strategies for post-alignment LLMs, including temperature scaling, distribution calibration, and score range adjustment. Among these, score range adjustment is most effective in reducing bias and improving performance, though still heuristic. Our findings highlight the need for further work on optimal score range selection and more robust mitigation strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)を評価指標として利用する「LLM-as-a-judge」は,多くの評価課題において有効であることが証明されている。
しかし, 評価器LLMは, 特定の評価スコアが不均等に生成される現象である数値バイアスを示し, 評価性能を低下させる。
本研究では,このバイアスの原因について検討する。
ほとんどの評価器 LLM は命令チューニングと選好チューニングによって整列し、先行研究はアライメントが出力の多様性を減少させることを示唆しているので、数値バイアスはアライメントから生じると仮定する。
これをテストするために,前向きおよび後向きのLCMの出力を比較し,アライメントが数値バイアスを実際に増加させるのを観察する。
また, 温度スケーリング, 分布校正, スコアレンジ調整など, 調整後LLMの緩和戦略についても検討する。
これらのうち、スコアレンジ調整はバイアスを減らし、パフォーマンスを向上させるのに最も効果的であるが、それでもヒューリスティックである。
本研究は,最適なスコア範囲の選択と,より堅牢な緩和戦略に関するさらなる研究の必要性を浮き彫りにするものである。
関連論文リスト
- Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges [21.580762639442913]
推論中に選択バイアスを緩和する新しいラベルフリー手法であるCalibraEvalを紹介する。
CalibraEvalは、バイアスのない予測分布に合わせて観測された予測分布を調整するための最適化タスクとしてデバイアスを再構成する。
本稿では,CalibraEvalが選択バイアスを効果的に軽減し,既存のデバイアス法と比較して性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-20T13:47:39Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Self-Supervised Position Debiasing for Large Language Models [39.261233221850155]
大規模言語モデル(LLM)における位置バイアスを軽減するための自己教師型位置偏差検出(SOD)フレームワークを提案する。
8つのデータセットと5つのタスクの実験により、SODは3つのタイプの位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。