論文の概要: Estimating the Error of Large Language Models at Pairwise Text Comparison
- arxiv url: http://arxiv.org/abs/2510.22219v1
- Date: Sat, 25 Oct 2025 08:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.92208
- Title: Estimating the Error of Large Language Models at Pairwise Text Comparison
- Title(参考訳): ペアワイズテキスト比較による大規模言語モデルの誤り推定
- Authors: Tianyi Li,
- Abstract要約: 提案手法は, 比較の順序によらず, 比較の順序によらず, いずれかのテキスト対に対する2つの比較で推定される一様誤差率, 比較の2つの順序に対して異なる誤差率を仮定する二項位置バイアス, テキスト間の繰り返し比較で推定される二項位置バイアスの2つのシナリオをサポートする。
- 参考スコア(独自算出の注目度): 3.2650736290032865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We measure LLMs' output error at pairwise text comparison, noting the probability of error in their preferences. Our method does not rely on the ground truth and supports two scenarios: (i) uniform error rate regardless of the order of comparison, estimated with two comparisons for each text pair with either text placed first; (ii) binary positional bias assuming distinct error rates for the two orders of comparison, estimated with repeated comparisons between the texts. The Copeland counting constructs a ranking over the compared texts from pairwise preferences; the ranking reveals the poor scalability of LLM-based pairwise comparison and helps yield the estimates for LLMs' error rates. We apply the method to six LLMs (ChatGPT, Claude, DeepSeek, Gemini, Grok, Qwen) with five types of text input and obtain consistent estimates of LLMs' error. In general, the measured two positional bias terms are similar, close to the uniform error. Considering both the error rates and the robustness to the variation of prompts, Claude obtained the most desirable performance in this experiment. Our model outperforms the biased Bradley-Terry model and the commutativity score in indicating LLMs' error at this task.
- Abstract(参考訳): 我々はLLMの出力誤差をペアワイズテキスト比較で測定し、その選好における誤差の確率を示す。
私たちの手法は、基礎的な真実に頼らず、2つのシナリオをサポートします。
一 比較の順序にかかわらず、各テキスト対と第一に置かれたテキスト対の二つの比較から推定される一様誤差率
(2) テキスト間の繰り返し比較から推定した2段階比較の誤差率を推定する2値位置偏差について検討した。
The Copeland counting constructs a ranking over the comparison texts from pairwise preferences; the ranking reveals the poor scalability of LLM based pairwise comparison and yield the estimates for LLMs' error rate。
本手法は,5種類のテキスト入力を持つ6つのLLM(ChatGPT, Claude, DeepSeek, Gemini, Grok, Qwen)に適用し,LLMの誤りを一貫した推定値を得る。
一般に、測定された2つの位置バイアス項は、一様誤差に近い。
誤り率とプロンプトの変動に対する堅牢性の両方を考慮すると、クロードはこの実験で最も望ましい性能を得た。
本モデルでは, バイアス付きブラッドリー・テリーモデルと可換性スコアとを比較検討し, LLMの誤差を示す。
関連論文リスト
- Measuring Scalar Constructs in Social Science with LLMs [48.92998035333579]
大規模言語モデルにおけるスカラー構造の測定手法の評価を行った。
LLMにスコアを直接出力させるよりも、ペアワイズ比較の方が優れた測定結果が得られることが分かりました。
訓練ペアを1,000個も持たない小型モデルは、誘導LDMの性能にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-09-03T08:19:13Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Bayesian Calibration of Win Rate Estimation with LLM Evaluators [20.588104799661014]
本研究では,大言語モデル(LLM)を評価対象として,勝利率推定の精度を向上させる2つの手法を提案する。
我々は,ストーリ生成,要約,タスクの指示を含む6つのデータセット上で,我々の手法を実証的に検証した。
論文 参考訳(メタデータ) (2024-11-07T04:32:40Z) - LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking [17.96316956366718]
大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。
ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。
LLMベースのランキングフレームワークであるLLM-RankFusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T23:29:42Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and
Generative Fusion [33.73671362609599]
私たちのフレームワークはPairRankerとGenFuserの2つのモジュールで構成されています。
PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。
GenFuserは、上位候補をマージし、改善されたアウトプットを生成することを目的としている。
論文 参考訳(メタデータ) (2023-06-05T03:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。