論文の概要: Correlated Errors in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.07962v1
- Date: Mon, 09 Jun 2025 17:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.081825
- Title: Correlated Errors in Large Language Models
- Title(参考訳): 大規模言語モデルにおける相関誤差
- Authors: Elliot Kim, Avi Garg, Kenny Peng, Nikhil Garg,
- Abstract要約: リーダーボードデータセットのモデルエラーには,かなりの相関関係がある。
共有アーキテクチャやプロバイダを含むモデル相関を駆動する要因を特定します。
LLM-as-judge 評価と雇用という2つの下流課題における相関の効果を示す。
- 参考スコア(独自算出の注目度): 0.6856888934092934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diversity in training data, architecture, and providers is assumed to mitigate homogeneity in LLMs. However, we lack empirical evidence on whether different LLMs differ meaningfully. We conduct a large-scale empirical evaluation on over 350 LLMs overall, using two popular leaderboards and a resume-screening task. We find substantial correlation in model errors -- on one leaderboard dataset, models agree 60% of the time when both models err. We identify factors driving model correlation, including shared architectures and providers. Crucially, however, larger and more accurate models have highly correlated errors, even with distinct architectures and providers. Finally, we show the effects of correlation in two downstream tasks: LLM-as-judge evaluation and hiring -- the latter reflecting theoretical predictions regarding algorithmic monoculture.
- Abstract(参考訳): データ、アーキテクチャ、プロバイダの訓練における多様性は、LLMにおける均一性を緩和すると仮定される。
しかし、異なるLDMが有意に異なるかどうかに関する実証的な証拠は欠如している。
350 LLMの大規模評価を2つの人気リーダボードと履歴スクリーニングタスクを用いて行った。
モデルエラーには相当な相関関係があります -- 1つのリーダボードデータセットでは、モデルが両方のモデルがフェールした場合の60%に一致します。
共有アーキテクチャやプロバイダを含むモデル相関を駆動する要因を特定します。
しかし、重要なことに、より大きく、より正確なモデルは、異なるアーキテクチャやプロバイダでさえ、非常に相関の深いエラーを持つ。
最後に,LLM-as-judge評価と雇用という2つの下流課題における相関の効果を示す。
関連論文リスト
- LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning [39.54891426369773]
モデルのサイズ、アーキテクチャ、パフォーマンスのトレードオフについては、まだ未検討のままです。
本稿では,近年の言語モデルと多様な視覚的バックボーンを統合したMLLMの新しいファミリーであるLLaVA-MOREを紹介する。
公平な比較を保証するため、すべてのアーキテクチャで一貫して適用される統一的なトレーニングプロトコルを使用します。
論文 参考訳(メタデータ) (2025-03-19T18:10:12Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - LLMs and the Madness of Crowds [0.0]
本研究では,大規模言語モデル(LLM)が生成する誤答のパターンを,評価中に解析する。
その結果, 誤応答はランダムに分布せず, モデル間で系統的に相関していることがわかった。
論文 参考訳(メタデータ) (2024-11-03T12:03:12Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。