論文の概要: Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores
- arxiv url: http://arxiv.org/abs/2510.14966v1
- Date: Thu, 16 Oct 2025 17:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.000902
- Title: Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores
- Title(参考訳): ラベルなしLCM評価のためのアイデンティティリンクIRT:TVD-MIスコアの添加性を保つ
- Authors: Zachary Robertson,
- Abstract要約: 本報告では,TVD-MIの2次試行平均値が,非線形リンク関数を使わずに項目応答理論(IRT)に適合する付加的構造で中心確率スコアを得ることを示す。
Giniエントロピーからこのクリップ付き線形評価を導出し、境界飽和を扱うボックス制約最小二乗の定式化を導出する。
- 参考スコア(独自算出の注目度): 3.959606869996232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pairwise comparisons of large language models using total variation distance mutual information (TVD-MI) produce binary critic decisions per pair. We show that averaging TVD-MI's binary trials yields centered-probability scores with additive structure suitable for item-response theory (IRT) without nonlinear link functions. Maximum-likelihood approaches to IRT use logistic links, but we find empirically that these transformations introduce curvature that breaks additivity: across three domains, the identity link yields median curl on raw data of 0.080-0.150 (P95 = [0.474, 0.580]), whereas probit/logit introduce substantially higher violations (median [0.245, 0.588], P95 [0.825, 2.252]). We derive this clipped-linear model from Gini entropy maximization, yielding a box-constrained least-squares formulation that handles boundary saturation. At 33% coverage, we achieve holdout RMSE $0.117 \pm 0.008$ while preserving agent rankings (Spearman $\rho = 0.972 \pm 0.015$), three times fewer evaluations than full dense. Judge robustness analysis (GPT-4o-mini vs. Llama3-70b) shows strong agreement in agent rankings ($\rho = 0.872$) and consistent identity-link advantage. TVD-MI's geometry is best preserved by identity mapping for efficient LLM evaluation, applicable to other bounded-response domains.
- Abstract(参考訳): 総変分距離相互情報(TVD-MI)を用いた大規模言語モデルのペアワイズ比較により,2対の批判的判断が得られた。
本報告では,TVD-MIの2次試行平均は,非線形リンク機能を持たずに,アイテム応答理論(IRT)に適合する付加的構造を持つ中心確率スコアが得られることを示す。
3つの領域において、アイデンティティリンクは0.080-0.150(P95 = [0.474, 0.580])の生データに対して中央値のカールをもたらすのに対し、probit/logitははるかに高い違反をもたらす(median [0.245, 0.588], P95 [0.825, 2.252])。
Giniエントロピーの最大化からこのクリッピング線形モデルを導出し、境界飽和を扱うボックス制約最小二乗の定式化を導出する。
33%のカバレッジで、エージェントランキングを維持しながらRMSE $0.117 \pm 0.008$を達成する(Spearman $\rho = 0.972 \pm 0.015$)。
判断堅牢性分析(GPT-4o-mini vs. Llama3-70b)はエージェントランキング(\rho = 0.872$)と一貫したアイデンティティリンクの優位性において強い一致を示している。
TVD-MIの幾何学は、他の有界応答領域に適用可能な、効率的なLCM評価のためのアイデンティティマッピングによって最もよく保存されている。
関連論文リスト
- TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z) - ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences via Tournament Graph Reconstruction [25.85736569130897]
大規模言語モデル(LLM)のペアワイズ評価は、オープンエンドタスクのベンチマークにおいて支配的なパラダイムとなっている。
この重要な問題は、本質的に曖昧な選好ペアを含む低品質データに起因していることを示す。
トーナメントグラフとしてペアの選好をモデル化する,原則付きグラフ理論フレームワークであるESSPRを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:00:03Z) - Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning [15.776175440446414]
本稿では,人間のアノテーションへの依存を解消するコスト効率の高い方法であるDr.SoW(Density Ratio of Strong over Weak)を紹介する。
Dr.SoW は報奨信号として、より整列した LLM と低整列の LLM の対数密度比を用いる。
Dr.SoWによるデータを用いたLlama-3-8B-インストラクタを選好する。
論文 参考訳(メタデータ) (2024-11-04T18:54:39Z) - Federated Learning Resilient to Byzantine Attacks and Data Heterogeneity [59.17297282373628]
本稿では、データに対する悪意ある攻撃の文脈におけるグラディエント学習(FL)について述べる。
本稿では,収束解析と損失関数の中央値を用いた新しい平均ロバストアルゴリズム(RAGA)を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:15:08Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。