論文の概要: Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes
- arxiv url: http://arxiv.org/abs/2510.27244v1
- Date: Fri, 31 Oct 2025 07:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.017761
- Title: Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes
- Title(参考訳): Vintage Code, 現代の裁判官: 低データレジームにおけるメタバリデーション
- Authors: Ora Nova Fandina, Gal Amram, Eitan Farchi, Shmulik Froimovich, Raviv Gal, Wesam Ibraheem, Rami Katan, Alice Podolsky, Orna Raz,
- Abstract要約: 裁判官としての大規模言語モデル(LaaJ)は、専門家レビューに代わるスケーラブルな代替手段を提供する。
検証がなければ、組織はモデルのアウトプットを評価するために未検証のLaaJを使用することで、丸い評価ループのリスクを負う。
SparseAlignは、スパースな人間のラベル付きデータとLaaJアライメントを評価するための正式なフレームワークである。
- 参考スコア(独自算出の注目度): 2.9195489041890297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Application modernization in legacy languages such as COBOL, PL/I, and REXX faces an acute shortage of resources, both in expert availability and in high-quality human evaluation data. While Large Language Models as a Judge (LaaJ) offer a scalable alternative to expert review, their reliability must be validated before being trusted in high-stakes workflows. Without principled validation, organizations risk a circular evaluation loop, where unverified LaaJs are used to assess model outputs, potentially reinforcing unreliable judgments and compromising downstream deployment decisions. Although various automated approaches to validating LaaJs have been proposed, alignment with human judgment remains a widely used and conceptually grounded validation strategy. In many real-world domains, the availability of human-labeled evaluation data is severely limited, making it difficult to assess how well a LaaJ aligns with human judgment. We introduce SparseAlign, a formal framework for assessing LaaJ alignment with sparse human-labeled data. SparseAlign combines a novel pairwise-confidence concept with a score-sensitive alignment metric that jointly capture ranking consistency and score proximity, enabling reliable evaluator selection even when traditional statistical methods are ineffective due to limited annotated examples. SparseAlign was applied internally to select LaaJs for COBOL code explanation. The top-aligned evaluators were integrated into assessment workflows, guiding model release decisions. We present a case study of four LaaJs to demonstrate SparseAlign's utility in real-world evaluation scenarios.
- Abstract(参考訳): COBOL、PL/I、REXXといったレガシー言語におけるアプリケーションの近代化は、専門家の可用性と高品質な人的評価データの両方において、深刻なリソース不足に直面している。
裁判官としてのLarge Language Models(LaaJ)は専門家のレビューに代わるスケーラブルな代替手段を提供するが、信頼性は高いワークフローで信頼される前に検証する必要がある。
原則的な検証がなければ、組織は、検証されていないLaaJを使用してモデルのアウトプットを評価し、信頼性の低い判断を強化し、下流のデプロイメント決定を妥協する、円形評価ループのリスクを負う。
LaaJを検証するための様々な自動化アプローチが提案されているが、人間の判断との整合性は依然として広く使われ、概念的に根拠づけられた検証戦略である。
多くの現実世界のドメインでは、人間のラベルによる評価データの入手は極めて制限されており、LaaJが人間の判断とどの程度うまく一致しているかを評価することは困難である。
SparseAlignは、スパースな人間のラベル付きデータとLaaJアライメントを評価するための正式なフレームワークである。
SparseAlignは、新しいペアワイズ信頼の概念とスコアセンシティブなアライメントメトリックを組み合わせて、ランキングの一貫性とスコアの近さを共同でキャプチャし、注釈付き例によって従来の統計手法が有効でない場合でも、信頼性の高い評価器の選択を可能にする。
SparseAlignはCOBOLコード説明のためにLaaJsを選択するために内部で適用された。
最上位評価者はアセスメントワークフローに統合され、モデルリリースの決定を導いた。
本稿では,SparseAlignの実用性を実世界の評価シナリオで実証する4つのLaaJのケーススタディを示す。
関連論文リスト
- LLM-as-a-Judge: Rapid Evaluation of Legal Document Recommendation for Retrieval-Augmented Generation [40.06592175227558]
本稿では,法的な文脈における検索・拡張生成システムの評価に対する原則的アプローチについて検討する。
我々は、クリッペンドルフのαのような従来の合意メトリクスが、AIシステム評価の典型的な歪んだ分布に誤解をもたらす可能性があることを発見した。
本研究は,法的な応用によって要求される精度を維持するための,スケーラブルで費用効果の高い評価への道筋を示唆する。
論文 参考訳(メタデータ) (2025-09-15T19:20:21Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Bayesian Active Learning for Multi-Criteria Comparative Judgement in Educational Assessment [2.443343861973814]
比較判断(CJ)は、仕事を個別の基準に分解するのではなく、全体的評価によって代替的な評価手法を提供する。
この方法は、人間によるニュアンスの比較能力を活用し、より信頼性が高く有効な評価を得る。
ルーブリックは教育で広く使われており、グレーディングと詳細なフィードバックのための構造化された基準を提供しています。
これにより、CJの総合的なランキングと、基準に基づくパフォーマンスのブレークダウンの必要性の間にギャップが生じる。
論文 参考訳(メタデータ) (2025-03-01T13:12:41Z) - Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。
本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文 参考訳(メタデータ) (2025-02-27T15:07:47Z) - CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [12.542045913426639]
CheckEvalはチェックリストベースの評価フレームワークで、バイナリ質問を通じて評価信頼性を向上させる。
CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。