論文の概要: Beyond Blind Spots: Analytic Hints for Mitigating LLM-Based Evaluation Pitfalls
- arxiv url: http://arxiv.org/abs/2512.16272v1
- Date: Thu, 18 Dec 2025 07:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.97005
- Title: Beyond Blind Spots: Analytic Hints for Mitigating LLM-Based Evaluation Pitfalls
- Title(参考訳): ブラインドスポットを超えて:LCMに基づく評価落としの軽減のための分析ヒント
- Authors: Ora Nova Fandina, Eitan Farchi, Shmulik Froimovich, Raviv Gal, Wesam Ibraheem, Rami Katan, Alice Podolsky,
- Abstract要約: 大規模言語モデルは、コード生成パイプラインの審査員(LaaJ)としてますます多くデプロイされている。
LaaJは、批判的な評価タスクにおける信頼性に関する懸念を提起するドメイン固有の問題を見逃す傾向があります。
我々は、実際に観察された30以上のドメイン固有の問題にフラグを付ける軽量な分析チェッカーツールを開発した。
我々はその出力を分析的ヒントとして使用し、それを裁判官に動的に注入することで、LaaJが見落としているかもしれない側面を再検討するよう促す。
- 参考スコア(独自算出の注目度): 2.4484932263697234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are increasingly deployed as judges (LaaJ) in code generation pipelines. While attractive for scalability, LaaJs tend to overlook domain specific issues raising concerns about their reliability in critical evaluation tasks. To better understand these limitations in practice, we examine LaaJ behavior in a concrete industrial use case: legacy code modernization via COBOL code generation. In this setting, we find that even production deployed LaaJs can miss domain critical errors, revealing consistent blind spots in their evaluation capabilities. To better understand these blind spots, we analyze generated COBOL programs and associated LaaJs judgments, drawing on expert knowledge to construct a preliminary taxonomy. Based on this taxonomy, we develop a lightweight analytic checker tool that flags over 30 domain specific issues observed in practice. We use its outputs as analytic hints, dynamically injecting them into the judges prompt to encourage LaaJ to revisit aspects it may have overlooked. Experiments on a test set of 100 programs using four production level LaaJs show that LaaJ alone detects only about 45% of the errors present in the code (in all judges we tested), while the analytic checker alone lacks explanatory depth. When combined, the LaaJ+Hints configuration achieves up to 94% coverage (for the best performing judge and injection prompt) and produces qualitatively richer, more accurate explanations, demonstrating that analytic-LLM hybrids can substantially enhance evaluation reliability in deployed pipelines. We release the dataset and all used prompts.
- Abstract(参考訳): 大規模言語モデルは、コード生成パイプラインの審査員(LaaJ)としてますます多くデプロイされている。
スケーラビリティには魅力的だが、LaaJは重要な評価タスクにおける信頼性に関する懸念を生じさせるようなドメイン固有の問題を見逃す傾向にある。
これらの制約を実際によりよく理解するために、具体的な工業的ユースケースであるCOBOLコード生成によるレガシーコードモダナイゼーションにおけるLaaJの挙動について検討する。
この設定では、本番環境にデプロイされたLaaJでさえドメインクリティカルなエラーを見逃し、評価能力に一貫した盲点が明らかになる。
これらの盲点をよりよく理解するために、生成されたCOBOLプログラムと関連するLaaJの判断を分析し、専門家の知識に基づいて予備的な分類法を構築する。
この分類に基づいて、我々は、実際に観察された30以上のドメイン固有の問題にフラグを付ける軽量な分析チェッカーツールを開発した。
我々はその出力を分析的ヒントとして使用し、それを裁判官に動的に注入することで、LaaJが見落としているかもしれない側面を再検討するよう促す。
4つの生産レベルであるLaaJを使った100のプログラムのテストでは、LaaJだけでコードに存在するエラーの45%しか検出できない(テストしたすべての判断において)。
LaaJ+Hints構成を組み合わせると、最大94%のカバレッジ(最高の判断とインジェクションプロンプト)が達成され、質的にリッチで正確な説明が得られ、分析-LLMハイブリッドがデプロイされたパイプラインの信頼性を大幅に向上することを示した。
データセットをリリースし、すべてのプロンプトを使用します。
関連論文リスト
- Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes [2.9195489041890297]
裁判官としての大規模言語モデル(LaaJ)は、専門家レビューに代わるスケーラブルな代替手段を提供する。
検証がなければ、組織はモデルのアウトプットを評価するために未検証のLaaJを使用することで、丸い評価ループのリスクを負う。
SparseAlignは、スパースな人間のラベル付きデータとLaaJアライメントを評価するための正式なフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T07:27:54Z) - LaajMeter: A Framework for LaaJ Evaluation [1.8583060903632522]
大規模言語モデル (LLM) は、自然言語処理タスクにおける評価器としてますます使われている。
LaaJMeterは、LaaJsの制御されたメタ評価のためのシミュレーションベースのフレームワークである。
論文 参考訳(メタデータ) (2025-08-13T19:51:05Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。
自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文 参考訳(メタデータ) (2025-05-13T23:47:12Z) - Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。
この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文 参考訳(メタデータ) (2025-02-17T19:18:23Z) - Assessing the Answerability of Queries in Retrieval-Augmented Code Generation [7.68409881755304]
本研究は,有効な回答が生成できるかどうかを評価するための課題を提案する。
我々は、Retrieval-augmented Code Generability Evaluation (RaCGEval)と呼ばれるベンチマークデータセットを構築し、このタスクを実行するモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-11-08T13:09:14Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。