Fugu-MT 論文翻訳(概要): Beyond Blind Spots: Analytic Hints for Mitigating LLM-Based Evaluation Pitfalls

論文の概要: Beyond Blind Spots: Analytic Hints for Mitigating LLM-Based Evaluation Pitfalls

arxiv url: http://arxiv.org/abs/2512.16272v1
Date: Thu, 18 Dec 2025 07:43:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-19 18:10:31.97005
Title: Beyond Blind Spots: Analytic Hints for Mitigating LLM-Based Evaluation Pitfalls
Title（参考訳）: ブラインドスポットを超えて:LCMに基づく評価落としの軽減のための分析ヒント
Authors: Ora Nova Fandina, Eitan Farchi, Shmulik Froimovich, Raviv Gal, Wesam Ibraheem, Rami Katan, Alice Podolsky,
Abstract要約: 大規模言語モデルは、コード生成パイプラインの審査員(LaaJ)としてますます多くデプロイされている。 LaaJは、批判的な評価タスクにおける信頼性に関する懸念を提起するドメイン固有の問題を見逃す傾向があります。我々は、実際に観察された30以上のドメイン固有の問題にフラグを付ける軽量な分析チェッカーツールを開発した。我々はその出力を分析的ヒントとして使用し、それを裁判官に動的に注入することで、LaaJが見落としているかもしれない側面を再検討するよう促す。
参考スコア（独自算出の注目度）: 2.4484932263697234
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models are increasingly deployed as judges (LaaJ) in code generation pipelines. While attractive for scalability, LaaJs tend to overlook domain specific issues raising concerns about their reliability in critical evaluation tasks. To better understand these limitations in practice, we examine LaaJ behavior in a concrete industrial use case: legacy code modernization via COBOL code generation. In this setting, we find that even production deployed LaaJs can miss domain critical errors, revealing consistent blind spots in their evaluation capabilities. To better understand these blind spots, we analyze generated COBOL programs and associated LaaJs judgments, drawing on expert knowledge to construct a preliminary taxonomy. Based on this taxonomy, we develop a lightweight analytic checker tool that flags over 30 domain specific issues observed in practice. We use its outputs as analytic hints, dynamically injecting them into the judges prompt to encourage LaaJ to revisit aspects it may have overlooked. Experiments on a test set of 100 programs using four production level LaaJs show that LaaJ alone detects only about 45% of the errors present in the code (in all judges we tested), while the analytic checker alone lacks explanatory depth. When combined, the LaaJ+Hints configuration achieves up to 94% coverage (for the best performing judge and injection prompt) and produces qualitatively richer, more accurate explanations, demonstrating that analytic-LLM hybrids can substantially enhance evaluation reliability in deployed pipelines. We release the dataset and all used prompts.
Abstract（参考訳）: 大規模言語モデルは、コード生成パイプラインの審査員(LaaJ)としてますます多くデプロイされている。スケーラビリティには魅力的だが、LaaJは重要な評価タスクにおける信頼性に関する懸念を生じさせるようなドメイン固有の問題を見逃す傾向にある。これらの制約を実際によりよく理解するために、具体的な工業的ユースケースであるCOBOLコード生成によるレガシーコードモダナイゼーションにおけるLaaJの挙動について検討する。この設定では、本番環境にデプロイされたLaaJでさえドメインクリティカルなエラーを見逃し、評価能力に一貫した盲点が明らかになる。これらの盲点をよりよく理解するために、生成されたCOBOLプログラムと関連するLaaJの判断を分析し、専門家の知識に基づいて予備的な分類法を構築する。この分類に基づいて、我々は、実際に観察された30以上のドメイン固有の問題にフラグを付ける軽量な分析チェッカーツールを開発した。我々はその出力を分析的ヒントとして使用し、それを裁判官に動的に注入することで、LaaJが見落としているかもしれない側面を再検討するよう促す。 4つの生産レベルであるLaaJを使った100のプログラムのテストでは、LaaJだけでコードに存在するエラーの45%しか検出できない(テストしたすべての判断において)。 LaaJ+Hints構成を組み合わせると、最大94%のカバレッジ(最高の判断とインジェクションプロンプト)が達成され、質的にリッチで正確な説明が得られ、分析-LLMハイブリッドがデプロイされたパイプラインの信頼性を大幅に向上することを示した。データセットをリリースし、すべてのプロンプトを使用します。

関連論文リスト

CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis [7.007981312278749]
我々はCryptoAnalystBenchを紹介した。CryptoAnalystBenchは198のプロダクション暗号と11のカテゴリにまたがるDeFiクエリのベンチマークである。本研究では,事実性チェックやLCMに基づく品質評価によって確実に把握できない7種類の高次誤差型の分類法を開発する。これらの失敗は、最先端のシステムでも継続し、高い利害判断を損なう可能性があることに気付きました。
論文参考訳（メタデータ） (2026-02-11T19:29:31Z)
Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes [2.9195489041890297]
裁判官としての大規模言語モデル(LaaJ)は、専門家レビューに代わるスケーラブルな代替手段を提供する。検証がなければ、組織はモデルのアウトプットを評価するために未検証のLaaJを使用することで、丸い評価ループのリスクを負う。 SparseAlignは、スパースな人間のラベル付きデータとLaaJアライメントを評価するための正式なフレームワークである。
論文参考訳（メタデータ） (2025-10-31T07:27:54Z)
Test Case Generation from Bug Reports via Large Language Models: A Cognitive Layered Evaluation Framework [10.919459368597295]
テストケース生成におけるLarge Language Models(LLM)推論の体系的評価について述べる。言語的・意味的課題を導入した欠陥4J, GHRB, 変異変種についてStarCoderとGPT-4oを評価した。
論文参考訳（メタデータ） (2025-10-06T20:47:12Z)
LaajMeter: A Framework for LaaJ Evaluation [1.8583060903632522]
大規模言語モデル (LLM) は、自然言語処理タスクにおける評価器としてますます使われている。 LaaJMeterは、LaaJsの制御されたメタ評価のためのシミュレーションベースのフレームワークである。
論文参考訳（メタデータ） (2025-08-13T19:51:05Z)
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文参考訳（メタデータ） (2025-07-07T12:53:00Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文参考訳（メタデータ） (2025-05-13T23:47:12Z)
Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文参考訳（メタデータ） (2025-02-17T19:18:23Z)
Assessing the Answerability of Queries in Retrieval-Augmented Code Generation [7.68409881755304]
本研究は,有効な回答が生成できるかどうかを評価するための課題を提案する。我々は、Retrieval-augmented Code Generability Evaluation (RaCGEval)と呼ばれるベンチマークデータセットを構築し、このタスクを実行するモデルの性能を評価する。
論文参考訳（メタデータ） (2024-11-08T13:09:14Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。