論文の概要: Evaluating Ill-Defined Tasks in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.17067v1
- Date: Tue, 17 Mar 2026 18:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.359698
- Title: Evaluating Ill-Defined Tasks in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるIll-Defined Taskの評価
- Authors: Yi Zhou, Basel Shbita,
- Abstract要約: 評価ベンチマークとメトリクスが不確定なタスクに対して、モデル能力の信頼性や診断信号を提供できない理由を分析する。
評価基準を多面的に評価することで,集計スコアを超える実用的な洞察が得られることを示す。
- 参考スコア(独自算出の注目度): 4.241892359077409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many evaluations of Large Language Models (LLMs) target tasks that are inherently ill-defined, with unclear input and output spaces and ambiguous success criteria. We analyze why existing evaluation benchmarks and metrics fail to provide reliable or diagnostic signals of model capability for such tasks. We examine two case studies: Complex Instruction Following (CIF), where we identify recurring issues including limited coverage of real-world instruction complexity, sensitivity to instruction phrasing, inconsistent and non-comparable metrics, and instability introduced by LLM-based judges; and Natural Language to Mermaid Sequence Diagrams (NL2Mermaid), where we show how multi-faceted evaluation criteria can yield actionable insights beyond aggregate scores. Together, these case studies show that current evaluations frequently conflate distinct failure modes, yielding scores that are unstable, non-diagnostic, and difficult to act upon. Our findings expose fundamental limitations in existing evaluation practices for ill-defined tasks and motivate more robust, interpretable evaluation designs.
- Abstract(参考訳): LLM(Large Language Models)の多くの評価は、不明確な入出力空間とあいまいな成功基準を持つ、本質的に不確定なタスクをターゲットにしている。
既存の評価ベンチマークやメトリクスが、そのようなタスクに対して、モデル能力の信頼性や診断信号を提供していない理由を分析します。
実世界の命令の複雑さの限られた範囲、命令の表現への感受性、不整合性、不整合性、LLMベースの審査員が導入した不安定性、およびNatural Language to Mermaid Sequence Diagrams (NL2Mermaid) の2つのケーススタディについて検討し、多面的評価基準が集合スコアを超えて実行可能な洞察を得る方法を示した。
これらのケーススタディは、現在の評価が異なる障害モードを頻繁に説明し、不安定で、診断不能で、実行が難しいスコアを得ることを示している。
本研究は,未定義タスクに対する既存の評価手法の基本的制約を明らかにし,より堅牢で解釈可能な評価設計を動機付けるものである。
関連論文リスト
- Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities [2.9203730377983654]
既存のベンチマークでは、実際の使用を反映したり、コンプライアンスをタスクの成功から分離することができない。
アプリケーション指向の生成制約を最大20個まで含む動的に生成されたデータセットを使用するモジュール型フレームワークであるMOSAICを紹介した。
コンプライアンスはモノリシックな機能ではなく、制約タイプ、量、位置によって大きく異なります。
論文 参考訳(メタデータ) (2026-01-26T15:02:15Z) - When Prompts Go Wrong: Evaluating Code Model Robustness to Ambiguous, Contradictory, and Incomplete Task Descriptions [23.5858385520752]
LLM(Large Language Models)は、理想的な条件下でのコード生成タスクの性能を示す。
実際には、タスク記述はしばしば曖昧さ、不完全性、内部矛盾を示す。
このような不明瞭なタスク記述に直面した場合、最先端のコード生成モデルの堅牢性を検証した最初の実証的研究を示す。
論文 参考訳(メタデータ) (2025-07-27T23:16:14Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Evaluation Hallucination in Multi-Round Incomplete Information Lateral-Driven Reasoning Tasks [18.613353004764885]
本研究は,既存手法の限界に対する新たな知見を明らかにする。
本稿では,推論経路の検査,多変量評価指標,人的性能との比較分析など,一連の評価基準を提案する。
論文 参考訳(メタデータ) (2025-05-28T15:17:34Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - A Framework for Evaluating LLMs Under Task Indeterminacy [49.298107503257036]
大規模言語モデル(LLM)の評価は、評価コーパスの各項目に対して単一の正しい応答(ゴールドラベル)があると仮定することが多い。
タスク不確定性の下でLLMを評価するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2024-11-21T00:15:44Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。