論文の概要: DIALEVAL: Automated Type-Theoretic Evaluation of LLM Instruction Following
- arxiv url: http://arxiv.org/abs/2603.03321v1
- Date: Tue, 10 Feb 2026 05:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.149421
- Title: DIALEVAL: Automated Type-Theoretic Evaluation of LLM Instruction Following
- Title(参考訳): DIALEVAL: LLM指導後の自動型理論評価
- Authors: Nardine Basta, Dali Kaafar,
- Abstract要約: 本稿では,2つのLLMエージェントを用いた型理論フレームワークであるDIALEVALを紹介し,型付き述語への命令分解を自動化する。
このフレームワークは、自動抽出中に正式な原子性と独立性の制約を強制する。
評価基準は、コンテンツ述語に対する意味的等価性、数値述語に対する正確な精度、経験的に観察された人間の評価パターンを反映する。
- 参考スコア(独自算出の注目度): 1.5555393702795077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating instruction following in Large Language Models requires decomposing instructions into verifiable requirements and assessing satisfaction--tasks currently dependent on manual annotation and uniform criteria that do not align with human judgment patterns. We present DIALEVAL, a type-theoretic framework using dual LLM agents to automate instruction decomposition into typed predicates and implement type-specific satisfaction semantics. The framework enforces formal atomicity and independence constraints during automated extraction, then applies differentiated evaluation criteria--semantic equivalence for content predicates, exact precision for numerical predicates--mirroring empirically observed human assessment patterns. Extended to multi-turn dialogues through history-aware satisfaction functions, DIALEVAL enables evaluation in conversational contexts where single-turn methods fail. Validation demonstrates 90.38% accuracy (26.45% error reduction over baselines) and substantially stronger correlation with human judgment for complex instructions.
- Abstract(参考訳): 大規模言語モデルで続く命令を評価するには、指示を検証可能な要件に分解し、満足度を評価する必要がある。
本稿では,2つのLLMエージェントを用いた型理論フレームワークであるDIALEVALを紹介し,型付き述語への命令分解を自動化し,型固有の意味論を実装する。
このフレームワークは、自動抽出の際の形式的原子性と独立性の制約を強制し、次に、区別された評価基準(コンテンツ述語に対する意味的等価性、数値述語に対する正確な精度)を適用し、経験的に観察された人間の評価パターンをミラーリングする。
DIALEVALは、履歴認識満足度機能を通じてマルチターン対話に拡張され、単一ターンメソッドがフェールした場合の会話コンテキストにおける評価を可能にする。
検証は90.38%の精度 (26.45%の誤差削減) を示し、複雑な命令に対する人間の判断と大きく相関している。
関連論文リスト
- Automated Multiple Mini Interview (MMI) Scoring [5.277507079014855]
現状の理性に基づく微調整手法は,Mini-Interviewsの抽象的,文脈依存的な性質に苦慮していることを示す。
本稿では,評価プロセスを書き起こし改良と基準固有スコアに分解するマルチエージェントプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:20:25Z) - Prompt-Based Value Steering of Large Language Models [0.0]
提案手法は,素早い候補が生成したテキストを特定の人的価値に向けて効果的に操れるかどうかを評価するための,実用的で再現可能な,モデルに依存しない手順である。
我々は,人間の基本値の理論と対話データセットによる構造化評価を用いて,ウィザード・ヴィクナ言語モデルの変種に適用する。
論文 参考訳(メタデータ) (2025-11-14T14:45:41Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。