論文の概要: Dimension-Level Intent Fidelity Evaluation for Large Language Models: Evidence from Structured Prompt Ablation
- arxiv url: http://arxiv.org/abs/2605.14517v1
- Date: Thu, 14 May 2026 08:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.699296
- Title: Dimension-Level Intent Fidelity Evaluation for Large Language Models: Evidence from Structured Prompt Ablation
- Title(参考訳): 大規模言語モデルの次元レベルインテント忠実度評価:構造化プロンプトアブレーションによる証拠
- Authors: GAng Peng,
- Abstract要約: 全体的評価スコアは、全体の出力品質をキャプチャするが、モデルがユーザの要求の構造形式を再現したかどうかを区別しない。
本稿では,2,880個の出力に対して構造化されたプロンプトアブレーション研究を通じて,次元レベルのインテント忠実度評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.585480332059272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Holistic evaluation scores capture overall output quality but do not distinguish whether a model reproduced the structural form of a user's request from whether it preserved the user's specific intent. We propose a dimension-level intent fidelity evaluation framework, applied here through a structured prompt ablation study across 2,880 outputs spanning three languages, three task domains, and six LLMs, that separately measures structural recovery and intent fidelity for each semantic dimension. This framework reveals a systematic structural-fidelity split: among Chinese-language outputs with complete paired scores, 25.7% received perfect holistic alignment scores (GA=5) while exhibiting measurable dimensional intent deficits; among English-language outputs, this proportion rose to 58.6%. Human evaluation confirmed that these split-zone outputs represent genuine quality deficits and that dimensional fidelity scores track human judgements more reliably than holistic scores do. A public-private decomposition of 2,520 ablation cells characterises when models successfully compensate for missing intent and when they fail, while proxy annotation distinguishes prior inferability from default recoverability. A weight-perturbation experiment shows that moderate misalignment is typically absorbed, whereas severe dimensional inversion is consistently harmful. These findings demonstrate that dimension-level intent fidelity evaluation is a necessary complement to holistic assessment when evaluating LLM outputs for user-specific tasks.
- Abstract(参考訳): 全体的評価スコアは、全体の出力品質をキャプチャするが、モデルがユーザの要求の構造形式を再現したかどうかと、ユーザの特定の意図を保存したかどうかを区別しない。
本稿では,3つの言語,3つのタスク領域,6つのLLMにまたがる2,880個のアウトプットに対して,各セマンティックディメンションに対する構造的リカバリと意図忠実度を別々に測定する,構造化されたプロンプトアブレーション研究を通じて,次元レベルのインテント忠実度評価フレームワークを提案する。
この枠組みは、完全なペアのスコアを持つ中国語の出力のうち25.7%が完全な全体的アライメントスコア(GA=5)を受け、測定可能な次元の意図的欠陥を示しており、英語の出力では58.6%まで上昇している。
人間の評価では、これらの分割ゾーンのアウトプットは真の品質の欠陥を表し、次元の忠実度スコアは、総合的なスコアよりも人間の判断をより確実に追跡することが確認された。
パブリックプライベートな2,520個のアブレーションセルの分解は、モデルが欠落意図を補うのに成功し、失敗したときに特徴付けられるが、プロキシアノテーションは、事前の推論可能性とデフォルトの回復可能性とを区別する。
重量摂動実験では、適度な不整合は通常吸収されるが、重い次元の逆転は一貫して有害である。
これらの結果から,LLM出力をユーザ固有のタスクで評価する場合,次元レベルの意図の忠実度評価が総合評価に欠かせないことが示唆された。
関連論文リスト
- Seeing to Ground: Visual Attention for Hallucination-Resilient MDLLMs [47.94507630961399]
トレーニング不要なデコードフレームワークであるVISAGEを導入し、推論時に目的を校正する。
我々は、VISAGEが推定誤差の下で有界目的損失を維持することを保証する解析的安定性を保証する。
幻覚感受性および汎用ベンチマークによる評価は、フレームワークの堅牢性を示している。
論文 参考訳(メタデータ) (2026-03-26T17:53:49Z) - Hallucination as output-boundary misclassification: a composite abstention architecture for language models [0.0]
本稿では,命令に基づく拒絶と構造的停止ゲートを組み合わせた複合的介入を提案する。
ゲートは、自己整合性(At)、パラフレーズ安定性(Pt)、引用カバレッジ(Ct)の3つのブラックボックス信号から支持不良スコアであるStを計算する。
全体として、命令ベースの拒絶と構造的ゲーティングは相補的な障害モードを示し、両方のメカニズムを組み合わせることで効果的な幻覚制御の利点が期待できる。
論文 参考訳(メタデータ) (2026-03-12T13:44:47Z) - BiasLab: A Multilingual, Dual-Framing Framework for Robust Measurement of Output-Level Bias in Large Language Models [3.643198597030366]
本稿では,出力レベル(外部)バイアスの定量化を目的とした,オープンソースのモデルに依存しない評価フレームワークであるBiasLabを紹介する。
この枠組みは、人口統計学、文化学、政治学、地政学などの様々なバイアス軸の評価をサポートする。
論文 参考訳(メタデータ) (2026-01-11T11:07:46Z) - ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization [73.0780809974414]
本稿では,意味的整合性評価を自己形式化プロセスに統合する反射的自己形式化手法を提案する。
これにより、モデルが形式的なステートメントを反復的に生成し、セマンティックな忠実さを評価し、自己修正された特定エラーを発生させることができる。
実験の結果、ReFormは最強のベースラインに対して平均22.6ポイントの改善を達成した。
論文 参考訳(メタデータ) (2025-10-28T16:22:54Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。