論文の概要: CAT: A Metric-Driven Framework for Analyzing the Consistency-Accuracy Relation of LLMs under Controlled Input Variations
- arxiv url: http://arxiv.org/abs/2512.23711v1
- Date: Wed, 26 Nov 2025 17:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.461289
- Title: CAT: A Metric-Driven Framework for Analyzing the Consistency-Accuracy Relation of LLMs under Controlled Input Variations
- Title(参考訳): CAT:制御入力変動下におけるLCMの一貫性・精度関係解析のための計量駆動型フレームワーク
- Authors: Paulo Cavalin, Cassia Sanctos, Marcelo Grave, Claudio Pinhanez, Yago Primerano,
- Abstract要約: 我々は,大規模言語モデル (LLM) の強調と表現の一貫性を評価するためのフレームワークである textscCAT を紹介する。
本稿では,CAR曲線の面積と形状を組み合わせて,精度と整合性のトレードオフを定量化するための大域的指標であるEmphConsistency-Oriented Robustness Estimate(CORE)指標を提案する。
- 参考スコア(独自算出の注目度): 0.013048920509133805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce \textsc{CAT}, a framework designed to evaluate and visualize the \emph{interplay} of \emph{accuracy} and \emph{response consistency} of Large Language Models (LLMs) under controllable input variations, using multiple-choice (MC) benchmarks as a case study. Current evaluation practices primarily focus on model capabilities such as accuracy or benchmark scores and, more recently, measuring consistency is being considered an essential property for deploying LLMs in high-stake, real-world applications. We argue in this paper that although both dimensions should still be evaluated independently, their inter-dependency also need to be considered for a more nuanced evaluation of LLMs. At the core of \textsc{CAT} are the \emph{Consistency-Accuracy Relation (CAR)} curves, which visualize how model accuracy varies with increasing consistency requirements, as defined by the \emph{Minimum-Consistency Accuracy (MCA)} metric. We further propose the \emph{Consistency-Oriented Robustness Estimate (CORE)} index, a global metric that combines the area and shape of the CAR curve to quantify the trade-off between accuracy and consistency. We present a practical demonstration of our framework across a diverse set of generalist and domain-specific LLMs, evaluated on multiple MC benchmarks. We also outline how \textsc{CAT} can be extended beyond MC tasks to support long-form, open-ended evaluations through adaptable scoring functions.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の 'emph{interplay} と \emph{response consistency} の評価と視覚化を目的としたフレームワークである \textsc{CAT} について,マルチチョイス (MC) ベンチマークを用いて検討する。
現在の評価手法は主に精度やベンチマークスコアなどのモデル機能に重点を置いており、より最近では、高精細な実世界のアプリケーションにLCMをデプロイする上で、一貫性の測定が不可欠であると考えられている。
本論文では, 両次元は独立に評価されるべきであるが, LLMのより微妙な評価のためには, 相互依存も考慮する必要がある,と論じる。
textsc{CAT} の中核には \emph{Consistency-Accuracy Relation (CAR) 曲線があり、これは \emph{Minimum-Consistency Accuracy (MCA) 計量で定義されるように、一貫性の要求が増加するにつれてモデルの精度がどのように変化するかを視覚化する。
さらに、CAR曲線の面積と形状を組み合わせて精度と整合性の間のトレードオフを定量化する大域的計量である \emph{Consistency-Oriented Robustness Estimate (CORE) index を提案する。
複数のMCベンチマークで評価した多種多様なジェネラリストとドメイン固有なLLMに対して,我々のフレームワークを実演する。
また, MCタスクを超えて <textsc{CAT} を拡張して, 適応可能なスコアリング関数を通じて, 長期的かつオープンな評価を支援する方法について概説する。
関連論文リスト
- Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - DAG-Math: Graph-Guided Mathematical Reasoning in LLMs [54.231935013127206]
大型言語モデル (LLM) は, CoT (Chain-of-Thought) による数学的問題に対して高い性能を示す
我々は、有向非巡回グラフ(DAG)上の一定の規則に基づくプロセスとしてCoTをモデル化することを提案する。
ここでは,モデルのCoT軌道がDAG構造にどの程度よく依存するかを定量化する計量である論理的近接性を導入する。
論文 参考訳(メタデータ) (2025-10-19T21:05:17Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions [8.069858557211132]
大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示している。
ハイテイクなドメインへのデプロイメントには、複数ラウンドにわたるユーザインタラクションの一貫性と一貫性を備えた動作が必要です。
本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-28T11:49:56Z) - Towards an Improved Metric for Evaluating Disentangled Representations [0.6946415403594184]
切り離された表現学習は、表現を制御可能、解釈可能、転送可能にする上で重要な役割を果たす。
領域におけるその重要性にもかかわらず、信頼性と一貫した量的絡み合い計量の探求は依然として大きな課題である。
そこで本稿では, 直感的概念の強調と係数-符号関係の改善を生かしたemphEDIという測度を導入することにより, 絡み合いの定量化のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-04T00:32:59Z) - TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [3.0105173516143395]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。