論文の概要: RCScore: Quantifying Response Consistency in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.26193v1
- Date: Thu, 30 Oct 2025 07:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.692902
- Title: RCScore: Quantifying Response Consistency in Large Language Models
- Title(参考訳): RCScore:大規模言語モデルにおける応答一貫性の定量化
- Authors: Dongjun Jang, Youngchae Ahn, Hyopil Shin,
- Abstract要約: 提案するRCScoreは,命令の定式化がモデル応答に影響を与えるフレームワークである。
命令スタイルは最大16.7%の精度で変更可能であることを示す。
本稿では,RCSコアのメトリクスを適用して,スタイリスティックな自己整合性を測定する手法であるCRSを紹介する。
- 参考スコア(独自算出の注目度): 5.926203312586108
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current LLM evaluations often rely on a single instruction template, overlooking models' sensitivity to instruction style-a critical aspect for real-world deployments. We present RCScore, a multi-dimensional framework quantifying how instruction formulation affects model responses. By systematically transforming benchmark problems into multiple instruction styles, RCScore reveals performance variations undetected by conventional metrics. Our experiments across ten LLMs on four reasoning benchmarks demonstrate that instruction style can shift accuracy by up to 16.7% points. We introduce Cross-Response Similarity (CRS), a method applying RCScore metrics to measure stylistic self-consistency, and establish its strong correlation with task accuracy, suggesting consistency as a valuable proxy for model reliability. Additional findings show that deterministic decoding produces more stylistically stable outputs, and model scale correlates positively with cross-style consistency. RCScore offers a principled approach to assess instruction robustness.
- Abstract(参考訳): 現在のLCM評価は、モデルが実際のデプロイメントにおいて重要な側面である命令スタイルに敏感であることを見越して、単一の命令テンプレートに依存していることが多い。
命令の定式化がモデル応答に与える影響を定量化する多次元フレームワークであるRCScoreを提案する。
ベンチマーク問題を複数の命令スタイルに体系的に変換することで、RCScoreは従来のメトリクスで検出されていないパフォーマンスの変動を明らかにする。
4つの推論ベンチマークで10個のLLM実験を行い、命令スタイルが最大16.7%の精度で精度をシフトできることを示した。
本稿では,CRS(Cross-Response similarity)を提案する。CRS(Cross-Response similarity)は,RCSコアのメトリクスを用いて,スタイリスティックな自己整合性を測定する手法である。
さらに、決定論的デコードにより、よりスタイリスティックに安定した出力が得られ、モデルスケールは、クロススタイルの一貫性と正に相関することを示した。
RCScoreは命令の堅牢性を評価するための原則的なアプローチを提供する。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。
SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文 参考訳(メタデータ) (2025-02-28T19:27:29Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Patched RTC: evaluating LLMs for diverse software development tasks [1.14219428942199]
本稿では,Large Language Models (LLM) の新たな評価手法であるPatched Round-Trip Correctness (Patched RTC)を紹介する。
Patched RTCは、人間の介入なしにモデルの応答の一貫性と堅牢性を測定する、自己評価フレームワークを提供する。
GPT-3.5とGPT-4を異なるソフトウェア開発タスクで比較した結果、Patched RTCはモデルの性能とタスクの難易度を効果的に区別することがわかった。
論文 参考訳(メタデータ) (2024-07-23T15:12:14Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。