論文の概要: ConCISE: A Reference-Free Conciseness Evaluation Metric for LLM-Generated Answers
- arxiv url: http://arxiv.org/abs/2511.16846v1
- Date: Thu, 20 Nov 2025 23:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.835399
- Title: ConCISE: A Reference-Free Conciseness Evaluation Metric for LLM-Generated Answers
- Title(参考訳): ConCISE: LLM-Generated Answersのための基準自由簡潔性評価基準
- Authors: Seyed Mohssen Ghafari, Ronny Kol, Juan C. Quiroz, Nella Luan, Monika Patial, Chanaka Rupasinghe, Herman Wandabwa, Luiz Pizzato,
- Abstract要約: 本稿では,大規模な言語モデルによって生成された応答の簡潔さを評価するための,参照不要な新しい指標を提案する。
本手法は,金本位基準に頼らずに,非重要内容の定量化を行う。
- 参考スコア(独自算出の注目度): 0.3431096786139341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) frequently generate responses that are lengthy and verbose, filled with redundant or unnecessary details. This diminishes clarity and user satisfaction, and it increases costs for model developers, especially with well-known proprietary models that charge based on the number of output tokens. In this paper, we introduce a novel reference-free metric for evaluating the conciseness of responses generated by LLMs. Our method quantifies non-essential content without relying on gold standard references and calculates the average of three calculations: i) a compression ratio between the original response and an LLM abstractive summary; ii) a compression ratio between the original response and an LLM extractive summary; and iii) wordremoval compression, where an LLM removes as many non-essential words as possible from the response while preserving its meaning, with the number of tokens removed indicating the conciseness score. Experimental results demonstrate that our proposed metric identifies redundancy in LLM outputs, offering a practical tool for automated evaluation of response brevity in conversational AI systems without the need for ground truth human annotations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、冗長で冗長な応答を頻繁に生成する。
これは明確さとユーザの満足度を低下させ、特に出力トークンの数に基づいて課金される有名なプロプライエタリなモデルにおいて、モデル開発者のコストを増大させる。
本稿では,LLMが生成する応答の簡潔さを評価するための,参照不要な新しい指標を提案する。
本手法は,金本位基準を頼らずに非重要コンテンツを定量化し,平均3つの計算値を算出する。
一 原応答とLLM抽象要約との圧縮率
二 原応答とLLM抽出要約との圧縮率
三 単語除去圧縮であって、LLMは、その意味を保ちながら、その応答からできるだけ多くの非意味語を除去し、簡潔度スコアを示すトークンの数を除去する。
実験の結果,提案手法はLLM出力の冗長性を同定し,人間アノテーションを必要とせず,対話型AIシステムにおける応答の簡潔さを自動評価するための実用的なツールを提供する。
関連論文リスト
- Comprehensiveness Metrics for Automatic Evaluation of Factual Recall in Text Generation [46.697788643450785]
大規模言語モデル(LLM)は、不完全または選択的に鍵情報を省略する出力を生成する。
センシティブなドメインでは、そのような欠落は、事実的不正確さによって引き起こされるものと同等の重大な害をもたらす可能性がある。
論文 参考訳(メタデータ) (2025-10-09T08:22:24Z) - Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。