論文の概要: From Internal Representations to Text Quality: A Geometric Approach to LLM Evaluation
- arxiv url: http://arxiv.org/abs/2509.25359v1
- Date: Mon, 29 Sep 2025 18:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.26053
- Title: From Internal Representations to Text Quality: A Geometric Approach to LLM Evaluation
- Title(参考訳): 内部表現からテキスト品質へ:LLM評価への幾何学的アプローチ
- Authors: Viacheslav Yusupov, Danil Maksimov, Ameliia Alaeva, Anna Vasileva, Anna Antipina, Tatyana Zaitseva, Alina Ermilova, Evgeny Burnaev, Egor Shvetsov,
- Abstract要約: 本稿では,大言語モデル(LLM)の内部および外部分析手法を橋渡しする。
我々は,最大説明変数,有効ランク,内在次元,MAUVEスコア,Schatten Normsなどの指標を検証した。
我々の重要な発見は、異なるモデルが、これらの幾何学的性質に基づいて、同じ順序で、様々なソースからのテキストを一貫してランク付けしていることを明らかにする。
- 参考スコア(独自算出の注目度): 17.169843876412777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper bridges internal and external analysis approaches to large language models (LLMs) by demonstrating that geometric properties of internal model representations serve as reliable proxies for evaluating generated text quality. We validate a set of metrics including Maximum Explainable Variance, Effective Rank, Intrinsic Dimensionality, MAUVE score, and Schatten Norms measured across different layers of LLMs, demonstrating that Intrinsic Dimensionality and Effective Rank can serve as universal assessments of text naturalness and quality. Our key finding reveals that different models consistently rank text from various sources in the same order based on these geometric properties, indicating that these metrics reflect inherent text characteristics rather than model-specific artifacts. This allows a reference-free text quality evaluation that does not require human-annotated datasets, offering practical advantages for automated evaluation pipelines.
- Abstract(参考訳): 本稿では、内部モデル表現の幾何学的性質が、生成したテキストの品質を評価するための信頼できるプロキシであることを示すことによって、大言語モデル(LLM)の内部および外部分析アプローチを橋渡しする。
我々は,LLMの異なる層で測定された最大説明可能な変数,有効ランク,内在的次元,MAUVEスコア,Schatten Normsなどの指標を検証し,本質的次元と有効ランクがテキストの自然性と品質を普遍的に評価できることを示した。
我々の重要な発見は、これらの幾何学的特性に基づいて、異なるモデルが異なるソースからのテキストを常に同じ順序でランク付けしていることを示し、これらの指標がモデル固有のアーティファクトではなく、固有のテキスト特性を反映していることを示している。
これにより、人間が注釈付けしたデータセットを必要としない参照なしのテキスト品質評価が可能になり、自動評価パイプラインに実用的な利点を提供する。
関連論文リスト
- Objective Metrics for Evaluating Large Language Models Using External Data Sources [4.574672973076743]
本稿では,異なるセメータにまたがるクラステキスト資料から得られた主観的指標を活用するための枠組みを提案する。
このフレームワークは、スコアリングにおける自動化と透明性を強調し、人間の解釈への依存を減らす。
本手法は, 主観評価手法の限界に対処し, 教育, 科学, その他の高度な分野のパフォーマンス評価のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-01T02:24:19Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。