論文の概要: Rethinking Perplexity: Revealing the Impact of Input Length on Perplexity Evaluation in LLMs
- arxiv url: http://arxiv.org/abs/2602.04099v1
- Date: Wed, 04 Feb 2026 00:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.320555
- Title: Rethinking Perplexity: Revealing the Impact of Input Length on Perplexity Evaluation in LLMs
- Title(参考訳): パープレキシティの再考:LLMのパープレキシティ評価における入力長の影響について
- Authors: Letian Cheng, Junyan Wang, Yan Gao, Elliott Wen, Ting Dang, Hong Jia,
- Abstract要約: 本稿では,入力長,評価プロトコル設計,システムレベルのコストを統合するシステム意識評価フレームワークであるLengthBenchmarkを紹介する。
精度指向のメトリクスのみに焦点を当てた以前の作業とは異なり、LengthBenchmarkはレイテンシ、メモリフットプリント、評価コストを計測する。
その結果, (i)スライディングウィンドウ評価は短い入力で連続的に性能を低下させ, (ii) 完全精度モデルと量子化モデルの両方が, 評価セグメント長が大きくなるにつれて利得を実現することがわかった。
- 参考スコア(独自算出の注目度): 12.220738199786007
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Perplexity is a widely adopted metric for assessing the predictive quality of large language models (LLMs) and often serves as a reference metric for downstream evaluations. However, recent evidence shows that perplexity can be unreliable, especially when irrelevant long inputs are used, raising concerns for both benchmarking and system deployment. While prior efforts have employed selective input filtering and curated datasets, the impact of input length on perplexity has not been systematically studied from a systems perspective and input length has rarely been treated as a first-class system variable affecting both fairness and efficiency. In this work, we close this gap by introducing LengthBenchmark, a system-conscious evaluation framework that explicitly integrates input length, evaluation protocol design, and system-level costs, evaluating representative LLMs under two scoring protocols (direct accumulation and fixed window sliding) across varying context lengths. Unlike prior work that focuses solely on accuracy-oriented metrics, LengthBenchmark additionally measures latency, memory footprint, and evaluation cost, thereby linking predictive metrics to deployment realities. We further incorporate quantized variants not as a main contribution, but as robustness checks, showing that length-induced biases persist across both full-precision and compressed models. This design disentangles the effects of evaluation logic, quantization, and input length, and demonstrates that length bias is a general phenomenon that undermines fair cross-model comparison. Our analysis yields two key observations: (i) sliding window evaluation consistently inflates performance on short inputs, and (ii) both full-precision and quantized models appear to realise gains as the evaluated segment length grows.
- Abstract(参考訳): パープレキシティ(Perplexity)は、大規模言語モデル(LLM)の予測品質を評価するための広く採用されている指標であり、しばしば下流評価の基準指標として機能する。
しかし、最近の証拠は、特に無関係なロングインプットを使用する場合、パープレキシティが信頼できないことを示し、ベンチマークとシステムデプロイメントの両方に対する懸念を提起している。
これまでは選択的入力フィルタリングとキュレートされたデータセットを用いてきたが、システムの観点からは入力長が複雑度に与える影響は体系的に研究されておらず、入力長は公平性と効率に影響を及ぼす第1級システム変数として扱われることはめったにない。
本稿では,入力長,評価プロトコル設計,システムレベルのコストを明示的に統合するシステム意識評価フレームワークであるLengthBenchmarkを導入することにより,このギャップを解消する。
精度指向のメトリクスにのみフォーカスする以前の作業とは異なり、LengthBenchmarkはレイテンシ、メモリフットプリント、評価コストを計測し、予測メトリクスをデプロイ現実にリンクする。
さらに、主コントリビューションではなく、ロバスト性チェックとして、完全精度モデルと圧縮モデルの両方に長さ誘起バイアスが持続することを示す。
この設計は、評価論理、量子化、入力長の影響を歪め、長さバイアスが公正なクロスモデル比較を損なう一般的な現象であることを示す。
私たちの分析では2つの重要な観察結果が得られます。
(i)スライディングウインドウ評価は、短い入力で連続的に性能を膨らませ、
(II) 評価セグメント長が大きくなるにつれて, 完全精度モデルと量子化モデルの両方がゲインを実現するように見える。
関連論文リスト
- Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics [25.374192139098284]
マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。
我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。
本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
論文 参考訳(メタデータ) (2026-01-08T13:49:14Z) - Bayesian Evaluation of Large Language Model Behavior [11.847752638476257]
大規模言語モデルに基づくテキスト生成システムがどのように振る舞うかを評価することがますます重要である。
既存の評価手法は、しばしば統計的不確実性定量化を無視する。
本稿では,2値評価指標における不確かさの定量化にベイズ的手法を適用した2つのケーススタディを提案する。
論文 参考訳(メタデータ) (2025-11-04T19:51:46Z) - Explaining Length Bias in LLM-Based Preference Evaluations [52.141933285905885]
本研究では,選好評価指標,特に勝率を,好ましさと情報量という2つの重要な要素に分解する。
応答長が情報量に影響を与えることにより評価に影響を及ぼすことを示す。
本稿では,利得率測定のための簡易かつ効果的な調整法であるAdapAlpacaを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:37:41Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - The Counterfactual-Shapley Value: Attributing Change in System Metrics [10.804568364995982]
帰属問題の重要な要素は、単一入力の特定の変更によるシステム計量の(仮説的な)変化を推定することである。
本稿では,時系列予測モデルを用いて反事実を推定し,属性スコア CF-Shapley を構築する手法を提案する。
実世界のアプリケーションとして、広告マッチング密度の指標に観測された変化をもたらすことを目的として、クエリ-アドマッチングシステムを分析する。
論文 参考訳(メタデータ) (2022-08-17T16:48:20Z) - Unveiling Project-Specific Bias in Neural Code Models [20.131797671630963]
大規模言語モデル(LLM)ベースのニューラルネットワークモデルは、実際のプロジェクト間アウトオブディストリビューション(OOD)データに効果的に一般化するのに苦労することが多い。
この現象は, 地中真実の証拠ではなく, プロジェクト固有のショートカットによる予測に大きく依存していることが示唆された。
サンプル間の潜在論理関係を利用してモデルの学習行動を規則化する新しいバイアス緩和機構を提案する。
論文 参考訳(メタデータ) (2022-01-19T02:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。