論文の概要: Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity
- arxiv url: http://arxiv.org/abs/2603.29396v1
- Date: Tue, 31 Mar 2026 08:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.334417
- Title: Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity
- Title(参考訳): 私のモデルは正しい理由で複雑か? LLMsのベンチマーク動作とToken-Level Perplexityの比較
- Authors: Zoë Prins, Samuele Punzo, Frank Wildenburg, Giovanni Cinà, Sandro Pezzelle,
- Abstract要約: モデルが言語学的に関係のある手がかりに依存しているかどうかをテストするために,トークンレベルの難易度に基づく基本的解釈可能性フレームワークを導入する。
本手法は,不安定な特徴帰属技術に頼ることなく,正確な仮説駆動解析を可能にする。
- 参考スコア(独自算出の注目度): 6.285055089721361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard evaluations of Large language models (LLMs) focus on task performance, offering limited insight into whether correct behavior reflects appropriate underlying mechanisms and risking confirmation bias. We introduce a simple, principled interpretability framework based on token-level perplexity to test whether models rely on linguistically relevant cues. By comparing perplexity distributions over minimal sentence pairs differing in one or a few `pivotal' tokens, our method enables precise, hypothesis-driven analysis without relying on unstable feature-attribution techniques. Experiments on controlled linguistic benchmarks with several open-weight LLMs show that, while linguistically important tokens influence model behavior, they never fully explain perplexity shifts, revealing that models rely on heuristics other than the expected linguistic ones.
- Abstract(参考訳): 大規模言語モデル(LLM)の標準評価はタスクパフォーマンスに重点を置いており、正しい振る舞いが適切なメカニズムを反映しているか、確認バイアスのリスクがあるか、という限定的な洞察を提供する。
モデルが言語学的に関係のある手がかりに依存しているかどうかをテストするために,トークンレベルの難易度に基づく,単純で原則化された解釈可能性フレームワークを導入する。
1つまたは数つの'pivotal'トークンで異なる最小文対に対するパープレキシティ分布を比較することにより、不安定な特徴帰属技術に頼ることなく、正確な仮説駆動分析を可能にする。
いくつかのオープンウェイト LLM による制御された言語ベンチマークの実験では、言語学的に重要なトークンがモデル行動に影響を与えるが、それらのトークンはパープレキシティシフトを完全に説明することはなく、モデルが期待される言語的トークン以外のヒューリスティックに依存していることが示されている。
関連論文リスト
- Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation [40.210132040677]
本稿では,23の現代大言語モデル(LLM)の絶対的性能と相対的ランク付けが,制御的,真に等価な語彙的および構文的摂動に与える影響について検討する。
その結果、語彙的摂動は、ほぼすべてのモデルやタスクに対して、実質的、統計的に有意な性能劣化を誘導する一方、構文的摂動はより異質な効果を持ち、時には結果を改善することが示されている。
論文 参考訳(メタデータ) (2026-02-19T12:24:42Z) - Do Sparse Autoencoders Identify Reasoning Features in Language Models? [12.693974363520423]
大規模言語モデル(LLM)において,スパースオートエンコーダ(SAE)が真の推論特徴を識別するかどうかを検討する。
我々はまず、$ell_$-regularized SAEsが本質的に低次元パターンに偏っているという単純な理論分析を通して示す。
このバイアスに触発され,機能活性化が推論過程を反映しているか,あるいは表層言語的相関を反映しているかを検証するために,ファルシフィケーション指向評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-09T09:54:36Z) - When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。
多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。
LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文 参考訳(メタデータ) (2025-11-18T10:40:32Z) - Tokenization and Representation Biases in Multilingual Models on Dialectal NLP Tasks [7.216732751280017]
我々は、事前学習された多言語モデルにおける表現バイアスの尺度として、トークン化パリティ(TP)と情報化パリティ(IP)を関連付ける。
我々は,最先端デコーダのみのLLMと,方言分類,話題分類,抽出質問応答の3つのタスクからなるエンコーダベースモデルを比較した。
分析の結果,TPは統語的・形態的手法に依存したタスクの性能を予測し,IPは意味的タスクのパフォーマンスを予測できることがわかった。
論文 参考訳(メタデータ) (2025-09-24T12:13:53Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。