論文の概要: Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains
- arxiv url: http://arxiv.org/abs/2603.14400v1
- Date: Sun, 15 Mar 2026 14:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.78946
- Title: Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains
- Title(参考訳): 正規部分曲線とエントロピーを応用領域に拡張した最小対
- Authors: Andrew Katz,
- Abstract要約: 本研究は,二項文法から順序スケールの分類とスコアリングタスクまで,素性に基づく評価を拡張した。
モデルに回答を求めるのではなく、情報理論の「サプライズ」を測る。
この枠組みは, 社会・生態・技術系の分類, 因果文の識別(バイナリとスケール), 図形言語検出, 帰納的定性的符号化の4分野にまたがる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The minimal pairs paradigm of comparing model probabilities for contrasting completions has proven useful for evaluating linguistic knowledge in language models, yet its application has largely been confined to binary grammaticality judgments over syntactic phenomena. Additionally, standard prompting-based evaluation requires expensive text generation, may elicit post-hoc rationalizations rather than model judgments, and discards information about model uncertainty. We address both limitations by extending surprisal-based evaluation from binary grammaticality contrasts to ordinal-scaled classification and scoring tasks across multiple domains. Rather than asking models to generate answers, we measure the information-theoretic "surprise" (negative log probability) they assign to each position on rating scales (e.g., 1-5 or 1-9), yielding full surprisal curves that reveal both the model's preferred response and its uncertainty via entropy. We explore this framework across four domains: social-ecological-technological systems classification, causal statement identification (binary and scaled), figurative language detection, and deductive qualitative coding. Across these domains, surprisal curves produce interpretable classification signals with clear minima near expected ordinal scale positions, and entropy over the completion tended to distinguish genuinely ambiguous items from easier items.
- Abstract(参考訳): コントラスト補完のためのモデル確率を比較する最小対のパラダイムは言語モデルにおける言語知識を評価するのに有用であることが証明されているが、その応用は構文現象よりも二項文法的判断に限られている。
さらに、標準的なプロンプトベースの評価には、高価なテキスト生成が必要であり、モデル判断よりもホック後の合理化を誘発し、モデルの不確実性に関する情報を捨てる可能性がある。
複数の領域にまたがる順序スケールの分類やスコアリングタスクとは対照的な二項文法性に基づく予備的評価を拡張することで、両方の制約に対処する。
モデルに回答を求めるのではなく、評価尺度(例えば、1-5または1-9)で各位置を割り当てる情報理論的「サプライズ」(負の対数確率)を測定し、モデルが好む応答とエントロピーによる不確実性の両方を明らかにする完全な予備曲線を生成する。
この枠組みは, 社会・生態・技術系の分類, 因果文の識別(バイナリとスケール), 図形言語検出, 帰納的定性的符号化の4分野にまたがる。
これらの領域全体にわたって、原始曲線は、期待される順序スケール位置付近で明らかな最小値を持つ解釈可能な分類信号を生成し、完了に対するエントロピーは、真にあいまいな項目とより簡単な項目を区別する傾向にあった。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - QUITE: Quantifying Uncertainty in Natural Language Text in Bayesian Reasoning Scenarios [15.193544498311603]
本稿では,カテゴリー的確率変数と複雑な関係を持つ実世界のベイズ推論シナリオのデータセットであるQUITEを提案する。
我々は幅広い実験を行い、論理ベースのモデルが全ての推論型において、アウト・オブ・ボックスの大規模言語モデルより優れていることを発見した。
以上の結果から,ニューロシンボリックモデルが複雑な推論を改善する上で有望な方向であることを示す。
論文 参考訳(メタデータ) (2024-10-14T12:44:59Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。