論文の概要: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
- arxiv url: http://arxiv.org/abs/2510.12699v1
- Date: Tue, 14 Oct 2025 16:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.395399
- Title: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
- Title(参考訳): ジェネレーションスペースサイズ:LLMジェネレーションのオープンエンドレスネスの理解と校正
- Authors: Sunny Yu, Ahmad Jabbar, Robert Hawkins, Dan Jurafsky, Myra Cheng,
- Abstract要約: 実効生成空間サイズ(英語版)(GSS)は、モデルがプロンプトに対して考慮する意味的に異なる出力の集合である。
GSSBench(英語版)は、異なるメトリクスを評価するために、GSS関係を持つプロンプトペアからなるタスクスイートである。
幻覚検出指標、特にEigenScoreは、標準の多様性と不確実な定量化指標を一貫して上回っている。
- 参考スコア(独自算出の注目度): 30.476953783731307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
- Abstract(参考訳): 異なるオープンエンド生成タスクは出力の多様性の度合いを必要とする。
しかし、現在のLLMはしばしば誤解される。
創造的なタスクに対する過度に均質なアウトプットに崩壊し、多様だが事実的なタスクに対する誤った反応を幻覚させる。
これら2つの障害モードは、モデルがプロンプトとして考慮する意味的に異なる出力の集合である、有効生成空間サイズ(GSS)の概念によって統一され、どちらも対処できる、と我々は論じる。
GSSBench(英語版)は、異なるメトリクスを評価し、モデルが望ましい振る舞いから発散する場所を理解するために、基幹的GAS関係を持つプロンプトペアからなるタスクスイートである。
幻覚検出指標、特にEigenScoreは、モデル内部のみを使用しながら、標準の多様性と不確実性定量化指標を一貫して上回り、モデル内部のタスク表現に対する解釈可能な洞察を提供する。
GSSの3つの応用として,(1)素早いあいまいさの検出と解答の予測,(2)推論モデルにおける過大な考察と理解の解釈,(3)高品質で多様な出力を得るために生成空間を拡大するステアリングモデル,の3つを挙げる。
関連論文リスト
- SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [34.72864597562907]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - The Price of Format: Diversity Collapse in LLMs [32.616432249190716]
大きな言語モデル(LLM)は、推論中にフォーマットの一貫性を強制するためにロールマーカーや特別なトークンのような構造化テンプレートを使用する。
我々は,この効果をストーリー補完やフリーフォーム生成といったタスクにわたって体系的に評価し,高温サンプリングにおいても多様性の崩壊が持続することを示した。
これらの知見を文脈化するために、構造化されたプロンプトを用いて同じモデルを微調整し、下流タスク性能、アライメント行動、出力多様性の3つの軸で評価する。
論文 参考訳(メタデータ) (2025-05-25T02:52:35Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space [14.715989394285238]
既存のLarge Language Models (LLM) には、ユーザが生成するレスポンスごとに不確実性/信頼度を計測するための固有の機能がない。
本稿では,これらの課題に対処する新しい枠組みを提案する。
意味密度は、意味空間における確率分布の観点から各応答の不確かさ/自信情報を抽出する。
論文 参考訳(メタデータ) (2024-05-22T17:13:49Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。