論文の概要: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
- arxiv url: http://arxiv.org/abs/2510.12699v1
- Date: Tue, 14 Oct 2025 16:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.395399
- Title: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
- Title(参考訳): ジェネレーションスペースサイズ:LLMジェネレーションのオープンエンドレスネスの理解と校正
- Authors: Sunny Yu, Ahmad Jabbar, Robert Hawkins, Dan Jurafsky, Myra Cheng,
- Abstract要約: 実効生成空間サイズ(英語版)(GSS)は、モデルがプロンプトに対して考慮する意味的に異なる出力の集合である。
GSSBench(英語版)は、異なるメトリクスを評価するために、GSS関係を持つプロンプトペアからなるタスクスイートである。
幻覚検出指標、特にEigenScoreは、標準の多様性と不確実な定量化指標を一貫して上回っている。
- 参考スコア(独自算出の注目度): 30.476953783731307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
- Abstract(参考訳): 異なるオープンエンド生成タスクは出力の多様性の度合いを必要とする。
しかし、現在のLLMはしばしば誤解される。
創造的なタスクに対する過度に均質なアウトプットに崩壊し、多様だが事実的なタスクに対する誤った反応を幻覚させる。
これら2つの障害モードは、モデルがプロンプトとして考慮する意味的に異なる出力の集合である、有効生成空間サイズ(GSS)の概念によって統一され、どちらも対処できる、と我々は論じる。
GSSBench(英語版)は、異なるメトリクスを評価し、モデルが望ましい振る舞いから発散する場所を理解するために、基幹的GAS関係を持つプロンプトペアからなるタスクスイートである。
幻覚検出指標、特にEigenScoreは、モデル内部のみを使用しながら、標準の多様性と不確実性定量化指標を一貫して上回り、モデル内部のタスク表現に対する解釈可能な洞察を提供する。
GSSの3つの応用として,(1)素早いあいまいさの検出と解答の予測,(2)推論モデルにおける過大な考察と理解の解釈,(3)高品質で多様な出力を得るために生成空間を拡大するステアリングモデル,の3つを挙げる。
関連論文リスト
- UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models [91.21455683212224]
大規模言語モデル(LLMs)では、次の情報の関連性確率は、次の製品の関連性確率に関連付けられる。
しかし、きめ細かいサンプリング確率がタスク要求に忠実に適合するかどうかは未解決の問題だ。
P_tokenが大きなステップ・ツー・ステップの変動を示し、P_taskとの整合性が低いDモデルと、P_tokenがより安定してP_taskに整合するEモデルである。
論文 参考訳(メタデータ) (2026-01-25T14:59:09Z) - Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。
1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。
実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文 参考訳(メタデータ) (2026-01-09T07:59:18Z) - Self-Correcting Large Language Models: Generation vs. Multiple Choice [29.697851249014192]
大規模言語モデルは、最近、反復的洗練を通じて応答を自己修正する顕著な能力を示した。
我々は,様々な自然言語理解および推論タスクにおける性能傾向と誤り訂正挙動を比較した。
本研究は,タスク構造と出力空間の相互作用を考慮した自己補正機構の設計について述べる。
論文 参考訳(メタデータ) (2025-11-12T14:46:40Z) - Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) [90.45301024940329]
言語モデル(LM)は、多様で人間らしい創造的コンテンツを生成するのに苦労することが多い。
Infinity-Chatは26万の多様な実世界のオープンエンドユーザクエリからなる大規模データセットである。
本研究では, LMのモード崩壊について大規模に検討し, 人工Hivemind効果が明らかとなった。
論文 参考訳(メタデータ) (2025-10-27T03:16:21Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [34.72864597562907]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - The Price of Format: Diversity Collapse in LLMs [32.616432249190716]
大きな言語モデル(LLM)は、推論中にフォーマットの一貫性を強制するためにロールマーカーや特別なトークンのような構造化テンプレートを使用する。
我々は,この効果をストーリー補完やフリーフォーム生成といったタスクにわたって体系的に評価し,高温サンプリングにおいても多様性の崩壊が持続することを示した。
これらの知見を文脈化するために、構造化されたプロンプトを用いて同じモデルを微調整し、下流タスク性能、アライメント行動、出力多様性の3つの軸で評価する。
論文 参考訳(メタデータ) (2025-05-25T02:52:35Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Unifying Search and Recommendation with Dual-View Representation Learning in a Generative Paradigm [51.2624255871896]
GenSRは検索とレコメンデーションを統合するための新しい生成パラダイムである。
本研究は,従来の差別的手法と比較して新しい生成パラダイムを導入する。
論文 参考訳(メタデータ) (2025-04-09T09:15:37Z) - Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space [14.715989394285238]
既存のLarge Language Models (LLM) には、ユーザが生成するレスポンスごとに不確実性/信頼度を計測するための固有の機能がない。
本稿では,これらの課題に対処する新しい枠組みを提案する。
意味密度は、意味空間における確率分布の観点から各応答の不確かさ/自信情報を抽出する。
論文 参考訳(メタデータ) (2024-05-22T17:13:49Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。