論文の概要: The Price of Format: Diversity Collapse in LLMs
- arxiv url: http://arxiv.org/abs/2505.18949v1
- Date: Sun, 25 May 2025 02:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.774153
- Title: The Price of Format: Diversity Collapse in LLMs
- Title(参考訳): フォーマットの価格: LLMにおける多様性の崩壊
- Authors: Longfei Yun, Chenyang An, Zilong Wang, Letian Peng, Jingbo Shang,
- Abstract要約: 大きな言語モデル(LLM)は、推論中にフォーマットの一貫性を強制するためにロールマーカーや特別なトークンのような構造化テンプレートを使用する。
我々は,この効果をストーリー補完やフリーフォーム生成といったタスクにわたって体系的に評価し,高温サンプリングにおいても多様性の崩壊が持続することを示した。
これらの知見を文脈化するために、構造化されたプロンプトを用いて同じモデルを微調整し、下流タスク性能、アライメント行動、出力多様性の3つの軸で評価する。
- 参考スコア(独自算出の注目度): 32.616432249190716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-tuned large language models (LLMs) employ structured templates, such as role markers and special tokens, to enforce format consistency during inference. However, we identify a critical limitation of such formatting: it induces a phenomenon we term diversity collapse, where the model generates semantically similar outputs for open-ended inputs, undermining creativity and variability. We systematically evaluate this effect across tasks like story completion and free-form generation, finding that (1) diversity collapse persists even under high-temperature sampling, and (2) structural tokens in templates significantly constrain the model's output space. To contextualize these findings, we fine-tune the same model using a range of structured prompts and then evaluate them across three axes: downstream task performance, alignment behavior, and output diversity. Our analysis shows that format consistency between fine-tuning and inference is crucial for structure-sensitive tasks (e.g., GSM8K, IFEval), but has marginal influence on knowledge-heavy tasks (e.g., MMLU, WebQuestions). In contrast, output diversity is primarily governed by the presence or absence of structural tokens, with minimal formatting yielding the most diverse outputs. These findings reveal that current prompting conventions, while beneficial for alignment, may inadvertently suppress output diversity, underscoring the need for diversity-aware prompt design and instruction tuning.
- Abstract(参考訳): インストラクションチューニングされた大型言語モデル(LLM)は、推論中にフォーマットの一貫性を強制するためにロールマーカーや特別なトークンのような構造化テンプレートを使用する。
しかし、このようなフォーマットの限界は、多様性の崩壊と呼ばれる現象を誘導し、モデルがオープンな入力に対して意味論的に類似した出力を生成し、創造性と多様性を損なう。
本研究では,(1)高温サンプリング下においても多様性の崩壊が持続し,(2)テンプレート内の構造トークンがモデル出力空間を著しく制約していることから,ストーリー補完やフリーフォーム生成といったタスクにわたって,この効果を体系的に評価する。
これらの知見を文脈化するために、構造化されたプロンプトを用いて同じモデルを微調整し、下流タスク性能、アライメント行動、出力多様性の3つの軸で評価する。
解析の結果、微調整と推論の形式整合性は、構造に敏感なタスク(例えば、GSM8K、IFEval)には不可欠であるが、知識重大タスク(例えば、MMLU、WebQuestions)には限界があることがわかった。
対照的に、出力の多様性は主に構造的トークンの存在または欠如によって支配され、最小限のフォーマット化は最も多様な出力をもたらす。
これらの結果は、現在のプロンプト・コンベンションがアライメントに有用であるにもかかわらず、出力の多様性を必然的に抑制し、多様性に配慮したプロンプト設計とインストラクションチューニングの必要性を浮き彫りにしていることを示している。
関連論文リスト
- StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs [39.108050455592036]
StructEvalは構造化フォーマットの生成におけるLarge Language Modelsの機能を評価するためのベンチマークである。
我々のベンチマークは18の形式と44のタイプのタスクを含み、形式順守と構造的正当性のための新しい指標である。
o1-miniのような最先端のモデルでさえ平均スコアは75.58点に過ぎなかった。
論文 参考訳(メタデータ) (2025-05-26T15:40:42Z) - Structured Prompting and Feedback-Guided Reasoning with LLMs for Data Interpretation [0.0]
大規模言語モデル(LLM)は、自然言語の理解とタスクの一般化において顕著な能力を示した。
本稿では、構造化されたプロンプトおよびフィードバック駆動型変換ロジック生成手法であるSTROT Frameworkを紹介する。
論文 参考訳(メタデータ) (2025-05-03T00:05:01Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。
このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。
このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文 参考訳(メタデータ) (2023-01-09T11:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。