論文の概要: The Geometry of Creative Variability: How Credal Sets Expose Calibration Gaps in Language Models
- arxiv url: http://arxiv.org/abs/2509.23088v1
- Date: Sat, 27 Sep 2025 03:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.027492
- Title: The Geometry of Creative Variability: How Credal Sets Expose Calibration Gaps in Language Models
- Title(参考訳): 創造的変数の幾何学 : クレダル集合が言語モデルにおける校正ギャップをいかに表現するか
- Authors: Esteban Garces Arias, Julian Rodemann, Christian Heumann,
- Abstract要約: 本稿では,ニューラルテキスト生成における不確実性を定量化し,分解するための幾何学的枠組みを提案する。
私たちは、500のクリエイティブな文章のプロンプトを10の調整された人間の継続で分析し、10万のストーリーを生成します。
我々のクレダルセット分析では、人間の創造性の変化を捉え、最良のモデルと人間のキャリブレーションはわずか0.434に達する。
- 参考スコア(独自算出の注目度): 5.57190556615623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding uncertainty in large language models remains a fundamental challenge, particularly in creative tasks where multiple valid outputs exist. We present a geometric framework using credal sets - convex hulls of probability distributions - to quantify and decompose uncertainty in neural text generation, calibrated against human creative variation. Analyzing 500 creative writing prompts from the WritingPrompts dataset with 10 unique human continuations each, we evaluate four language models across five decoding strategies, generating 100,000 stories. Our credal set analysis reveals substantial gaps in capturing human creative variation, with the best model-human calibration reaching only 0.434 (Gemma-2B with temperature 0.7). We decompose total uncertainty into epistemic and aleatoric components, finding that the choice of decoding strategy contributes 39.4% to 72.0% of total epistemic uncertainty. Model scale shows weak correlation with calibration quality and no significant difference exists between base and instruction-tuned models in calibration quality. Our geometric framework provides actionable insights for improving generation systems for human-AI creative alignment. We release our complete experimental framework.
- Abstract(参考訳): 大規模言語モデルにおける不確実性を理解することは、特に複数の有効な出力が存在する創造的なタスクにおいて、根本的な課題である。
本稿では,人間の創造的変動に対して校正された,ニューラルテキスト生成の不確かさの定量化と分解を行うために,クレダルセット(確率分布の凸殻)を用いた幾何学的枠組みを提案する。
5つのデコード戦略で4つの言語モデルを評価し,10万のストーリを生成する。
干潟集合解析の結果,人間の創造的変動を捉えるにはかなりのギャップがあり,人間のキャリブレーションは0.434(温度0.7のGemma-2B)にしか達しないことがわかった。
完全不確実性は, 難治性成分と失読性成分に分解し, 完全不確定性成分の39.4%から72.0%に寄与することが判明した。
モデルスケールは校正品質と弱い相関を示し、校正品質におけるベースモデルと命令調整モデルの間に有意な差は存在しない。
我々の幾何学的枠組みは、人間とAIの創造的なアライメントのための生成システムを改善するための実用的な洞察を提供する。
完全な実験フレームワークをリリースします。
関連論文リスト
- Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation [0.20971479389679337]
コントラスト探索を拡張した新しい復号法であるアダプティブコントラスト探索を導入する。
この結果から,異なるモデルアーキテクチャとデータセットの両面でのパフォーマンス向上が示唆された。
論文 参考訳(メタデータ) (2024-07-26T12:23:54Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Probing the Creativity of Large Language Models: Can models produce
divergent semantic association? [9.992602859777689]
本研究では,認知的視点から大規模言語モデルの創造的思考を研究することを目的とする。
本研究では、モデルに無関係な単語を生成し、それらの間の意味的距離を計算するための創造性を客観的に測定する散発的アソシエーションタスク(DAT)を利用する。
以上の結果から,先進的な大規模言語モデルには,創造性の基礎となる基本的なプロセスである意味的関連性が存在することが示唆された。
論文 参考訳(メタデータ) (2023-10-17T11:23:32Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - What Comes Next? Evaluating Uncertainty in Neural Text Generators
Against Human Production Variability [28.403105682913374]
我々は,4つの自然言語生成(NLG)タスクにおいて,人間の生産が語彙的に,構文的に,意味的に変化する範囲を特徴付ける。
次に、生成系の予測確率分布と復号化アルゴリズムによって形成される出力文字列の空間を調べ、その不確実性を探索する。
我々は、NLGモデルと復号化戦略を分析し、複数のサンプルを持つジェネレータを探索することで、モデルの不確実性表現を理解するのに必要な詳細レベルが提供されることを示した。
論文 参考訳(メタデータ) (2023-05-19T14:41:55Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Learning perturbation sets for robust machine learning [97.6757418136662]
我々は、潜在空間の制約領域上に設定された摂動を定義する条件生成器を用いる。
学習した摂動集合の質を定量的かつ質的に測定する。
我々は、学習した摂動集合を利用して、敵画像の破損や逆光の変動に対して経験的かつ確実に堅牢なモデルを訓練する。
論文 参考訳(メタデータ) (2020-07-16T16:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。