論文の概要: Magic, Madness, Heaven, Sin: LLM Output Diversity is Everything, Everywhere, All at Once
- arxiv url: http://arxiv.org/abs/2604.01504v1
- Date: Thu, 02 Apr 2026 00:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.175128
- Title: Magic, Madness, Heaven, Sin: LLM Output Diversity is Everything, Everywhere, All at Once
- Title(参考訳): Magic, Madness, Heaven, Sin: LLM output Diversity is everything, Everywhere, all at once
- Authors: Harnoor Dhingra,
- Abstract要約: 生成、推論、アライメント、表現分析における出力変動について検討する。
等質性-異質性軸に沿って出力変動をモデル化するマジック,マッドネス,ヘブン,シンフレームワークを導入する。
我々は,モデル固有の特性ではなく,タスク目的によって形作られた特性として,出力変動の文脈対応評価を論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on Large Language Models (LLMs) studies output variation across generation, reasoning, alignment, and representational analysis, often under the umbrella of "diversity." Yet the terminology remains fragmented, largely because the normative objectives underlying tasks are rarely made explicit. We introduce the Magic, Madness, Heaven, Sin framework, which models output variation along a homogeneity-heterogeneity axis, where valuation is determined by the task and its normative objective. We organize tasks into four normative contexts: epistemic (factuality), interactional (user utility), societal (representation), and safety (robustness). For each, we examine the failure modes and vocabulary such as hallucination, mode collapse, bias, and erasure through which variation is studied. We apply the framework to analyze all pairwise cross-contextual interactions, revealing that optimizing for one objective, such as improving safety, can inadvertently harm demographic representation or creative diversity. We argue for context-aware evaluation of output variation, reframing it as a property shaped by task objectives rather than a model's intrinsic trait.
- Abstract(参考訳): LLM(Large Language Models)の研究は、世代、推論、アライメント、表現分析を、しばしば「多様性」の傘の下で出力する。
しかし、その用語は断片化され続けており、主な理由は、基礎となるタスクの規範的目的が明確化されることがほとんどないからである。
課題とその規範的目的によって評価が決定される等質・均一性軸に沿って出力変動をモデル化するマジック,マッドネス,ヘブン,シンフレームワークを導入する。
課題を4つの規範的文脈(実効性)、相互作用性(ユーザユーティリティ)、社会性(表現)、安全性(ロバスト性)に分類する。
そこで本研究では, 幻覚, モード崩壊, バイアス, 消去などの障害モードと語彙について検討した。
この枠組みを適用し,安全性の向上など,一つの目的に最適化することで,人口動態の表現や創造的多様性を不注意に損なうおそれがあることを明らかにする。
我々は,モデル固有の特性ではなく,タスク目的によって形作られた特性として,出力変動の文脈対応評価を論じる。
関連論文リスト
- Facts in Stats: Impacts of Pretraining Diversity on Language Model Generalization [33.5861323022684]
本稿では,ジェネリックトークンの統計ストリームと,ソースとターゲットのトークンペアの抽象的な事実ストリームを組み合わせたフレキシブルな合成テストベッドを提案する。
文脈的多様性の増大は分布内分布(ID)の精度を低下させるが、分布外分布(OOD)の一般化に対する影響は文脈的構造に大きく依存する。
論文 参考訳(メタデータ) (2025-10-17T17:58:01Z) - Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations [30.476953783731307]
実効生成空間サイズ(英語版)(GSS)は、モデルがプロンプトに対して考慮する意味的に異なる出力の集合である。
GSSBench(英語版)は、異なるメトリクスを評価するために、GSS関係を持つプロンプトペアからなるタスクスイートである。
幻覚検出指標、特にEigenScoreは、標準の多様性と不確実な定量化指標を一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-14T16:31:34Z) - LLM Output Homogenization is Task Dependent [16.973041118326098]
本稿では,8つのタスクカテゴリから構成されるタスク分類について述べる。
そこで本研究では,同種化を希望する場所で保存しながら,機能的多様性を高めるタスクアンカレッドサンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T14:58:07Z) - Large Language Models for Subjective Language Understanding: A Survey [5.098933455438321]
主観的言語理解(英: subjective language understanding)とは、客観的事実ではなく、個人的感情、意見、あるいは具体的意味を伝達するコンテンツを解釈または生成することを目的とする、自然言語処理タスクの幅広いセットを指す。
ChatGPTやLLaMAといった大規模言語モデル(LLM)の出現により、これらの固有のニュアンスなタスクにどのようにアプローチするかというパラダイムシフトが生まれました。
本研究では,感情分析,感情認識,皮肉検出,ユーモア理解,姿勢検出,比喩解釈,意図検出,美学評価などの主観的言語課題にLLMを適用した最近の進歩を概観する。
論文 参考訳(メタデータ) (2025-08-11T13:10:44Z) - Large Language Models Often Say One Thing and Do Another [49.22262396351797]
我々はWords and Deeds Consistency Test (WDCT)と呼ばれる新しい評価ベンチマークを開発した。
このベンチマークは、異なるドメインにわたる単語ベースの質問とdeedベースの質問の厳密な対応を確立する。
評価結果から,異なるLLMとドメイン間で単語と行為の矛盾が広範囲にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-10T07:34:54Z) - Political Bias in LLMs: Unaligned Moral Values in Agent-centric Simulations [0.0]
モーラル・ファンデーション理論アンケートにおいて,パーソナライズされた言語モデルと人間の反応がどのように一致しているかを検討する。
我々は、オープンソースの生成言語モデルを異なる政治的ペルソナに適応させ、これらのモデルを繰り返し調査し、合成データセットを生成する。
解析の結果,モデルが複数の繰り返しにまたがって不整合な結果をもたらし,高い応答差が生じることがわかった。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - Picking on the Same Person: Does Algorithmic Monoculture lead to Outcome
Homogenization? [90.35044668396591]
機械学習における繰り返しのテーマはアルゴリズムによるモノカルチャーである。同じシステム、またはコンポーネントを共有するシステムは、複数の意思決定者によってデプロイされる。
意思決定者がトレーニングデータや特定のモデルなどのコンポーネントを共有すれば、より均一な結果が得られます。
我々はこの仮説をアルゴリズムフェアネスベンチマークで検証し、トレーニングデータの共有がホモジェナイゼーションを確実に悪化させることを示した。
結果の均質化に関する哲学的分析と社会的な課題を、デプロイされた機械学習システムに含めることに着目して結論付ける。
論文 参考訳(メタデータ) (2022-11-25T09:33:11Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation [60.62039705180484]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。