論文の概要: NoveltyBench: Evaluating Creativity and Diversity in Language Models
- arxiv url: http://arxiv.org/abs/2504.05228v1
- Date: Mon, 07 Apr 2025 16:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:27.444057
- Title: NoveltyBench: Evaluating Creativity and Diversity in Language Models
- Title(参考訳): NoveltyBench: 言語モデルにおける創造性と多様性の評価
- Authors: Yiming Zhang, Harshita Diddee, Susan Holm, Hanchen Liu, Xinyue Liu, Vinay Samuel, Barry Wang, Daphne Ippolito,
- Abstract要約: NoveltyBenchは、言語モデルが複数の異なる高品質な出力を生成する能力を評価するために設計されたベンチマークである。
我々は20の指導的言語モデルを評価し、現在の最先端システムは人間の書き手よりも著しく多様性が低いことを発見した。
- 参考スコア(独自算出の注目度): 21.6078675947446
- License:
- Abstract: Language models have demonstrated remarkable capabilities on standard benchmarks, yet they struggle increasingly from mode collapse, the inability to generate diverse and novel outputs. Our work introduces NoveltyBench, a benchmark specifically designed to evaluate the ability of language models to produce multiple distinct and high-quality outputs. NoveltyBench utilizes prompts curated to elicit diverse answers and filtered real-world user queries. Evaluating 20 leading language models, we find that current state-of-the-art systems generate significantly less diversity than human writers. Notably, larger models within a family often exhibit less diversity than their smaller counterparts, challenging the notion that capability on standard benchmarks translates directly to generative utility. While prompting strategies like in-context regeneration can elicit diversity, our findings highlight a fundamental lack of distributional diversity in current models, reducing their utility for users seeking varied responses and suggesting the need for new training and evaluation paradigms that prioritize creativity alongside quality.
- Abstract(参考訳): 言語モデルは標準ベンチマークで顕著な能力を示してきたが、モード崩壊、多種多様な新しいアウトプットの生成にますます苦労している。
このベンチマークは、言語モデルが複数の異なる高品質な出力を生成する能力を評価するために特別に設計されたものだ。
NoveltyBenchは、キュレートされたプロンプトを使用して、さまざまな回答と実際のユーザクエリをフィルタリングする。
20の指導的言語モデルを評価すると、現在の最先端システムは人間のライターよりも著しく多様性が低いことが分かる。
特に、家族内の大きなモデルは、小さなモデルよりも多様性が低いことが多いため、標準ベンチマークの能力が直接生成ユーティリティに変換されるという概念に挑戦する。
インコンテキスト・リジェネレーション(in-context regeneration)のような戦略は多様性を損なう可能性があるが,本研究の結果は,現行モデルにおける分散多様性の根本的な欠如,多様な応答を求めるユーザに対する利便性の低下,品質とともに創造性を優先する新たなトレーニングと評価パラダイムの必要性を浮き彫りにしている。
関連論文リスト
- OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。
これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Improving Diversity of Commonsense Generation by Large Language Models via In-Context Learning [28.654890118684957]
生成コモンセンス推論 (Generative Commonsense Reasoning, GCR) は、コモンセンス知識を用いて状況を理解するためのモデルを必要とする。
生成の多様性は、モデルが様々な常識的知識事実を使用する能力を反映しているため、同様に重要である。
そこで本研究では,LLMの世代を多様化し,その品質を保ちながら簡便な手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:52:39Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Improving Diversity of Demographic Representation in Large Language
Models via Collective-Critiques and Self-Voting [19.79214899011072]
本稿では,生成的大言語モデルにおける表現の多様性を形式化する。
評価データセットを提示し、人や文化軸に沿って生成された反応の多様性を測定する指標を提案する。
LLMは多様性の概念を理解し、その目標に対して自身の反応を推論し、批判することができる。
論文 参考訳(メタデータ) (2023-10-25T10:17:17Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - PatternGPT :A Pattern-Driven Framework for Large Language Model Text
Generation [1.7259824817932292]
本稿では,大規模言語モデルのためのパターン駆動型テキスト生成フレームワークであるPatternGPTを提案する。
このフレームワークは、大規模言語モデルの抽出機能を利用して、リッチで多様な構造化および形式化されたパターンを生成する。
判断基準や最適化アルゴリズムなどの外部知識は、高品質なパターンの探索に使用される。
論文 参考訳(メタデータ) (2023-07-02T04:32:41Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Incorporating Stylistic Lexical Preferences in Generative Language
Models [10.62343151429147]
本稿では,著者の連続的な多次元語彙的嗜好を生成言語モデルに組み込むことにより,特定の著者属性を誘導する手法を提案する。
実験により,提案手法は,対象とする著者の語彙的スタイルと顕著に一致したテキストを生成することができることを示した。
論文 参考訳(メタデータ) (2020-10-22T09:24:05Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。