論文の概要: NoveltyBench: Evaluating Language Models for Humanlike Diversity
- arxiv url: http://arxiv.org/abs/2504.05228v2
- Date: Tue, 08 Apr 2025 16:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 06:54:15.955681
- Title: NoveltyBench: Evaluating Language Models for Humanlike Diversity
- Title(参考訳): NoveltyBench:人間に似た多様性のための言語モデルの評価
- Authors: Yiming Zhang, Harshita Diddee, Susan Holm, Hanchen Liu, Xinyue Liu, Vinay Samuel, Barry Wang, Daphne Ippolito,
- Abstract要約: NoveltyBenchは、言語モデルが複数の異なる高品質な出力を生成する能力を評価するために設計されたベンチマークである。
我々は20の指導的言語モデルを評価し、現在の最先端システムは人間の書き手よりも著しく多様性が低いことを発見した。
- 参考スコア(独自算出の注目度): 21.6078675947446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have demonstrated remarkable capabilities on standard benchmarks, yet they struggle increasingly from mode collapse, the inability to generate diverse and novel outputs. Our work introduces NoveltyBench, a benchmark specifically designed to evaluate the ability of language models to produce multiple distinct and high-quality outputs. NoveltyBench utilizes prompts curated to elicit diverse answers and filtered real-world user queries. Evaluating 20 leading language models, we find that current state-of-the-art systems generate significantly less diversity than human writers. Notably, larger models within a family often exhibit less diversity than their smaller counterparts, challenging the notion that capability on standard benchmarks translates directly to generative utility. While prompting strategies like in-context regeneration can elicit diversity, our findings highlight a fundamental lack of distributional diversity in current models, reducing their utility for users seeking varied responses and suggesting the need for new training and evaluation paradigms that prioritize diversity alongside quality.
- Abstract(参考訳): 言語モデルは標準ベンチマークで顕著な能力を示してきたが、モード崩壊、多種多様な新しいアウトプットの生成にますます苦労している。
このベンチマークは、言語モデルが複数の異なる高品質な出力を生成する能力を評価するために特別に設計されたものだ。
NoveltyBenchは、キュレートされたプロンプトを使用して、さまざまな回答と実際のユーザクエリをフィルタリングする。
20の指導的言語モデルを評価すると、現在の最先端システムは人間のライターよりも著しく多様性が低いことが分かる。
特に、家族内の大きなモデルは、小さなモデルよりも多様性が低いことが多いため、標準ベンチマークの能力が直接生成ユーティリティに変換されるという概念に挑戦する。
インコンテキスト・リジェネレーション(in-context regeneration)のような戦略は多様性を損なう可能性があるが,本研究の結果は,現行モデルにおける分散多様性の根本的な欠如,多様な応答を求めるユーザに対する利便性の低下,品質とともに多様性を優先する新たなトレーニングおよび評価パラダイムの必要性を示唆している。
関連論文リスト
- Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。
これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Improving Diversity of Commonsense Generation by Large Language Models via In-Context Learning [28.654890118684957]
生成コモンセンス推論 (Generative Commonsense Reasoning, GCR) は、コモンセンス知識を用いて状況を理解するためのモデルを必要とする。
生成の多様性は、モデルが様々な常識的知識事実を使用する能力を反映しているため、同様に重要である。
そこで本研究では,LLMの世代を多様化し,その品質を保ちながら簡便な手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:52:39Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Improving Diversity of Demographic Representation in Large Language
Models via Collective-Critiques and Self-Voting [19.79214899011072]
本稿では,生成的大言語モデルにおける表現の多様性を形式化する。
評価データセットを提示し、人や文化軸に沿って生成された反応の多様性を測定する指標を提案する。
LLMは多様性の概念を理解し、その目標に対して自身の反応を推論し、批判することができる。
論文 参考訳(メタデータ) (2023-10-25T10:17:17Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Incorporating Stylistic Lexical Preferences in Generative Language
Models [10.62343151429147]
本稿では,著者の連続的な多次元語彙的嗜好を生成言語モデルに組み込むことにより,特定の著者属性を誘導する手法を提案する。
実験により,提案手法は,対象とする著者の語彙的スタイルと顕著に一致したテキストを生成することができることを示した。
論文 参考訳(メタデータ) (2020-10-22T09:24:05Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。