論文の概要: Measuring LLM Novelty As The Frontier Of Original And High-Quality Output
- arxiv url: http://arxiv.org/abs/2504.09389v2
- Date: Mon, 06 Oct 2025 22:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:20.182216
- Title: Measuring LLM Novelty As The Frontier Of Original And High-Quality Output
- Title(参考訳): オリジナルと高品質のアウトプットのフロンティアとしてのLLMノベルティの測定
- Authors: Vishakh Padmakumar, Chen Yueh-Han, Jane Pan, Valerie Chen, He He,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の創発性と品質を両立させる新しい新奇性指標を提案する。
基礎となるLCMのモデル生成テキストは、インターネットの人間によるテキストよりも目新しいものではないことが分かりました。
- 参考スコア(独自算出の注目度): 22.876599736420832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly used for ideation and scientific discovery, it is important to evaluate their ability to generate novel output. Prior work evaluates novelty as originality with respect to model training data, but original outputs may be of low quality. In contrast, non-expert judges more reliably score quality but may favor memorized outputs, limiting the reliability of human preference as a metric. We introduce a new novelty metric for LLM generations that balances originality and quality -- the harmonic mean of the fraction of \ngrams unseen during training and a task-specific quality score. Using this framework, we identify trends that affect the novelty of generations from three families of open-data models (OLMo, OLMo-2, and Pythia) on three creative tasks: story completion, poetry writing, and creative tool use. We find that model-generated text from some base LLMs is less novel than human-written text from the internet. However, increasing model scale and post-training reliably improves novelty due to improvements in output quality. We also find that improving the base model at the same scale (\eg OLMo 7B to OLMo-2 7B) leads to higher novelty due to higher originality. Finally, we observe that inference-time methods, such as prompting and providing novel in-context examples, have a much smaller effect on novelty, often increasing originality at the expense of quality. This highlights the need for further research into more effective elicitation strategies as we use models for creative applications.
- Abstract(参考訳): 大規模言語モデル (LLM) は, アイデアや科学的発見にますます利用されているため, 新たなアウトプットを生成する能力を評価することが重要である。
先行研究は、モデルトレーニングデータに関して、新規性を独創性として評価するが、元の出力は品質が低いかもしれない。
対照的に、専門家でない裁判官は品質をより確実に評価するが、記憶された出力を好んでおり、計量としての人間の嗜好の信頼性を制限している。
我々は、LLM世代のための新しいノベルティ指標を導入し、独創性と品質のバランスをとる。
この枠組みを用いて,3種類のオープンデータモデル(OLMo,OLMo-2,Pythia)の世代別新奇性に影響を与える傾向を明らかにする。
基礎となるLCMのモデル生成テキストは、インターネットの人間によるテキストよりも目新しいものではないことが分かりました。
しかし、モデルスケールと後学習の増加は、出力品質の改善により、新規性を確実に向上させる。
また, 同一スケールのベースモデルの改善 ( OLMo 7B から OLMo-2 7B まで) により, より独創性の向上が期待できる。
最後に,新規な文脈内例の提示や提供などの推論時間的手法は,新規性に大きな影響を与え,品質を犠牲にして独創性を増大させることが多いことを観察する。
このことは、クリエイティブなアプリケーションにモデルを使用するときに、より効果的なエレケーション戦略に関するさらなる研究の必要性を強調します。
関連論文リスト
- SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。
本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。
そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文 参考訳(メタデータ) (2025-02-19T12:31:58Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - The Next Chapter: A Study of Large Language Models in Storytelling [51.338324023617034]
大規模言語モデル(LLM)を用いたプロンプトベース学習の適用は,自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では,LLMのストーリー生成能力と最近のモデルを比較するために,自動評価と人的評価の両方を利用した総合的な調査を行う。
その結果、LLMは他のストーリー生成モデルと比較して、非常に高い品質のストーリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-01-24T02:44:02Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - MOCHA: A Multi-Task Training Approach for Coherent Text Generation from
Cognitive Perspective [22.69509556890676]
本稿では,文章の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。
我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-10-26T11:55:41Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。