論文の概要: Beyond Memorization: Mapping the Originality-Quality Frontier of Language Models
- arxiv url: http://arxiv.org/abs/2504.09389v1
- Date: Sun, 13 Apr 2025 00:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:04.804836
- Title: Beyond Memorization: Mapping the Originality-Quality Frontier of Language Models
- Title(参考訳): 記憶を超えて - 言語モデルの起源と品質のフロンティアをマッピングする
- Authors: Vishakh Padmakumar, Chen Yueh-Han, Jane Pan, Valerie Chen, He He,
- Abstract要約: 大型言語モデル(LLM)は、アイデアや科学的発見にますます利用されている。
以前の研究は、トレーニングデータに対する独創性としてノベルティを評価するが、元の出力は品質が低い可能性がある。
創発性と品質のバランスをとるLLM世代のための新しいノベルティ指標を提案する。
- 参考スコア(独自算出の注目度): 19.700493685081604
- License:
- Abstract: As large language models (LLMs) are increasingly used for ideation and scientific discovery, it is important to evaluate their ability to generate novel output. Prior work evaluates novelty as the originality with respect to training data, but original outputs can be low quality. In contrast, non-expert judges may favor high-quality but memorized outputs, limiting the reliability of human preference as a metric. We propose a new novelty metric for LLM generations that balances originality and quality -- the harmonic mean of the fraction of \ngrams unseen during training and a task-specific quality score. We evaluate the novelty of generations from two families of open-data models (OLMo and Pythia) on three creative tasks: story completion, poetry writing, and creative tool use. We find that LLM generated text is less novel than human written text. To elicit more novel outputs, we experiment with various inference-time methods, which reveals a trade-off between originality and quality. While these methods can boost novelty, they do so by increasing originality at the expense of quality. In contrast, increasing model size or applying post-training reliably shifts the Pareto frontier, highlighting that starting with a stronger base model is a more effective way to improve novelty.
- Abstract(参考訳): 大規模言語モデル (LLM) は, アイデアや科学的発見にますます利用されているため, 新たなアウトプットを生成する能力を評価することが重要である。
以前の研究は、トレーニングデータに対する独創性としてノベルティを評価するが、元の出力は品質が低い可能性がある。
対照的に、専門家でない裁判官は高品質だが記憶された出力を好んでおり、計量としての人間の嗜好の信頼性を制限している。
そこで本研究では,LLM世代のための新しい新規度尺度を提案する。これは,トレーニング中に見つからないnグラムの分数とタスク固有の品質スコアの調和平均である。
オープンデータモデル(OLMo)とPythia(Pythia)の2つのファミリーから,物語の完成,詩の執筆,創造ツールの使用という3つの創造的な課題について,世代間における新規性を評価する。
LLMが生成するテキストは、人間のテキストよりも斬新でないことが分かりました。
より斬新なアウトプットを導き出すため,様々な推論時間法を試行し,独創性と品質のトレードオフを明らかにする。
これらの手法は新規性を高めることができるが、品質を犠牲にして独創性を高めることで実現している。
対照的に、モデルサイズの増加やポストトレーニングの適用は、Paretoフロンティアを確実にシフトさせ、より強力なベースモデルから始めることが、新規性を改善するためのより効果的な方法であることを強調している。
関連論文リスト
- SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。
本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。
そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文 参考訳(メタデータ) (2025-02-19T12:31:58Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - The Next Chapter: A Study of Large Language Models in Storytelling [51.338324023617034]
大規模言語モデル(LLM)を用いたプロンプトベース学習の適用は,自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では,LLMのストーリー生成能力と最近のモデルを比較するために,自動評価と人的評価の両方を利用した総合的な調査を行う。
その結果、LLMは他のストーリー生成モデルと比較して、非常に高い品質のストーリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-01-24T02:44:02Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - MOCHA: A Multi-Task Training Approach for Coherent Text Generation from
Cognitive Perspective [22.69509556890676]
本稿では,文章の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。
我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-10-26T11:55:41Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。