論文の概要: Echoes in AI: Quantifying Lack of Plot Diversity in LLM Outputs
- arxiv url: http://arxiv.org/abs/2501.00273v1
- Date: Tue, 31 Dec 2024 04:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:58.363416
- Title: Echoes in AI: Quantifying Lack of Plot Diversity in LLM Outputs
- Title(参考訳): AIにおけるエコー: LLM出力におけるプロットの多様性の欠如の定量化
- Authors: Weijia Xu, Nebojsa Jojic, Sudha Rao, Chris Brockett, Bill Dolan,
- Abstract要約: 物語生成における2つの最先端の大規模言語モデル (LLM) について検討する。
LLM生成したストーリーは、しばしば数世代にわたって反響するプロット要素で構成されている。
これはプロット要素が代替ストーリーラインに現れる確率を推定するものである。
- 参考スコア(独自算出の注目度): 26.682827310724363
- License:
- Abstract: With rapid advances in large language models (LLMs), there has been an increasing application of LLMs in creative content ideation and generation. A critical question emerges: can current LLMs provide ideas that are diverse enough to truly bolster the collective creativity? We examine two state-of-the-art LLMs, GPT-4 and LLaMA-3, on story generation and discover that LLM-generated stories often consist of plot elements that are echoed across a number of generations. To quantify this phenomenon, we introduce the Sui Generis score, which estimates how unlikely a plot element is to appear in alternative storylines generated by the same LLM. Evaluating on 100 short stories, we find that LLM-generated stories often contain combinations of idiosyncratic plot elements echoed frequently across generations, while the original human-written stories are rarely recreated or even echoed in pieces. Moreover, our human evaluation shows that the ranking of Sui Generis scores among story segments correlates moderately with human judgment of surprise level, even though score computation is completely automatic without relying on human judgment.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、クリエイティブなコンテンツアイデアと生成にLLMが適用されるようになった。
批判的な疑問が浮かび上がってくる: 現在のLLMは、集団的創造性を真に強化するのに十分な、多様なアイデアを提供することができるか?
我々は、物語生成において、現在最先端のLLMであるGPT-4とLLaMA-3を2つ検討し、LLMが生成するストーリーが、しばしば複数の世代にわたって反響するプロット要素からなることを発見した。
この現象を定量化するために、同じLLMで生成されたストーリーラインにプロット要素が出現する確率を推定するS Sui Generisスコアを導入する。
100の短いストーリーから評価すると、LLM生成ストーリーは世代毎に頻繁に反響する慣用的プロット要素の組み合わせを含むことが多い。
また,人的評価では,人的判断に頼らずにスコア計算が完全に自動であるにもかかわらず,ストーリーセグメント内のShu Generisスコアのランク付けは,人的判断のサプライズレベルと適度に相関していることが示された。
関連論文リスト
- LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Assessing Language Models' Worldview for Fiction Generation [0.0]
本研究では,大言語モデルがフィクションの創出に不可欠な世界を維持する能力について考察する。
2つのモデルだけが一貫した世界観を示しており、残りは自己複製である。
このモデル間の統一性は、フィクションに必要な国家の欠如をさらに示唆している。
論文 参考訳(メタデータ) (2024-08-15T03:19:41Z) - Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - The Unlikely Duel: Evaluating Creative Writing in LLMs through a Unique Scenario [12.852843553759744]
我々は,最近の言語モデル(LLM)を,英語の創造的記述タスクに基づいて評価した。
Ignatius J. Reilly と pterodactyl のエピックな戦いに基づく)特殊に調整されたプロンプトを使用して、データの漏洩をトレーニングするリスクを最小限にする。
評価は、流派、スタイル、独創性、ユーモアといった様々な側面を含む詳細なルーリックを使用して人間によって行われる。
論文 参考訳(メタデータ) (2024-06-22T17:01:59Z) - Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation [15.718288693929019]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成する。
LLMがヒトアノテーターの代用として使用できるかどうかを検討した。
LLMはシステムレベルの評価において,現在の自動測定値よりも優れていますが,十分な説明が得られていないことが分かりました。
論文 参考訳(メタデータ) (2024-05-22T15:56:52Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative
Writing [0.0]
我々は、最近のLLMを、想像力、コヒーレンス、スタイルを必要とする難易度と複雑なタスクである、英語の創造的文章で評価する。
我々は、複数のLSMや人間に対して、そのような物語を書いて、独創性、ユーモア、スタイルといった様々な基準を含む人間の回避を行うよう依頼する。
以上の結果から、現在最先端の商用LLMは、ほとんどの面において、著者よりも若干優れていますが、オープンソースLLMは遅れています。
論文 参考訳(メタデータ) (2023-10-12T15:56:24Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。