論文の概要: Assessing Language Models' Worldview for Fiction Generation
- arxiv url: http://arxiv.org/abs/2408.07904v1
- Date: Thu, 15 Aug 2024 03:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 15:09:23.231308
- Title: Assessing Language Models' Worldview for Fiction Generation
- Title(参考訳): 辞書生成のための言語モデルのワールドビューの評価
- Authors: Aisha Khatun, Daniel G. Brown,
- Abstract要約: 本研究では,大言語モデルがフィクションの創出に不可欠な世界を維持する能力について考察する。
2つのモデルだけが一貫した世界観を示しており、残りは自己複製である。
このモデル間の統一性は、フィクションに必要な国家の欠如をさらに示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of Large Language Models (LLMs) has become ubiquitous, with abundant applications in computational creativity. One such application is fictional story generation. Fiction is a narrative that occurs in a story world that is slightly different than ours. With LLMs becoming writing partners, we question how suitable they are to generate fiction. This study investigates the ability of LLMs to maintain a state of world essential to generate fiction. Through a series of questions to nine LLMs, we find that only two models exhibit consistent worldview, while the rest are self-conflicting. Subsequent analysis of stories generated by four models revealed a strikingly uniform narrative pattern. This uniformity across models further suggests a lack of `state' necessary for fiction. We highlight the limitations of current LLMs in fiction writing and advocate for future research to test and create story worlds for LLMs to reside in. All code, dataset, and the generated responses can be found in https://github.com/tanny411/llm-reliability-and-consistency-evaluation.
- Abstract(参考訳): LLM(Large Language Models)の使用は、計算クリエイティビティに豊富な応用とともに、広く普及している。
そのような応用の1つは架空の物語生成である。
フィクションは、私たちのものと少し異なる物語の世界で起こる物語である。
LLMがパートナーになるにつれ、フィクションを生み出すのにどの程度適しているのか疑問が持たれる。
本研究では,LLMがフィクションの創出に不可欠な世界を維持する能力について検討する。
一連の質問から9つのLSMに答えると、2つのモデルだけが一貫した世界観を示し、残りは自己主張であることがわかった。
その後の4つのモデルによる物語の分析により、驚くほど均一な物語パターンが明らかになった。
このモデル間の統一性は、フィクションに必要な「状態」の欠如をさらに示唆している。
我々は、フィクション執筆における現在のLLMの限界を強調し、LLMが居住するためのストーリーワールドをテストおよび作成するための将来の研究を提唱する。
すべてのコード、データセット、生成されたレスポンスはhttps://github.com/tanny411/llm-reliability-and-consistency-evaluationで確認できる。
関連論文リスト
- LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - The Unlikely Duel: Evaluating Creative Writing in LLMs through a Unique Scenario [12.852843553759744]
我々は,最近の言語モデル(LLM)を,英語の創造的記述タスクに基づいて評価した。
Ignatius J. Reilly と pterodactyl のエピックな戦いに基づく)特殊に調整されたプロンプトを使用して、データの漏洩をトレーニングするリスクを最小限にする。
評価は、流派、スタイル、独創性、ユーモアといった様々な側面を含む詳細なルーリックを使用して人間によって行われる。
論文 参考訳(メタデータ) (2024-06-22T17:01:59Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Word2World: Generating Stories and Worlds through Large Language Models [5.80330969550483]
大規模言語モデル(LLM)は様々な分野にまたがってその価値を証明している。
この研究は、LLMがストーリーを通してプレイ可能なゲームを手続き的に設計できるシステムであるWord2Worldを紹介した。
論文 参考訳(メタデータ) (2024-05-06T14:21:52Z) - Creating Suspenseful Stories: Iterative Planning with Large Language
Models [2.6923151107804055]
本稿では,ストーリー・サスペンスの2つの理論的基礎に根ざした,反復型提案型計画手法を提案する。
本論文は,我々の知る限りでは,大規模言語モデルを用いたサスペンスな物語生成の試みである。
論文 参考訳(メタデータ) (2024-02-27T01:25:52Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative
Writing [0.0]
我々は、最近のLLMを、想像力、コヒーレンス、スタイルを必要とする難易度と複雑なタスクである、英語の創造的文章で評価する。
我々は、複数のLSMや人間に対して、そのような物語を書いて、独創性、ユーモア、スタイルといった様々な基準を含む人間の回避を行うよう依頼する。
以上の結果から、現在最先端の商用LLMは、ほとんどの面において、著者よりも若干優れていますが、オープンソースLLMは遅れています。
論文 参考訳(メタデータ) (2023-10-12T15:56:24Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。