論文の概要: LFED: A Literary Fiction Evaluation Dataset for Large Language Models
- arxiv url: http://arxiv.org/abs/2405.10166v1
- Date: Thu, 16 May 2024 15:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:52:46.354026
- Title: LFED: A Literary Fiction Evaluation Dataset for Large Language Models
- Title(参考訳): LFED:大規模言語モデルのためのリテラリーフィクション評価データセット
- Authors: Linhao Yu, Qun Liu, Deyi Xiong,
- Abstract要約: 元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
- 参考スコア(独自算出の注目度): 58.85989777743013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of large language models (LLMs) has ushered in the need for comprehensive assessments of their performance across various dimensions. In this paper, we propose LFED, a Literary Fiction Evaluation Dataset, which aims to evaluate the capability of LLMs on the long fiction comprehension and reasoning. We collect 95 literary fictions that are either originally written in Chinese or translated into Chinese, covering a wide range of topics across several centuries. We define a question taxonomy with 8 question categories to guide the creation of 1,304 questions. Additionally, we conduct an in-depth analysis to ascertain how specific attributes of literary fictions (e.g., novel types, character numbers, the year of publication) impact LLM performance in evaluations. Through a series of experiments with various state-of-the-art LLMs, we demonstrate that these models face considerable challenges in effectively addressing questions related to literary fictions, with ChatGPT reaching only 57.08% under the zero-shot setting. The dataset will be publicly available at https://github.com/tjunlp-lab/LFED.git
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は、様々な次元にわたる性能の包括的評価の必要性を招いている。
本稿では,長編小説の理解と推論におけるLLMの能力評価を目的とした,文学フィクション評価データセットLFEDを提案する。
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
さらに,文学小説の特定の属性(小説のタイプ,文字番号,出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
様々な最先端のLLMによる一連の実験を通して、これらのモデルがフィクションに関する問題に効果的に対処する上で大きな課題に直面し、ChatGPTはゼロショット設定で57.08%にしか達していないことを実証した。
データセットはhttps://github.com/tjunlp-lab/LFED.gitで公開される。
関連論文リスト
- Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Évaluation des capacités de réponse de larges modèles de langage (LLM) pour des questions d'historiens [0.0]
ChatGPTやBardのような大規模言語モデル(LLM)は情報検索に革命をもたらした。
我々は,フランス語における歴史的事実に関する信頼性,包括的,かつ十分に関連する応答を生み出す上で,様々なLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-21T14:19:57Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Can Large Language Models Identify Authorship? [18.378744138365537]
大規模言語モデル(LLM)は、推論と問題解決に非常に優れた能力を示している。
本稿では,著者分析におけるLLMの包括的評価を行う。
論文 参考訳(メタデータ) (2024-03-13T03:22:02Z) - Harnessing Artificial Intelligence to Combat Online Hate: Exploring the
Challenges and Opportunities of Large Language Models in Hate Speech
Detection [4.653571633477755]
大規模言語モデル(LLM)は、翻訳、要約、感情分析など、言語生成以外の多くの多様なアプリケーションで優れている。
このことは、憎しみや有害なスピーチを識別する領域において、問題や倫理的なジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-03-12T19:12:28Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Factuality of Large Language Models in the Year 2024 [31.039783688574897]
我々は、主要な課題とその原因を特定することを目的として、既存の研究を批判的に分析する。
オープンエンドテキスト生成における事実自動評価の障害を解析する。
論文 参考訳(メタデータ) (2024-02-04T09:36:31Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。