論文の概要: Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.13612v2
- Date: Tue, 14 Jan 2025 14:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:18.465136
- Title: Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models
- Title(参考訳): LLMは優れた文献レビューライターか? : 大規模言語モデルの文献レビュー能力の評価
- Authors: Xuemei Tang, Xufeng Duan, Zhenguang G. Cai,
- Abstract要約: 本稿では,大規模言語モデルの文献レビュー作成能力を自動評価するフレームワークを提案する。
我々は,3つのタスク(参照の生成,要約の執筆,文献レビューの執筆)でLLMの性能を評価する。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License:
- Abstract: The literature review is a crucial form of academic writing that involves complex processes of literature collection, organization, and summarization. The emergence of large language models (LLMs) has introduced promising tools to automate these processes. However, their actual capabilities in writing comprehensive literature reviews remain underexplored, such as whether they can generate accurate and reliable references. To address this gap, we propose a framework to assess the literature review writing ability of LLMs automatically. We evaluate the performance of LLMs across three tasks: generating references, writing abstracts, and writing literature reviews. We employ external tools for a multidimensional evaluation, which includes assessing hallucination rates in references, semantic coverage, and factual consistency with human-written context. By analyzing the experimental results, we find that, despite advancements, even the most sophisticated models still cannot avoid generating hallucinated references. Additionally, different models exhibit varying performance in literature review writing across different disciplines.
- Abstract(参考訳): 文献レビューは、文学の収集、組織化、要約の複雑なプロセスを含む、学術的な著作の重要な形態である。
大規模言語モデル(LLM)の出現は、これらのプロセスを自動化するための有望なツールを導入した。
しかし、それらが正確で信頼性の高い参照を生成できるかどうかなど、総合的な文献レビューを書く上での実際の能力は未定のままである。
このギャップに対処するために,LLMの文献レビュー作成能力を自動評価するフレームワークを提案する。
我々は,3つのタスク(参照の生成,要約の執筆,文献レビューの執筆)でLLMの性能を評価する。
我々は多次元評価に外部ツールを使用し、参照における幻覚率の評価、意味的カバレッジ、人間による文脈との現実的整合性などを含む。
実験結果から, 改良にもかかわらず, もっとも洗練されたモデルでさえも, 幻覚的参照の発生を回避できないことがわかった。
さらに、異なるモデルは、異なる分野にわたる文献レビューにおいて様々なパフォーマンスを示す。
関連論文リスト
- From References to Insights: Collaborative Knowledge Minigraph Agents for Automating Scholarly Literature Review [22.80918934436901]
本稿では,学術文献レビューの自動化を目的とした,共同知識ミニグラフエージェント(CKMA)を提案する。
新たなプロンプトベースのアルゴリズムである知識ミニグラフ構築エージェント(KMCA)は、学術文献から情報片間の関係を識別するように設計されている。
構築された知識ミニグラフにおける大規模言語モデルの能力を活用することにより、多経路要約エージェント(MPSA)は、異なる視点から情報や関係を効率的に整理し、文献レビュー段落を生成する。
論文 参考訳(メタデータ) (2024-11-09T12:06:40Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - ChatCite: LLM Agent with Human Workflow Guidance for Comparative
Literature Summary [30.409552944905915]
ChatCiteは、人間によるワークフローガイダンスを備えたLLMエージェントで、比較文学の要約を提供する。
ChatCiteエージェントは実験において様々な次元で他のモデルよりも優れていた。
ChatCiteが生成した文献要約は、文学レビューの起草にも直接使用することができる。
論文 参考訳(メタデータ) (2024-03-05T01:13:56Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Evaluating Large Language Model Creativity from a Literary Perspective [13.672268920902187]
本稿では,大規模言語モデルが創造的記述プロセスにおいて補助ツールとして機能する可能性を評価する。
我々は,背景記述をインターリーブする対話的かつ多声的なプロンプト戦略,構成を案内する指示,対象スタイルのテキストのサンプル,与えられたサンプルの批判的議論を開発する。
論文 参考訳(メタデータ) (2023-11-30T16:46:25Z) - Decoding the End-to-end Writing Trajectory in Scholarly Manuscripts [7.294418916091011]
そこで本研究では,意図,著作者行動,および記述データの情報タイプに応じて,学術的な記述行動の分類を行う新しい分類法を提案する。
学術論文の分類学は,認知書記理論に動機付けられ,一般的な書記の流れを辿るために,分類のレベルが3つ含まれている。
ManuScriptは、書道の直線性と非直線性を捉えることによって、学術的な書道の完全な図面を提供する。
論文 参考訳(メタデータ) (2023-03-31T20:33:03Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。