Fugu-MT 論文翻訳(概要): Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models

論文の概要: Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models

arxiv url: http://arxiv.org/abs/2412.13612v1
Date: Wed, 18 Dec 2024 08:42:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.11629
Title: Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models
Title（参考訳）: LLMは優れた文献レビューライターか? : 大規模言語モデルの文献レビュー能力の評価
Authors: Xuemei Tang, Xufeng Duan, Zhenguang G. Cai,
Abstract要約: 本稿では,大規模言語モデルの文献レビュー作成能力を自動評価するフレームワークを提案する。我々は,3つのタスク(参照の生成,要約の執筆,文献レビューの執筆)でLLMの性能を評価する。
参考スコア（独自算出の注目度）: 2.048226951354646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The literature review is a crucial form of academic writing that involves complex processes of literature collection, organization, and summarization. The emergence of large language models (LLMs) has introduced promising tools to automate these processes. However, their actual capabilities in writing comprehensive literature reviews remain underexplored, such as whether they can generate accurate and reliable references. To address this gap, we propose a framework to assess the literature review writing ability of LLMs automatically. We evaluate the performance of LLMs across three tasks: generating references, writing abstracts, and writing literature reviews. We employ external tools for a multidimensional evaluation, which includes assessing hallucination rates in references, semantic coverage, and factual consistency with human-written context. By analyzing the experimental results, we find that, despite advancements, even the most sophisticated models still cannot avoid generating hallucinated references. Additionally, different models exhibit varying performance in literature review writing across different disciplines.
Abstract（参考訳）: 文献レビューは、文学の収集、組織化、要約の複雑なプロセスを含む、学術的な著作の重要な形態である。大規模言語モデル(LLM)の出現は、これらのプロセスを自動化するための有望なツールを導入した。しかし、それらが正確で信頼性の高い参照を生成できるかどうかなど、総合的な文献レビューを書く上での実際の能力は未定のままである。このギャップに対処するために,LLMの文献レビュー作成能力を自動評価するフレームワークを提案する。我々は,3つのタスク(参照の生成,要約の執筆,文献レビューの執筆)でLLMの性能を評価する。我々は多次元評価に外部ツールを使用し、参照における幻覚率の評価、意味的カバレッジ、人間による文脈との現実的整合性などを含む。実験結果から, 改良にもかかわらず, もっとも洗練されたモデルでさえも, 幻覚的参照の発生を回避できないことがわかった。さらに、異なるモデルは、異なる分野にわたる文献レビューにおいて様々なパフォーマンスを示す。

関連論文リスト

Modelling and Classifying the Components of a Literature Review [0.0]
本稿では, 言語モデル(LLM)を用いて, ドメインの専門家が手動で注釈付けした700文と, 自動ラベル付けされた2,240文からなる新しいベンチマークを提案する。この実験は、この挑戦的な領域における芸術の状態を前進させるいくつかの新しい洞察をもたらす。
論文参考訳（メタデータ） (2025-08-06T11:30:07Z)
Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach [0.0]
本研究では,大規模言語モデル(LLM)を用いて,包括的かつ正確な書籍要約を生成する能力について検討する。これらのモデルが、確立された人間の解釈と一致した有意義な物語を合成できるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-27T15:36:24Z)
Leveraging Large Language Models for Comparative Literature Summarization with Reflective Incremental Mechanisms [44.99833362998488]
ChatCiteは、比較文学要約を生成するために大きな言語モデル(LLM)を利用する新しい方法である。注釈付き要約付き1000の研究論文からなるカスタムデータセットCompLit-LongContext上でChatCiteを評価する。
論文参考訳（メタデータ） (2024-12-03T04:09:36Z)
Mixture of Knowledge Minigraph Agents for Literature Review Generation [22.80918934436901]
本稿では,学術文献レビューの自動化を目的とした,共同知識ミニグラフエージェント(CKMA)を提案する。新たなプロンプトベースのアルゴリズムである知識ミニグラフ構築エージェント(KMCA)は、学術文献から概念間の関係を識別し、知識ミニグラフを自動的に構築するように設計されている。構築された知識ミニグラフにおける大規模言語モデルの能力を活用することにより、多経路要約エージェント(MPSA)は、異なる視点から概念や関係を効率的に整理し、文献レビュー段落を生成する。
論文参考訳（メタデータ） (2024-11-09T12:06:40Z)
A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文参考訳（メタデータ） (2024-06-30T16:12:37Z)
Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文参考訳（メタデータ） (2024-06-27T19:26:11Z)
LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文参考訳（メタデータ） (2024-05-16T15:02:24Z)
ChatCite: LLM Agent with Human Workflow Guidance for Comparative Literature Summary [30.409552944905915]
ChatCiteは、人間によるワークフローガイダンスを備えたLLMエージェントで、比較文学の要約を提供する。 ChatCiteエージェントは実験において様々な次元で他のモデルよりも優れていた。 ChatCiteが生成した文献要約は、文学レビューの起草にも直接使用することができる。
論文参考訳（メタデータ） (2024-03-05T01:13:56Z)
Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers [25.268709339109893]
我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。 GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
論文参考訳（メタデータ） (2024-03-02T01:52:14Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。 1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Evaluating Large Language Model Creativity from a Literary Perspective [13.672268920902187]
本稿では,大規模言語モデルが創造的記述プロセスにおいて補助ツールとして機能する可能性を評価する。我々は,背景記述をインターリーブする対話的かつ多声的なプロンプト戦略,構成を案内する指示,対象スタイルのテキストのサンプル,与えられたサンプルの批判的議論を開発する。
論文参考訳（メタデータ） (2023-11-30T16:46:25Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文参考訳（メタデータ） (2023-09-18T08:13:01Z)
Decoding the End-to-end Writing Trajectory in Scholarly Manuscripts [7.294418916091011]
そこで本研究では,意図,著作者行動,および記述データの情報タイプに応じて,学術的な記述行動の分類を行う新しい分類法を提案する。学術論文の分類学は,認知書記理論に動機付けられ,一般的な書記の流れを辿るために,分類のレベルが3つ含まれている。 ManuScriptは、書道の直線性と非直線性を捉えることによって、学術的な書道の完全な図面を提供する。
論文参考訳（メタデータ） (2023-03-31T20:33:03Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。