論文の概要: ChatCite: LLM Agent with Human Workflow Guidance for Comparative
Literature Summary
- arxiv url: http://arxiv.org/abs/2403.02574v1
- Date: Tue, 5 Mar 2024 01:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:41:17.270632
- Title: ChatCite: LLM Agent with Human Workflow Guidance for Comparative
Literature Summary
- Title(参考訳): chatcite: 比較文献要約のためのヒューマンワークフローガイダンス付きllmエージェント
- Authors: Yutong Li, Lu Chen, Aiwei Liu, Kai Yu, Lijie Wen
- Abstract要約: ChatCiteは、人間によるワークフローガイダンスを備えたLLMエージェントで、比較文学の要約を提供する。
ChatCiteエージェントは実験において様々な次元で他のモデルよりも優れていた。
ChatCiteが生成した文献要約は、文学レビューの起草にも直接使用することができる。
- 参考スコア(独自算出の注目度): 30.409552944905915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The literature review is an indispensable step in the research process. It
provides the benefit of comprehending the research problem and understanding
the current research situation while conducting a comparative analysis of prior
works. However, literature summary is challenging and time consuming. The
previous LLM-based studies on literature review mainly focused on the complete
process, including literature retrieval, screening, and summarization. However,
for the summarization step, simple CoT method often lacks the ability to
provide extensive comparative summary. In this work, we firstly focus on the
independent literature summarization step and introduce ChatCite, an LLM agent
with human workflow guidance for comparative literature summary. This agent, by
mimicking the human workflow, first extracts key elements from relevant
literature and then generates summaries using a Reflective Incremental
Mechanism. In order to better evaluate the quality of the generated summaries,
we devised a LLM-based automatic evaluation metric, G-Score, in refer to the
human evaluation criteria. The ChatCite agent outperformed other models in
various dimensions in the experiments. The literature summaries generated by
ChatCite can also be directly used for drafting literature reviews.
- Abstract(参考訳): 文献レビューは研究プロセスにおいて不可欠のステップである。
先行研究の比較分析を行いながら、研究問題を理解し、現在の研究状況を理解する利点を提供する。
しかし、文献の要約は困難で時間を要する。
前回のllmに基づく文献レビュー研究は,文献検索,スクリーニング,要約を含む全過程に焦点を当てた。
しかし、要約の段階では、単純なCoT法は広範囲な比較要約を提供する能力に欠けることが多い。
そこで本研究では,まず独立した文献要約のステップに注目し,人間によるワークフローガイダンスを備えたLLMエージェントChatCiteを紹介する。
このエージェントは、人間のワークフローを模倣して、まず関連する文献からキー要素を抽出し、リフレクティブインクリメンタルメカニズムを用いて要約を生成する。
生成した要約の質をよりよく評価するために,人間の評価基準を参考に,LLMに基づく自動評価指標Gスコアを考案した。
チャットチングエージェントは実験で他のモデルよりも様々な次元で優れていた。
ChatCiteが生成した文献要約は、文学レビューの起草にも直接利用できる。
関連論文リスト
- Reading Subtext: Evaluating Large Language Models on Short Story
Summarization with Writers [27.604249661275713]
我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。
私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。
GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
論文 参考訳(メタデータ) (2024-03-02T01:52:14Z) - Explaining Relationships Among Research Papers [14.223038413516685]
本稿では,よりリッチな引用テキストを生成するための機能ベースのLLMプロンプト手法を提案する。
人間の好みと統合的書き方の間には強い相関関係がみられ,高いレベルの抽象的引用を好むことが示唆された。
論文 参考訳(メタデータ) (2024-02-20T23:38:39Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Lay Text Summarisation Using Natural Language Processing: A Narrative
Literature Review [1.8899300124593648]
本研究の目的は, テキスト要約の手法を記述し, 比較することである。
私たちは82の記事をスクリーニングし、同じデータセットを使用して2020年から2021年の間に8つの関連論文を公開しました。
ハイブリッドアプローチにおける抽出的および抽象的要約法の組み合わせが最も有効であることが判明した。
論文 参考訳(メタデータ) (2023-03-24T18:30:50Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - RELIC: Retrieving Evidence for Literary Claims [29.762552250403544]
文献証拠検索の新たな課題を定式化するために,78Kの文献引用の大規模データセットを用いた。
本稿では,既存の事前学習情報検索基準よりも優れたRoBERTaを用いた高密度経路検索手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T16:56:08Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。