論文の概要: Modelling and Classifying the Components of a Literature Review
- arxiv url: http://arxiv.org/abs/2508.04337v1
- Date: Wed, 06 Aug 2025 11:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.693575
- Title: Modelling and Classifying the Components of a Literature Review
- Title(参考訳): 文献レビューの構成要素のモデル化と分類
- Authors: Francisco Bolaños, Angelo Salatino, Francesco Osborne, Enrico Motta,
- Abstract要約: 本稿では, 言語モデル(LLM)を用いて, ドメインの専門家が手動で注釈付けした700文と, 自動ラベル付けされた2,240文からなる新しいベンチマークを提案する。
この実験は、この挑戦的な領域における芸術の状態を前進させるいくつかの新しい洞察をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous work has demonstrated that AI methods for analysing scientific literature benefit significantly from annotating sentences in papers according to their rhetorical roles, such as research gaps, results, limitations, extensions of existing methodologies, and others. Such representations also have the potential to support the development of a new generation of systems capable of producing high-quality literature reviews. However, achieving this goal requires the definition of a relevant annotation schema and effective strategies for large-scale annotation of the literature. This paper addresses these challenges by 1) introducing a novel annotation schema specifically designed to support literature review generation and 2) conducting a comprehensive evaluation of a wide range of state-of-the-art large language models (LLMs) in classifying rhetorical roles according to this schema. To this end, we also present Sci-Sentence, a novel multidisciplinary benchmark comprising 700 sentences manually annotated by domain experts and 2,240 sentences automatically labelled using LLMs. We evaluate 37 LLMs on this benchmark, spanning diverse model families and sizes, using both zero-shot learning and fine-tuning approaches. The experiments yield several novel insights that advance the state of the art in this challenging domain. First, the current generation of LLMs performs remarkably well on this task when fine-tuned on high-quality data, achieving performance levels above 96\% F1. Second, while large proprietary models like GPT-4o achieve the best results, some lightweight open-source alternatives also demonstrate excellent performance. Finally, enriching the training data with semi-synthetic examples generated by LLMs proves beneficial, enabling small encoders to achieve robust results and significantly enhancing the performance of several open decoder models.
- Abstract(参考訳): これまでの研究は、研究ギャップ、結果、制限、既存の方法論の拡張など、論文に注釈を付けることによって、科学文献を分析するAI手法が大きな恩恵を受けることを示した。
このような表現はまた、高品質な文献レビューを作成できる新しい世代のシステムの開発を支援する可能性がある。
しかし、この目標を達成するには、関連するアノテーションスキーマと、文献の大規模アノテーションのための効果的な戦略を定義する必要がある。
本稿ではこれらの課題に対処する。
1)文献レビュー作成を支援するために特別に設計された新しいアノテーションスキーマの導入
2) このスキーマによる修辞的役割の分類において,幅広い最先端の大規模言語モデル (LLM) の包括的評価を行う。
そこで我々はSci-Sentenceについても紹介する。Sci-Sentenceは、ドメインの専門家が手動で注釈付けした700の文と、LLMを使って自動的にラベル付けされた2,240の文からなる新しい多分野ベンチマークである。
我々は、ゼロショット学習と微調整の両方のアプローチを用いて、多様なモデルファミリとサイズにまたがる37のLLMを評価した。
この実験は、この挑戦的な領域における最先端を前進させるいくつかの新しい洞察をもたらす。
第一に、現在のLLMは、高品質なデータに基づいて微調整を行い、96\% F1以上の性能レベルを達成する際に、このタスクで非常によく機能する。
第二に、GPT-4oのような大規模なプロプライエタリなモデルが最高の結果を得る一方で、軽量なオープンソース代替製品も優れたパフォーマンスを示している。
最後に、LLMが生成した半合成例でトレーニングデータを豊かにすることで、小さなエンコーダで堅牢な結果が得られ、いくつかのオープンデコーダモデルの性能を大幅に向上させることができる。
関連論文リスト
- Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Leveraging LLMs for Semi-Automatic Corpus Filtration in Systematic Literature Reviews [5.911820207772152]
本稿では,複数の大規模言語モデル(LLM)を活用し,記述的プロンプトに基づいて論文を分類し,共同で決定するパイプラインを提案する。
プロセス全体は、オープンソースのビジュアルアナリティクスWebインターフェースであるLLMSurverを介して、人間によって管理され、インタラクティブに制御されます。
その結果、パイプラインは、単一アノテータよりもエラー率を低くしながら、手作業を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-10-13T13:48:29Z) - How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - Improve LLM-based Automatic Essay Scoring with Linguistic Features [46.41475844992872]
本稿では,多様なプロンプトにまたがってエッセイを処理できるスコアリングシステムを開発した。
既存のメソッドは通常、2つのカテゴリに分類される: 教師付き特徴ベースのアプローチと、大きな言語モデル(LLM)ベースの方法。
論文 参考訳(メタデータ) (2025-02-13T17:09:52Z) - Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition [2.048226951354646]
大規模言語モデル(LLM)は、文学レビューを書くことに関わる複雑なプロセスを自動化するための潜在的な解決策として登場した。
本研究は,文学書記の3つの重要な課題において,LLMの性能を自動評価する枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-18T08:42:25Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Taxonomy Tree Generation from Citation Graph [15.188580557890942]
HiGTLは、人為的な指示や好みのトピックによってガイドされる、新しいエンドツーエンドフレームワークである。
我々は,各クラスタに中心的な概念を反復的に生成する,新しい分類ノード言語化戦略を開発した。
実験により、HiGTLはコヒーレントで高品質な概念を効果的に生成することが示された。
論文 参考訳(メタデータ) (2024-10-02T13:02:03Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - A Survey on Efficient Inference for Large Language Models [25.572035747669275]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。
LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。
本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。
論文 参考訳(メタデータ) (2024-04-22T15:53:08Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。