論文の概要: Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper
- arxiv url: http://arxiv.org/abs/2508.14273v1
- Date: Tue, 19 Aug 2025 21:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.272363
- Title: Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper
- Title(参考訳): 論文を書くのにChatGPTを使おう! LLMをベンチマークして研究論文の紹介
- Authors: Krishna Garg, Firoz Shaikh, Sambaran Bandyopadhyay, Cornelia Caragea,
- Abstract要約: SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 62.176497303000644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As researchers increasingly adopt LLMs as writing assistants, generating high-quality research paper introductions remains both challenging and essential. We introduce Scientific Introduction Generation (SciIG), a task that evaluates LLMs' ability to produce coherent introductions from titles, abstracts, and related works. Curating new datasets from NAACL 2025 and ICLR 2025 papers, we assess five state-of-the-art models, including both open-source (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) and closed-source GPT-4o systems, across multiple dimensions: lexical overlap, semantic similarity, content coverage, faithfulness, consistency, citation correctness, and narrative quality. Our comprehensive framework combines automated metrics with LLM-as-a-judge evaluations. Results demonstrate LLaMA-4 Maverick's superior performance on most metrics, particularly in semantic similarity and faithfulness. Moreover, three-shot prompting consistently outperforms fewer-shot approaches. These findings provide practical insights into developing effective research writing assistants and set realistic expectations for LLM-assisted academic writing. To foster reproducibility and future research, we will publicly release all code and datasets.
- Abstract(参考訳): 研究者がLSMを筆記助手として採用するにつれて、高品質の研究論文の紹介は依然として困難かつ不可欠である。
学術紹介生成(SciIG)は,LLMがタイトル,要約,関連作品から一貫性のある紹介を生成できる能力を評価するタスクである。
オープンソース(DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1)とクローズドソース GPT-4o システム(語彙的重複、セマンティック類似性、コンテンツカバレッジ、一貫性、引用正しさ、物語的品質)を含む5つの最先端モデルを評価する。
我々の包括的なフレームワークは、自動メトリクスとLCM-as-a-judge評価を組み合わせる。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
さらに、3ショットのプロンプトは、より少ないショットのアプローチよりも一貫して優れています。
これらの知見は, 効果的な研究書記支援システムの開発に関する実践的な洞察を与え, LLMを活用した学術書記への現実的な期待を定めている。
再現性と今後の研究を促進するため、私たちはすべてのコードとデータセットを公開します。
関連論文リスト
- Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [21.17856299966841]
本研究では,学術調査における大規模言語モデル(LLM)の評価のためのベンチマークであるResearchArenaを紹介する。
これらの機会を養うため、12万のフルテキスト学術論文と7.9Kのサーベイ論文の環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - Exploring the Latest LLMs for Leaderboard Extraction [0.3072340427031969]
本稿では, LLMs-ralMist 7B, Llama GPT-4-Turbo, GPT-4.o を用いて, 実験的なAI研究論文からリーダボード情報を抽出する方法について検討する。
本研究は,これらのモデルを用いて,研究論文からの4倍率(Task,Metric,Score)の生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-06T05:54:45Z) - LLMs as Meta-Reviewers' Assistants: A Case Study [4.345138609587135]
大言語モデル(LLM)は、専門家の意見の制御された多視点要約(MPS)を生成するために使用することができる。
本稿では,GPT-3.5,LLaMA2,PaLM2の3種類のLPMを用いて,メタリビューアによる専門家の理解を深めるためのケーススタディを行う。
論文 参考訳(メタデータ) (2024-02-23T20:14:16Z) - Open-Source LLMs for Text Annotation: A Practical Guide for Model Setting and Fine-Tuning [5.822010906632045]
本稿では、政治科学研究に典型的なテキスト分類タスクにおけるオープンソースのLarge Language Models(LLM)の性能について検討する。
姿勢・話題・関連分類などの課題を調べることで,テキスト分析におけるLLMの使用に関する情報的判断を学者に指導することを目指す。
論文 参考訳(メタデータ) (2023-07-05T10:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。