論文の概要: Not too long do read: Evaluating LLM-generated extreme scientific summaries
- arxiv url: http://arxiv.org/abs/2512.23206v1
- Date: Mon, 29 Dec 2025 05:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.405637
- Title: Not too long do read: Evaluating LLM-generated extreme scientific summaries
- Title(参考訳): LLMが生成した極端に科学的要約を評価する
- Authors: Zhuoqi Lyu, Qing Ke,
- Abstract要約: 本稿では,学術論文からの研究者による要約を多数含む新しいデータセットBiomedTLDRを提案する。
次に、抽象概念に基づく極端な要約を生成するために、人気のあるオープンウェイト LLM をテストする。
解析の結果,人型サマリーの創出に成功しているものもあるが,LLMは原文の語彙的選択や修辞的構造に対して,より親和性が高いことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality scientific extreme summary (TLDR) facilitates effective science communication. How do large language models (LLMs) perform in generating them? How are LLM-generated summaries different from those written by human experts? However, the lack of a comprehensive, high-quality scientific TLDR dataset hinders both the development and evaluation of LLMs' summarization ability. To address these, we propose a novel dataset, BiomedTLDR, containing a large sample of researcher-authored summaries from scientific papers, which leverages the common practice of including authors' comments alongside bibliography items. We then test popular open-weight LLMs for generating TLDRs based on abstracts. Our analysis reveals that, although some of them successfully produce humanoid summaries, LLMs generally exhibit a greater affinity for the original text's lexical choices and rhetorical structures, hence tend to be more extractive rather than abstractive in general, compared to humans. Our code and datasets are available at https://github.com/netknowledge/LLM_summarization (Lyu and Ke, 2025).
- Abstract(参考訳): 高品質な科学的極端要約(TLDR)は効果的な科学コミュニケーションを促進する。
大規模言語モデル(LLM)は、どのようにそれらを生成するのか?
LLM生成サマリーは、人間専門家が書いたサマリーとどう違うのか?
しかし、包括的で高品質なTLDRデータセットが欠如していることは、LLMの要約能力の開発と評価を妨げている。
そこで本稿では,著者のコメントと書誌項目を併用する一般的な実践を生かした,学術論文からの研究者による要約を多数含む,新たなデータセットであるBiomedTLDRを提案する。
次に, TLDR を生成するために, 一般的なオープンウェイト LLM をテストする。
解析の結果,人型サマリーの創出に成功している例もあるが,LLMは典型的には原文の語彙選択や修辞構造に親和性が高く,抽象的というより抽象的というよりも,より抽出的である可能性が示唆された。
コードとデータセットはhttps://github.com/netknowledge/LLM_summarization (Lyu and Ke, 2025)で公開されています。
関連論文リスト
- How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Calibration of Large Language Models on Code Summarization [4.4378250612684]
我々は、AIが生成した要約が、人間が生成したであろう要約にいかに近いかを研究する。
BERTScore(英語版)やBLEU(英語版)などの対策が提案され、人体実験で評価されている。
論文 参考訳(メタデータ) (2024-04-30T07:38:08Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - Can Large Language Model Summarizers Adapt to Diverse Scientific Communication Goals? [19.814974042343028]
科学的な要約タスクにおける大規模言語モデル(LLM)の可制御性について検討する。
MuP レビュー生成タスクでは,非微調整 LLM が人間より優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-18T23:00:54Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。