論文の概要: Generalization Bias in Large Language Model Summarization of Scientific Research
- arxiv url: http://arxiv.org/abs/2504.00025v1
- Date: Fri, 28 Mar 2025 19:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:20:38.945414
- Title: Generalization Bias in Large Language Model Summarization of Scientific Research
- Title(参考訳): 大規模言語モデルにおける一般化バイアス 科学研究の要約
- Authors: Uwe Peters, Benjamin Chin-Yee,
- Abstract要約: 科学的テキストを要約する場合、大きな言語モデル(LLM)は研究の結論の範囲を制限する詳細を省略することができる。
また,ChatGPT-4o,ChatGPT-4.5,DeepSeek,LLaMA 3.370B,Claude 3.7 Sonnetの10種類のLLMを試験した。
LLMは、DeepSeek、ChatGPT-4o、LLaMA 3.3 70Bが26から73%のケースで過剰に一般化した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Artificial intelligence chatbots driven by large language models (LLMs) have the potential to increase public science literacy and support scientific research, as they can quickly summarize complex scientific information in accessible terms. However, when summarizing scientific texts, LLMs may omit details that limit the scope of research conclusions, leading to generalizations of results broader than warranted by the original study. We tested 10 prominent LLMs, including ChatGPT-4o, ChatGPT-4.5, DeepSeek, LLaMA 3.3 70B, and Claude 3.7 Sonnet, comparing 4900 LLM-generated summaries to their original scientific texts. Even when explicitly prompted for accuracy, most LLMs produced broader generalizations of scientific results than those in the original texts, with DeepSeek, ChatGPT-4o, and LLaMA 3.3 70B overgeneralizing in 26 to 73% of cases. In a direct comparison of LLM-generated and human-authored science summaries, LLM summaries were nearly five times more likely to contain broad generalizations (OR = 4.85, 95% CI [3.06, 7.70]). Notably, newer models tended to perform worse in generalization accuracy than earlier ones. Our results indicate a strong bias in many widely used LLMs towards overgeneralizing scientific conclusions, posing a significant risk of large-scale misinterpretations of research findings. We highlight potential mitigation strategies, including lowering LLM temperature settings and benchmarking LLMs for generalization accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)によって駆動される人工知能チャットボットは、公共科学のリテラシーを高め、科学研究を支援する可能性を秘めている。
しかし、科学的テキストを要約すると、LLMは研究の結論の範囲を制限する詳細を省略し、元の研究で保証された以上の結果の一般化につながる可能性がある。
我々はChatGPT-4o、ChatGPT-4.5、DeepSeek、LLaMA 3.3 70B、Claude 3.7 Sonnetを含む10種類の著名なLCMを試験し、4900個のLCM生成サマリを元の科学文献と比較した。
正確性について明示的に示唆されたとしても、ほとんどのLCMは、DeepSeek、ChatGPT-4o、LLaMA 3.3 70Bが26から73%のケースで過剰に一般化するなど、元のテキストよりも幅広い科学的結果の一般化を生み出した。
LLMが生成した科学サマリーと人間による科学サマリーを直接比較すると、LLMサマリーはより広い一般化(OR = 4.85, 95% CI [3.06, 7.70])を含む可能性が約5倍高かった。
特に、新しいモデルは、以前のモデルよりも一般化精度が悪くなる傾向があった。
以上の結果から,科学的な結論を過度に一般化する上で,多くのLLMにおいて強いバイアスがみられ,研究結果の大規模な誤解釈の危険性が示唆された。
我々は, LLM温度設定の低下や, 一般化精度のベンチマークなど, 潜在的な緩和戦略を強調した。
関連論文リスト
- LLMs are Vulnerable to Malicious Prompts Disguised as Scientific Language [29.327927413978003]
この研究は、多くの最先端のLSMが、科学用語の裏に隠された悪意のある要求に弱いことを明らかにしている。
GPT4o, GPT4o-mini, GPT-4, LLama3-405B-Instruct, Llama3-70B-Instruct, Cohere, Gemini モデルを用いて行った実験では, ステレオタイプバイアスの利点を裏付ける証拠として, 社会科学と心理学研究を意図的に解釈する要求により, モデルのバイアスと毒性が著しく増加することが示された。
論文 参考訳(メタデータ) (2025-01-23T20:20:20Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - LLMs as Research Tools: A Large Scale Survey of Researchers' Usage and Perceptions [20.44227547555244]
大規模言語モデル (LLMs) は、多くの研究者が科学的な研究に利用することを検討している。
筆者らによる816件の研究論文の大規模調査を行った。
81%の研究者がすでにLLMを研究ワークフローのさまざまな側面に組み込んでいることがわかった。
論文 参考訳(メタデータ) (2024-10-30T04:25:23Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review [42.112100361891905]
本研究では,Large Language Models (LLMs) の科学的レビュー作成過程における使用法を要約することを目的とする。
我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。
論文 参考訳(メタデータ) (2024-09-06T20:12:57Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs [41.64918533152914]
本研究では,大言語モデル(LLM)が2種類の文クエリに基づいて参照を生成することができるかどうかを検討する。
約20万件の研究論文から, 公立及びプロプライエタリなLCMについて, 以下を引用する。
本研究は,自動引用生成タスクにおけるRAGの信頼性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。