Fugu-MT 論文翻訳(概要): Will AI be overconfident about academic research findings when reliant on abstracts? (v1)

論文の概要: Will AI be overconfident about academic research findings when reliant on abstracts? (v1)

arxiv url: http://arxiv.org/abs/2605.27392v1
Date: Sat, 18 Apr 2026 06:49:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 07:09:36.522916
Title: Will AI be overconfident about academic research findings when reliant on abstracts? (v1)
Title（参考訳）: 抽象論に頼ればAIは学術研究の発見を過度に信ずるだろうか(v1)
Authors: Mike Thelwall,
Abstract要約: ChatGPT、DeepSeek、Geminiのような大規模言語モデル(LLM)は、知識発見にますます利用されているようだ。これは、幻覚などの原因でユーザーが誤解される恐れがある。 GPT-OSS 120Bに全文記事が提出された。
参考スコア（独自算出の注目度）: 4.090143360215888
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) like ChatGPT, DeepSeek and Gemini seem to be increasingly used for knowledge discovery, information retrieval, and knowledge summaries, including for academic topics. This can result in users being misled, such as due to hallucinations. These problems may be exacerbated for academic knowledge if LLMs base their answers on journal article abstracts when they lack full text access. To test whether the information content of abstracts can be misleading, full text articles were submitted to the GPT-OSS 120B, an LLM from OpenAI, asking it to assess separately the strength the claims for the main result in the abstract, discussion, and conclusion. Outside the social sciences and humanities, claims tended to be stronger in the abstract and conclusions than the discussion, suggesting that relying on the strength of claims in abstracts would be misleading. Thus, if LLMs ingest abstracts but not full texts, there is a risk that they will be overconfident about the findings and pass it on to users in response to relevant prompts. This is another reason to be cautious about using LLMs for academic-related knowledge discovery and summaries.
Abstract（参考訳）: ChatGPT、DeepSeek、Geminiのような大規模言語モデル(LLM)は、学術的なトピックを含む知識発見、情報検索、知識要約にますます使われているようだ。これは、幻覚などの原因でユーザーが誤解される恐れがある。これらの問題は、LLMが完全なテキストアクセスが欠如している場合に、ジャーナル記事の要約に基づいて回答をベースとした場合、学術的知識のために悪化する可能性がある。 GPT-OSS 120B, LLM, OpenAI に全文を提出し, 要約, 議論, 結論における主要な結果に対する主張の強さを別々に評価するよう求めた。社会科学や人文科学以外では、主張は議論よりも抽象的・結論的に強くなりがちであり、抽象論における主張の強みに依存することは誤解を招くであろうことを示唆している。したがって、LLMが抽象文を取り込みながら全文を含まない場合、その発見を過度に信頼し、関連するプロンプトに応答してユーザに渡すリスクがある。これは、学術的な知識発見や要約にLLMを使うことに慎重である別の理由である。

関連論文リスト

Large language models eroding science understanding: an experimental study [0.0]
本稿では,大規模言語モデル(LLM)が科学的疑問に確実に答えられるかどうかを検討する。科学材料の影響をいかに容易に受けられるかを示す。
論文参考訳（メタデータ） (2026-04-28T13:39:44Z)
Not too long do read: Evaluating LLM-generated extreme scientific summaries [0.0]
本稿では,学術論文からの研究者による要約を多数含む新しいデータセットBiomedTLDRを提案する。次に、抽象概念に基づく極端な要約を生成するために、人気のあるオープンウェイト LLM をテストする。解析の結果,人型サマリーの創出に成功しているものもあるが,LLMは原文の語彙的選択や修辞的構造に対して,より親和性が高いことが明らかとなった。
論文参考訳（メタデータ） (2025-12-29T05:03:02Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
The Extractive-Abstractive Spectrum: Uncovering Verifiability Trade-offs in LLM Generations [40.498553309980764]
情報共有ツールの妥当性と実用性の間の相互作用について検討する。ユーザは,大規模言語モデルよりも検索エンジンの方が高いクエリを好んでいることがわかった。
論文参考訳（メタデータ） (2024-11-26T12:34:52Z)
Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文参考訳（メタデータ） (2024-04-04T16:40:11Z)
Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。 LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文参考訳（メタデータ） (2024-03-14T04:06:13Z)
What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文参考訳（メタデータ） (2024-02-19T02:15:34Z)
AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph [62.685920585838616]
抽象能力は人間の知性において必須であり、言語モデルでは未探索のままである。本稿では、抽象知識の221Kテキスト記述を統一したエンテーメントグラフであるAbsPyramidを提案する。
論文参考訳（メタデータ） (2023-11-15T18:11:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。