論文の概要: Assessing the performance of 8 AI chatbots in bibliographic reference retrieval: Grok and DeepSeek outperform ChatGPT, but none are fully accurate
- arxiv url: http://arxiv.org/abs/2505.18059v1
- Date: Fri, 23 May 2025 16:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.215529
- Title: Assessing the performance of 8 AI chatbots in bibliographic reference retrieval: Grok and DeepSeek outperform ChatGPT, but none are fully accurate
- Title(参考訳): 文献参照検索における8つのAIチャットボットの性能評価:GrokとDeepSeekはChatGPTより優れているが、完全に正確ではない
- Authors: Álvaro Cabezas-Clavijo, Pavel Sidorenko-Bautista,
- Abstract要約: 全5分野(健康・工学・実験科学・社会科学・人文科学)で計400件の参考文献が評価された。
結果は、参照の26.5%が完全に正しいこと、33.8%が部分的に正しいこと、39.8%が誤って、あるいは完全に作られたことが示されている。
これらの発見は、現在のAIモデルの構造的制約を明らかにし、学生による非クリティカルな使用のリスクを強調し、情報と批判的リテラシーを強化する必要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study analyzes the performance of eight generative artificial intelligence chatbots -- ChatGPT, Claude, Copilot, DeepSeek, Gemini, Grok, Le Chat, and Perplexity -- in their free versions, in the task of generating academic bibliographic references within the university context. A total of 400 references were evaluated across the five major areas of knowledge (Health, Engineering, Experimental Sciences, Social Sciences, and Humanities), based on a standardized prompt. Each reference was assessed according to five key components (authorship, year, title, source, and location), along with document type, publication age, and error count. The results show that only 26.5% of the references were fully correct, 33.8% partially correct, and 39.8% were either erroneous or entirely fabricated. Grok and DeepSeek stood out as the only chatbots that did not generate false references, while Copilot, Perplexity, and Claude exhibited the highest hallucination rates. Furthermore, the chatbots showed a greater tendency to generate book references over journal articles, although the latter had a significantly higher fabrication rate. A high degree of overlap was also detected among the sources provided by several models, particularly between DeepSeek, Grok, Gemini, and ChatGPT. These findings reveal structural limitations in current AI models, highlight the risks of uncritical use by students, and underscore the need to strengthen information and critical literacy regarding the use of AI tools in higher education.
- Abstract(参考訳): 本研究は,大学環境における学術文献参照を生成するタスクにおいて,8つの生成人工知能チャットボット – ChatGPT, Claude, Copilot, DeepSeek, Gemini, Grok, Le Chat, Perplexity – のパフォーマンスを分析した。
標準化されたプロンプトに基づいて,5つの主要な知識分野(健康,工学,実験科学,社会科学,人文科学)の合計400項目が評価された。
それぞれの参照は5つのキーコンポーネント(著者、年、タイトル、ソース、場所)とドキュメントタイプ、出版年齢、エラー数に基づいて評価された。
その結果、参照の26.5%が完全に正しいこと、33.8%が部分的に正しいこと、39.8%が誤って、あるいは完全に作られたことが判明した。
GrokとDeepSeekは、偽の参照を発生しない唯一のチャットボットであり、Copilot、Perplexity、Claudeは最も高い幻覚率を示した。
さらに, チャットボットは, 雑誌記事よりも本を参照する傾向が強く, 製本率も有意に高かった。
また、DeepSeek、Grok、Gemini、ChatGPTといったいくつかのモデルで提供されるソースでも高いオーバーラップが検出された。
これらの発見は、現在のAIモデルにおける構造的制限を明らかにし、生徒が非クリティカルな使用のリスクを強調し、高等教育におけるAIツールの使用に関する情報と批判的リテラシーを強化する必要性を強調している。
関連論文リスト
- ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations [45.57178343138677]
我々はScholarCopilotを紹介した。ScholarCopilotは学術書記のための既存の大規模言語モデルを強化するために設計された統合フレームワークである。
ScholarCopilotは、検索トークン[RET]を生成して学術的な参照をいつ取得するかを決定し、引用データベースに問い合わせる。
私たちは1つのフレームワーク内で生成タスクと引用タスクの両方を共同で最適化し、効率を向上します。
論文 参考訳(メタデータ) (2025-04-01T14:12:14Z) - Generative AI in Academic Writing: A Comparison of DeepSeek, Qwen, ChatGPT, Gemini, Llama, Mistral, and Gemma [0.9562145896371785]
フリーでオープンソースのモデルは、学術的な執筆とコンテンツ制作に大きな可能性を秘めている。
本研究は、ChatGPT、Gemini、Llama、Mistral、Gemmaと比較することにより、学術的な筆記性能を評価する。
生成されたコンテンツは、プラジャリズム検出、AI検出、単語数比較、意味的類似性、可読性評価を用いて分析された。
論文 参考訳(メタデータ) (2025-02-11T18:33:22Z) - Correctness Comparison of ChatGPT-4, Gemini, Claude-3, and Copilot for Spatial Tasks [0.0]
本研究では、4つのチャットボットに割り当てられた7つのタスクカテゴリの76個の空間的タスクに対してゼロショットの正当性評価を行う。
チャットボットは、空間リテラシー、GIS理論、プログラミングコードと関数の解釈に関連するタスクでうまく機能したが、マッピング、コード記述、空間推論の弱点が明らかになった。
論文 参考訳(メタデータ) (2024-01-04T18:43:26Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。