Fugu-MT 論文翻訳(概要): Assessing the performance of 8 AI chatbots in bibliographic reference retrieval: Grok and DeepSeek outperform ChatGPT, but none are fully accurate

論文の概要: Assessing the performance of 8 AI chatbots in bibliographic reference retrieval: Grok and DeepSeek outperform ChatGPT, but none are fully accurate

arxiv url: http://arxiv.org/abs/2505.18059v1
Date: Fri, 23 May 2025 16:07:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.215529
Title: Assessing the performance of 8 AI chatbots in bibliographic reference retrieval: Grok and DeepSeek outperform ChatGPT, but none are fully accurate
Title（参考訳）: 文献参照検索における8つのAIチャットボットの性能評価:GrokとDeepSeekはChatGPTより優れているが、完全に正確ではない
Authors: Álvaro Cabezas-Clavijo, Pavel Sidorenko-Bautista,
Abstract要約: 全5分野(健康・工学・実験科学・社会科学・人文科学)で計400件の参考文献が評価された。結果は、参照の26.5%が完全に正しいこと、33.8%が部分的に正しいこと、39.8%が誤って、あるいは完全に作られたことが示されている。これらの発見は、現在のAIモデルの構造的制約を明らかにし、学生による非クリティカルな使用のリスクを強調し、情報と批判的リテラシーを強化する必要性を強調している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study analyzes the performance of eight generative artificial intelligence chatbots -- ChatGPT, Claude, Copilot, DeepSeek, Gemini, Grok, Le Chat, and Perplexity -- in their free versions, in the task of generating academic bibliographic references within the university context. A total of 400 references were evaluated across the five major areas of knowledge (Health, Engineering, Experimental Sciences, Social Sciences, and Humanities), based on a standardized prompt. Each reference was assessed according to five key components (authorship, year, title, source, and location), along with document type, publication age, and error count. The results show that only 26.5% of the references were fully correct, 33.8% partially correct, and 39.8% were either erroneous or entirely fabricated. Grok and DeepSeek stood out as the only chatbots that did not generate false references, while Copilot, Perplexity, and Claude exhibited the highest hallucination rates. Furthermore, the chatbots showed a greater tendency to generate book references over journal articles, although the latter had a significantly higher fabrication rate. A high degree of overlap was also detected among the sources provided by several models, particularly between DeepSeek, Grok, Gemini, and ChatGPT. These findings reveal structural limitations in current AI models, highlight the risks of uncritical use by students, and underscore the need to strengthen information and critical literacy regarding the use of AI tools in higher education.
Abstract（参考訳）: 本研究は,大学環境における学術文献参照を生成するタスクにおいて,8つの生成人工知能チャットボット – ChatGPT, Claude, Copilot, DeepSeek, Gemini, Grok, Le Chat, Perplexity – のパフォーマンスを分析した。標準化されたプロンプトに基づいて,5つの主要な知識分野(健康,工学,実験科学,社会科学,人文科学)の合計400項目が評価された。それぞれの参照は5つのキーコンポーネント(著者、年、タイトル、ソース、場所)とドキュメントタイプ、出版年齢、エラー数に基づいて評価された。その結果、参照の26.5%が完全に正しいこと、33.8%が部分的に正しいこと、39.8%が誤って、あるいは完全に作られたことが判明した。 GrokとDeepSeekは、偽の参照を発生しない唯一のチャットボットであり、Copilot、Perplexity、Claudeは最も高い幻覚率を示した。さらに, チャットボットは, 雑誌記事よりも本を参照する傾向が強く, 製本率も有意に高かった。また、DeepSeek、Grok、Gemini、ChatGPTといったいくつかのモデルで提供されるソースでも高いオーバーラップが検出された。これらの発見は、現在のAIモデルにおける構造的制限を明らかにし、生徒が非クリティカルな使用のリスクを強調し、高等教育におけるAIツールの使用に関する情報と批判的リテラシーを強化する必要性を強調している。

関連論文リスト

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations [45.57178343138677]
我々はScholarCopilotを紹介した。ScholarCopilotは学術書記のための既存の大規模言語モデルを強化するために設計された統合フレームワークである。 ScholarCopilotは、検索トークン[RET]を生成して学術的な参照をいつ取得するかを決定し、引用データベースに問い合わせる。私たちは1つのフレームワーク内で生成タスクと引用タスクの両方を共同で最適化し、効率を向上します。
論文参考訳（メタデータ） (2025-04-01T14:12:14Z)
Generative AI in Academic Writing: A Comparison of DeepSeek, Qwen, ChatGPT, Gemini, Llama, Mistral, and Gemma [0.9562145896371785]
フリーでオープンソースのモデルは、学術的な執筆とコンテンツ制作に大きな可能性を秘めている。本研究は、ChatGPT、Gemini、Llama、Mistral、Gemmaと比較することにより、学術的な筆記性能を評価する。生成されたコンテンツは、プラジャリズム検出、AI検出、単語数比較、意味的類似性、可読性評価を用いて分析された。
論文参考訳（メタデータ） (2025-02-11T18:33:22Z)
Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文参考訳（メタデータ） (2024-08-13T09:19:21Z)
Deep Learning Detection Method for Large Language Models-Generated Scientific Content [0.0]
大規模言語モデルは、人間が書いたものと区別できない科学的内容を生成する。本稿では,ChatGPTを用いた科学テキスト検出手法であるAI-Catcherを提案する。 AI-Catcherの精度は平均37.4%向上した。
論文参考訳（メタデータ） (2024-02-27T19:16:39Z)
Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文参考訳（メタデータ） (2024-02-27T16:15:03Z)
Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文参考訳（メタデータ） (2024-02-16T22:24:13Z)
Correctness Comparison of ChatGPT-4, Gemini, Claude-3, and Copilot for Spatial Tasks [0.0]
本研究では、4つのチャットボットに割り当てられた7つのタスクカテゴリの76個の空間的タスクに対してゼロショットの正当性評価を行う。チャットボットは、空間リテラシー、GIS理論、プログラミングコードと関数の解釈に関連するタスクでうまく機能したが、マッピング、コード記述、空間推論の弱点が明らかになった。
論文参考訳（メタデータ） (2024-01-04T18:43:26Z)
INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。 LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文参考訳（メタデータ） (2023-05-23T17:27:22Z)
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。 FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文参考訳（メタデータ） (2023-05-23T17:06:00Z)
A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文参考訳（メタデータ） (2023-02-06T04:21:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。