論文の概要: ArxEval: Evaluating Retrieval and Generation in Language Models for Scientific Literature
- arxiv url: http://arxiv.org/abs/2501.10483v2
- Date: Wed, 22 Jan 2025 04:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:49.587176
- Title: ArxEval: Evaluating Retrieval and Generation in Language Models for Scientific Literature
- Title(参考訳): ArxEval:科学文献のための言語モデルにおける検索と生成の評価
- Authors: Aarush Sinha, Viraj Virk, Dipshikha Chakraborty, P. S. Sreeja,
- Abstract要約: 第一の課題は幻覚(幻覚)である。
この種の不正確さは、学術や教育など、高いレベルの事実の正しさを必要とするすべての領域において危険である。
本研究は, 言語モデルが科学文献における応答生成において幻覚を与える頻度を評価するパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Language Models [LMs] are now playing an increasingly large role in information generation and synthesis; the representation of scientific knowledge in these systems needs to be highly accurate. A prime challenge is hallucination; that is, generating apparently plausible but actually false information, including invented citations and nonexistent research papers. This kind of inaccuracy is dangerous in all the domains that require high levels of factual correctness, such as academia and education. This work presents a pipeline for evaluating the frequency with which language models hallucinate in generating responses in the scientific literature. We propose ArxEval, an evaluation pipeline with two tasks using ArXiv as a repository: Jumbled Titles and Mixed Titles. Our evaluation includes fifteen widely used language models and provides comparative insights into their reliability in handling scientific literature.
- Abstract(参考訳): 言語モデル(LM)は情報生成と合成においてますます大きな役割を担っている。
第一の課題は幻覚(幻覚)、すなわち、発明された引用や存在しない研究論文を含む、明らかにもっともらしいが実際に偽の情報を生成することである。
この種の不正確さは、学術や教育など、高いレベルの事実の正しさを必要とするすべての領域において危険である。
本研究は, 言語モデルが科学文献における応答生成において幻覚を与える頻度を評価するパイプラインを提案する。
本稿では,ArXivをレポジトリとして使用する2つのタスクを備えた評価パイプラインであるArxEvalを提案する。
我々の評価には15の広く使われている言語モデルが含まれており、科学的文献を扱う際の信頼性について比較した知見を提供する。
関連論文リスト
- Detecting Reference Errors in Scientific Literature with Large Language Models [0.552480439325792]
本研究は,OpenAI の GPT ファミリーにおいて,引用誤りを検出するための大規模言語モデルの能力を評価する。
その結果,大規模言語モデルでは文脈が限定され,微調整を行なわずに誤引用を検出できることがわかった。
論文 参考訳(メタデータ) (2024-11-09T07:30:38Z) - Language agents achieve superhuman synthesis of scientific knowledge [0.7635132958167216]
PaperQA2は、ファクトリティの改善、マッチング、あるいは課題の専門家のパフォーマンスを上回るように最適化されたフロンティア言語モデルエージェントである。
PaperQA2は、Wikipediaのような科学的トピックの要約を引用している。
本稿では,人間にとって重要な科学的課題である科学文献の矛盾を明らかにするためにPaperQA2を適用した。
論文 参考訳(メタデータ) (2024-09-10T16:37:58Z) - Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。
この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。
我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文 参考訳(メタデータ) (2024-08-20T02:19:35Z) - Scientific QA System with Verifiable Answers [0.0]
我々は,オープンソースの科学的質問応答システムであるVerifAIプロジェクトを紹介した。
本システムの構成要素は,(1)科学的論文(ミストラル7B)上の意味論的検索技術と語彙的検索技術を組み合わせた情報検索システム,(2)微調整生成モデル(ミストラル7B)を用いた検索型生成(RAG)モジュール,(3)微調整DBERTaに基づく検証エンジン,である。
論文 参考訳(メタデータ) (2024-07-16T08:21:02Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - PaperQA: Retrieval-Augmented Generative Agent for Scientific Research [41.9628176602676]
本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
論文 参考訳(メタデータ) (2023-12-08T18:50:20Z) - MIReAD: Simple Method for Learning High-quality Representations from
Scientific Documents [77.34726150561087]
論文の高品質な表現を学習する簡単な方法であるMIREADを提案する。
私たちは、2000以上のジャーナルクラスで50万以上のPubMedとarXivの抽象クラスでMIREADをトレーニングします。
論文 参考訳(メタデータ) (2023-05-07T03:29:55Z) - Survey of Hallucination in Natural Language Generation [69.9926849848132]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。
深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文 参考訳(メタデータ) (2022-02-08T03:55:01Z) - Probing Across Time: What Does RoBERTa Know and When? [70.20775905353794]
言語知識は、ドメイン間で高速、安定、そして堅牢に獲得されることを示す。
事実と常識はより遅く、ドメインに敏感です。
クロスタイム探索は、これらのモデルが生み出す複雑で混ざった学習を理解するのに役立ち、必要な学習を迅速に行うためのより効率的なアプローチへと導いてくれると信じています。
論文 参考訳(メタデータ) (2021-04-16T04:26:39Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。