Fugu-MT 論文翻訳(概要): Evaluating the Effectiveness of Retrieval-Augmented Large Language Models in Scientific Document Reasoning

論文の概要: Evaluating the Effectiveness of Retrieval-Augmented Large Language Models in Scientific Document Reasoning

arxiv url: http://arxiv.org/abs/2311.04348v1
Date: Tue, 7 Nov 2023 21:09:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 17:42:41.733827
Title: Evaluating the Effectiveness of Retrieval-Augmented Large Language Models in Scientific Document Reasoning
Title（参考訳）: 科学文書推論における検索型大規模言語モデルの有効性評価
Authors: Sai Munikoti, Anurag Acharya, Sridevi Wagle, Sameera Horawalavithana
Abstract要約: LLM(Large Language Model)は、しばしば幻覚と呼ばれる、もっともらしいが事実ではない情報を提供する。 Retrieval-augmented LLMは、外部データソースから関連する情報を取得することによって、これらの問題を解決するための非パラメトリックなアプローチを提供する。我々はこれらのモデルを科学的文書推論タスクで行う能力において批判的に評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the dramatic progress in Large Language Model (LLM) development, LLMs often provide seemingly plausible but not factual information, often referred to as hallucinations. Retrieval-augmented LLMs provide a non-parametric approach to solve these issues by retrieving relevant information from external data sources and augment the training process. These models help to trace evidence from an externally provided knowledge base allowing the model predictions to be better interpreted and verified. In this work, we critically evaluate these models in their ability to perform in scientific document reasoning tasks. To this end, we tuned multiple such model variants with science-focused instructions and evaluated them on a scientific document reasoning benchmark for the usefulness of the retrieved document passages. Our findings suggest that models justify predictions in science tasks with fabricated evidence and leveraging scientific corpus as pretraining data does not alleviate the risk of evidence fabrication.
Abstract（参考訳）: LLM(Large Language Model)開発の劇的な進歩にもかかわらず、LLMは、しばしば幻覚と呼ばれる、もっともらしいが事実ではない情報を提供する。 Retrieval-augmented LLMは、外部データソースから関連情報を検索し、トレーニングプロセスを拡張することで、これらの問題を解決するための非パラメトリックなアプローチを提供する。これらのモデルは、モデル予測をより良く解釈し検証できるように、外部から提供された知識ベースから証拠を追跡するのに役立ちます。本研究では,これらのモデルが科学的文書推論タスクで実行可能であることを批判的に評価する。この目的のために, 科学に焦点をあてた複数のモデル変形をチューニングし, 検索した文書パスの有用性を科学的文書推論ベンチマークで評価した。以上の結果から, モデルが科学的課題の予測を正当化し, 科学的コーパスを事前学習データとして活用することは, 証拠作成のリスクを軽減するものではないことが示唆された。

関連論文リスト

Atomic Reasoning for Scientific Table Claim Verification [83.14588611859826]
非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
論文参考訳（メタデータ） (2025-06-08T02:46:22Z)
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。既存のファクトチェック評価手法は静的データセットと分類基準に依存している。本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文参考訳（メタデータ） (2025-02-25T07:44:22Z)
SciClaimHunt: A Large Dataset for Evidence-based Scientific Claim Verification [7.421845364041002]
本稿では,SciClaimHuntとSciClaimHunt_Numの2つの大規模データセットを紹介する。本稿では,これらのデータセットの有効性を評価するために,科学的クレーム検証に適したベースラインモデルをいくつか提案する。 SciClaimHuntとSciClaimHunt_Numで訓練されたモデルと既存の科学的クレーム検証データセットを比較し,その品質と信頼性を評価する。
論文参考訳（メタデータ） (2025-02-14T08:34:26Z)
A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。 GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。 1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文参考訳（メタデータ） (2024-10-25T11:41:27Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Reasoning and Tools for Human-Level Forecasting [0.4261908132550109]
本稿では,Reasoning and Tools for Forecasting (RTF)について紹介する。我々は,競争予測プラットフォームからの質問でモデルを評価し,本手法が人間の予測に勝るものであることを実証した。
論文参考訳（メタデータ） (2024-08-21T23:42:06Z)
Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。マルチモーダルエビデンス検索のための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-19T13:57:11Z)
Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文参考訳（メタデータ） (2024-06-18T16:20:12Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Empirical evaluation of Uncertainty Quantification in Retrieval-Augmented Language Models for Science [0.0]
本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
論文参考訳（メタデータ） (2023-11-15T20:42:11Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Measuring Causal Effects of Data Statistics on Language Model's `Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文参考訳（メタデータ） (2022-07-28T17:36:24Z)
Scientific Inference With Interpretable Machine Learning: Analyzing Models to Learn About Real-World Phenomena [4.312340306206884]
解釈可能な機械学習は、モデルを論理的に分析して解釈を導出することで解を提供する。現在のIML研究は、科学的推論にMLモデルを活用するのではなく、MLモデルの監査に重点を置いている。本稿では、モデルだけでなく、その表現する現象を照らし出すIMLメソッドを定式化した「プロパティ記述子」を設計するためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-11T10:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。