論文の概要: Evaluating the Effectiveness of Retrieval-Augmented Large Language
Models in Scientific Document Reasoning
- arxiv url: http://arxiv.org/abs/2311.04348v1
- Date: Tue, 7 Nov 2023 21:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:42:41.733827
- Title: Evaluating the Effectiveness of Retrieval-Augmented Large Language
Models in Scientific Document Reasoning
- Title(参考訳): 科学文書推論における検索型大規模言語モデルの有効性評価
- Authors: Sai Munikoti, Anurag Acharya, Sridevi Wagle, Sameera Horawalavithana
- Abstract要約: LLM(Large Language Model)は、しばしば幻覚と呼ばれる、もっともらしいが事実ではない情報を提供する。
Retrieval-augmented LLMは、外部データソースから関連する情報を取得することによって、これらの問題を解決するための非パラメトリックなアプローチを提供する。
我々はこれらのモデルを科学的文書推論タスクで行う能力において批判的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the dramatic progress in Large Language Model (LLM) development, LLMs
often provide seemingly plausible but not factual information, often referred
to as hallucinations. Retrieval-augmented LLMs provide a non-parametric
approach to solve these issues by retrieving relevant information from external
data sources and augment the training process. These models help to trace
evidence from an externally provided knowledge base allowing the model
predictions to be better interpreted and verified. In this work, we critically
evaluate these models in their ability to perform in scientific document
reasoning tasks. To this end, we tuned multiple such model variants with
science-focused instructions and evaluated them on a scientific document
reasoning benchmark for the usefulness of the retrieved document passages. Our
findings suggest that models justify predictions in science tasks with
fabricated evidence and leveraging scientific corpus as pretraining data does
not alleviate the risk of evidence fabrication.
- Abstract(参考訳): LLM(Large Language Model)開発の劇的な進歩にもかかわらず、LLMは、しばしば幻覚と呼ばれる、もっともらしいが事実ではない情報を提供する。
Retrieval-augmented LLMは、外部データソースから関連情報を検索し、トレーニングプロセスを拡張することで、これらの問題を解決するための非パラメトリックなアプローチを提供する。
これらのモデルは、モデル予測をより良く解釈し検証できるように、外部から提供された知識ベースから証拠を追跡するのに役立ちます。
本研究では,これらのモデルが科学的文書推論タスクで実行可能であることを批判的に評価する。
この目的のために, 科学に焦点をあてた複数のモデル変形をチューニングし, 検索した文書パスの有用性を科学的文書推論ベンチマークで評価した。
以上の結果から, モデルが科学的課題の予測を正当化し, 科学的コーパスを事前学習データとして活用することは, 証拠作成のリスクを軽減するものではないことが示唆された。
関連論文リスト
- A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Reasoning and Tools for Human-Level Forecasting [0.4261908132550109]
本稿では,Reasoning and Tools for Forecasting (RTF)について紹介する。
我々は,競争予測プラットフォームからの質問でモデルを評価し,本手法が人間の予測に勝るものであることを実証した。
論文 参考訳(メタデータ) (2024-08-21T23:42:06Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Empirical evaluation of Uncertainty Quantification in
Retrieval-Augmented Language Models for Science [0.0]
本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。
我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。
また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
論文 参考訳(メタデータ) (2023-11-15T20:42:11Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Scientific Inference With Interpretable Machine Learning: Analyzing Models to Learn About Real-World Phenomena [4.312340306206884]
解釈可能な機械学習は、モデルを論理的に分析して解釈を導出することで解を提供する。
現在のIML研究は、科学的推論にMLモデルを活用するのではなく、MLモデルの監査に重点を置いている。
本稿では、モデルだけでなく、その表現する現象を照らし出すIMLメソッドを定式化した「プロパティ記述子」を設計するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-11T10:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。