論文の概要: Context Matter: Data-Efficient Augmentation of Large Language Models for
Scientific Applications
- arxiv url: http://arxiv.org/abs/2312.07069v1
- Date: Tue, 12 Dec 2023 08:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:47:14.875991
- Title: Context Matter: Data-Efficient Augmentation of Large Language Models for
Scientific Applications
- Title(参考訳): 文脈問題:科学応用のための大規模言語モデルのデータ効率向上
- Authors: Xiang Li, Haoran Tang, Siyu Chen, Ziwei Wang, Anurag Maravi, Marcin
Abram
- Abstract要約: GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。
一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。
本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
- 参考スコア(独自算出の注目度): 15.893290942177112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the challenges inherent to Large Language Models
(LLMs) like GPT-4, particularly their propensity for hallucinations, logic
mistakes, and incorrect conclusions when tasked with answering complex
questions. The capacity of LLMs to present erroneous answers in a coherent and
semantically rigorous manner further complicates the detection of factual
inaccuracies. This issue is especially pronounced in fields that require
specialized expertise. Our work delves into these challenges, aiming to enhance
the understanding and mitigation of such errors, thereby contributing to the
improvement of LLM accuracy and reliability in scientific and other specialized
domains. Our findings reveal a non-linear relationship between the context's
relevancy and the answers' measured quality. In addition, we demonstrate that
with the correct calibration, it is possible to automate the grading procedure
-- a finding suggesting that, at least to some degree, the LLMs can be used to
self-examine the quality of their own performance. Finally, we describe an
experimental platform that can be seen as a proof-of-concept of the techniques
described in this work.
- Abstract(参考訳): 本稿では,gpt-4のような大規模言語モデル(llm)が生み出す課題,特に幻覚や論理ミス,複雑な質問に答える際の誤った結論などについて考察する。
コヒーレントで意味的に厳密な方法で誤った回答を提示するllmの能力は、事実的不正確性の検出をさらに複雑にする。
この問題は専門知識を必要とする分野において特に顕著である。
我々の研究はこれらの課題を深く掘り下げ、これらの誤りの理解と軽減を図り、科学や他の専門分野におけるLCMの精度と信頼性の向上に寄与する。
その結果,文脈の関連性と回答の質の非直線的関係が明らかになった。
さらに, 正しい校正を行うことで, グラデーション手順の自動化が可能であることを実証し, 少なくともある程度は, LLMを自己検査に利用することができることを示した。
最後に,本研究で記述した手法の概念実証として考えられる実験的なプラットフォームについて述べる。
関連論文リスト
- LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback [14.120154004011084]
LLM(Large Language Models)はしばしば幻覚と呼ばれる誤った出力を生成する。
知識フィードバックによる強化学習(Reinforcement Learning from Knowledge Feedback, RLKF)と呼ばれる新しいアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T08:39:56Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Knowledge Crosswords: Geometric Reasoning over Structured Knowledge with
Large Language Models [51.35398315130094]
構造的知識に対する幾何学的推論を提案し、そこでは知識の一部がグラフ構造に連結され、モデルは不足した情報を埋める必要がある。
このような幾何学的知識推論は、構造化された知識、不確実性のある推論、事実の検証、エラーが発生した時のバックトラックを扱う能力を必要とする。
本稿では,不完全なエンティティネットワークの幾何学的制約を表す自然言語質問からなるマルチブランクQAデータセットであるKnowledge Crosswordsを提案する。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。