論文の概要: Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback
- arxiv url: http://arxiv.org/abs/2302.12813v1
- Date: Fri, 24 Feb 2023 18:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 12:44:29.614588
- Title: Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback
- Title(参考訳): 事実を確認してもう一度試す - 外部知識と自動フィードバックによる大規模言語モデルの改善
- Authors: Baolin Peng and Michel Galley and Pengcheng He and Hao Cheng and Yujia
Xie and Yu Hu and Qiuyuan Huang and Lars Liden and Zhou Yu and Weizhu Chen
and Jianfeng Gao
- Abstract要約: 大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
- 参考スコア(独自算出の注目度): 127.75419038610455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs), such as ChatGPT, are able to generate
human-like, fluent responses for many downstream tasks, e.g., task-oriented
dialog and question answering. However, applying LLMs to real-world,
mission-critical applications remains challenging mainly due to their tendency
to generate hallucinations and inability to use external knowledge.This paper
proposes a LLM-Augmenter system, which augments a black-box LLM with a set of
plug-and-play modules. Our system makes the LLM generate responses grounded in
consolidated external knowledge, e.g., stored in task-specific databases. It
also iteratively revises LLM prompts to improve model responses using feedback
generated by utility functions, e.g., the factuality score of a LLM-generated
response. The effectiveness of LLM-Augmenter is empirically validated on two
types of mission-critical scenarios, task-oriented dialog and open-domain
question answering. LLM-Augmenter significantly reduces ChatGPT's
hallucinations without sacrificing the fluency and informativeness of its
responses. We make the source code and models publicly available.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、タスク指向のダイアログや質問応答など、多くの下流タスクに対して、人間のような流動的な応答を生成することができる。
しかし,LLMを実世界のミッションクリティカルな応用に適用することは,主に幻覚を発生させる傾向と外部知識を利用できないために困難であり,プラグイン・アンド・プレイモジュールのセットでブラックボックスLLMを増強するLLM-Augmenterシステムを提案する。
本システムでは,タスク固有のデータベースに格納された外部知識に基づく応答をllmが生成する。
また、LCMが生成した応答の事実性スコアなどのユーティリティ関数によって生成されるフィードバックを用いて、LCMプロンプトを反復的に改善する。
LLM-Augmenterの有効性は、2種類のミッションクリティカルなシナリオ、タスク指向対話とオープンドメイン質問応答で実証的に検証されている。
LLM-AugmenterはChatGPTの幻覚を、その周波数と応答の伝達性を犠牲にすることなく著しく減少させる。
ソースコードとモデルを公開しています。
関連論文リスト
- Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - Validating Large Language Models with ReLM [11.552979853457117]
大規模言語モデル(LLM)は、自然に聞こえるテキストを生成する能力があるとして、高く評価されている。
データ記憶、バイアス、不適切な言語など、LLMのネガティブな影響に関する懸念が高まっている。
本稿では,標準正規表現を用いたLLMの検証・クエリシステムであるReLMを紹介する。
論文 参考訳(メタデータ) (2022-11-21T21:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。