論文の概要: Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback
- arxiv url: http://arxiv.org/abs/2302.12813v1
- Date: Fri, 24 Feb 2023 18:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 12:44:29.614588
- Title: Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback
- Title(参考訳): 事実を確認してもう一度試す - 外部知識と自動フィードバックによる大規模言語モデルの改善
- Authors: Baolin Peng and Michel Galley and Pengcheng He and Hao Cheng and Yujia
Xie and Yu Hu and Qiuyuan Huang and Lars Liden and Zhou Yu and Weizhu Chen
and Jianfeng Gao
- Abstract要約: 大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
- 参考スコア(独自算出の注目度): 127.75419038610455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs), such as ChatGPT, are able to generate
human-like, fluent responses for many downstream tasks, e.g., task-oriented
dialog and question answering. However, applying LLMs to real-world,
mission-critical applications remains challenging mainly due to their tendency
to generate hallucinations and inability to use external knowledge.This paper
proposes a LLM-Augmenter system, which augments a black-box LLM with a set of
plug-and-play modules. Our system makes the LLM generate responses grounded in
consolidated external knowledge, e.g., stored in task-specific databases. It
also iteratively revises LLM prompts to improve model responses using feedback
generated by utility functions, e.g., the factuality score of a LLM-generated
response. The effectiveness of LLM-Augmenter is empirically validated on two
types of mission-critical scenarios, task-oriented dialog and open-domain
question answering. LLM-Augmenter significantly reduces ChatGPT's
hallucinations without sacrificing the fluency and informativeness of its
responses. We make the source code and models publicly available.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、タスク指向のダイアログや質問応答など、多くの下流タスクに対して、人間のような流動的な応答を生成することができる。
しかし,LLMを実世界のミッションクリティカルな応用に適用することは,主に幻覚を発生させる傾向と外部知識を利用できないために困難であり,プラグイン・アンド・プレイモジュールのセットでブラックボックスLLMを増強するLLM-Augmenterシステムを提案する。
本システムでは,タスク固有のデータベースに格納された外部知識に基づく応答をllmが生成する。
また、LCMが生成した応答の事実性スコアなどのユーティリティ関数によって生成されるフィードバックを用いて、LCMプロンプトを反復的に改善する。
LLM-Augmenterの有効性は、2種類のミッションクリティカルなシナリオ、タスク指向対話とオープンドメイン質問応答で実証的に検証されている。
LLM-AugmenterはChatGPTの幻覚を、その周波数と応答の伝達性を犠牲にすることなく著しく減少させる。
ソースコードとモデルを公開しています。
関連論文リスト
- Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination [58.36408867180233]
大規模言語モデル(LLM)は、プライバシー侵害や機密データの不要な露出といった重要な問題に苦慮している。
我々は、LLMアンラーニングの文脈において、意図的な想像力という新しいアプローチを導入する。
本研究は,異なるモデルとサイズにまたがるこのアプローチの有用性を示し,パラメータ効率の良い微調整を行った。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection
Method [37.61193254658253]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach [33.24651276102073]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Validating Large Language Models with ReLM [11.552979853457117]
大規模言語モデル(LLM)は、自然に聞こえるテキストを生成する能力があるとして、高く評価されている。
データ記憶、バイアス、不適切な言語など、LLMのネガティブな影響に関する懸念が高まっている。
本稿では,標準正規表現を用いたLLMの検証・クエリシステムであるReLMを紹介する。
論文 参考訳(メタデータ) (2022-11-21T21:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。