論文の概要: Unsupervised LLM Adaptation for Question Answering
- arxiv url: http://arxiv.org/abs/2402.12170v1
- Date: Fri, 16 Feb 2024 06:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:27:23.138939
- Title: Unsupervised LLM Adaptation for Question Answering
- Title(参考訳): 質問応答のための教師なしLLM適応
- Authors: Kuniaki Saito, Kihyuk Sohn, Chen-Yu Lee, Yoshitaka Ushiku
- Abstract要約: 大規模言語モデル(LLM)は、自己教師型トレーニングを通じて、大規模トレーニングデータセットに存在する多様な知識を学習する。
質問応答に対する教師なしLLM適応という新しいタスクを提案する。
私たちのゴールは、ターゲットドメインに関する質問に答えられるLLMを学ぶことです。
- 参考スコア(独自算出の注目度): 39.77349062148852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLM) learn diverse knowledge present in the
large-scale training dataset via self-supervised training. Followed by
instruction-tuning, LLM acquires the ability to return correct information for
diverse questions. However, adapting these pre-trained LLMs to new target
domains, such as different organizations or periods, for the question-answering
(QA) task incurs a substantial annotation cost. To tackle this challenge, we
propose a novel task, unsupervised LLM adaptation for question answering. In
this task, we leverage a pre-trained LLM, a publicly available QA dataset
(source data), and unlabeled documents from the target domain. Our goal is to
learn LLM that can answer questions about the target domain. We introduce one
synthetic and two real datasets to evaluate models fine-tuned on the source and
target data, and reveal intriguing insights; (i) fine-tuned models exhibit the
ability to provide correct answers for questions about the target domain even
though they do not see any questions about the information described in the
unlabeled documents, but (ii) they have difficulties in accessing information
located in the middle or at the end of documents, and (iii) this challenge can
be partially mitigated by replacing input tokens with random ones during
adaptation.
- Abstract(参考訳): 大規模言語モデル(llm)は、自己教師付きトレーニングを通じて、大規模トレーニングデータセットに存在する多様な知識を学習する。
インストラクションチューニングによってLLMは、多様な質問に対して正しい情報を返す能力を取得する。
しかし、これらの事前訓練されたLLMを異なる組織や期間などの新しいターゲットドメインに適用すると、QAタスクは相当なアノテーションコストが発生する。
この課題に取り組むために,質問応答に対する教師なしllm適応という新しいタスクを提案する。
本課題では,学習済みのLLM,公開可能なQAデータセット(ソースデータ),および対象ドメインからのラベルなし文書を活用する。
私たちのゴールは、ターゲットドメインに関する質問に答えられるLLMを学ぶことです。
1つの合成データセットと2つの実データセットを導入し、ソースとターゲットデータに微調整されたモデルを評価し、興味深い洞察を明らかにする。
一 未記載の文書に記載された情報についての質問がないにもかかわらず、対象領域に関する質問に対して正しい回答を提供する能力を有する微調整モデル
(二 文書の中間又は末尾にある情報にアクセスするのが困難である。)
(iii)この課題は、適応中に入力トークンをランダムトークンに置き換えることで部分的に軽減することができる。
関連論文リスト
- How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文 参考訳(メタデータ) (2025-02-20T12:31:03Z) - Post-training an LLM for RAG? Train on Self-Generated Demonstrations [18.8726880078299]
大規模言語モデル(LLM)は知識集約型NLPタスクとしばしば競合する。
検索拡張生成(RAG)は、モデルがコンテキスト内情報を利用することを可能にする。
自己生成型実演を用いたRAG対応LDMの学習法を提案する。
論文 参考訳(メタデータ) (2025-02-14T23:00:49Z) - Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG [24.660769275714685]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン知識を組み込む重要な手法として登場した。
本稿では,学習データを2つの方法で強化することで,微調整プロセスを大幅に強化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:39:51Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。
欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。
複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:56:59Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。