Fugu-MT 論文翻訳(概要): Unsupervised LLM Adaptation for Question Answering

論文の概要: Unsupervised LLM Adaptation for Question Answering

arxiv url: http://arxiv.org/abs/2402.12170v1
Date: Fri, 16 Feb 2024 06:29:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 16:27:23.138939
Title: Unsupervised LLM Adaptation for Question Answering
Title（参考訳）: 質問応答のための教師なしLLM適応
Authors: Kuniaki Saito, Kihyuk Sohn, Chen-Yu Lee, Yoshitaka Ushiku
Abstract要約: 大規模言語モデル(LLM)は、自己教師型トレーニングを通じて、大規模トレーニングデータセットに存在する多様な知識を学習する。質問応答に対する教師なしLLM適応という新しいタスクを提案する。私たちのゴールは、ターゲットドメインに関する質問に答えられるLLMを学ぶことです。
参考スコア（独自算出の注目度）: 39.77349062148852
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLM) learn diverse knowledge present in the large-scale training dataset via self-supervised training. Followed by instruction-tuning, LLM acquires the ability to return correct information for diverse questions. However, adapting these pre-trained LLMs to new target domains, such as different organizations or periods, for the question-answering (QA) task incurs a substantial annotation cost. To tackle this challenge, we propose a novel task, unsupervised LLM adaptation for question answering. In this task, we leverage a pre-trained LLM, a publicly available QA dataset (source data), and unlabeled documents from the target domain. Our goal is to learn LLM that can answer questions about the target domain. We introduce one synthetic and two real datasets to evaluate models fine-tuned on the source and target data, and reveal intriguing insights; (i) fine-tuned models exhibit the ability to provide correct answers for questions about the target domain even though they do not see any questions about the information described in the unlabeled documents, but (ii) they have difficulties in accessing information located in the middle or at the end of documents, and (iii) this challenge can be partially mitigated by replacing input tokens with random ones during adaptation.
Abstract（参考訳）: 大規模言語モデル(llm)は、自己教師付きトレーニングを通じて、大規模トレーニングデータセットに存在する多様な知識を学習する。インストラクションチューニングによってLLMは、多様な質問に対して正しい情報を返す能力を取得する。しかし、これらの事前訓練されたLLMを異なる組織や期間などの新しいターゲットドメインに適用すると、QAタスクは相当なアノテーションコストが発生する。この課題に取り組むために,質問応答に対する教師なしllm適応という新しいタスクを提案する。本課題では,学習済みのLLM,公開可能なQAデータセット(ソースデータ),および対象ドメインからのラベルなし文書を活用する。私たちのゴールは、ターゲットドメインに関する質問に答えられるLLMを学ぶことです。 1つの合成データセットと2つの実データセットを導入し、ソースとターゲットデータに微調整されたモデルを評価し、興味深い洞察を明らかにする。一未記載の文書に記載された情報についての質問がないにもかかわらず、対象領域に関する質問に対して正しい回答を提供する能力を有する微調整モデル (二文書の中間又は末尾にある情報にアクセスするのが困難である。) (iii)この課題は、適応中に入力トークンをランダムトークンに置き換えることで部分的に軽減することができる。

関連論文リスト

An Analysis of Decoding Methods for LLM-based Agents for Faithful Multi-Hop Question Answering [44.41915467956464]
大規模言語モデル(LLM)は、しばしば事実的に不正確な出力を生成する。この現象は知識集約型NLPタスクにおける精度を制限する。近年の研究では、モデル世代に対する忠実性を改善するために、トレーニング不要なデコード戦略を探求している。
論文参考訳（メタデータ） (2025-03-30T12:18:21Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Post-training an LLM for RAG? Train on Self-Generated Demonstrations [19.972220654354494]
大規模言語モデル(LLM)は知識集約型NLPタスクとしばしば競合する。検索拡張生成(RAG)は、モデルがコンテキスト内情報を利用することを可能にする。自己生成型実演を用いたRAG対応LDMの学習法を提案する。
論文参考訳（メタデータ） (2025-02-14T23:00:49Z)
Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG [24.660769275714685]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン知識を組み込む重要な手法として登場した。本稿では,学習データを2つの方法で強化することで,微調整プロセスを大幅に強化する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T12:39:51Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Best Practices for Distilling Large Language Models into BERT for Web Search Ranking [14.550458167328497]
LLM(Large Language Models)は、潜在的文書のランク付けリストを生成する。 LLMのランキングの専門知識をBERTのようなよりコンパクトなモデルに移行し、ランキングの損失を利用して、リソース集約の少ないモデルのデプロイを可能にします。 2024年2月現在,我々のモデルは商用ウェブ検索エンジンに統合されている。
論文参考訳（メタデータ） (2024-11-07T08:54:46Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文参考訳（メタデータ） (2024-04-22T09:56:59Z)
Instruction-tuned Language Models are Better Knowledge Learners [106.38526595116961]
文書の学習に先立って質問を指導するPIT(Pre-instruction-tuning)を提案する。大規模な実験とアブレーション研究により、プレインストラクションチューニングはLLMが新しい文書から知識を吸収する能力を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-02-20T09:20:32Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
Enhancing In-Context Learning with Answer Feedback for Multi-Span Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。 3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文参考訳（メタデータ） (2023-06-07T15:20:24Z)
Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文参考訳（メタデータ） (2023-05-02T17:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。