Fugu-MT 論文翻訳(概要): Exploring Language Model Generalization in Low-Resource Extractive QA

論文の概要: Exploring Language Model Generalization in Low-Resource Extractive QA

arxiv url: http://arxiv.org/abs/2409.18446v1
Date: Fri, 27 Sep 2024 05:06:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 06:11:53.101834
Title: Exploring Language Model Generalization in Low-Resource Extractive QA
Title（参考訳）: 低リソース抽出QAにおける言語モデル一般化の探索
Authors: Saptarshi Sengupta, Wenpeng Yin, Preslav Nakov, Shreya Ghosh, Suhang Wang,
Abstract要約: ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
参考スコア（独自算出の注目度）: 57.14068405860034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we investigate Extractive Question Answering (EQA) with Large Language Models (LLMs) under domain drift, i.e., can LLMs generalize well to closed-domains that require specific knowledge such as medicine and law in a zero-shot fashion without additional in-domain training? To this end, we devise a series of experiments to empirically explain the performance gap. Our findings suggest that: a) LLMs struggle with dataset demands of closed-domains such as retrieving long answer-spans; b) Certain LLMs, despite showing strong overall performance, display weaknesses in meeting basic requirements as discriminating between domain-specific senses of words which we link to pre-processing decisions; c) Scaling model parameters is not always effective for cross-domain generalization; and d) Closed-domain datasets are quantitatively much different than open-domain EQA datasets and current LLMs struggle to deal with them. Our findings point out important directions for improving existing LLMs.
Abstract（参考訳）: 本稿では,ドメインドリフト下での大規模言語モデル (LLM) を用いた抽出質問回答 (EQA) について検討する。この目的のために、我々は、パフォーマンスギャップを実証的に説明するための一連の実験を考案した。我々の発見は以下のことを示唆している。 a) LLMは,長い回答スパンを回収する等の閉領域のデータセット要求に苦慮するロ特定のLLMは、性能が強いにもかかわらず、基本要件を満たす際の弱点を、前処理決定にリンクするドメイン固有の単語の感覚の区別として示している。 c) モデルパラメータのスケーリングは、ドメイン間の一般化に必ずしも有効ではない。 d) クローズドドメインデータセットは、オープンドメインのEQAデータセットと大きく異なり、現在のLLMはそれらを扱うのに苦労しています。以上の結果から,既存のLSMの改善に向けた重要な方向性が指摘されている。

関連論文リスト

TravelBench : Exploring LLM Performance in Low-Resource Domains [2.2917707112773593]
実世界のシナリオから匿名化されたデータを用いて、7つの共通NLPタスクにまたがる14の旅行領域データセットをキュレートした。各種タスクにおけるLCMの精度,スケーリング行動,推論能力について報告する。
論文参考訳（メタデータ） (2025-10-03T04:44:34Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
Exploring How LLMs Capture and Represent Domain-Specific Knowledge [16.84031546207366]
本研究では,Large Language Models (LLM) が本質的に自然言語のドメイン固有ニュアンスをキャプチャするかどうかを検討する。実験では,LLMの領域感度を,異なる領域からクエリを識別する能力について検討した。本稿では,クエリドメインの内部認識を示す潜在ドメイン関連トラジェクトリを明らかにする。
論文参考訳（メタデータ） (2025-04-23T16:46:06Z)
Leveraging Domain Knowledge at Inference Time for LLM Translation: Retrieval versus Generation [36.41708236431343]
機械翻訳(MT)において,大規模言語モデル (LLM) がますます採用されている。本研究は,LLMを用いたドメイン適応MTについて,慎重なプロンプト設定により検討する。実演は用語学を一貫して上回り、検索は生成を一貫して上回ります。
論文参考訳（メタデータ） (2025-03-06T22:23:07Z)
Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answering [15.342415325821063]
自然言語の曖昧さは、オープンドメインの質問応答に使用される大規模言語モデル(LLM)に重大な課題をもたらす。我々は,明示的曖昧化戦略の効果を計測することに集中して,市販のLLM性能と数発のLLM性能を比較した。本研究では, 難解な問合せタスクにおいて, LLM性能を向上させるために, 簡単な, トレーニング不要, トークンレベルの曖昧さを効果的に活用できることを実証する。
論文参考訳（メタデータ） (2024-11-19T10:27:26Z)
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。 BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文参考訳（メタデータ） (2024-03-27T08:57:21Z)
General LLMs as Instructors for Domain-Specific LLMs: A Sequential Fusion Method to Integrate Extraction and Editing [12.017822691367705]
複雑な文脈からの知識をLarge Language Models (LLM) に統合するための逐次融合法を提案する。本手法を用いて,質問応答におけるドメイン固有LCMの精度は71.7%(平均39.1%)に達した。これらの知見は、FDoR-ULにおけるアプローチの有効性と柔軟性を、様々な領域で示している。
論文参考訳（メタデータ） (2024-03-23T06:03:36Z)
Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文参考訳（メタデータ） (2024-03-14T08:18:59Z)
PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。 LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。 LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-20T09:02:55Z)
On the Out-Of-Distribution Generalization of Multimodal Large Language Models [24.431960338495184]
MLLM(Multimodal Large Language Models)の一般化境界について検討する。我々は、合成画像、実世界の分布シフト、医療画像や分子画像などの特殊なデータセットにまたがるゼロショットの一般化を評価した。テキスト内学習はMLLMの一般化を著しく向上させ,一般化障壁を克服するための新たな道を開くことができることを示す。
論文参考訳（メタデータ） (2024-02-09T18:21:51Z)
Adapt in Contexts: Retrieval-Augmented Domain Adaptation via In-Context Learning [48.22913073217633]
大規模言語モデル(LLM)は、インコンテキスト学習(in-context learning)として知られる少数の推論でその能力を示した。本稿では,UDA問題を文脈内学習環境下で研究し,ソースドメインからターゲットドメインへの言語モデルの適用を,ターゲットラベルを使わずに行う。我々は、異なるLMアーキテクチャを考慮し、異なるプロンプトとトレーニング戦略を考案し、言語モデリングを通してターゲット分布を学習する。
論文参考訳（メタデータ） (2023-11-20T06:06:20Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering [36.31193273252256]
大規模言語モデル(LLM)は、オープンドメインタスクにおいて大きな成果を上げている。しかし、実際の産業ドメイン固有のシナリオにおけるパフォーマンスは、特定のドメイン知識が欠如しているため平均的です。私たちは、Microsoft製品と顧客が遭遇するIT技術的な問題を中心にした、MSQA(QA)データセットのベンチマークを提供します。
論文参考訳（メタデータ） (2023-05-19T09:23:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。