論文の概要: Can Smaller LLMs do better? Unlocking Cross-Domain Potential through Parameter-Efficient Fine-Tuning for Text Summarization
- arxiv url: http://arxiv.org/abs/2509.01314v1
- Date: Mon, 01 Sep 2025 09:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.630833
- Title: Can Smaller LLMs do better? Unlocking Cross-Domain Potential through Parameter-Efficient Fine-Tuning for Text Summarization
- Title(参考訳): LLMはより小型化できるか? テキスト要約のためのパラメータ効率の良い微調整によるクロスドメインポテンシャルの解法
- Authors: Anum Afzal, Mehul Kumawat, Florian Matthes,
- Abstract要約: パラメータ効率の高い微細チューニング技術(PEFT)を高リソースデータセットに適用し、未確認低リソース領域の性能を向上させる。
textttLlama-3-8B-Instructの6つのPEFTをScientific, Medical, Legal, Newsドメインから14のトレーニングデータセットでベンチマークした。
実験により、低リソース領域では、内部ドメインアダプタを使用した推論の方がFew-Shotよりも優れたパフォーマンスが得られることが示された。
- 参考スコア(独自算出の注目度): 15.402666674186937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), being generic task solvers, are versatile. However, despite the vast amount of data they are trained on, there are speculations about their adaptation capabilities to a new domain. Additionally, the simple fine-tuning of the model to incorporate knowledge of a new domain is computationally expensive and time-consuming. This becomes more challenging when the domain in question is also low-resource, and labeled data is unavailable. We leverage parameter-efficient fine-tuning techniques (PEFTs) on high-resource datasets to address these challenges to improve performance on unseen low-resource domains. Throughout our experiments, we evaluate whether intrinsic linguistic commonalities between datasets can be leveraged for efficient domain adaptation. We benchmark six PEFTs with \texttt{Llama-3-8B-Instruct} on 14 training datasets from the Scientific, Medical, Legal, and News domains for a Text Summarization task. Our experiments show that for low-resource domains, inference using Within-Domain Adapters can achieve better performance than Few-Shot as well as a much larger \texttt{Llama-3-70B-Instruct}. Lastly, in the absence of Within-Domain Adapters, we explore the concept of using Cross-Domain Adapters as well as the strategic combinations of adapters to leverage intrinsic language similarities across domains, facilitating better adaptability and performance in low-resource settings.
- Abstract(参考訳): 汎用的なタスク解決ツールであるLarge Language Models (LLMs) は多用途である。
しかし、トレーニングされている膨大なデータにもかかわらず、新しいドメインへの適応能力についての憶測がある。
さらに、新しいドメインの知識を組み込むためのモデルの単純な微調整は、計算コストが高く、時間を要する。
これは、ドメインが低リソースであり、ラベル付きデータが利用できない場合にさらに困難になる。
我々は、高リソースデータセット上のパラメータ効率細調整技術(PEFT)を活用し、これらの課題に対処し、見つからない低リソース領域の性能を改善する。
実験を通じて,データセット間の固有言語的共通性が,ドメイン適応の効率化に有効かどうかを評価する。
我々は、テキスト要約タスクのために、科学、医学、法学、ニュースドメインから14のトレーニングデータセットに対して、 <textt{Llama-3-8B-Instruct} を用いた6つのPEFTをベンチマークした。
実験の結果,低リソース領域ではFew-Shotよりも高い性能を達成でき,さらにさらに大きな‘texttt{Llama-3-70B-Instruct}’を実現することができた。
最後に、ドメイン内アダプタがない場合、クロスドメインアダプタの使用の概念と、ドメイン間の固有の言語類似性を活用するためのアダプタの戦略的組み合わせについて検討し、低リソース環境での適応性とパフォーマンスを向上させる。
関連論文リスト
- Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文 参考訳(メタデータ) (2024-07-01T09:45:22Z) - Adapt in Contexts: Retrieval-Augmented Domain Adaptation via In-Context
Learning [48.22913073217633]
大規模言語モデル(LLM)は、インコンテキスト学習(in-context learning)として知られる少数の推論でその能力を示した。
本稿では,UDA問題を文脈内学習環境下で研究し,ソースドメインからターゲットドメインへの言語モデルの適用を,ターゲットラベルを使わずに行う。
我々は、異なるLMアーキテクチャを考慮し、異なるプロンプトとトレーニング戦略を考案し、言語モデリングを通してターゲット分布を学習する。
論文 参考訳(メタデータ) (2023-11-20T06:06:20Z) - Adversarial Adaptation for French Named Entity Recognition [21.036698406367115]
類似の領域や一般コーパスに対する逆適応を用いたトランスフォーマーに基づくフランス語NERアプローチを提案する。
我々のアプローチでは、同じドメインや混合ドメインから大規模にラベル付けされていないコーパスを使って、より良い機能を学ぶことができます。
また, 大規模未ラベルコーパスに対する逆適応は, より小さなコーパスで事前学習したTransformerモデルを用いて, 性能低下を軽減できることを示す。
論文 参考訳(メタデータ) (2023-01-12T18:58:36Z) - Combining Data Generation and Active Learning for Low-Resource Question Answering [23.755283239897132]
低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2022-11-27T16:31:33Z) - Multilingual Domain Adaptation for NMT: Decoupling Language and Domain
Information with Adapters [66.7986513246294]
機械翻訳の文脈における言語とドメインアダプタの構成性について検討する。
部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば欠落した言語を破滅的に忘れてしまう。
論文 参考訳(メタデータ) (2021-10-18T18:55:23Z) - Data Augmentation for Cross-Domain Named Entity Recognition [22.66649873447105]
名前付きエンティティ認識タスクのためのドメイン間データ拡張について検討する。
本稿では,データ表現を高リソースから低リソース領域に変換する新しいニューラルアーキテクチャを提案する。
本研究では,低リソース領域の表現にデータを変換することで,高リソース領域のデータのみを使用することによる大幅な改善を実現することを示す。
論文 参考訳(メタデータ) (2021-09-04T00:50:55Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - Latent Domain Learning with Dynamic Residual Adapters [26.018759356470767]
ディープニューラルネットワークの現実的な欠点は、単一のタスクとドメインへの特殊化である。
ドメインアノテーションへのアクセスなしに、複数のドメインからデータから学ぶことです。
我々はこの制限を動的残留アダプタ(潜伏領域を考慮に入れた適応ゲーティング機構)を介して解決する。
論文 参考訳(メタデータ) (2020-06-01T15:00:11Z) - Addressing Zero-Resource Domains Using Document-Level Context in Neural
Machine Translation [80.40677540516616]
ドメイン内の並列データが利用できない場合、文書レベルのコンテキストへのアクセスにより、ドメインの一般性をよりよくキャプチャできることを示す。
文書レベルのトランスフォーマーモデルとして,大きなコンテキストサイズを利用できる2つのモデルを提案する。
論文 参考訳(メタデータ) (2020-04-30T16:28:19Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。