論文の概要: Transferable Modeling Strategies for Low-Resource LLM Tasks: A Prompt and Alignment-Based Approach
- arxiv url: http://arxiv.org/abs/2507.00601v2
- Date: Wed, 02 Jul 2025 06:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.559513
- Title: Transferable Modeling Strategies for Low-Resource LLM Tasks: A Prompt and Alignment-Based Approach
- Title(参考訳): 低リソースLCMタスクのためのトランスファーブルモデリング戦略:プロンプトとアライメントに基づくアプローチ
- Authors: Shuangquan Lyu, Yingnan Deng, Guiran Liu, Zhen Qi, Ruotong Wang,
- Abstract要約: 本稿では,低リソース言語シナリオにおける大規模言語モデルの伝達と適応能力の制限について論じる。
知識伝達モジュールとパラメータ効率のよい微調整戦略を組み合わせた統合フレームワークを提案する。
大規模言語モデルの一般的な機能を維持しながら、タスク固有の適応性を向上させる。
- 参考スコア(独自算出の注目度): 1.3286097954612326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the limited transfer and adaptation capabilities of large language models in low-resource language scenarios. It proposes a unified framework that combines a knowledge transfer module with parameter-efficient fine-tuning strategies. The method introduces knowledge alignment loss and soft prompt tuning to guide the model in effectively absorbing the structural features of target languages or tasks under minimal annotation. This enhances both generalization performance and training stability. The framework includes lightweight adaptation modules to reduce computational costs. During training, it integrates freezing strategies and prompt injection to preserve the model's original knowledge while enabling quick adaptation to new tasks. The study also conducts stability analysis experiments and synthetic pseudo-data transfer experiments to systematically evaluate the method's applicability and robustness across different low-resource tasks. Experimental results show that compared with existing multilingual pre-trained models and mainstream transfer methods, the proposed approach achieves higher performance and stability on cross-lingual tasks such as MLQA, XQuAD, and PAWS-X. It demonstrates particularly strong advantages under extremely data-scarce conditions. The proposed method offers strong generality and scalability. It enhances task-specific adaptability while preserving the general capabilities of large language models. This makes it well-suited for complex semantic modeling and multilingual processing tasks.
- Abstract(参考訳): 本稿では,低リソース言語シナリオにおける大規模言語モデルの伝達と適応能力の制限について論じる。
知識伝達モジュールとパラメータ効率のよい微調整戦略を組み合わせた統合フレームワークを提案する。
本手法では,最小限のアノテーションの下で,対象言語やタスクの構造的特徴を効果的に吸収するために,知識アライメント損失とソフトプロンプトチューニングを導入する。
これにより、一般化性能とトレーニング安定性の両方が向上する。
このフレームワークは計算コストを削減する軽量適応モジュールを含んでいる。
トレーニング中は、凍結戦略とインジェクションを統合して、モデルの本来の知識を維持しながら、新しいタスクへの迅速な適応を可能にします。
この研究は、安定性解析実験や擬似データ転送実験も行っており、異なる低リソースタスクに対する手法の適用性と堅牢性を体系的に評価している。
実験結果から,MLQA,XQuAD,PAWS-Xなどの言語間タスクにおいて,既存の多言語事前学習モデルや主流転送手法と比較して高い性能と安定性が得られた。
非常にデータ不足の条件下では、特に強靭な利点を示す。
提案手法は強力な汎用性とスケーラビリティを提供する。
大規模言語モデルの一般的な機能を維持しながら、タスク固有の適応性を向上させる。
これにより、複雑なセマンティックモデリングや多言語処理タスクに適しています。
関連論文リスト
- Generalizing Large Language Model Usability Across Resource-Constrained [0.43512163406552007]
論文は、現実世界の制約下での大規模言語モデルを一般化するための体系的な研究である。
まず、LLMが多様なモダリティをシームレスに統合することを可能にする、堅牢なテキスト中心アライメントフレームワークを導入する。
マルチモーダル設定以外にも、この論文はLLMの推論時間最適化戦略を研究している。
論文 参考訳(メタデータ) (2025-05-13T01:00:12Z) - Large Language Models as Attribution Regularizers for Efficient Model Training [0.0]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
我々は,LLM生成したグローバルタスク特徴属性を,より小さなネットワークのトレーニングプロセスに組み込む方法を提案する。
我々のアプローチは、数ショットの学習シナリオにおいて優れたパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2025-02-27T16:55:18Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - On the Usability of Transformers-based models for a French
Question-Answering task [2.44288434255221]
本稿では,大規模学習問題におけるトランスフォーマーに基づく言語モデルのユーザビリティに着目した。
本稿では,低リソース環境下での競合性を示すFrALBERTの新しいコンパクトモデルを提案する。
論文 参考訳(メタデータ) (2022-07-19T09:46:15Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。