論文の概要: Scalable Language Model with Generalized Continual Learning
- arxiv url: http://arxiv.org/abs/2404.07470v1
- Date: Thu, 11 Apr 2024 04:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:08:41.541517
- Title: Scalable Language Model with Generalized Continual Learning
- Title(参考訳): 一般化連続学習を用いたスケーラブル言語モデル
- Authors: Bohao Peng, Zhuotao Tian, Shu Liu, Mingchang Yang, Jiaya Jia,
- Abstract要約: The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
- 参考スコア(独自算出の注目度): 58.700439919096155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning has gained increasing importance as it facilitates the acquisition and refinement of scalable knowledge and skills in language models. However, existing methods typically encounter strict limitations and challenges in real-world scenarios, such as reliance on experience replay, optimization constraints, and inference task-ID. In this study, we introduce the Scalable Language Model (SLM) to overcome these limitations within a more challenging and generalized setting, representing a significant advancement toward practical applications for continual learning. Specifically, we propose the Joint Adaptive Re-Parameterization (JARe), integrated with Dynamic Task-related Knowledge Retrieval (DTKR), to enable adaptive adjustment of language models based on specific downstream tasks. This approach leverages the task distribution within the vector space, aiming to achieve a smooth and effortless continual learning process. Our method demonstrates state-of-the-art performance on diverse backbones and benchmarks, achieving effective continual learning in both full-set and few-shot scenarios with minimal forgetting. Moreover, while prior research primarily focused on a single task type such as classification, our study goes beyond, with the large language model, i.e., LLaMA-2, to explore the effects across diverse domains and task types, such that a single language model can be decently scaled to broader applications.
- Abstract(参考訳): 言語モデルにおけるスケーラブルな知識とスキルの獲得と洗練を促進することで、継続的な学習の重要性が高まっている。
しかし、既存のメソッドは、経験の再現、最適化の制約、推論タスクIDなど、現実世界のシナリオで厳格な制限や課題に直面するのが一般的である。
本研究では,これらの制約を,より困難で一般化した環境で克服するためのスケーラブル言語モデル(SLM)を提案する。
具体的には、動的タスク関連知識検索(DTKR)と統合されたJAR(Joint Adaptive Re-Parameterization)を提案し、特定の下流タスクに基づいて言語モデルの適応的な調整を可能にする。
このアプローチはベクトル空間内のタスク分布を利用して,スムーズで継続的な学習プロセスの実現を目指している。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
さらに、従来の研究では、分類などの単一タスクタイプに重点を置いていたが、LLaMA-2と呼ばれる大きな言語モデルを用いて、単一の言語モデルをより広範なアプリケーションに適切にスケールできるような、多様なドメインやタスクタイプにまたがる影響を探索する。
関連論文リスト
- Modality-Inconsistent Continual Learning of Multimodal Large Language Models [37.15220266767881]
マルチモーダル大言語モデル(MLLM)のための新しい連続学習シナリオであるMICL(Modality-Inconsistent Continual Learning)を導入する。
既存の視覚のみやモダリティの増分設定とは異なり、MICLはモダリティとタスクタイプのシフトを組み合わせており、どちらも破滅的な忘れを招いている。
本稿では, Pseudo Targets Generation Module を用いて, 以前見られたタスクタイプシフトによる忘れを軽減した MoInCL を提案する。
論文 参考訳(メタデータ) (2024-12-17T16:13:56Z) - Align, Generate, Learn: A Novel Closed-Loop Framework for Cross-Lingual In-Context Learning [0.0]
言語間インコンテキスト学習(XICL)は、多言語タスクに対処するために大規模言語モデル(LLM)を活用するための変換パラダイムとして登場した。
タスク関連事例を内部的に選択・活用するために, LLMの生成能力を活用する, 自己管理型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T05:36:51Z) - LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。
TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap for Prompt-Based Large Language Models and Beyond [16.913115978881866]
本稿では,単一ベクトル空間内において,より小さな言語モデルや多様なプロンプトを持つ大規模言語モデルを含む,様々なモデルからのタスク埋め込みである統合タスク埋め込み(FUTE)フレームワークを提案する。
このような一様性は、異なるモデル間の類似性の比較と分析を可能にし、マルチモデルシナリオにおける既存のタスク埋め込みメソッドの範囲と有用性を広げる。
論文 参考訳(メタデータ) (2024-02-22T13:13:31Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - On the Universality of Deep COntextual Language Models [15.218264849664715]
ELMOやBERTのような深い文脈言語モデル(LM)は、自然言語処理のランドスケープを支配している。
XLM-RやmBERTのような多言語モデルでは、ゼロショットのクロスリンガル転送が期待できる結果となった。
この最初の成功により、訓練済みのモデルはユニバーサル言語モデルとして使用されている。
論文 参考訳(メタデータ) (2021-09-15T08:00:33Z) - CALM: Continuous Adaptive Learning for Language Modeling [18.72860206714457]
自然言語処理コミュニティでは,大規模言語表現モデルのトレーニングが標準となっている。
これらの事前学習モデルが破滅的忘れという形で性能劣化を示すことを示す。
言語モデリングのための継続的適応学習CALM:複数のドメインにまたがる知識を保持するモデルをレンダリングする手法を提案する。
論文 参考訳(メタデータ) (2020-04-08T03:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。