論文の概要: Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.03931v1
- Date: Fri, 04 Apr 2025 20:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:08.593812
- Title: Adaptation of Large Language Models
- Title(参考訳): 大規模言語モデルの適応
- Authors: Zixuan Ke, Yifei Ming, Shafiq Joty,
- Abstract要約: LLMの適応に関するこのチュートリアルは、ジェネリックLLMの静的能力を超えたモデルの需要増加に対応するために設計されている。
まず, LLMにおけるパラメトリック知識の更新に焦点を当てたパラメトリック知識適応について検討する。
2つめの適応は、半パラメトリックな知識適応であり、その目標は、外部の知識やツールをよりよく活用するために、LSMパラメータを更新することである。
- 参考スコア(独自算出の注目度): 39.59753447841243
- License:
- Abstract: This tutorial on adaptation of LLMs is designed to address the growing demand for models that go beyond the static capabilities of generic LLMs by providing an overview of dynamic, domain-specific, and task-adaptive LLM adaptation techniques. While general LLMs have demonstrated strong generalization across a variety of tasks, they often struggle to perform well in specialized domains such as finance, healthcare, and code generation for underrepresented languages. Additionally, their static nature limits their ability to evolve with the changing world, and they are often extremely large in size, making them impractical and costly to deploy at scale. As a result, the adaptation of LLMs has drawn much attention since the birth of LLMs and is of core importance, both for industry, which focuses on serving its targeted users, and academia, which can greatly benefit from small but powerful LLMs. To address this gap, this tutorial aims to provide an overview of the LLM adaptation techniques. We start with an introduction to LLM adaptation, from both the data perspective and the model perspective. We then emphasize how the evaluation metrics and benchmarks are different from other techniques. After establishing the problems, we explore various adaptation techniques. We categorize adaptation techniques into two main families. The first is parametric knowledge adaptation, which focuses on updating the parametric knowledge within LLMs. Additionally, we will discuss real-time adaptation techniques, including model editing, which allows LLMs to be updated dynamically in production environments. The second kind of adaptation is semi-parametric knowledge adaptation, where the goal is to update LLM parameters to better leverage external knowledge or tools through techniques like retrieval-augmented generation (RAG) and agent-based systems.
- Abstract(参考訳): LLMの適応に関するこのチュートリアルは、動的、ドメイン固有、タスク適応LLM適応技術の概要を提供することで、ジェネリックLLMの静的能力を超えたモデルの需要の増加に対応するために設計されている。
一般のLLMは様々なタスクにまたがって強力な一般化を示してきたが、金融、医療、および表現不足言語のためのコード生成といった専門分野ではうまく機能しないことが多い。
さらに、彼らの静的な性質は、変化する世界と共に進化する能力を制限するものであり、しばしば非常に大きなサイズであるため、大規模に展開する上で非現実的でコストがかかる。
結果として、LDMの適応はLLMの誕生以来注目され、そのターゲットとなるユーザへのサービスに焦点をあてる産業と、小規模で強力なLDMの恩恵を受ける学術の両方において重要視されている。
このギャップに対処するため,本チュートリアルはLLM適応技術の概要を提供する。
まず、データパースペクティブとモデルパースペクティブの両方から、LLM適応の導入から始めます。
次に、評価指標とベンチマークが他の手法とどのように異なるかを強調します。
課題を解決した後、様々な適応手法を探求する。
適応テクニックを2つのメインファミリーに分類する。
1つ目はパラメトリック知識適応であり、LLM内のパラメトリック知識の更新に焦点を当てている。
さらに,実運用環境においてLLMを動的に更新できるモデル編集など,リアルタイム適応技術についても論じる。
第2の適応は、半パラメトリックな知識適応であり、LLMパラメータを更新して、検索強化生成(RAG)やエージェントベースのシステムといった技術を通じて、外部の知識やツールをよりよく活用することを目的としている。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Mitigating Heterogeneous Token Overfitting in LLM Knowledge Editing [21.143790515287392]
大規模言語モデル (LLM) は様々な自然言語処理において顕著な性能を発揮している。
静的コーパスでトレーニングされ、その知識は急速に変化する世界で急速に時代遅れになる。
これは知識編集(KE)の発展を動機付け、無関係な他の知識を変更したり、事前訓練された能力を損なうことなく、LLMの特定の知識を更新する。
論文 参考訳(メタデータ) (2025-02-02T00:10:51Z) - Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices [32.61693246340064]
資源制約のある計算環境がパーソナライズされたLLMの設計選択にどのように影響するかを検討する。
いくつかの重要な設計要因のトレードオフと、学習効率と正確性に対するそれらの相互干渉の影響を考察する。
論文 参考訳(メタデータ) (2024-06-06T06:41:53Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - When Life gives you LLMs, make LLM-ADE: Large Language Models with Adaptive Data Engineering [0.0]
LLM-ADEは、大規模言語モデルのトレーニングを継続するための方法論である。
それは破滅的な忘れと二重降下の課題に対処する。
これは、以前に取得した知識を保持しながら、新しいデータに対するモデル適応性を高める。
論文 参考訳(メタデータ) (2024-04-19T17:43:26Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。