Fugu-MT 論文翻訳(概要): Token-level Adaptation of LoRA Adapters for Downstream Task Generalization

論文の概要: Token-level Adaptation of LoRA Adapters for Downstream Task Generalization

arxiv url: http://arxiv.org/abs/2311.10847v1
Date: Fri, 17 Nov 2023 20:07:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 13:59:29.073906
Title: Token-level Adaptation of LoRA Adapters for Downstream Task Generalization
Title（参考訳）: 下流タスク一般化のためのLoRAアダプタのトークンレベル適応
Authors: Joshua Belofsky
Abstract要約: 本稿では,小規模言語モデルにおけるLoRAアダプタを任意のダウンストリームタスクに適応させる手法を提案する。本手法では,トレーニングや推論の計算要求を増大させることなく,専門家の重み付けの組み合わせを選択するために,勾配のないルーティング関数を用いる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a method for adapting LoRA adapters in smaller-sized language models to arbitrary downstream tasks. Unlike standard mixture-of-expert architectures, our method employs a gradient-free routing function to choose a weighted combination of experts without increasing the compute requirements for training or inference. The results show that token-level adaptation of LoRA adapters outperforms the base Llama-2-7b model across mathematical (GSM8K), scientific (ARC-Challenge), reading comprehension (SQuAD), and coding (CodeAlpaca-20k) tasks. Further evaluations also show that the average performance of token-level adaptation outperforms individual models fine-tuned for each of the tasks with the best performance observed in adaptation of every-other token during inference. The code for this study is made available through a public repository.
Abstract（参考訳）: 本稿では,小規模言語モデルにおけるLoRAアダプタを任意のダウンストリームタスクに適応させる手法を提案する。従来の混在型アーキテクチャとは異なり,本手法では,トレーニングや推論の計算要求を増大させることなく,専門家の重み付けされた組み合わせを選択するために勾配のないルーティング関数を用いる。その結果,LoRAアダプタのトークンレベル適応は,数学(GSM8K),科学(ARC-Challenge),読書理解(SQuAD),コーディング(CodeAlpaca-20k)タスクにおいて,基礎となるLlama-2-7bモデルよりも優れていた。さらに、トークンレベルの適応の平均性能は、各タスクごとに微調整された個々のモデルよりも優れており、推論中に各トークンの適応で観察される最高のパフォーマンスが示される。本研究のコードは,パブリックリポジトリを通じて公開されている。

関連論文リスト

Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文参考訳（メタデータ） (2025-06-16T07:55:14Z)
Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。 SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文参考訳（メタデータ） (2025-06-01T15:30:37Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
Enhancing Learned Knowledge in LoRA Adapters Through Efficient Contrastive Decoding on Ascend NPUs [12.995753143157083]
Contrastive LoRA Decoding (CoLD) は、LoRA適応モデルにおけるタスク固有の知識の使用を最大化するために設計された、新しいデコーディングフレームワークである。 CoLDはタスクの精度を最大5.54%向上し、エンドツーエンドのレイテンシを28%削減する。
論文参考訳（メタデータ） (2025-05-20T17:11:18Z)
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文参考訳（メタデータ） (2025-03-27T17:59:58Z)
Rank Also Matters: Hierarchical Configuration for Mixture of Adapter Experts in LLM Fine-Tuning [5.074620301447097]
本稿では,大規模言語モデル(LLM)のための専門家のアロケーションとランク設定のための階層型スキームHILOを提案する。 HILOは、層間のアダプタエキスパートの数とランクを動的に調整し、アダプタの粒度の異なるモデルレイヤの表現複雑性に適合する。複数のベンチマークタスクの実験では、HILOが既存のメソッドよりも精度が高く、トレーニング可能なパラメータが少ないことが示されている。
論文参考訳（メタデータ） (2025-02-06T08:58:03Z)
Ensembles of Low-Rank Expert Adapters [9.599957499802446]
本稿では,多種多様なタスクを扱うモデルの能力を向上させるために,低ランクエキスパートアダプタ(ELREA)フレームワークの組み立てを提案する。 ELREAは、トレーニング指示をその勾配方向に基づいてクラスタ化し、さまざまな専門分野を表現している。推論中、ELREAは、入力データの勾配とトレーニングクラスタとの類似性に基づいて、最も関連する専門家アダプタからの予測を組み合わせる。
論文参考訳（メタデータ） (2025-01-31T18:07:21Z)
Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。 Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文参考訳（メタデータ） (2024-10-25T17:07:13Z)
Collaborative and Efficient Personalization with Mixtures of Adaptors [5.195669033269619]
マルチタスク学習問題に対処するパラメータ効率の枠組みを提案する。 FLoRAL(Federated Low-Rank Adaptive Learning)と呼ぶフレームワークがあります。人工データセットと実世界のフェデレートされたマルチタスク問題に関する有望な実験結果を示す。
論文参考訳（メタデータ） (2024-10-04T15:11:15Z)
Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning [55.384428765798496]
新しいデータは、Eコマースプラットフォームレビューのような、長期にわたる流通を示す。これは、忘れずに不均衡なデータを連続的なモデルで学習する必要がある。 LTCILの例として,AdaPtive Adapter Routing (APART) を提案する。
論文参考訳（メタデータ） (2024-09-11T17:52:00Z)
Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文参考訳（メタデータ） (2024-05-18T03:02:23Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning [34.109808214968176]
Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。 GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
論文参考訳（メタデータ） (2023-06-13T17:59:32Z)
OWAdapt: An adaptive loss function for deep learning using OWA operators [0.8437187555622164]
分類タスクにおけるディープラーニング性能を向上させるファジィ適応損失関数を提案する。本稿では,ファジィ論理のパワーを活用して分類精度を向上させる手法を提案する。本手法は、標準的なクロスエントロピーや焦点損失など、他の一般的な損失関数よりも優れている。
論文参考訳（メタデータ） (2023-05-30T22:34:48Z)
Retrieval as Attention: End-to-end Learning of Retrieval and Reading within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文参考訳（メタデータ） (2022-12-05T04:51:21Z)
Contextual Squeeze-and-Excitation for Efficient Few-Shot Image Classification [57.36281142038042]
本稿では,事前学習したニューラルネットワークを新しいタスクで調整し,性能を大幅に向上させる,Contextual Squeeze-and-Excitation (CaSE) という適応ブロックを提案する。また、メタトレーニングされたCaSEブロックと微調整ルーチンを利用して効率よく適応する、アッパーCaSEと呼ばれるコーディネートダイスに基づく新しいトレーニングプロトコルを提案する。
論文参考訳（メタデータ） (2022-06-20T15:25:08Z)
Adaptive Sampling for Minimax Fair Classification [40.936345085421955]
最適化の原理に基づく適応型サンプリングアルゴリズムを提案し,その性能に関する理論的境界を導出する。特定の問題のクラスに対してアルゴリズム独立なローバウンドを導出することにより,適応スキームによる性能は一般に改善できないことを示した。
論文参考訳（メタデータ） (2021-03-01T04:58:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。