論文の概要: $\text{Transformer}^2$: Self-adaptive LLMs
- arxiv url: http://arxiv.org/abs/2501.06252v1
- Date: Thu, 09 Jan 2025 01:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:44.098320
- Title: $\text{Transformer}^2$: Self-adaptive LLMs
- Title(参考訳): $\text{Transformer}^2$: self-adaptive LLM
- Authors: Qi Sun, Edoardo Cetin, Yujin Tang,
- Abstract要約: 我々は,大規模言語モデルのための新しい自己適応フレームワークimplnameを紹介する。
implnameは、ウェイト行列の特異成分のみを選択的に調整することで、LLMをリアルタイムで未確認タスクに適用する。
提案手法は,LoRAなどのユビキタスな手法よりも少ないパラメータと高い効率で性能を向上する。
- 参考スコア(独自算出の注目度): 29.1326358746118
- License:
- Abstract: Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce \implname, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, \implname employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. \implname demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. \implname represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.
- Abstract(参考訳): 自己適応型大規模言語モデル(LLM)は、様々なタスクを扱う能力において、計算集約的で静的な従来の微調整手法によって生じる課題を解決することを目的としている。
重み行列の特異成分のみを選択的に調整することにより、LLMを未確認タスクにリアルタイムで適応する新しい自己適応フレームワークである‘implname’を導入する。
まず、ディスパッチシステムがタスク特性を特定し、次に強化学習を用いて訓練されたタスク固有の"エキスパート"ベクトルを動的に混合して、受信したプロンプトのターゲット動作を取得する。
提案手法は,LoRAなどのユビキタスな手法よりも少ないパラメータと高い効率で性能を向上する。
\implnameは、視覚言語タスクを含む様々なLLMアーキテクチャとモダリティにまたがる汎用性を示す。
\implnameは、LLMの適応性とタスク固有のパフォーマンスを高めるためのスケーラブルで効率的なソリューションを提供し、真の動的で自己組織化されたAIシステムへの道を開いた、大きな飛躍だ。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - DiTASK: Multi-Task Fine-Tuning with Diffeomorphic Transformations [21.06471370479668]
複数のタスクに事前学習した視覚変換器を効率的に適応するための新しいアプローチであるDiTASKを紹介する。
我々の理論解析は,DiTASKが事前学習した特徴の幾何学的構造を保ち,最適化中に全ランク更新を行うことを示す。
PASCAL MTLとNYUDを用いた実験により,DiTASKは従来の手法よりも75%少ないパラメータを用いて,4つの高密度予測タスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-09T21:05:11Z) - LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - 3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability [6.451743797015637]
大規模言語モデル (LLM) に適応するために, 簡単な2次元回転を用いた新しい手法RoAdを導入する。
RoAdはパラメータ効率が非常に高く、8つの常識推論タスク、4つの算術推論タスクと0.1%のトレーニング可能なパラメータを提供する。
論文 参考訳(メタデータ) (2024-08-28T08:45:29Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。