論文の概要: TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching
- arxiv url: http://arxiv.org/abs/2601.19739v1
- Date: Tue, 27 Jan 2026 15:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.382543
- Title: TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching
- Title(参考訳): TokenSeek:インスタンス対応のTokenディッチによるメモリ効率の良い微調整
- Authors: Runjia Zeng, Qifan Wang, Qiang Guan, Ruixiang Tang, Lifu Huang, Zhenting Wang, Xueling Zhang, Cheng Han, Dongfang Liu,
- Abstract要約: ファインチューニングは、下流タスクに大規模言語モデルを適用するためのデファクトアプローチとみなされてきた。
TokenSeekは,様々なトランスフォーマーモデルに対する汎用的なプラグインソリューションで,インスタンス認識型トークン探索と破棄を実現する。
- 参考スコア(独自算出の注目度): 82.13572707265513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine tuning has been regarded as a de facto approach for adapting large language models (LLMs) to downstream tasks, but the high training memory consumption inherited from LLMs makes this process inefficient. Among existing memory efficient approaches, activation-related optimization has proven particularly effective, as activations consistently dominate overall memory consumption. Although prior arts offer various activation optimization strategies, their data-agnostic nature ultimately results in ineffective and unstable fine tuning. In this paper, we propose TokenSeek, a universal plugin solution for various transformer-based models through instance-aware token seeking and ditching, achieving significant fine-tuning memory savings (e.g., requiring only 14.8% of the memory on Llama3.2 1B) with on-par or even better performance. Furthermore, our interpretable token seeking process reveals the underlying reasons for its effectiveness, offering valuable insights for future research on token efficiency. Homepage: https://runjia.tech/iclr_tokenseek/
- Abstract(参考訳): 大規模言語モデル(LLM)を下流タスクに適応させるためのデファクトアプローチとしてファインチューニングが考えられてきたが、LLMから受け継がれた高いトレーニングメモリ消費は、このプロセスを非効率にする。
既存のメモリ効率のアプローチの中で、アクティベーション関連の最適化は特に有効であることが証明されている。
先行技術は様々なアクティベーション最適化戦略を提供するが、データに依存しない性質は最終的に非効率で不安定な微調整をもたらす。
本稿では,Llama3.2 1B上のメモリの14.8%しか必要とせず,インスタンスを意識したトークン探索と破棄により,様々なトランスフォーマーモデルのための汎用プラグインソリューションであるTokenSeekを提案する。
さらに,我々の解釈可能なトークン探索プロセスは,その効果の根底にある理由を明らかにし,トークン効率に関する今後の研究に有用な知見を提供する。
ホームページ:https://runjia.tech/iclr_tokenseek/
関連論文リスト
- Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient Large Language Model Inference [23.828853446344663]
生成品質を維持しながら推論効率を向上させる訓練不要な方法であるPromptDistillを提案する。
PromptDistillは、初期層の注意相互作用を活用して、隠れた状態を保ちながら、後の層の計算負担を軽減することで、最も有益なトークンを特定し、保持する。
論文 参考訳(メタデータ) (2025-03-30T01:47:23Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - LeMo: Enabling LEss Token Involvement for MOre Context Fine-tuning [38.35238373706948]
LeMoはLLMファインチューニングシステムで、長いコンテキストシナリオに固有の新しいトークンレベルのスペーサ性メカニズムを利用する。
LeMoは最大1.93倍のメモリ消費を削減し、最大1.36倍のスピードアップを実現し、最先端の微調整システムより優れている。
論文 参考訳(メタデータ) (2025-01-15T05:17:12Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文 参考訳(メタデータ) (2023-07-05T06:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。