Fugu-MT 論文翻訳(概要): Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement

論文の概要: Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement

arxiv url: http://arxiv.org/abs/2502.12214v1
Date: Mon, 17 Feb 2025 04:37:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.609466
Title: Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement
Title（参考訳）: LLMにおけるゼロトークン駆動ディープシンキング--サイクルリファインメントによる既存パラメータの完全可能性の解き方
Authors: Guanghao Li, Wenhao Jiang, Li Shen, Ming Tang, Chun Yuan,
Abstract要約: 本稿では,ヘッドテールデカップリングパラメータサイクリング方式を特徴とするZero Token Transformer (ZTT)を提案する。最初の(頭)層と最後の(尾)層をパラメータサイクリングから切り離し、中間層のみを反復的に洗練します。提案手法は, 厳密なパラメータ予算下での優れた性能を実現し, 早期出口による計算オーバーヘッドを効果的に低減し, 既存の訓練済みモデルに容易に適用することができる。
参考スコア（独自算出の注目度）: 43.548042892597536
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Resource limitations often constrain the parameter counts of Large Language Models (LLMs), hindering their performance. While existing methods employ parameter sharing to reuse the same parameter set under fixed budgets, such approaches typically force each layer to assume multiple roles with a predetermined number of iterations, restricting efficiency and adaptability. In this work, we propose the Zero Token Transformer (ZTT), which features a head-tail decoupled parameter cycling method. We disentangle the first (head) and last (tail) layers from parameter cycling and iteratively refine only the intermediate layers. Furthermore, we introduce a Zero-Token Mechanism, an internal architectural component rather than an input token, to guide layer-specific computation. At each cycle, the model retrieves a zero token (with trainable key values) from a Zero-Token Pool, integrating it alongside regular tokens in the attention mechanism. The corresponding attention scores not only reflect each layer's computational importance but also enable dynamic early exits without sacrificing overall model accuracy. Our approach achieves superior performance under tight parameter budgets, effectively reduces computational overhead via early exits, and can be readily applied to fine-tune existing pre-trained models for enhanced efficiency and adaptability.
Abstract（参考訳）: リソース制限はしばしば、LLM(Large Language Models)のパラメータ数を制限し、そのパフォーマンスを妨げます。既存の手法ではパラメータ共有を使用して、固定された予算の下で設定された同じパラメータを再利用するが、そのような手法では、通常、各レイヤが所定の回数の反復で複数の役割を引き受け、効率と適応性を制限する。本研究では,ゼロトークン変換器(ZTT, Zero Token Transformer)を提案する。最初の(頭)層と最後の(尾)層をパラメータサイクリングから切り離し、中間層のみを反復的に洗練します。さらに、層固有の計算を導くために、入力トークンではなく内部アーキテクチャコンポーネントであるゼロトークン機構を導入する。各サイクルにおいて、モデルはゼロトークン(トレーニング可能なキー値を持つ)をゼロトークンプールから取り出し、注意機構の通常のトークンと組み合わせる。対応するアテンションスコアは、各レイヤの計算的重要性を反映するだけでなく、モデル全体の精度を犠牲にすることなく、動的な早期出口を可能にする。提案手法は, 厳密なパラメータ予算下での優れた性能を実現し, 早期出口による計算オーバーヘッドを効果的に低減し, 既存の微調整モデルにも容易に適用でき, 効率と適応性を向上させることができる。

関連論文リスト

TR-PTS: Task-Relevant Parameter and Token Selection for Efficient Tuning [41.097430916756]
大規模な事前学習モデルは視覚タスクにおいて顕著な性能を達成するが、高い計算と記憶コストのために微調整には実用的ではない。タスク関連性を提案する。そしてToken Selection (TR-PTS)は、計算効率と精度の両方を向上させるタスク駆動フレームワークである。 FGVCとVTAB-1kを含むベンチマークでTR-PTSを評価し,それぞれ3.40%,10.35%の微調整を達成した。
論文参考訳（メタデータ） (2025-07-30T17:47:13Z)
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [50.001816497407475]
本研究では,Mixture-of-Recursions (MoR)を導入した。 MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。また、KVペアを最初の再帰から再利用するKV共有変種を提案し、特にプリフィルレイテンシとメモリフットプリントの削減を図っている。
論文参考訳（メタデータ） (2025-07-14T17:49:00Z)
PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文参考訳（メタデータ） (2025-04-22T16:41:21Z)
GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning [13.043393441785392]
オンデバイス大規模言語モデル(LLM)ファインチューニングアダプタのための新しい推論フレームワークを提案する。コアとなるGroup-Shared Exponentsフォーマットは、パラメータ群間の指数を用いて、整数形式のモデルパラメータを効率的に表現する。提案手法は,BF16による微調整に匹敵する精度を実現し,メモリ使用量の1.85倍を大幅に削減することを示した。
論文参考訳（メタデータ） (2025-02-18T14:54:55Z)
Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。 RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文参考訳（メタデータ） (2025-01-20T16:46:26Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文参考訳（メタデータ） (2024-10-30T16:19:00Z)
Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models [8.481707805559589]
WeGeFT(Weight-Generative Fine-Tuning)は、トレーニング済みの重みから直接微調整重みを生成することを学習する新しい手法である。この設計は、パラメータ、表現、計算、メモリの多面的効率を実現し、LoRAとその変種の性能を維持したり、超えたりしている。
論文参考訳（メタデータ） (2023-12-01T16:33:57Z)
Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文参考訳（メタデータ） (2023-05-26T08:44:42Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
Parameter-Efficient Tuning with Special Token Adaptation [25.37998979962568]
PASTAは自然言語理解タスクの微調整に匹敵するパフォーマンスを実現している。我々の研究は、事前訓練された言語モデルにおける特別なトークンの重要な役割を実証している。
論文参考訳（メタデータ） (2022-10-10T01:02:51Z)
AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。 GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文参考訳（メタデータ） (2022-10-08T00:36:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。