論文の概要: Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking
- arxiv url: http://arxiv.org/abs/2502.13842v2
- Date: Sun, 23 Feb 2025 04:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 12:07:24.833641
- Title: Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking
- Title(参考訳): 内的思考変換器:動的深度スケーリングを活用して適応的内的思考を促す
- Authors: Yilong Chen, Junyuan Shang, Zhenyu Zhang, Yanxi Xie, Jiawei Sheng, Tingwen Liu, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang,
- Abstract要約: 本稿では,レイヤ計算を暗黙の思考ステップとして再定義する内的思考変換器を提案する。
ITTは162Mパラメータのみを使用して466Mトランスフォーマーの96.5%のパフォーマンスを達成し、トレーニングデータを43.2%削減し、11のベンチマークでTransformer/Loopの変種を上回るパフォーマンスを実現した。
- 参考スコア(独自算出の注目度): 51.154226183713405
- License:
- Abstract: Large language models (LLMs) face inherent performance bottlenecks under parameter constraints, particularly in processing critical tokens that demand complex reasoning. Empirical analysis reveals challenging tokens induce abrupt gradient spikes across layers, exposing architectural stress points in standard Transformers. Building on this insight, we propose Inner Thinking Transformer (ITT), which reimagines layer computations as implicit thinking steps. ITT dynamically allocates computation through Adaptive Token Routing, iteratively refines representations via Residual Thinking Connections, and distinguishes reasoning phases using Thinking Step Encoding. ITT enables deeper processing of critical tokens without parameter expansion. Evaluations across 162M-466M parameter models show ITT achieves 96.5\% performance of a 466M Transformer using only 162M parameters, reduces training data by 43.2\%, and outperforms Transformer/Loop variants in 11 benchmarks. By enabling elastic computation allocation during inference, ITT balances performance and efficiency through architecture-aware optimization of implicit thinking pathways.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に複雑な推論を必要とするクリティカルトークンを処理する際に、パラメータ制約の下で固有のパフォーマンスボトルネックに直面します。
経験的分析により、挑戦的なトークンはレイヤ間の急激な勾配スパイクを引き起こし、標準的なトランスフォーマーのアーキテクチャ上のストレスポイントを露呈する。
この知見に基づいて,レイヤ計算を暗黙の思考ステップとして再定義する内的思考変換器(ITT)を提案する。
ITTは適応トークンルーティングによる計算を動的に割り当て、Residual Thinking Connectionsを通じて表現を反復的に洗練し、Thinking Step Encodingを使って推論フェーズを区別する。
ITTはパラメータ拡張なしでクリティカルトークンのより深い処理を可能にする。
162M-466Mパラメータモデルによる評価では、ITTは162Mパラメータのみを使用して466Mトランスフォーマーの96.5\%のパフォーマンスを達成し、トレーニングデータを43.2\%削減し、11のベンチマークでTransformer/Loopの変種より優れていた。
推論中の弾力的な計算割り当てを有効にすることにより、ITTは暗黙の思考経路をアーキテクチャ的に最適化することで、性能と効率のバランスをとる。
関連論文リスト
- Transforming Indoor Localization: Advanced Transformer Architecture for NLOS Dominated Wireless Environments with Distributed Sensors [7.630782404476683]
本稿では,電力遅延プロファイル (PDP) の可変固有表現を保存する新しいトークン化手法であるSensor Snapshot Tokenization (SST) を提案する。
また,Swish-Gated Linear Unit-based Transformer (L-SwiGLU Transformer) モデルを提案する。
論文 参考訳(メタデータ) (2025-01-14T01:16:30Z) - PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners [65.93130697098658]
本稿では、予測学習のための純粋なトランスフォーマーベースのフレームワークであるPredFormerを提案する。
PredFormerは、リカレントフリーでトランスフォーマーベースの設計で、シンプルかつ効率的である。
合成および実世界のデータセットに関する実験は、PredFormerが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Sparse Universal Transformer [64.78045820484299]
Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。
本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
論文 参考訳(メタデータ) (2023-10-11T00:38:57Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Memristive Stochastic Computing for Deep Learning Parameter Optimization [1.6344851071810071]
コンピューティング(sc)は、ビットストリームとデジタルロジックを用いた様々な演算処理の低コストかつ低消費電力化を可能にするコンピューティングパラダイムである。
40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャは1.55mm$2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$mu$Wを消費します。
論文 参考訳(メタデータ) (2021-03-11T07:10:32Z) - Optimizing Inference Performance of Transformers on CPUs [0.0]
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。
本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
論文 参考訳(メタデータ) (2021-02-12T17:01:35Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。