論文の概要: Universal YOCO for Efficient Depth Scaling
- arxiv url: http://arxiv.org/abs/2604.01220v1
- Date: Wed, 01 Apr 2026 17:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.139123
- Title: Universal YOCO for Efficient Depth Scaling
- Title(参考訳): 効率的な深さスケーリングのためのユニバーサルYOCO
- Authors: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei,
- Abstract要約: 本稿では, YOCOデコーダ・デコーダアーキテクチャと再帰を組み合わせ, 単独以上の相乗効果を実現するユニバーサルYOCO(YOCO-U)を提案する。
YOCO-Uはパラメータ共有を通じて複数のイテレーションを実行するUniversal Self-Decoderを実装している。
実験の結果、YOCO-Uは一般および長期のベンチマークにおいて競争力が高いことが確認された。
- 参考スコア(独自算出の注目度): 86.89661207817691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.
- Abstract(参考訳): テスト時間スケーリングの台頭は、Large Language Models (LLMs) の推論とエージェント能力を大幅に向上させた。
しかし、従来のループ方式では計算オーバーヘッドが高く、KVキャッシュはモデル深度とともに膨らむため、標準のTransformerは推論時間計算を効率的にスケールするのに苦労している。
本稿では, YOCOデコーダ・デコーダアーキテクチャと再帰計算を組み合わせることで, 単独以上の相乗効果を実現するユニバーサルYOCO(YOCO-U)を提案する。
YOCOフレームワーク上に構築されたYOCO-Uは、パラメータ共有を通じて複数のイテレーションを実行するUniversal Self-Decoderを実装している。
この組み合わせは、YOCOも再帰も独立して達成しない、良好な能力と効率のトレードオフをもたらす。
YOCOアーキテクチャは、一貫したグローバルなKVキャッシュと線形プリフィルを提供するが、部分的な再帰は、オーバーヘッドを限定して表現深度を高める。
YOCO-Uは、効率的な推論を維持しながらトークンの有用性とスケーリングの振る舞いを改善している。
実験結果から, YOCO-U は, 拡張性のある LLM において, 効率のよいアーキテクチャと再帰的計算の統合が有望な方向であることを実証し, 一般および長期のベンチマークにおいて高い競争力を保っていることが確認された。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - AsyncHZP: Hierarchical ZeRO Parallelism with Asynchronous Scheduling for Scalable LLM Training [4.643969942380424]
単純さとメモリ効率を維持しつつ,優れた性能を実現するために,ZeROの新しい非同期版を提案する。
非効率な通信につながるような細粒度のシャーディングを使用する従来のZeROとは異なり、AsyncHZPはパラメータ、勾配、および異なるレプリカグループ間の状態を適応的に再シャーディングする。
AsyncHZPは古典的なND並列性より一貫して優れており、複雑な戦略的チューニングなしに最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-23T01:29:35Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - You Need Multiple Exiting: Dynamic Early Exiting for Accelerating
Unified Vision Language Model [37.24203191658052]
大規模なTransformerモデルは、統一アーキテクチャで様々な下流視覚言語タスクに大幅な改善をもたらす。
性能改善は、モデルサイズが増大し、推論速度が遅くなり、厳格化のコストが増大する。
本稿では,エンコーダとデコーダのレイヤを動的にスキップできる統一視覚言語モデルのための新しい早期終了戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T02:32:25Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。