論文の概要: Adaptive Targeted Dynamic Chunking for Tokenization-Free Hierarchical Model
- arxiv url: http://arxiv.org/abs/2605.30080v1
- Date: Thu, 28 May 2026 15:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.424885
- Title: Adaptive Targeted Dynamic Chunking for Tokenization-Free Hierarchical Model
- Title(参考訳): Tokenization-Free Hierarchical Modelのための適応目標動的チャンキング
- Authors: Thang Dang, Akira Nakagawa, Kenichi Kobayashi, Koichi Shirahata,
- Abstract要約: トークン化のない階層モデルは、従来の大規模言語モデルに代わる有望な選択肢として浮上しています。
本稿では,新しいバイト圧縮制御機構であるAdaptive Targeted Dynamic Chunking (ATDC)を提案する。
- 参考スコア(独自算出の注目度): 1.283285810929198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization-free hierarchical models are emerging as a promising alternative to traditional Large Language Models (LLMs), addressing inherent preprocessing issues such as vocabulary design complexity, out-of-vocabulary (OOV) errors, and language-specific constraints. However, a significant challenge in these byte-level methods is the optimization of the compression ratio, a critical factor that dictates model performance for processing bytes data via chunks. In this paper, we propose Adaptive Targeted Dynamic Chunking (ATDC), a novel byte-compression control mechanism designed to enhance the effectiveness of dynamic chunking within hierarchical architectures. Our approach utilizes curriculum learning to progressively adjust the compression ratio during training, transitioning from low to high compression to stabilize the learning process. We provide an analysis establishing the relationship between the target compression ratio and Bytes-Per-Innermost-Chunk (BPIC), allowing for tracking of chunk-size evolution throughout the training phase. Evaluations conducted on the FineWeb-Edu 100B dataset demonstrate that hierarchical models equipped with ATDC achieve competitive Bits-Per-Byte (BPB) performance compared to conventional baselines operating at both byte and token levels. Furthermore, the proposed method exhibits more stable training dynamics and superior final performance across diverse downstream tasks compared to models using fixed compression ratios, while maintaining the inherent robustness and flexibility of byte-level processing.
- Abstract(参考訳): 従来のLarge Language Models (LLMs) の代替として、語彙設計の複雑さ、外語彙エラー(OOV)、言語固有の制約といった、固有の前処理の問題に対処する、トークン化のない階層モデルが登場している。
しかし、これらのバイトレベルの手法において重要な課題は圧縮比の最適化である。
本稿では,階層型アーキテクチャにおける動的チャンキングの有効性を高めるために,新しいバイト圧縮制御機構であるAdaptive Targeted Dynamic Chunking (ATDC)を提案する。
本手法は,カリキュラム学習を利用して,学習過程を安定させるために,学習中の圧縮率を段階的に調整する。
本研究では,目標圧縮比とBytes-Per-Innermost-Chunk(BPIC)の関係を確定する解析を行い,学習段階を通してチャンクサイズの進化を追跡する。
FineWeb-Edu 100Bデータセットを用いて評価した結果,ATDCを組み込んだ階層モデルでは,従来のベースラインのバイトレベルとトークンレベルの両方で動作した場合と比較して,競争力のあるBits-Per-Byte(BPB)性能が得られた。
さらに, 提案手法は, 固定圧縮比を用いたモデルと比較して, 様々な下流タスクに対して, より安定なトレーニングダイナミクスと優れた最終性能を示すとともに, バイトレベルの処理に固有の頑健さと柔軟性を維持している。
関連論文リスト
- Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Proxy Compression for Language Modeling [58.904023114033954]
プロキシ圧縮は、圧縮された入力の効率性を維持する代替のトレーニングスキームである。
コード言語モデリングの実験では、プロキシ圧縮がトレーニング効率を大幅に向上することを示した。
モデルスケールが大きくなるにつれて、プロキシトレーニングされたモデルは最終的に一致するか、あるいは競合するトークン化アルゴリズムのアプローチになる。
論文 参考訳(メタデータ) (2026-02-04T07:36:46Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。
CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。
複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2025-09-11T07:13:49Z) - FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。
回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文 参考訳(メタデータ) (2025-05-29T19:42:35Z) - Contextual Compression Encoding for Large Language Models: A Novel Framework for Multi-Layered Parameter Space Pruning [0.0]
文脈圧縮。
(CCE)はパラメータ分布を動的に再構成する多段符号化機構を導入した。
CCEは言語表現力とコヒーレンスを維持し、テキスト生成や分類タスクの精度を維持した。
論文 参考訳(メタデータ) (2025-02-12T11:44:19Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。