論文の概要: Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
- arxiv url: http://arxiv.org/abs/2507.07955v1
- Date: Thu, 10 Jul 2025 17:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.516758
- Title: Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
- Title(参考訳): エンドツーエンド階層型シーケンスモデリングのための動的チャンキング
- Authors: Sukjun Hwang, Brandon Wang, Albert Gu,
- Abstract要約: 本稿では,コンテンツやコンテキストを自動的に学習する動的チャンキング機構を実現する新しい手法の集合を紹介する。
これを明示的な階層ネットワーク(H-Net)に組み込むことで、(単純に階層的な)トークン化LM-detokenizationパイプラインを、完全にエンドツーエンドに学習した単一のモデルに置き換えることができる。
階層を複数のステージに反復することで、複数の抽象化レベルをモデル化し、データによるスケーリングを大幅に改善し、トークンベースのTransformerのサイズを2倍にすることで、パフォーマンスをさらに向上させる。
- 参考スコア(独自算出の注目度): 17.277753030570263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite incredible progress in language models (LMs) in recent years, largely resulting from moving away from specialized models designed for specific tasks to general models based on powerful architectures (e.g. the Transformer) that learn everything from raw data, pre-processing steps such as tokenization remain a barrier to true end-to-end foundation models. We introduce a collection of new techniques that enable a dynamic chunking mechanism which automatically learns content -- and context -- dependent segmentation strategies learned jointly with the rest of the model. Incorporating this into an explicit hierarchical network (H-Net) allows replacing the (implicitly hierarchical) tokenization-LM-detokenization pipeline with a single model learned fully end-to-end. When compute- and data- matched, an H-Net with one stage of hierarchy operating at the byte level outperforms a strong Transformer language model operating over BPE tokens. Iterating the hierarchy to multiple stages further increases its performance by modeling multiple levels of abstraction, demonstrating significantly better scaling with data and matching a token-based Transformer of twice its size. H-Nets pretrained on English show significantly increased character-level robustness, and qualitatively learn meaningful data-dependent chunking strategies without any heuristics or explicit supervision. Finally, the H-Net's improvement over tokenized pipelines is further increased in languages and modalities with weaker tokenization heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement in data efficiency over baselines), showing the potential of true end-to-end models that learn and scale better from unprocessed data.
- Abstract(参考訳): 近年の言語モデル(LM)の驚くべき進歩にもかかわらず、主に、特定のタスク用に設計された特殊なモデルから、生データからすべてを学習する強力なアーキテクチャ(例えばTransformer)に基づく一般的なモデルへと移行した結果、トークン化のような前処理ステップは、真のエンドツーエンド基盤モデルにとって障壁のままである。
本稿では,他のモデルと共同で学習したコンテンツとコンテキストに依存したセグメンテーション戦略を自動的に学習する動的チャンキング機構を実現するための,新しいテクニックのコレクションを紹介する。
これを明示的な階層ネットワーク(H-Net)に組み込むことで、(単純に階層的な)トークン化-LM-detokenizationパイプラインを、完全にエンドツーエンドに学習した単一のモデルに置き換えることができる。
計算とデータとが一致した場合、バイトレベルで操作される階層の1つのステージを持つH-Netは、BPEトークンを介して動作する強力なトランスフォーマー言語モデルより優れている。
階層を複数のステージに反復することで、複数の抽象化レベルをモデル化し、データによるスケーリングを大幅に改善し、トークンベースのTransformerのサイズを2倍にすることで、パフォーマンスをさらに向上させる。
英語で事前訓練されたH-Netは、文字レベルの堅牢性を大幅に向上させ、定性的に、ヒューリスティックや明示的な監督なしに有意義なデータ依存チャンキング戦略を学習した。
最後に、H-Netのトークン化パイプラインに対する改善は、中国語やコードなどのより弱いトークン化ヒューリスティックを持つ言語やモダリティ、あるいはDNA配列(ほぼベースラインよりもデータ効率が4倍向上している)でさらに増加し、未処理のデータから学習し、拡張する真のエンドツーエンドモデルの可能性を示している。
関連論文リスト
- How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Transformer Architecture for NetsDB [0.0]
我々はNetsDBで機能するディープラーニングモデルのためのトランスフォーマーのエンドツーエンド実装を作成します。
分散処理、デプロイメント、効率的な推論のために、当社のモデルから重みをロードします。
論文 参考訳(メタデータ) (2024-05-08T04:38:36Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。