Fugu-MT 論文翻訳(概要): From Bytes to Ideas: Language Modeling with Autoregressive U-Nets

論文の概要: From Bytes to Ideas: Language Modeling with Autoregressive U-Nets

arxiv url: http://arxiv.org/abs/2506.14761v1
Date: Tue, 17 Jun 2025 17:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.601328
Title: From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
Title（参考訳）: バイトからアイデアへ:自動回帰U-Netを用いた言語モデリング
Authors: Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, David Lopez-Paz,
Abstract要約: トークン化は入力テキストに一定の粒度を課す。オートレグレッシブなU-Netを導入し、トレーニング中に独自のトークンを埋め込むことを学びます。
参考スコア（独自算出の注目度）: 49.16552366851748
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tokenization imposes a fixed granularity on the input text, freezing how a language model operates on data and how far in the future it predicts. Byte Pair Encoding (BPE) and similar schemes split text once, build a static vocabulary, and leave the model stuck with that choice. We relax this rigidity by introducing an autoregressive U-Net that learns to embed its own tokens as it trains. The network reads raw bytes, pools them into words, then pairs of words, then up to 4 words, giving it a multi-scale view of the sequence. At deeper stages, the model must predict further into the future -- anticipating the next few words rather than the next byte -- so deeper stages focus on broader semantic patterns while earlier stages handle fine details. When carefully tuning and controlling pretraining compute, shallow hierarchies tie strong BPE baselines, and deeper hierarchies have a promising trend. Because tokenization now lives inside the model, the same system can handle character-level tasks and carry knowledge across low-resource languages.
Abstract（参考訳）: トークン化は入力テキストに一定の粒度を課し、言語モデルがデータ上でどのように動作するか、そしてそれが予測する将来的な距離を凍結する。 Byte Pair Encoding (BPE) と類似のスキームはテキストを一度分割し、静的な語彙を構築し、モデルをその選択に留まらせる。私たちは、トレーニング中に自身のトークンを埋め込むことを学ぶ自動回帰U-Netを導入することで、この剛性を緩和します。ネットワークは生のバイトを読み取って、それらを単語にまとめて、それから最大4ワードにまとめて、シーケンスのマルチスケールなビューを与える。より深い段階では、モデルは将来、すなわち次のバイトではなく次の数ワードを予測して、より深いステージはより広範なセマンティックパターンに集中し、初期のステージは詳細な処理を行う必要がある。事前学習計算を慎重にチューニングし、制御する場合、浅い階層は強いBPEベースラインを結び、より深い階層は有望な傾向を持つ。トークン化はモデル内にあるため、同じシステムは文字レベルのタスクを処理し、低リソース言語間で知識を伝達することができる。

関連論文リスト

Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文参考訳（メタデータ） (2025-06-09T14:55:00Z)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
Unveiling Multilinguality in Transformer Models: Exploring Language Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。 2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか? その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文参考訳（メタデータ） (2023-10-24T06:45:00Z)
Word-Level Representation From Bytes For Language Modeling [46.28198397863388]
サブワードのトークン化はノイズに対して堅牢ではなく、新しい言語への一般化が難しい。本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠蔽状態に基づくサブワードレベルの予測を導入する。 Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%程度しかない。
論文参考訳（メタデータ） (2022-11-23T03:11:13Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文参考訳（メタデータ） (2021-12-20T13:04:18Z)
Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文参考訳（メタデータ） (2021-10-13T04:29:14Z)
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文参考訳（メタデータ） (2021-04-15T02:36:49Z)
Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文参考訳（メタデータ） (2021-03-11T06:47:45Z)
Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文参考訳（メタデータ） (2020-04-07T21:21:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。