論文の概要: SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens
- arxiv url: http://arxiv.org/abs/2508.05305v1
- Date: Thu, 07 Aug 2025 12:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.682445
- Title: SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens
- Title(参考訳): SONAR-LLM: 自動回帰変換器
- Authors: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev,
- Abstract要約: 我々は、同じ連続SONAR埋め込み空間で"考える"デコーダのみの変換器であるSONAR-LLMを提案する。
このハイブリッドな目的は、拡散サンプリング器を除去し、可能性に基づく訓練信号を復元しながら、LCMのセマンティックな抽象化を維持している。
- 参考スコア(独自算出の注目度): 3.402039989881315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed Large Concept Model (LCM) generates text by predicting a sequence of sentence-level embeddings and training with either mean-squared error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer that "thinks" in the same continuous SONAR embedding space, yet is supervised through token-level cross-entropy propagated via the frozen SONAR decoder. This hybrid objective retains the semantic abstraction of LCM while eliminating its diffusion sampler and restoring a likelihood-based training signal. Across model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive generation quality. We report scaling trends, ablations, benchmark results, and release the complete training code and all pretrained checkpoints to foster reproducibility and future research.
- Abstract(参考訳): 最近提案されたLarge Concept Model (LCM) は、文レベルの埋め込みのシーケンスを予測し、平均二乗誤りまたは拡散目的のトレーニングによってテキストを生成する。
我々は、同じ連続SONAR埋め込み空間で"考える"デコーダのみの変換器であるSONAR-LLMを、凍結したSONARデコーダを介して伝播するトークンレベルのクロスエントロピーによって制御する。
このハイブリッドな目的は、拡散サンプリング器を除去し、可能性に基づく訓練信号を復元しながら、LCMのセマンティックな抽象化を維持している。
39Mから1.3Bまでのモデルサイズで、SONAR-LLMは競争力のある生成品質を得る。
我々は、スケーリングトレンド、改善、ベンチマーク結果、そして、再現性と将来の研究を促進するための完全なトレーニングコードと事前訓練されたチェックポイントを報告します。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Text Generation Beyond Discrete Token Sampling [75.96920867382859]
入力の混合(Mixture of Inputs, MoI)は、自動回帰生成のためのトレーニング不要な方法である。
MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルのパフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-20T18:41:46Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。
FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。
我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文 参考訳(メタデータ) (2024-08-28T06:28:01Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Language as a Latent Sequence: deep latent variable models for
semi-supervised paraphrase generation [47.33223015862104]
本稿では,観測されたテキストから遅延シーケンス推論を行うVSARという新しい教師なしモデルを提案する。
また、テキストペアからの情報を活用するために、提案したVSARモデルと統合するために設計されたDDLと呼ばれる新しい教師付きモデルを導入する。
実験により, このモデルを組み合わせることで, 完全データに基づく最先端の教師付きベースラインに対して, 競争性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-01-05T19:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。