論文の概要: Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
- arxiv url: http://arxiv.org/abs/2512.24617v2
- Date: Mon, 05 Jan 2026 05:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.748487
- Title: Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
- Title(参考訳): 動的大規模概念モデル:適応意味空間における潜在推論
- Authors: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang,
- Abstract要約: 大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
- 参考スコア(独自算出の注目度): 56.37266873329401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose $\textbf{Dynamic Large Concept Models (DLCM)}$, a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first $\textbf{compression-aware scaling law}$, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a $\textbf{decoupled $μ$P parametrization}$ that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting ($R=4$, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a $\textbf{+2.69$\%$ average improvement}$ across 12 zero-shot benchmarks under matched inference FLOPs.
- Abstract(参考訳): 大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
このトークン・ユニフォーム・レシエーションは、局所的に予測可能なスパンの容量を無駄にし、計算を意味論的に重要な遷移にアンダーアロケートする。
これは階層型言語モデリングフレームワークで、潜在表現からセマンティックバウンダリを学習し、トークンから推論がより効率的である圧縮概念空間へ計算をシフトする。
DLCMは、事前定義された言語単位に頼ることなく、変数長の概念をエンドツーエンドで発見する。
階層圧縮は基本的にスケーリングの振る舞いを変える。
トークンレベルのキャパシティ,概念レベルの推論能力,圧縮比を両立させた最初の$\textbf{compression-aware scaling law}$を導入し,固定FLOP下での計算割り当てを原則とした。
この不均一なアーキテクチャを安定的にトレーニングするために、幅と圧縮機構をまたいだゼロショットハイパーパラメータ転送をサポートする$\textbf{decoupled $μ$P parametrization}$をさらに発展させる。
現実的な設定(R=4$、概念毎の平均4トークンに対応する)では、DLCMは推論計算のおよそ3分の1を高容量の推論バックボーンに再配置し、一致した推論FLOPの下で12のゼロショットベンチマークで$\textbf{+2.69$\%$平均改善を達成している。
関連論文リスト
- Bound by semanticity: universal laws governing the generalization-identification tradeoff [8.437463955457423]
有限分解能の類似性は、単なる玩具・模型の人工物ではなく、基本的な創発的な情報制約であることを示す。
これらの結果は、一般化識別トレードオフの正確な理論を提供し、意味論的解決がディープネットワークや脳の表現能力をどのように形成するかを明らかにする。
論文 参考訳(メタデータ) (2025-06-01T15:56:26Z) - Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model [62.66515621965686]
本稿では,2次元離散拡散(D3Diff)損失を伴う新しい理論枠組みを導入し,離散的なスコアマッチング拡散を伴うマスク付き生成モデルを統一する。
このD3Diffは、テキスト入力に沿った高忠実度顔の詳細を合成するモデルの能力を大幅に向上させる。
提案するUniF$2$aceD-1Mは,130Kの微細な画像キャプチャ対と100Mの視覚的質問応答対からなる大規模データセットである。
論文 参考訳(メタデータ) (2025-03-11T07:34:59Z) - Scaling Embedding Layers in Language Models [61.939921364422936]
$SCONE$は入力埋め込み層を拡張して言語モデルのパフォーマンスを向上させる新しいメソッドである。
SCONE$は、n-gramの頻繁なセットに埋め込みを導入しながら、元の語彙を保持します。
これらの埋め込みは、各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。
$SCONE$は、n-gram埋め込みの数を増やし、それらを学ぶために使用するモデルをスケーリングする、という2つの新しいスケーリング戦略を可能にします。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - Mixture-of-Depths: Dynamically allocating compute in transformer-based language models [8.774705201394916]
トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。
変換器はシーケンス内の特定の位置にFLOPを動的に割り当てることが可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T19:28:11Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。