論文の概要: Idea-Gated Transformers: Enforcing Semantic Coherence via Differentiable Vocabulary Pruning
- arxiv url: http://arxiv.org/abs/2512.03343v1
- Date: Wed, 03 Dec 2025 01:17:07 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:17:27.168091
- Title: Idea-Gated Transformers: Enforcing Semantic Coherence via Differentiable Vocabulary Pruning
- Title(参考訳): 理想ゲート変換器:可変語彙プルーニングによる意味的コヒーレンスを強制する
- Authors: Darshan Fofadiya,
- Abstract要約: 本稿では,セマンティックプランニングと構文生成を分離した新しいアーキテクチャであるIdean-Gated Transformerを紹介する。
本稿では,意味的に無関係なトークンを抑え,検索空間をリアルタイムで効果的に刈り取る,微分可能なゲーティング機構を提案する。
- 参考スコア(独自算出の注目度): 0.40611352512781856
- License:
- Abstract: Autoregressive Language Models (LLMs) trained on Next-Token Prediction (NTP) often suffer from ``Topic Drift'' where the generation wanders away from the initial prompt due to a reliance on local associations rather than global planning \citep{holtzman2019curious}. While scaling model size mitigates this \citep{brown2020language}, the fundamental myopia of the NTP objective remains. In this work, we introduce the Idea-Gated Transformer, a novel architecture that separates semantic planning from syntactic generation. We introduce an auxiliary ``Idea Head'' trained to predict the bag-of-words distribution for a future context window, creating a latent ``Concept Vector'' that actively gates the main vocabulary during generation. We propose a differentiable gating mechanism that suppresses semantically irrelevant tokens, effectively pruning the search space in real-time. Experiments on WikiText-103 demonstrate that while the Idea-Gated model achieves comparable validation perplexity to a standard GPT-2 baseline, it exhibits significantly superior Domain Retention. Qualitative and quantitative analysis reveals that the gating mechanism successfully locks generation into specific semantic clusters (e.g., Finance, Science) and resists associative drift, offering a parameter-efficient path toward more controllable language modeling.
- Abstract(参考訳): 次世代予測 (NTP) で訓練された自己回帰言語モデル (LLMs) は、グローバルプランニングではなく地域社会に依存しているため、世代が最初のプロンプトから遠ざかる '`Topic Drift''' に悩まされることが多い。
スケーリングモデルのサイズはこの \citep{brown2020 Language} を緩和するが、NTP の目的の基本的なミオピアは残っている。
本稿では,セマンティックプランニングと構文生成を分離した新しいアーキテクチャであるIdean-Gated Transformerを紹介する。
本稿では,将来的なコンテキストウインドウの語句分布を予測するために訓練された補助語 `Idea Head' を導入し,生成中の主語彙を積極的にゲートする潜在語 ``Concept Vector'' を作成する。
本稿では,意味的に無関係なトークンを抑え,検索空間をリアルタイムで効果的に刈り取る,微分可能なゲーティング機構を提案する。
WikiText-103の実験では、Idean-Gatedモデルは標準のGPT-2ベースラインと同等の検証難易度を達成するが、ドメイン保持性はかなり優れていることを示した。
定性的かつ定量的な分析により、ゲーティング機構は特定のセマンティッククラスタ(例えばファイナンス、サイエンス)に生成をロックし、より制御可能な言語モデリングへのパラメータ効率の高い経路を提供する連想ドリフトに抵抗することがわかった。
関連論文リスト
- Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [29.745218855471787]
トークン化は多くの言語モジュールの現在のアーキテクチャにおいて必要なコンポーネントである。
トークン化は、合理的な人間的な言語のパフォーマンスに必要である、と我々は主張する。
本稿では,建築的選択,すなわち構成,思考のための言語の優越性について論じる。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Improving Adversarial Text Generation by Modeling the Distant Future [155.83051741029732]
テキスト計画手法を考察し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。
本稿では,より長い地平線上の生成過程に焦点をあてる新しいガイドネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-04T05:45:13Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。