論文の概要: Modeling Language as a Sequence of Thoughts
- arxiv url: http://arxiv.org/abs/2512.25026v1
- Date: Wed, 31 Dec 2025 18:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.742192
- Title: Modeling Language as a Sequence of Thoughts
- Title(参考訳): 思考のシーケンスとしての言語モデリング
- Authors: Nasim Borazjanizadeh, James McClelland,
- Abstract要約: トランスフォーマー言語モデルは、トークンのシーケンスとして言語をモデル化することで、驚くほど自然なテキストを生成することができる。
しかし、それらは、エンティティやイベントの世界的な一貫性のある潜在表現を形成することができず、その欠如はリレーショナルな方向(例えば、逆の呪い)の脆さ、文脈化エラー、データ非効率に寄与する。
我々は、トークンと文レベルの「思考」状態という2つの抽象レベルで言語をモデル化する再帰変換器であるThought Gestalt(TG)モデルを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models can generate strikingly natural text by modeling language as a sequence of tokens. Yet, by relying primarily on surface-level co-occurrence statistics, they fail to form globally consistent latent representations of entities and events, lack of which contributes to brittleness in relational direction (e.g., reversal curse), contextualization errors, and data inefficiency. On the other hand, cognitive science shows that human comprehension involves converting the input linguistic stream into compact, event-like representations that persist in memory while verbatim form is short-lived. Motivated by this view, we introduce Thought Gestalt (TG) model, a recurrent Transformer that models language at two levels of abstraction - tokens and sentence-level "thought" states. TG generates the tokens of one sentence at a time while cross-attending to a memory of prior sentence representations. In TG, token and sentence representations are generated using the same set of model parameters and trained with a single objective, the next-token cross-entropy: by retaining the computation graph of sentence representations written to memory, gradients from future token losses flow backward through cross-attention to optimize the parameters generating earlier sentence vectors. In scaling experiments, TG consistently improves efficiency over matched GPT-2 runs, among other baselines, with scaling fits indicating GPT-2 requires ~5-8% more data and ~33-42% more parameters to match TG's loss. TG also reduces errors on relational direction generalization on a father-son reversal curse probe.
- Abstract(参考訳): トランスフォーマー言語モデルは、トークンのシーケンスとして言語をモデル化することで、驚くほど自然なテキストを生成することができる。
しかし、主に表面レベルの共起統計に依存することによって、エンティティやイベントの普遍的に一貫した潜在表現を形成することができず、その欠如はリレーショナルな方向(例えば、逆の呪い)の脆さ、文脈化エラー、データ非効率に寄与する。
一方、認知科学は、人間の理解が入力された言語ストリームを記憶に持続するコンパクトな事象のような表現に変換し、動詞の形は短命であることを示している。
この観点から、トークンと文レベルの「思考」状態という2つの抽象レベルで言語をモデル化する再帰変換器であるThought Gestalt(TG)モデルを紹介した。
TGは、1つの文のトークンを1回に生成し、先行する文表現のメモリに交差する。
TGでは、トークンと文表現は、同じモデルパラメータのセットを用いて生成され、単一の目的によって訓練された次のトークンのクロスエントロピー: メモリに書き込まれた文表現の計算グラフを保持することにより、トークンの損失からの勾配は、クロスアテンションを通して逆向きに流れ、初期の文ベクトルを生成するパラメータを最適化する。
スケーリング実験では、TGは一致したGPT-2実行よりも効率を一貫して改善し、GPT-2のスケールフィットは、TGの損失に合わせるために、データ量が約5~8%、パラメータが約33~42%必要であることを示している。
また、TGは父子の逆の呪文プローブにおける関係方向の一般化の誤差を低減する。
関連論文リスト
- Idea-Gated Transformers: Enforcing Semantic Coherence via Differentiable Vocabulary Pruning [0.40611352512781856]
本稿では,セマンティックプランニングと構文生成を分離した新しいアーキテクチャであるIdean-Gated Transformerを紹介する。
本稿では,意味的に無関係なトークンを抑え,検索空間をリアルタイムで効果的に刈り取る,微分可能なゲーティング機構を提案する。
論文 参考訳(メタデータ) (2025-12-03T01:17:07Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。
TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。
その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文 参考訳(メタデータ) (2025-02-28T07:24:33Z) - Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction [0.0]
本研究では,Future Token Prediction(FTP)と呼ばれる事前学習手法について検討する。
FTPは、擬似シーケンスに線形かつ拡張的に投影される各トークン位置の埋め込みベクトルを生成する。
プログラミングの問題として、FTPネットワークはGPTネットワークよりもはるかに優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-10-23T14:50:15Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Scaling Laws for Neural Machine Translation [21.76567580425173]
モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。
また,クロスエントロピー損失と翻訳の質との関係についても検討した。
論文 参考訳(メタデータ) (2021-09-16T06:15:20Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Stacked DeBERT: All Attention in Incomplete Data for Text Classification [8.900866276512364]
変換器から双方向表現を重畳するスタックドデノナイズ(Stacked Denoising Bidirectional Representations)を提案する。
本モデルでは, 感情や意図の分類作業において, 音声テキスト誤りのあるツイートやテキストに現れる非公式/不正テキストにおいて, F1スコアが向上し, 堅牢性が向上したことを示す。
論文 参考訳(メタデータ) (2020-01-01T04:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。