論文の概要: Higher Embedding Dimension Creates a Stronger World Model for a Simple Sorting Task
- arxiv url: http://arxiv.org/abs/2510.18315v1
- Date: Tue, 21 Oct 2025 05:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.937899
- Title: Higher Embedding Dimension Creates a Stronger World Model for a Simple Sorting Task
- Title(参考訳): 簡単なソルティング作業のためのより強大な世界モデルの構築
- Authors: Brady Bhalla, Honglu Fan, Nancy Chen, Tony Yue YU,
- Abstract要約: 強化学習を訓練した変圧器における内的「世界モデル」の出現に及ぼす埋め込みの影響について検討する。
モデルは非常に小さな埋め込み次元でも高い精度を達成するが、より大きな次元はより忠実で一貫性があり、堅牢な内部表現をもたらす。
- 参考スコア(独自算出の注目度): 4.220347258975781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how embedding dimension affects the emergence of an internal "world model" in a transformer trained with reinforcement learning to perform bubble-sort-style adjacent swaps. Models achieve high accuracy even with very small embedding dimensions, but larger dimensions yield more faithful, consistent, and robust internal representations. In particular, higher embedding dimensions strengthen the formation of structured internal representation and lead to better interpretability. After hundreds of experiments, we observe two consistent mechanisms: (1) the last row of the attention weight matrix monotonically encodes the global ordering of tokens; and (2) the selected transposition aligns with the largest adjacent difference of these encoded values. Our results provide quantitative evidence that transformers build structured internal world models and that model size improves representation quality in addition to end performance. We release our metrics and analyses, which can be used to probe similar algorithmic tasks.
- Abstract(参考訳): バブルソート式隣接交換を行うための強化学習を施した変圧器において,埋込寸法が内部の「世界モデル」の出現にどう影響するかを検討する。
モデルは非常に小さな埋め込み次元でも高い精度を達成するが、より大きな次元はより忠実で一貫性があり、堅牢な内部表現をもたらす。
特に、高い埋め込み次元は構造された内部表現の形成を強化し、より良い解釈可能性をもたらす。
数百の実験の後、(1)注目重み行列の最後の行がトークンのグローバルな順序を単調に符号化し、(2)選択された転置は、これらの符号化された値の最大の隣接差と整合する。
この結果から, トランスフォーマーが構成された内部世界モデルを構築し, モデルサイズが表現品質を向上し, エンドパフォーマンスが向上することを示す。
同じようなアルゴリズムのタスクを探索するのに使用できるメトリクスと分析をリリースする。
関連論文リスト
- Multi-branch of Attention Yields Accurate Results for Tabular Data [8.017123125747258]
本稿では,エンコーダ・デコーダ・トランスを用いたMAYAを提案する。
エンコーダでは、複数の並列注意枝を構成するマルチブランチ・オブ・アテンション(MBA)を設計する。
我々は、より堅牢な表現を生成するために、動的一貫性重み制約を伴う協調学習を採用する。
論文 参考訳(メタデータ) (2025-02-18T03:43:42Z) - Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。
本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。
この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文 参考訳(メタデータ) (2023-08-30T19:02:17Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文 参考訳(メタデータ) (2023-02-01T07:50:26Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Stepwise Extractive Summarization and Planning with Structured
Transformers [12.092055151901532]
構造変換器を用いた抽出要約のためのエンコーダ中心のステップワイズモデルを提案する。
我々は、前述した要約を補助的なサブ構造として構造化トランスに注入することにより、段階的に要約を可能にする。
我々のモデルは、モデリングや文フィルタリングの冗長性なしに、ルージュの観点から最先端の性能を達成する。
論文 参考訳(メタデータ) (2020-10-06T14:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。