論文の概要: One Model, Two Roles: Emergent Specialization in a Shared Recurrent Transformer
- arxiv url: http://arxiv.org/abs/2605.17811v1
- Date: Mon, 18 May 2026 03:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.720133
- Title: One Model, Two Roles: Emergent Specialization in a Shared Recurrent Transformer
- Title(参考訳): 1モデルと2つの役割:共有リカレント変圧器の創発的特殊化
- Authors: Jucheng Shen, Barbara Su, Anastasios Kyrillidis,
- Abstract要約: 非対称入力再帰: 共有重み付けリカレントトランスフォーマーは、別々のモジュールに分割することなく、異なる内部ロールを発生させることができるか?
両更新で同じTransformerモデルを再利用した最小2状態推論アーキテクチャであるAsymmetric Input Recurrence (AIR) でこれを検証した。
機械学的に、注意解析により、L-更新はスドクとマゼの双方のH-更新よりも一貫して局所的であることが示された。
- 参考スコア(独自算出の注目度): 8.348937182957332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a shared-weight recurrent Transformer develop distinct internal roles without being partitioned into separate modules? We study this in Asymmetric Input Recurrence (AIR), a minimal two-state reasoning architecture in which the same Transformer model is reused for both updates (per literature, L and H) and the only built-in difference in the update rule is that the encoded input is injected during L-updates but not H-updates. Across Sudoku-Extreme and Maze, decoded rollouts reveal a consistent split: $\zH$ behaves like a fully committed proposal state, whereas $\zL$ retains local uncertainty and shifting intermediate structure. Freeze experiments show that this split is, in practice, related to the model's state dynamics: in Sudoku, freezing $\zH$ reduces $\zL$'s content changes whereas freezing $\zL$ increases $\zH$'s, while in Maze, freezing either state increases content changes in the other state. Ablations show that to induce specialization, the shared model needs to be able to tell the two update types apart, either from input injection asymmetry or from a separate level token. Mechanistically, attention analysis shows that L-updates are consistently more local than H-updates in both Sudoku and Maze. Together, these results show that, in a two-state recurrent setting, a clear state-identity signal can induce stable, related functional roles inside a shared-parameter recurrent Transformer. Code is available at \href{https://github.com/juchengshen/air}{\textcolor{blue}{https://github.com/juchengshen/air}}.
- Abstract(参考訳): 共有重み付きリカレントトランスフォーマーは、別々のモジュールに分割することなく、異なる内部ロールを発生させることができるか?
非対称入力再帰(AIR)では、同じトランスフォーマーモデルが両方の更新(文献、L、H)で再利用される最小2状態推論アーキテクチャで、更新ルールの唯一の違いは、エンコードされた入力がL-updatesで注入されるが、H-updatesでは注入されないことである。
Sudoku-Extreme と Maze にまたがって、デコードされたロールアウトは、一貫した分割を示す: $\zH$ は、完全にコミットされた提案状態のように振る舞うが、$\zL$ は、局所的な不確実性を保持し、中間構造をシフトする。
凍結した$\zL$は、他の状態におけるコンテンツの変化を増加させるが、凍結した$\zL$は、$\zH$'sを増大させる。
アブレーションは、特殊化を誘発するために、共有モデルは2つの更新タイプをインジェクション非対称性から、または別のレベルトークンから区別することができる必要があることを示している。
機械学的に、注意解析により、L-更新はスドクとマゼの双方のH-更新よりも一貫して局所的であることが示された。
これらの結果は,2状態のリカレント・セッティングにおいて,共有パラメータ・リカレント・トランスの安定な機能的役割を導出できることを示す。
コードは \href{https://github.com/juchengshen/air}{\textcolor{blue}{https://github.com/juchengshen/air}} で公開されている。
関連論文リスト
- When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning [60.714416943748866]
シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
そこで我々は,Side-by-Side (SxS) Interleaved Reasoningを導入する。
論文 参考訳(メタデータ) (2026-05-05T02:59:58Z) - Sessa: Selective State Space Attention [0.0]
本稿では、繰り返しフィードバックパス内に注意を向けるデコーダであるSessaを提案する。
Sessaはパワーローメモリのテールを$O(ell-)$$01$で認めており、TransformerやMambaスタイルのベースラインよりも劣化が遅い。
論文 参考訳(メタデータ) (2026-04-20T17:59:08Z) - Canonicalizing Multimodal Contrastive Representation Learning [76.15228959754727]
ここでは,CLIP,SigLIP,FLAVAなどのモデルファミリにおいて,埋め込み空間間の幾何学的関係が存在することを示す。
この発見は、後方互換性のあるモデルアップグレードを可能にし、コストのかかる再埋め込みを回避し、学習された表現のプライバシに影響を及ぼす。
論文 参考訳(メタデータ) (2026-02-19T18:09:36Z) - Scale-Invariant Fast Convergence in Games [67.02769061793619]
我々は,スケールフリーでもスケール不変でも,高速収束を実現する学習力学を開発した。
2プレーヤゼロサムゲームに対しては、$tildeO(A_mathrmdiff)$で有界な外部後悔を伴うスケールフリーかつスケール不変のダイナミクスが得られる。
マルチプレイヤーの汎用ゲームでは、過去の観測に基づいて観察された勾配をクリップする2倍のクリッピングと呼ばれる手法によって、スケールフリーの学習も可能となる。
論文 参考訳(メタデータ) (2026-02-12T11:57:20Z) - StagFormer: Time Staggering Transformer Decoding for RunningLayers In Parallel [16.03039380465818]
Transformerベースの言語モデルでのデコーディングは本質的にシーケンシャルである。次のトークンの生成が始まる前に、トークンの埋め込みがネットワーク内のすべてのレイヤを通過する必要があるからだ。
本稿では,シーケンス軸に沿って実行をステージングし,モデル深度に沿って復号処理を並列化可能にする新しいアーキテクチャStagFormerを提案する。
論文 参考訳(メタデータ) (2025-01-26T20:09:11Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - Cluster and Aggregate: Face Recognition with Large Probe Set [18.662943303044315]
本稿では,2段階の機能融合パラダイムであるClusterとAggregateを提案する。
IJB-BおよびIJB-Sベンチマークデータセットの実験は、制約のない顔認識における提案された2段階パラダイムの優位性を示している。
論文 参考訳(メタデータ) (2022-10-19T20:01:15Z) - SWAT: Spatial Structure Within and Among Tokens [53.525469741515884]
我々は,トークン化時に空間構造が保存される場合,モデルが顕著な利得が得られることを論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。