論文の概要: Borrowed Geometry: Computational Reuse of Frozen Text-Pretrained Transformer Weights Across Modalities
- arxiv url: http://arxiv.org/abs/2605.00333v1
- Date: Fri, 01 May 2026 01:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.810957
- Title: Borrowed Geometry: Computational Reuse of Frozen Text-Pretrained Transformer Weights Across Modalities
- Title(参考訳): ボーリング幾何: モーダリティ全体での凍結加工による変圧器重量の計算的再利用
- Authors: Abay Bektursun,
- Abstract要約: Gemma 4 31B はテキストトークンのみに事前訓練され、修正されていない、モダリティ境界を越えて転送される。
Gemma 4 31Bは2026年4月現在、小規模なフロンティアで唯一のモデルである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frozen Gemma 4 31B weights pretrained exclusively on text tokens, unmodified, transfer across modality boundaries through a thin trainable interface. (1) OGBench scene-play-singletask-task1-v0: $+4.33$pt over published GCIQL at $n=3$ with std 0.74 -- a published-SOTA win on a robotic manipulation task the substrate has never seen. (2) D4RL Walker2d-medium-v2: Decision-Transformer parity ($76.2 \pm 0.8$, $n=3$) at $0.43\times$ DT's trainable count, with the frozen substrate compressing to a 5L slice ($+1.66$pt over the 6L baseline at $n=3$). (3) Associative recall as the cleanest pretraining-load-bearing case: the frozen slice + a 113K-parameter linear interface reaches L30 best-checkpoint per-bit error 0.0505 ($n=2$); a 6.36M-parameter from-scratch trained transformer at matched capacity ($1/\sqrt{d_k}$ scaling, two seeds, LR sweep) cannot solve the task at all under the protocol (best L30 = 0.4395), an $8.7\times$ advantage. Architecture-alone falsifications: a frozen random transformer with correct $1/\sqrt{d_k}$ scaling stays at random-chance loss for 50k steps; a random-init Gemma slice fails OGBench cube-double-play-task1 entirely (0.89% across $n=3$ where pretrained reaches 60%). A dual-measurement protocol -- text-activation probing on 95 English sentences plus task-ablation on a non-language target -- names individual heads independently identifiable on both protocols: head L26.28 scores $3.7\times$ the slice mean for English token-copying and is the #2 most-critical head for binary copy ablation ($Δ$ L30 $= +0.221$); three further heads (L27.28, L27.2, L27.3) classify by the same protocol. The mechanism is single-model and the cross-modality results are single-task within their respective benchmarks; cross-model replication is structurally constrained because Gemma 4 31B is the only model on the small-scale Pareto frontier as of April 2026.
- Abstract(参考訳): 凍結Gemma 4 31Bウェイトはテキストトークンのみにトレーニングされ、修正されていない、薄いトレーニング可能なインターフェースを通じてモダリティ境界を越えて転送される。
1) OGBench scene-play-singletask-task1-v0: $+4.33$pt over published GCIQL at $n=3$ with std 0.74 -- これは、基板が見たことのないロボット操作タスクにおけるSOTAの勝利である。
2) D4RL Walker2d-medium-v2: Decision-Transformer parity$76.2 \pm 0.8$, $n=3$) at $0.43\times$ DT's trainable count, with the frozen substrate compressing to a 5L slice over the 6L baseline at $n=3$。
(3) 凍結したスライス + 113Kパラメータの線形インターフェースがL30のベストチェックポイント1ビットあたりのエラー0.0505(n=2$); 一致容量(1/\sqrt{d_k})で6.36Mパラメータからトレーニングされたトランスフォーマーをスケールすると、2つのシード、LRスイープ)はプロトコルでそのタスクを全く解決できない(最良L30 = 0.4395)。
アーキテクチャ・アローンのファルシフィケーション: 正しい1/\sqrt{d_k}$スケールの凍結ランダムトランスフォーマーは50kステップのランダムチャンス損失に留まる。
L26.28 scores $3.7\times$ the slice mean for English token-copying and is the #2 most- critical head for binary copy ablation (Δ$ L30 $= +0.221$); three further head (L27.28, L27.2, L27.3) 同じプロトコルで分類される。
2026年4月現在、Gemma 4 31Bは小規模のParetoフロンティアにおける唯一のモデルであるため、クロスモデルレプリケーションは構造的に制限されている。
関連論文リスト
- Scaling Federated Linear Contextual Bandits via Sketching [49.12000877146222]
本稿では,FSCLB(Federated Sketch Contextual Linear Bandits)を提案する。
合成と実世界の両方のデータセットの実験では、FSCLBは計算と通信のコストを90%以上削減している。
論文 参考訳(メタデータ) (2026-05-01T08:22:06Z) - Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing [2.6382975801439836]
LLMは、入力中にほとんどのトークンが冗長に見える場合でも、全出力を自動回帰的に再生することでテキストとコードを編集する。
Copy-as-Decodeは、2プリミティブ文法上の構造化復号化として生成を再キャストする復号化機構である。
論文 参考訳(メタデータ) (2026-04-20T12:29:53Z) - Parity-unfolded distillation architecture for noise-biased platforms [0.0]
パリティアンフォールドアーキテクチャはフォールトトレラントな量子コンピューティングスキームである。
状態 $|Z_krangle = Z1/2k|+rangle$ は、2k+3 + O(2k/2)$ バイアスノイズ量子ビットを用いてフォールトトレラント的に作成できる。
論文 参考訳(メタデータ) (2026-04-16T18:00:32Z) - Breaking the KV Cache Bottleneck: Fan Duality Model Achieves O(1) Decode Memory with Superior Associative Recall [0.0]
Fan Duality Modelは、シーケンスモデリングにおけるメモリ効率と連想リコールの間の緊張を解消する。
FDMはシーケンス処理を、長距離パターンを隠蔽状態に圧縮する波動成分と、特定のトークンを取得する粒子成分の2つのコンポーネントに分割する。
本稿では,再帰的なスキャンを凍結し,キャッシュを埋め込みと共に最適化する2段階のトレーニング戦略であるFreeze-Scanを提案する。
論文 参考訳(メタデータ) (2026-04-09T02:00:30Z) - Transfer Faster, Price Smarter: Minimax Dynamic Pricing under Cross-Market Preference Shift [8.44638855809941]
我々は、ターゲット市場がK補助市場を活用できる場合のコンテキスト動的価格について検討する。
本稿では,このようなモデルシフト転送を確実に処理するアルゴリズムとして,CM-TDP(Cross-Market Transfer Dynamic Pricing)を提案する。
転送学習、ロバストアグリゲーション、収益最適化をブリッジすることで、CM-TDPはより速く、よりスマートな転送を行う価格システムへと向かっています。
論文 参考訳(メタデータ) (2025-05-22T18:18:17Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。