Fugu-MT 論文翻訳(概要): Dead Weights, Live Signals: Feedforward Graphs of Frozen Language Models

論文の概要: Dead Weights, Live Signals: Feedforward Graphs of Frozen Language Models

arxiv url: http://arxiv.org/abs/2604.08335v1
Date: Thu, 09 Apr 2026 15:07:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.979557
Title: Dead Weights, Live Signals: Feedforward Graphs of Frozen Language Models
Title（参考訳）: デッドウェイト、ライブシグナル:凍結言語モデルのフィードフォワードグラフ
Authors: Marcus Armstrong, Navid Ayoobi, Arjun Mukherjee,
Abstract要約: 本稿では,異種凍結型大規模言語モデルが計算ノードとして機能するフィードフォワードグラフアーキテクチャを提案する。約12Bの凍結に対する訓練可能なパラメータは17.6Mしかなく、ARC-Challengeでは87.3%、OpenBookQAでは82.8%、MMLUでは67.2%である。
参考スコア（独自算出の注目度）: 0.7162422068114824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a feedforward graph architecture in which heterogeneous frozen large language models serve as computational nodes, communicating through a shared continuous latent space via learned linear projections. Building on recent work demonstrating geometric compatibility between independently trained LLM latent spaces~\cite{armstrong2026thinking}, we extend this finding from static two-model steering to end-to-end trainable multi-node graphs, where projection matrices are optimized jointly via backpropagation through residual stream injection hooks. Three small frozen models (Llama-3.2-1B, Qwen2.5-1.5B, Gemma-2-2B) encode the input into a shared latent space whose aggregate signal is injected into two larger frozen models (Phi-3-mini, Mistral-7B), whose representations feed a lightweight cross-attention output node. With only 17.6M trainable parameters against approximately 12B frozen, the architecture achieves 87.3\% on ARC-Challenge, 82.8\% on OpenBookQA, and 67.2\% on MMLU, outperforming the best single constituent model by 11.4, 6.2, and 1.2 percentage points respectively, and outperforming parameter-matched learned classifiers on frozen single models by 9.1, 5.2, and 6.7 points. Gradient flow through multiple frozen model boundaries is empirically verified to be tractable, and the output node develops selective routing behavior across layer-2 nodes without explicit supervision.
Abstract（参考訳）: 本稿では,一様凍結型大規模言語モデルが計算ノードとして機能し,学習された線形射影を通して共有連続潜時空間を介して通信するフィードフォワードグラフアーキテクチャを提案する。独立に訓練されたLCM潜在空間~\cite{armstrong2026thinking}間の幾何学的整合性を示す最近の研究に基づいて、静的な2モデルステアリングからエンドツーエンドのトレーニング可能なマルチノードグラフまでこの発見を拡張した。 3つの小さな凍結モデル(Llama-3.2-1B, Qwen2.5-1.5B, Gemma-2-2B)は、入力を集約信号が2つの大きな凍結モデル(Phi-3-mini, Mistral-7B)に注入された共有潜在空間に符号化する。約12Bの凍結に対する17.6Mのトレーニング可能なパラメータだけで、ARC-Challengeでは87.3\%、OpenBookQAでは82.8\%、MMLUでは67.2\%、それぞれ11.4、6.2、1.2ポイント、凍結シングルモデルでは9.1、5.2、6.7ポイントである。複数の凍結モデル境界を通るグラディエントフローは、抽出可能であることを実証的に検証し、出力ノードは明示的な監督なしに層2ノード間の選択的ルーティング挙動を発達させる。

関連論文リスト

Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。 Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文参考訳（メタデータ） (2026-02-12T18:58:12Z)
FRIREN: Beyond Trajectories -- A Spectral Lens on Time [1.5939955861266883]
長期時系列予測モデルは、ドメインにまたがって適用可能な汎用的なソリューションとしてしばしば提示される。幾何学的構造は動的に依存しない基礎モデルの正しい抽象化であると主張する。現代の生成フローと古典的なスペクトル分析を結びつけることで、FRIRENは正確かつ解釈可能な長期的な予測を行う。
論文参考訳（メタデータ） (2025-05-23T00:52:13Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion [32.0871035771324]
FuseChat-3.0は、異種音源LLMの強みをよりコンパクトな目標LLMに組み込むことによって開発された大型言語モデル(LLM)のスイートである。ターゲットモデルでは、Llama-3.1-8B-インストラクト、Gemma-2-9B-it、Qwen-2.5-72B-インストラクトの3種類に焦点をあてる。結果として得られたFuseChat-3.0モデルは、命令追従、一般的な知識、数学、コーディングといったタスク間で大きなパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-03-06T09:03:36Z)
S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。 S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文参考訳（メタデータ） (2025-02-20T09:18:53Z)
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling [24.270321913746233]
そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。 MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
論文参考訳（メタデータ） (2024-06-17T15:02:45Z)
Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文参考訳（メタデータ） (2022-11-16T21:55:05Z)
Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。 Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文参考訳（メタデータ） (2022-06-02T06:06:29Z)
Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2020-03-31T11:28:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。