Fugu-MT 論文翻訳(概要): Improving Generalization by Permutation Routing Across Model Copies

論文の概要: Improving Generalization by Permutation Routing Across Model Copies

arxiv url: http://arxiv.org/abs/2605.09256v1
Date: Sun, 10 May 2026 01:50:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.146857
Title: Improving Generalization by Permutation Routing Across Model Copies
Title（参考訳）: モデルコピー間の置換ルーティングによる一般化の改善
Authors: Shuhei Kashiwamura, Timothee Leleu,
Abstract要約: 我々は機械学習に (M) 被覆変換(または (M) 層変換) を導入する。この方法はモデル(M)の回数を再現するが、パラメータ平均化や明示的な魅力力によってコピーを結合する代わりに、局所的な学習メッセージが計算されるコンテキストを再構成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a use of the \(M\)-cover (or \(M\)-layer) transform for machine learning. The method replicates a model \(M\) times, but instead of coupling the copies through parameter averaging or an explicit attractive force, as in replicated SGD or Elastic SGD, it rewires the contexts in which local learning messages are computed. Each local loss is evaluated on a routed model whose parameters are drawn from different copies according to permutations sampled from a structured mixing kernel \(Q\). Training then uses the original local update rule, while the resulting learning messages are redistributed across the copies through these routed computational paths. Thus \(Q\) defines a topology for message transport and controls the long-loop structure of the lifted factor graph. We formulate this construction for perceptrons, committee machines, and multilayer perceptrons, showing that the same principle applies from discrete models to differentiable neural networks. The resulting framework provides a mechanism for improving generalization through structured message sharing rather than replica collapse or parameter-space coupling.
Abstract（参考訳）: 本稿では,機械学習に \(M\)-cover (または \(M\)-layer) 変換を導入する。この方法はモデル \(M\) の回数を複製するが、SGD や Elastic SGD のようなパラメータ平均化や明らかに魅力的な力によってコピーを結合する代わりに、ローカルな学習メッセージが計算されるコンテキストを再構成する。各局所損失は、構造化混合カーネル \(Q\) からサンプリングされた置換に従って、異なるコピーからパラメータが引き出される経路モデルに基づいて評価される。トレーニングでは、元のローカル更新ルールを使用し、結果として得られた学習メッセージは、これらのルーティングされた計算パスを通じてコピー間で再配布される。したがって、(Q\) はメッセージ転送のトポロジーを定義し、リフトされた因子グラフの長ループ構造を制御する。我々は、この構成をパーセプトロン、委員会機械、多層パーセプトロンに対して定式化し、同じ原理が離散モデルから微分可能なニューラルネットワークに適用されることを示す。結果として得られるフレームワークは、複製崩壊やパラメータ空間結合ではなく、構造化メッセージ共有による一般化を改善するメカニズムを提供する。

関連論文リスト

Structural Inference: Interpreting Small Language Models with Susceptibilities [0.5242869847419834]
本研究では,ニューラルネットワークをベイズ統計力学系として扱う線形応答フレームワークを開発した。データ分散の小さな摂動は、ネットワークの選択されたコンポーネントに局在した観測可能領域の後方期待の1次変化を誘導する。結果として生じる感受性は、局所的なSGLDサンプルで効率的に推定され、署名された個々のコントリビューションに分解される。
論文参考訳（メタデータ） (2025-04-25T11:39:32Z)
GeneralizeFormer: Layer-Adaptive Model Generation across Test-Time Distribution Shifts [58.95913531746308]
テスト時間領域の一般化の問題は、モデルが複数のソースドメインで訓練され、トレーニング中に見たことのないターゲットドメインで調整される場合である。 textitGeneralizeFormer と呼ばれる軽量メタ学習変換器を用いて,推論中に複数の層パラメータを生成することを提案する。
論文参考訳（メタデータ） (2025-02-15T10:10:49Z)
A Fixed-Point Approach for Causal Generative Modeling [20.88890689294816]
本稿では,構造因果モデル(Structure Causal Models, SCM)を因果順序付き変数の固定点問題として記述する新しい形式論を提案する。トポロジカル順序付け(TO)を考えると,その特異な回復のために最も弱い既知の条件を確立する。
論文参考訳（メタデータ） (2024-04-10T12:29:05Z)
Block-local learning with probabilistic latent representations [2.839567756494814]
ロックとウェイトトランスポートは、トレーニングプロセスの効率的な並列化と水平スケーリングを防止するためである。本稿では,これらの問題に対処し,大規模モデルのトレーニングをスケールアップするための新しい手法を提案する。各種タスクやアーキテクチャについて,ブロック局所学習を用いた最先端性能の実証を行った。
論文参考訳（メタデータ） (2023-05-24T10:11:30Z)
Entangled Residual Mappings [59.02488598557491]
残余接続の構造を一般化するために、絡み合った残余写像を導入する。絡み合い残余写像は、アイデンティティスキップ接続を特別な絡み合い写像に置き換える。絡み合った写像は、様々な深層モデルにまたがる特徴の反復的洗練を保ちながら、畳み込みネットワークにおける表現学習プロセスに影響を及ぼすことを示す。
論文参考訳（メタデータ） (2022-06-02T19:36:03Z)
Structured Reordering for Modeling Latent Alignments in Sequence Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文参考訳（メタデータ） (2021-06-06T21:53:54Z)
Distributed support-vector-machine over dynamic balanced directed networks [10.76210145983805]
分散サポートマシンによるバイナリ分類問題を考察する。離散ジャンプにおけるネットワークトポロジの変化を取り入れた連続時間アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-04-01T11:02:10Z)
A Correspondence Variational Autoencoder for Unsupervised Acoustic Word Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文参考訳（メタデータ） (2020-12-03T19:24:42Z)
Neural Subdivision [58.97214948753937]
本稿では,データ駆動型粗粒度モデリングの新しいフレームワークであるNeural Subdivisionを紹介する。すべてのローカルメッシュパッチで同じネットワーク重みのセットを最適化するため、特定の入力メッシュや固定属、カテゴリに制約されないアーキテクチャを提供します。単一の高分解能メッシュでトレーニングしても,本手法は新規な形状に対して合理的な区分を生成する。
論文参考訳（メタデータ） (2020-05-04T20:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。