論文の概要: Ablate and Rescue: A Causal Analysis of Residual Stream Hyper-Connections
- arxiv url: http://arxiv.org/abs/2603.14833v1
- Date: Mon, 16 Mar 2026 05:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.066854
- Title: Ablate and Rescue: A Causal Analysis of Residual Stream Hyper-Connections
- Title(参考訳): Ablate and Rescue:Residual Stream Hyper-Connectionの因果解析
- Authors: William Peng, Josheev Rai, Kevin Tseng, Siwei Wang, Sean Wu,
- Abstract要約: 並列ストリームが情報をどのように符号化し活用するかを探索する,最初のオープンソースのmHC言語モデルを提案する。
本稿では,残差ストリームの因果関係を推論時に直接因果関係で比較できる,系統的なストリーム・アブレーション・レスキュー・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.356431232110434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-stream transformer architectures have recently been proposed as a promising direction for managing representation collapse and the vanishing gradient problem for residual connections, yet their internal mechanisms remain unexplored. In particular, the recently introduced Manifold-Constrained Hyper-Connections (mHC) architecture posits multiple residual streams with constrained interaction, but lacks in-depth mechanistic analysis. We present the first open-source mHC language model (https://huggingface.co/wgpeng/mhc-780m) and analyze the multiple-stream architecture with a suite of representation-level metrics and causal interventions to probe how parallel streams encode and utilize information. Specifically, we introduce a systematic stream ablation-and-rescue framework that enables direct causal comparison of residual streams during inference. Through targeted pairwise interventions and controlled recovery experiments, we distinguish functional redundancy from asymmetric utilization and reveal how information is distributed across streams beyond what is observable from representational similarity alone.
- Abstract(参考訳): マルチストリームトランスアーキテクチャは、最近、表現の崩壊と残差接続の勾配問題を管理するための有望な方向として提案されているが、内部メカニズムは未解明のままである。
特に、最近導入されたManifold-Constrained Hyper-Connections (mHC)アーキテクチャは、制約された相互作用を持つ複数の残留ストリームを実証するが、深い力学解析は欠いている。
我々は、最初のオープンソースのmHC言語モデル(https://huggingface.co/wgpeng/mhc-780m)を提示し、マルチストリームアーキテクチャを表現レベルのメトリクスと因果介入のスイートを用いて分析し、並列ストリームがどのように情報をエンコードし利用しているかを調査する。
具体的には、推論中に残留ストリームの因果関係を直接比較できる、系統的なストリームアブレーション・アンド・レスキューフレームワークを提案する。
目的とするペアワイズ介入と制御されたリカバリ実験により、機能的冗長性と非対称な利用とを区別し、表現的類似性のみから観測可能な範囲を超えて、どのように情報がストリームに分散されているかを明らかにする。
関連論文リスト
- A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks [0.0]
到着プロセスの重ね合わせは、待ち行列ネットワークにおける基本的だが解析的に難解な操作である。
本稿では,複数の到着ストリームの低次モーメントと自己相関記述子をマージしたプロセスにマッピングするスケーラブルなデータ駆動演算子を提案する。
論文 参考訳(メタデータ) (2026-03-11T13:46:32Z) - Wireless Federated Multi-Task LLM Fine-Tuning via Sparse-and-Orthogonal LoRA [61.12136997430116]
低ランク適応(LoRA)に基づく分散連合学習(DFL)により、マルチタスクデータセットを持つモバイルデバイスは、ローカルに更新されたパラメータを、無線接続を介して近隣デバイスのサブセットと交換することで、大きな言語モデル(LLM)を協調的に微調整することができる。
不均一データセットに微調整されたパラメータを直接集約すると、DFLライフサイクルの3つの主要な問題が発生する: (i) 微調整プロセス中に忘れる破滅的な知識、(ii) データの異種性に起因する更新方向の矛盾に起因する。
論文 参考訳(メタデータ) (2026-02-24T02:45:32Z) - Distributed physics-informed neural networks via domain decomposition for fast flow reconstruction [8.614942690565782]
PINは流れの復元に強力なパラダイムを提供し、速度測定を支配的なNavier-N方程式とシームレスに統合し、完全な速度場と潜水圧場を回復する。
このような分散PINにおける重要な課題は、独立したサブネットワークが非一貫性な局所的な圧力ベースラインに流れ込む圧力不決定性である。
指定されたマスターランクから一方向の流れを強制することにより,一意性を排除し,時間的連続性を保ちながら大域的な圧力を保証できる。
論文 参考訳(メタデータ) (2026-02-05T16:41:55Z) - Deep Learning for Contextualized NetFlow-Based Network Intrusion Detection: Methods, Data, Evaluation and Deployment [5.402853794565817]
本稿では,フローベース侵入検知のための文脈認識深層学習に関する最近の研究を合成する。
既存の手法を時間的文脈,グラフあるいは関係文脈,マルチモーダルコンテキスト,マルチコンセンサスコンテキストを含む4次元分類に分類する。
我々は、時間的リーク、データ分割、データセット設計上の欠陥、限られたデータセットの多様性、弱いデータセットの一般化など、報告された結果に影響を及ぼす一般的な障害モードをレビューする。
論文 参考訳(メタデータ) (2026-02-05T12:25:18Z) - ReGAIN: Retrieval-Grounded AI Framework for Network Traffic Analysis [5.887997322139195]
ReGAINは、トラフィックの要約、検索拡張生成(RAG)、および透過的かつ正確なネットワークトラフィック分析のための大規模言語モデル(LLM)を組み合わせたフレームワークである。
実世界のトラフィックデータセットからICMP ping flood と TCP Syn flood のトレースを評価した。
論文 参考訳(メタデータ) (2025-12-23T00:16:14Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA [60.86024022291499]
ストリーミングビデオストリームにおける時間的に進化する推論のために明示的に設計された最初のデータセットであるStreamingCoTを紹介する。
本フレームワークは,秒単位の高密度な記述を生成し,類似性融合により時間依存性のセマンティックセグメントを構築する。
このデータセットは、ストリーミングビデオ理解、複雑な時間的推論、マルチモーダル推論の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-10-29T09:47:38Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion [59.96233305733875]
時系列予測は、金融、交通管理、エネルギー、医療など様々な分野で重要な役割を果たしている。
いくつかの方法は、注意やミキサーのようなメカニズムを利用して、チャネル相関をキャプチャすることでこの問題に対処する。
本稿では,効率的なモデルであるSOFTS(Series-cOre Fused Time Series forecaster)を提案する。
論文 参考訳(メタデータ) (2024-04-22T14:06:35Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Forecast Network-Wide Traffic States for Multiple Steps Ahead: A Deep
Learning Approach Considering Dynamic Non-Local Spatial Correlation and
Non-Stationary Temporal Dependency [6.019104024723682]
本研究では,交通予測における2つの問題について検討する。(1)交通リンク間の動的・非局所的な空間的相関を捉え,(2)正確な複数ステップの予測を行うための時間依存性のダイナミクスをモデル化する。
本稿では,これらの問題に対処するため,時空間列列モデル(STSeq2Seq)というディープラーニングフレームワークを提案する。
このモデルは、時間的特徴を捉えるためにシーケンスからシーケンス(seq2seq)アーキテクチャに基づいて構築され、空間情報を集約するためのグラフ畳み込みに依存している。
論文 参考訳(メタデータ) (2020-04-06T03:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。