論文の概要: Cherry Hypothesis: Identifying the Cherry on the Cake for Dynamic
Networks
- arxiv url: http://arxiv.org/abs/2211.05528v1
- Date: Thu, 10 Nov 2022 12:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:39:52.040723
- Title: Cherry Hypothesis: Identifying the Cherry on the Cake for Dynamic
Networks
- Title(参考訳): チェリー仮説:動的ネットワークのためのケーキ上のチェリーの同定
- Authors: Shwai He, Liang Ding, Daize Dong, Boan Liu, Fuqiang Yu, Dacheng Tao
- Abstract要約: 一般的なプラクティスは、静的なレイヤをすべてのパラメータが動的で入力に応じて変化する完全に動的なレイヤに変換することです。
このような完全にダイナミックな設定は、冗長なパラメータと高いデプロイメントコストを引き起こす可能性がある。
我々は、冗長な動的パラメータを静的なパラメータに変換するために、脳にインスパイアされた部分動的ネットワーク、すなわちPAD-Netを提案する。
- 参考スコア(独自算出の注目度): 72.85480289152719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic networks have been extensively explored as they can considerably
improve the model's representation power with acceptable computational cost.
The common practice in implementing dynamic networks is to convert given static
layers into fully dynamic ones where all parameters are dynamic and vary with
the input. Recent studies empirically show the trend that the more dynamic
layers contribute to ever-increasing performance. However, such a fully dynamic
setting 1) may cause redundant parameters and high deployment costs, limiting
the applicability of dynamic networks to a broader range of tasks and models,
and more importantly, 2) contradicts the previous discovery in the human brain
that \textit{when human brains process an attention-demanding task, only
partial neurons in the task-specific areas are activated by the input, while
the rest neurons leave in a baseline state.} Critically, there is no effort to
understand and resolve the above contradictory finding, leaving the primal
question -- to make the computational parameters fully dynamic or not? --
unanswered. The main contributions of our work are challenging the basic
commonsense in dynamic networks, and, proposing and validating the
\textsc{cherry hypothesis} -- \textit{A fully dynamic network contains a subset
of dynamic parameters that when transforming other dynamic parameters into
static ones, can maintain or even exceed the performance of the original
network.} Technically, we propose a brain-inspired partially dynamic network,
namely PAD-Net, to transform the redundant dynamic parameters into static ones.
Also, we further design Iterative Mode Partition to partition the dynamic- and
static-subnet, which alleviates the redundancy in traditional fully dynamic
networks. Our hypothesis and method are comprehensively supported by
large-scale experiments with typical advanced dynamic methods.
- Abstract(参考訳): 動的ネットワークは、許容可能な計算コストでモデルの表現能力を大幅に向上できるため、広く研究されてきた。
動的ネットワークを実装する一般的なプラクティスは、静的な層を全てのパラメータが動的で入力によって変化する完全に動的な層に変換することである。
近年の研究では、よりダイナミックな層がパフォーマンスの向上に寄与する傾向が実証的に示されている。
しかし、そのような完全にダイナミックな設定
1)冗長なパラメータと高いデプロイメントコストの原因となり、動的ネットワークの適用範囲が幅広いタスクやモデルに制限される可能性がある。
2) 人間の脳が注意喚起タスクを処理しているとき、タスク特異的領域の部分ニューロンのみが入力によって活性化され、残りのニューロンはベースライン状態に留まる、という人間の脳における以前の発見とは矛盾する。
重要なことは、上記の矛盾した発見を理解し、解決する努力はせず、予備的な疑問を残して、計算パラメータを完全に動的にするか、そうでないか?
-答えなし。
我々の研究の主な貢献は、動的ネットワークにおける基本的な常識に挑戦することであり、 \textsc{cherry hypothesis} -- \textit{a full dynamic networkには、動的パラメータのサブセットが含まれており、他の動的パラメータを静的なネットワークに変換する場合、元のネットワークのパフォーマンスを維持または超過することができる。
技術的には、冗長な動的パラメータを静的なパラメータに変換するために、脳にインスパイアされた部分動的ネットワーク、すなわちPAD-Netを提案する。
また,従来の完全動的ネットワークにおける冗長性を緩和する動的サブネットと静的サブネットを分割する反復モード分割を設計する。
本仮説と手法は,典型的な動的手法を用いた大規模実験によって包括的に支持されている。
関連論文リスト
- Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention
and Residual Connection in Kernel Space [4.111899441919165]
Dynamic Mobile-Formerは、効率的な演算子と調和させることで動的畳み込みの能力を最大化する。
PVT.A Transformer in Dynamic Mobile-Formerは、グローバルな機能をランダムに計算するだけである。
Dynamic MobileNetとTransformerのブリッジは、ローカル機能とグローバル機能の双方向統合を可能にする。
論文 参考訳(メタデータ) (2023-04-13T05:22:24Z) - DynInt: Dynamic Interaction Modeling for Large-scale Click-Through Rate
Prediction [0.0]
機能インタラクションの学習は、Adsランキングとレコメンデーションシステムにおける大規模なCTR予測の成功の鍵である。
このような問題をモデル化するために、ディープニューラルネットワークベースのモデルが広く採用されている。
我々はDynIntという新しいモデルを提案する。DynIntは動的でデータに依存しない高次相互作用を学習する。
論文 参考訳(メタデータ) (2023-01-03T13:01:30Z) - SD-Conv: Towards the Parameter-Efficiency of Dynamic Convolution [16.56592303409295]
動的畳み込みは、無視可能なFLOPの増加による効率の良いCNNの性能向上を実現する。
我々はこれら2つのパスを自然に統合する新しいフレームワーク textbfSparse Dynamic Convolution (textscSD-Conv) を提案する。
論文 参考訳(メタデータ) (2022-04-05T14:03:54Z) - DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion [89.92242000948026]
本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。
特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。
私たちの戦略は、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールします。
論文 参考訳(メタデータ) (2021-11-22T16:29:06Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Slimmable Network [105.74546828182834]
ダイナミックスリム化システム「ダイナミックスリム化ネットワーク(DS-Net)」を開発。
ds-netは,提案するダブルヘッド動的ゲートによる動的推論機能を備えている。
静的圧縮法と最先端の静的および動的モデル圧縮法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-03-24T15:25:20Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z) - Learning Dynamic Routing for Semantic Segmentation [86.56049245100084]
本稿では,動的ルーティングと呼ばれる意味表現のスケール分散を緩和する概念的に新しい手法を提案する。
提案フレームワークは,各画像のスケール分布に適応して,データ依存経路を生成する。
この目的のために、ハエのスケール変換経路を選択するために、ソフトコンディショナルゲートと呼ばれる微分可能なゲーティング関数を提案する。
論文 参考訳(メタデータ) (2020-03-23T17:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。