論文の概要: Analyzing and Mitigating Interference in Neural Architecture Search
- arxiv url: http://arxiv.org/abs/2108.12821v1
- Date: Sun, 29 Aug 2021 11:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 03:43:16.694386
- Title: Analyzing and Mitigating Interference in Neural Architecture Search
- Title(参考訳): ニューラルアーキテクチャ探索における干渉の解析と緩和
- Authors: Jin Xu, Xu Tan, Kaitao Song, Renqian Luo, Yichong Leng, Tao Qin,
Tie-Yan Liu, Jian Li
- Abstract要約: 本研究では、異なる子モデルをサンプリングし、共有演算子の勾配類似度を計算することで干渉問題を解明する。
これら2つの観測から着想を得て、干渉を緩和するための2つのアプローチを提案する。
検索したアーキテクチャは、RoBERTa$_rmbase$が1.1、0.6、ELECTRA$_rmbase$が1.6、テストセットであるGLUEベンチマークで1.1より優れています。
- 参考スコア(独自算出の注目度): 96.60805562853153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight sharing has become the \textit{de facto} approach to reduce the
training cost of neural architecture search (NAS) by reusing the weights of
shared operators from previously trained child models. However, the estimated
accuracy of those child models has a low rank correlation with the ground truth
accuracy due to the interference among different child models caused by weight
sharing. In this paper, we investigate the interference issue by sampling
different child models and calculating the gradient similarity of shared
operators, and observe that: 1) the interference on a shared operator between
two child models is positively correlated to the number of different operators
between them; 2) the interference is smaller when the inputs and outputs of the
shared operator are more similar. Inspired by these two observations, we
propose two approaches to mitigate the interference: 1) rather than randomly
sampling child models for optimization, we propose a gradual modification
scheme by modifying one operator between adjacent optimization steps to
minimize the interference on the shared operators; 2) forcing the inputs and
outputs of the operator across all child models to be similar to reduce the
interference. Experiments on a BERT search space verify that mitigating
interference via each of our proposed methods improves the rank correlation of
super-pet and combining both methods can achieve better results. Our searched
architecture outperforms RoBERTa$_{\rm base}$ by 1.1 and 0.6 scores and
ELECTRA$_{\rm base}$ by 1.6 and 1.1 scores on the dev and test set of GLUE
benchmark. Extensive results on the BERT compression task, SQuAD datasets and
other search spaces also demonstrate the effectiveness and generality of our
proposed methods.
- Abstract(参考訳): 重みの共有は、以前訓練された子モデルから共有オペレーターの重みを再利用することで、ニューラルネットワーク検索(nas)のトレーニングコストを削減するための \textit{de facto} アプローチとなった。
しかし,これらの子モデルの推定精度は,体重共有による異なる子モデル間の干渉により,基底真理精度と低い相関関係を有する。
本稿では, 異なる子モデルをサンプリングし, 共用作用素の勾配類似度を算出し, 1) 2つの子モデル間の共用作用素に対する干渉は, 両者の異なる演算子の数と正の相関関係にあること, 2) 共用作用素の入出力がより似ている場合の干渉が小さいこと, について考察する。
これらの2つの観察から着想を得て,(1)ランダムに子モデルをサンプリングして最適化するのではなく,隣接する最適化ステップ間で1つの演算子を変更し,共有演算子の干渉を最小限に抑える段階的な修正スキームを提案し,2)すべての子モデルにまたがる演算子の入力と出力を,干渉を減少させるように強制する。
bert探索空間における実験により,提案手法による干渉の緩和がsuper-petのランク相関を改善し,両手法を組み合わせることで良好な結果が得られることを確認した。
検索したアーキテクチャは、RoBERTa$_{\rm base}$ 1.1 と 0.6 と ELECTRA$_{\rm base}$ 1.6 と 1.1 を GLUE ベンチマークのデベロップメントとテストセットで上回ります。
また,BERT圧縮タスクやSQuADデータセット,その他の検索空間の広範な結果から,提案手法の有効性と汎用性を示した。
関連論文リスト
- Semisupervised score based matching algorithm to evaluate the effect of public health interventions [3.221788913179251]
1対1のマッチングアルゴリズムでは、マッチする多数の"ペア"は、大きなサンプルからの情報と多数のタスクの両方を意味する可能性がある。
本稿では,2次スコア関数 $S_beta(x_i,x_j)= betaT (x_i-x_j)(x_i-x_j)T beta$ に基づく新しい1対1マッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T02:24:16Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Inferring effective couplings with Restricted Boltzmann Machines [3.150368120416908]
生成モデルは、ニューラルネットワークの形でエネルギー関数に関連するボルツマン重みのレベルで観測された相関を符号化しようとする。
制限ボルツマンマシンと有効イジングスピンハミルトニアンとの直接写像を実装した解を提案する。
論文 参考訳(メタデータ) (2023-09-05T14:55:09Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Hausdorff Distance Matching with Adaptive Query Denoising for Rotated Detection Transformer [4.137346786534721]
両部マッチングのためのハウスドルフ距離に基づくコストを導入し、予測と基底の真理との相違をより正確に定量化する。
本稿では,2部マッチングを用いた適応型問合せ記述手法を提案し,モデル改良から抽出した雑音付き問合せを選択的に除去する。
論文 参考訳(メタデータ) (2023-05-12T16:42:54Z) - Modeling Instance Interactions for Joint Information Extraction with
Neural High-Order Conditional Random Field [39.055053720433435]
我々は、高次条件ランダムフィールドとして、共同IEを定式化する共同IEフレームワーク(CRFIE)を導入する。
具体的には,2つの要素と3つの要素を設計し,一対のインスタンスだけでなく三重項間の相互作用を直接モデル化する。
平均場変動推定法から展開した高次ニューラルデコーダを組み込んだ。
論文 参考訳(メタデータ) (2022-12-17T18:45:23Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Relabel the Noise: Joint Extraction of Entities and Relations via
Cooperative Multiagents [52.55119217982361]
協調型マルチエージェント群を用いて,雑音の多いインスタンスを処理するための共同抽出手法を提案する。
ノイズの多いインスタンスをきめ細かな方法で処理するために、協調グループの各エージェントは、自身の視点で連続的な信頼スコアを算出してインスタンスを評価する。
信頼度コンセンサスモジュールは、すべてのエージェントの知恵を収集し、信頼度ラベル付きラベルでノイズの多いトレーニングセットを再分割するように設計されている。
論文 参考訳(メタデータ) (2020-04-21T12:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。