論文の概要: How to Backpropagate through Hungarian in Your DETR?
- arxiv url: http://arxiv.org/abs/2211.14448v1
- Date: Sat, 12 Nov 2022 04:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:51:35.983413
- Title: How to Backpropagate through Hungarian in Your DETR?
- Title(参考訳): あなたのdetrでハンガリー語をバックプロパゲートする方法は?
- Authors: Lingji Chen, Alok Sharma, Chinmay Shirore, Chengjie Zhang, Balarama
Raju Buddharaju
- Abstract要約: グローバルな損失は、代入非依存項と代入非依存項の和として表現できることを示す。
ネットワークパラメータに対する損失の一般化を定義するために,代入問題のパラメータに対する最適割当コストの一般化勾配に関する最近の結果を用いる。
- 参考スコア(独自算出の注目度): 1.4699455652461724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The DEtection TRansformer (DETR) approach, which uses a transformer
encoder-decoder architecture and a set-based global loss, has become a building
block in many transformer based applications. However, as originally presented,
the assignment cost and the global loss are not aligned, i.e., reducing the
former is likely but not guaranteed to reduce the latter. And the issue of
gradient is ignored when a combinatorial solver such as Hungarian is used. In
this paper we show that the global loss can be expressed as the sum of an
assignment-independent term, and an assignment-dependent term which can be used
to define the assignment cost matrix. Recent results on generalized gradients
of optimal assignment cost with respect to parameters of an assignment problem
are then used to define generalized gradients of the loss with respect to
network parameters, and backpropagation is carried out properly. Our
experiments using the same loss weights show interesting convergence properties
and a potential for further performance improvements.
- Abstract(参考訳): トランスフォーマエンコーダ-デコーダアーキテクチャとセットベースのグローバルロスを用いた検出トランスフォーマ(detr)アプローチは、多くのトランスフォーマベースのアプリケーションにおいてビルディングブロックとなっている。
しかし、最初に提示されたように、割り当てコストとグローバルな損失は一致せず、すなわち前者を減らすことは、後者を減らすことは保証されない。
また、ハンガリーのような組合せ解法を用いる場合には勾配の問題も無視される。
本稿では,グローバル損失を代入非依存項の和として表現し,代入コスト行列を定義するために使用可能な代入依存項を示す。
次に、割り当て問題のパラメータに対する最適割り当てコストの一般化勾配に関する最近の結果を用いて、ネットワークパラメータに関する損失の一般化勾配を定義し、バックプロパゲーションを適切に行う。
同じ損失重みを用いた実験では興味深い収束特性を示し,さらなる性能向上の可能性を示した。
関連論文リスト
- Refined Risk Bounds for Unbounded Losses via Transductive Priors [58.967816314671296]
線形回帰の逐次変分を2乗損失、ヒンジ損失の分類問題、ロジスティック回帰で再検討する。
我々の鍵となるツールは、慎重に選択された導出先を持つ指数重み付けアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2024-10-29T00:01:04Z) - EnsLoss: Stochastic Calibrated Loss Ensembles for Preventing Overfitting in Classification [1.3778851745408134]
経験的リスク最小化フレームワーク内で損失関数を結合する新しいアンサンブル手法,すなわちEnsLossを提案する。
まず、損失のCC条件を損失導関数に変換し、明示的な損失関数の必要性を回避した。
理論的には、我々のアプローチの統計的一貫性を確立し、その利点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-09-02T02:40:42Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Positive-Negative Equal Contrastive Loss for Semantic Segmentation [8.664491798389662]
従来の作業では、グローバルコンテキストを効果的に抽出し集約するために、プラグアンドプレイモジュールと構造的損失を設計するのが一般的だった。
そこで我々は, 正負の負の正の負の負の正の負の正の負の正の負の負の負の正の負の負の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の
総合的な実験を行い、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-04T13:51:29Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Learning with Noisy Labels via Sparse Regularization [76.31104997491695]
ノイズの多いラベルで学習することは、正確なディープニューラルネットワークをトレーニングするための重要なタスクである。
クロスエントロピー(Cross Entropy, CE)など、一般的に使われている損失関数は、ノイズラベルへの過度なオーバーフィットに悩まされている。
我々は, スパース正規化戦略を導入し, ワンホット制約を近似する。
論文 参考訳(メタデータ) (2021-07-31T09:40:23Z) - A Unified Framework of Surrogate Loss by Refactoring and Interpolation [65.60014616444623]
勾配勾配を有する深層ネットワークのトレーニングにおいて,サロゲート損失を発生させる統一フレームワークUniLossを導入する。
3つのタスクと4つのデータセットに対するUniLossの有効性を検証する。
論文 参考訳(メタデータ) (2020-07-27T21:16:51Z) - Deeply Shared Filter Bases for Parameter-Efficient Convolutional Neural
Networks [0.0]
現代の畳み込みニューラルネットワーク(CNN)は、大きな同一の畳み込みブロックを持つ。
本稿では,トレーニング中の勾配問題を効果的に回避しつつ,フィルタベースを分離して学習する方法を示す。
画像分類とオブジェクト検出の実験結果から,従来のパラメータ共有手法と異なり,パラメータを節約するために性能を交換しないことがわかった。
論文 参考訳(メタデータ) (2020-06-09T06:09:42Z) - Least $k$th-Order and R\'{e}nyi Generative Adversarial Networks [12.13405065406781]
実験結果から,MNISTデータセットとCelebAデータセットに適用した損失関数は,それぞれ$k$と$alpha$のパラメータによって提供される余分な自由度により,性能上のメリットが期待できることがわかった。
本研究は GAN に適用されているが,提案手法は汎用的であり,情報理論の他の応用例,例えば人工知能における公正性やプライバシの問題などに応用することができる。
論文 参考訳(メタデータ) (2020-06-03T18:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。