論文の概要: On the Learning Dynamics of Attention Networks
- arxiv url: http://arxiv.org/abs/2307.13421v2
- Date: Wed, 26 Jul 2023 04:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 14:53:36.381515
- Title: On the Learning Dynamics of Attention Networks
- Title(参考訳): 注意ネットワークの学習ダイナミクスについて
- Authors: Rahul Vashisht and Harish G. Ramaswamy
- Abstract要約: 注意モデルは、ソフトアテンション(Soft attention)、ハードアテンション(ハードアテンション)、潜在可変限界アテンション(LVML)と呼ばれる3つの標準損失関数のうちの1つを最適化することによって学習される。
これらのパラダイムを用いて学習したモデルのユニークなシグネチャを観察し、勾配勾配下での分類モデルの進化の結果として説明する。
本稿では、損失関数の利点を組み合わせた単純なハイブリッドアプローチを提案し、半合成および実世界のデータセットの集合上でそれを実証する。
- 参考スコア(独自算出の注目度): 1.7259824817932292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention models are typically learned by optimizing one of three standard
loss functions that are variously called -- soft attention, hard attention, and
latent variable marginal likelihood (LVML) attention. All three paradigms are
motivated by the same goal of finding two models -- a `focus' model that
`selects' the right \textit{segment} of the input and a `classification' model
that processes the selected segment into the target label. However, they differ
significantly in the way the selected segments are aggregated, resulting in
distinct dynamics and final results. We observe a unique signature of models
learned using these paradigms and explain this as a consequence of the
evolution of the classification model under gradient descent when the focus
model is fixed. We also analyze these paradigms in a simple setting and derive
closed-form expressions for the parameter trajectory under gradient flow. With
the soft attention loss, the focus model improves quickly at initialization and
splutters later on. On the other hand, hard attention loss behaves in the
opposite fashion. Based on our observations, we propose a simple hybrid
approach that combines the advantages of the different loss functions and
demonstrates it on a collection of semi-synthetic and real-world datasets
- Abstract(参考訳): 注意モデルは一般的に、ソフトアテンション(Soft attention)、ハードアテンション(ハードアテンション)、潜在変数の辺縁的可能性(Latent variable marginal chance, LVML)という3つの標準的な損失関数のうちの1つを最適化することによって学習される。これら3つのパラダイムは、入力の右 \textit{segment} を 'select' する 'focus' モデルと、選択したセグメントをターゲットラベルに処理する 'classification' モデルである。
しかし、これらは選択されたセグメントを集約する方法で大きく異なり、異なるダイナミクスと最終的な結果をもたらす。
これらのパラダイムを用いて学習したモデルのユニークなシグネチャを観察し,フォーカスモデルが固定された場合の勾配降下下での分類モデルの進化の帰結として説明する。
また,これらのパラダイムを簡単な設定で解析し,勾配流下のパラメータ軌跡の閉形式式を導出する。
ソフトアテンションの損失により、フォーカスモデルは初期化と後続のスパッタで急速に改善する。
一方、注意喪失は反対方向に振る舞う。
我々の観測に基づいて、異なる損失関数の利点を組み合わせた単純なハイブリッドアプローチを提案し、半合成および実世界のデータセットの集合上でそれを実証する。
関連論文リスト
- Data-Driven Approaches for Modelling Target Behaviour [1.5495593104596401]
追跡アルゴリズムの性能は、対象の力学に関する選択されたモデル仮定に依存する。
本稿では,物体の動きを記述するために機械学習を利用する3つの異なる手法の比較研究を行う。
論文 参考訳(メタデータ) (2024-10-14T14:18:27Z) - Dynamic Feature Learning and Matching for Class-Incremental Learning [20.432575325147894]
CIL(Class-incremental Learning)は,従来のクラスを破滅的に忘れることなく,新しいクラスを学習する方法として登場した。
本稿では,動的特徴学習とマッチング(DFLM)モデルを提案する。
提案手法は既存手法に比べて大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-05-14T12:17:19Z) - Separating common from salient patterns with Contrastive Representation
Learning [2.250968907999846]
コントラスト分析は、2つのデータセット間の変動の共通要因を分離することを目的としている。
変分オートエンコーダに基づく現在のモデルは意味表現の学習において性能が劣っている。
コントラスト分析に適合した意味表現表現を学習するためのコントラスト学習の活用を提案する。
論文 参考訳(メタデータ) (2024-02-19T08:17:13Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Meta-tuning Loss Functions and Data Augmentation for Few-shot Object
Detection [7.262048441360132]
少ないショットのオブジェクト検出は、少数ショットの学習とオブジェクト検出という領域において、新たなトピックである。
本稿では,数発検出を促進できる帰納的バイアスの学習を可能にする訓練手法を提案する。
提案手法は,高パラメトリックかつ複雑な数ショットメタモデルとは対照的に,解釈可能な損失関数を生成する。
論文 参考訳(メタデータ) (2023-04-24T15:14:16Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。