Fugu-MT 論文翻訳(概要): On the Learning Dynamics of Attention Networks

論文の概要: On the Learning Dynamics of Attention Networks

arxiv url: http://arxiv.org/abs/2307.13421v2
Date: Wed, 26 Jul 2023 04:05:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 14:53:36.381515
Title: On the Learning Dynamics of Attention Networks
Title（参考訳）: 注意ネットワークの学習ダイナミクスについて
Authors: Rahul Vashisht and Harish G. Ramaswamy
Abstract要約: 注意モデルは、ソフトアテンション(Soft attention)、ハードアテンション(ハードアテンション)、潜在可変限界アテンション(LVML)と呼ばれる3つの標準損失関数のうちの1つを最適化することによって学習される。これらのパラダイムを用いて学習したモデルのユニークなシグネチャを観察し、勾配勾配下での分類モデルの進化の結果として説明する。本稿では、損失関数の利点を組み合わせた単純なハイブリッドアプローチを提案し、半合成および実世界のデータセットの集合上でそれを実証する。
参考スコア（独自算出の注目度）: 1.7259824817932292
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Attention models are typically learned by optimizing one of three standard loss functions that are variously called -- soft attention, hard attention, and latent variable marginal likelihood (LVML) attention. All three paradigms are motivated by the same goal of finding two models -- a `focus' model that `selects' the right \textit{segment} of the input and a `classification' model that processes the selected segment into the target label. However, they differ significantly in the way the selected segments are aggregated, resulting in distinct dynamics and final results. We observe a unique signature of models learned using these paradigms and explain this as a consequence of the evolution of the classification model under gradient descent when the focus model is fixed. We also analyze these paradigms in a simple setting and derive closed-form expressions for the parameter trajectory under gradient flow. With the soft attention loss, the focus model improves quickly at initialization and splutters later on. On the other hand, hard attention loss behaves in the opposite fashion. Based on our observations, we propose a simple hybrid approach that combines the advantages of the different loss functions and demonstrates it on a collection of semi-synthetic and real-world datasets
Abstract（参考訳）: 注意モデルは一般的に、ソフトアテンション(Soft attention)、ハードアテンション(ハードアテンション)、潜在変数の辺縁的可能性(Latent variable marginal chance, LVML)という3つの標準的な損失関数のうちの1つを最適化することによって学習される。これら3つのパラダイムは、入力の右 \textit{segment} を 'select' する 'focus' モデルと、選択したセグメントをターゲットラベルに処理する 'classification' モデルである。しかし、これらは選択されたセグメントを集約する方法で大きく異なり、異なるダイナミクスと最終的な結果をもたらす。これらのパラダイムを用いて学習したモデルのユニークなシグネチャを観察し,フォーカスモデルが固定された場合の勾配降下下での分類モデルの進化の帰結として説明する。また,これらのパラダイムを簡単な設定で解析し,勾配流下のパラメータ軌跡の閉形式式を導出する。ソフトアテンションの損失により、フォーカスモデルは初期化と後続のスパッタで急速に改善する。一方、注意喪失は反対方向に振る舞う。我々の観測に基づいて、異なる損失関数の利点を組み合わせた単純なハイブリッドアプローチを提案し、半合成および実世界のデータセットの集合上でそれを実証する。

関連論文リスト

Invariance Pair-Guided Learning: Enhancing Robustness in Neural Networks [0.0]
トレーニングフェーズを通じてニューラルネットワークを誘導する手法を提案する。従来の勾配降下法を補完する補正勾配を形成する。 ColoredMNIST、Waterbird-100、CelebANISTデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2025-02-26T09:36:00Z)
Data-Driven Approaches for Modelling Target Behaviour [1.5495593104596401]
追跡アルゴリズムの性能は、対象の力学に関する選択されたモデル仮定に依存する。本稿では,物体の動きを記述するために機械学習を利用する3つの異なる手法の比較研究を行う。
論文参考訳（メタデータ） (2024-10-14T14:18:27Z)
Dynamic Feature Learning and Matching for Class-Incremental Learning [20.432575325147894]
CIL(Class-incremental Learning)は,従来のクラスを破滅的に忘れることなく,新しいクラスを学習する方法として登場した。本稿では,動的特徴学習とマッチング(DFLM)モデルを提案する。提案手法は既存手法に比べて大幅な性能向上を実現している。
論文参考訳（メタデータ） (2024-05-14T12:17:19Z)
Separating common from salient patterns with Contrastive Representation Learning [2.250968907999846]
コントラスト分析は、2つのデータセット間の変動の共通要因を分離することを目的としている。変分オートエンコーダに基づく現在のモデルは意味表現の学習において性能が劣っている。コントラスト分析に適合した意味表現表現を学習するためのコントラスト学習の活用を提案する。
論文参考訳（メタデータ） (2024-02-19T08:17:13Z)
Vanishing Feature: Diagnosing Model Merging and Beyond [1.1510009152620668]
結合モデルによる伝搬中に入力誘起特徴が減少する「消滅特徴」現象を同定する。既存の正規化戦略は、消滅する特徴問題を的確に標的にすることで強化できることを示す。初期層機能の保存に重点を置いたPFM(Preserve-First Merging')戦略を提案する。
論文参考訳（メタデータ） (2024-02-05T17:06:26Z)
Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文参考訳（メタデータ） (2023-08-10T08:43:20Z)
Meta-tuning Loss Functions and Data Augmentation for Few-shot Object Detection [7.262048441360132]
少ないショットのオブジェクト検出は、少数ショットの学習とオブジェクト検出という領域において、新たなトピックである。本稿では,数発検出を促進できる帰納的バイアスの学習を可能にする訓練手法を提案する。提案手法は,高パラメトリックかつ複雑な数ショットメタモデルとは対照的に,解釈可能な損失関数を生成する。
論文参考訳（メタデータ） (2023-04-24T15:14:16Z)
Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文参考訳（メタデータ） (2023-03-31T10:53:24Z)
ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。 StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文参考訳（メタデータ） (2022-12-14T15:22:13Z)
Towards Robust and Adaptive Motion Forecasting: A Causal Representation Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文参考訳（メタデータ） (2021-11-29T18:59:09Z)
Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文参考訳（メタデータ） (2021-07-08T13:10:42Z)
Unleashing the Power of Contrastive Self-Supervised Visual Models via Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文参考訳（メタデータ） (2021-02-12T16:31:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。