Fugu-MT 論文翻訳(概要): Deep Fusion: Capturing Dependencies in Contrastive Learning via Transformer Projection Heads

論文の概要: Deep Fusion: Capturing Dependencies in Contrastive Learning via Transformer Projection Heads

arxiv url: http://arxiv.org/abs/2403.18681v2
Date: Mon, 07 Oct 2024 16:25:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:30:50.403058
Title: Deep Fusion: Capturing Dependencies in Contrastive Learning via Transformer Projection Heads
Title（参考訳）: Deep Fusion: トランスフォーマープロジェクションヘッドによるコントラスト学習の依存関係のキャプチャ
Authors: Huanran Li, Daniel Pimentel-Alarcón,
Abstract要約: Contrastive Learning (CL) は、ラベルのないデータを用いて特徴抽出モデルを訓練するための強力な方法として登場した。近年の研究では、線形投射ヘッドポストバックボーンの導入により、モデル性能が著しく向上することが示唆されている。コントラスト学習におけるプロジェクションヘッドの役割にトランスフォーマーの新たな応用を導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contrastive Learning (CL) has emerged as a powerful method for training feature extraction models using unlabeled data. Recent studies suggest that incorporating a linear projection head post-backbone significantly enhances model performance. In this work, we investigate the use of a transformer model as a projection head within the CL framework, aiming to exploit the transformer's capacity for capturing long-range dependencies across embeddings to further improve performance. Our key contributions are fourfold: First, we introduce a novel application of transformers in the projection head role for contrastive learning, marking the first endeavor of its kind. Second, our experiments reveal a compelling "Deep Fusion" phenomenon where the attention mechanism progressively captures the correct relational dependencies among samples from the same class in deeper layers. Third, we provide a theoretical framework that explains and supports this "Deep Fusion" behavior. Finally, we demonstrate through experimental results that our model achieves superior performance compared to the existing approach of using a feed-forward layer.
Abstract（参考訳）: Contrastive Learning (CL) は、ラベルのないデータを用いて特徴抽出モデルを訓練するための強力な方法として登場した。近年の研究では、線形投射ヘッドポストバックボーンの導入により、モデル性能が著しく向上することが示唆されている。本研究では,CLフレームワーク内でのプロジェクションヘッドとしてのトランスフォーマーモデルの利用について検討し,組込みにおける長距離依存性を捕捉するトランスフォーマーの能力を活用し,さらなる性能向上を図ることを目的とする。まず、コントラスト学習のためのプロジェクションヘッドロールにトランスフォーマーの新たな応用を導入し、この種の最初の取り組みを示す。第二に、我々の実験は、より深い層における同じクラスのサンプル間の適切な関係関係を、注意機構が徐々に捉える、魅力的な「ディープ・フュージョン」現象を明らかにした。第三に、我々はこの「ディープフュージョン」の振る舞いを説明し、サポートする理論的枠組みを提供します。最後に,本モデルがフィードフォワード層を用いた既存手法と比較して優れた性能を発揮することを示す。

関連論文リスト

In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文参考訳（メタデータ） (2024-09-13T12:21:25Z)
Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。 ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文参考訳（メタデータ） (2024-09-12T05:55:32Z)
Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。 SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文参考訳（メタデータ） (2024-06-17T07:24:38Z)
Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文参考訳（メタデータ） (2023-09-15T09:18:54Z)
R-Cut: Enhancing Explainability in Vision Transformers with Relationship Weighted Out and Cut [14.382326829600283]
リレーションウェイトアウト」と「カット」の2つのモジュールを紹介します。 Cut"モジュールは、位置、テクスチャ、色などの要素を考慮して、きめ細かい特徴分解を行う。我々は,ImageNetデータセット上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-07-18T08:03:51Z)
VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-08T06:49:54Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
DepthFormer: Exploiting Long-Range Correlation and Local Information for Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-27T05:03:56Z)
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-01-24T17:48:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。