Fugu-MT 論文翻訳(概要): Learning Diverse Features in Vision Transformers for Improved Generalization

論文の概要: Learning Diverse Features in Vision Transformers for Improved Generalization

arxiv url: http://arxiv.org/abs/2308.16274v1
Date: Wed, 30 Aug 2023 19:04:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 18:39:44.188673
Title: Learning Diverse Features in Vision Transformers for Improved Generalization
Title（参考訳）: 一般化改善のための視覚トランスフォーマの多様な特徴の学習
Authors: Armand Mihai Nicolicioiu, Andrei Liviu Nicolicioiu, Bogdan Alexe, Damien Teney
Abstract要約: 視覚変換器(ViT)は、異なる注意頭を持つ頑丈で刺激的な特徴を抽出する傾向があることを示す。このモジュラリティにより、分散シフト時の性能はテスト時に大幅に改善される。本稿では,注目者の入力勾配の促進により,学習特徴の多様性と補完性をさらに向上する手法を提案する。
参考スコア（独自算出の注目度）: 15.905065768434403
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning models often rely only on a small set of features even when there is a rich set of predictive signals in the training data. This makes models brittle and sensitive to distribution shifts. In this work, we first examine vision transformers (ViTs) and find that they tend to extract robust and spurious features with distinct attention heads. As a result of this modularity, their performance under distribution shifts can be significantly improved at test time by pruning heads corresponding to spurious features, which we demonstrate using an "oracle selection" on validation data. Second, we propose a method to further enhance the diversity and complementarity of the learned features by encouraging orthogonality of the attention heads' input gradients. We observe improved out-of-distribution performance on diagnostic benchmarks (MNIST-CIFAR, Waterbirds) as a consequence of the enhanced diversity of features and the pruning of undesirable heads.
Abstract（参考訳）: ディープラーニングモデルは、トレーニングデータに豊富な予測信号セットがある場合でも、小さな機能セットのみに依存することが多い。これにより、モデルは脆く、分散シフトに敏感になる。そこで本研究では,まず視覚トランスフォーマー(vits)について検討し,異なる注意ヘッドを持つ頑健でスプリアスな特徴を抽出する傾向を示した。このモジュール性により,検証データ上での"oracle selection"を用いて実証する,スプリアス機能に対応するヘッドをプルーニングすることで,テスト時に配布シフト時のパフォーマンスが大幅に向上する。次に,注意ヘッドの入力勾配の直交性を促進することにより,学習特徴の多様性と相補性をさらに高める手法を提案する。診断ベンチマーク(MNIST-CIFAR, Waterbirds)では, 特徴の多様性の向上と望ましくない頭部の刈り取りの結果, 分配性能の改善が観察された。

関連論文リスト

Debiased Prompt Tuning in Vision-Language Model without Annotations [14.811475313694041]
VLM(Vision-Language Models)は、素早い相関の問題に悩まされる可能性がある。擬似純粋属性アノテーションを利用することで,異なるグループのトレーニング重みを自動調整する手法を提案する。提案手法は,CelebA,Waterbirds,MetaShiftのデータセットにおける最悪のグループ精度を効率的に向上する。
論文参考訳（メタデータ） (2025-03-11T12:24:54Z)
VSFormer: Value and Shape-Aware Transformer with Prior-Enhanced Self-Attention for Multivariate Time Series Classification [47.92529531621406]
識別パターン(形状)と数値情報(値)の両方を組み込んだVSFormerを提案する。さらに、教師付き情報から派生したクラス固有の事前情報を抽出し、位置エンコーディングを強化する。 30のUEAアーカイブデータセットに対する大規模な実験は、SOTAモデルと比較して、我々の手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-12-21T07:31:22Z)
CAVE: Classifying Abnormalities in Video Capsule Endoscopy [0.1937002985471497]
本研究では,複雑な画像データセットの分類精度を向上させるために,アンサンブルに基づくアプローチを検討する。各モデルのユニークな特徴抽出機能を活用し、全体的な精度を向上させる。実験により、アンサンブルは難易度と不均衡度の高いクラス間で高い精度と堅牢性を達成することが示された。
論文参考訳（メタデータ） (2024-10-26T17:25:08Z)
Exploring Stronger Transformer Representation Learning for Occluded Person Re-Identification [2.552131151698595]
我々はトランスフォーマーに基づく人物識別フレームワークであるSSSC-TransReIDを組み合わせた新しい自己監督・監督手法を提案した。我々は、ネガティブなサンプルや追加の事前学習なしに、人物の再識別のための特徴表現を強化することができる自己教師付きコントラスト学習ブランチを設計した。提案モデルでは, 平均平均精度(mAP) とランク1の精度において, 最先端のReID手法よりも優れたRe-ID性能が得られ, 高いマージンで性能が向上する。
論文参考訳（メタデータ） (2024-10-21T03:17:25Z)
Feature Augmentation for Self-supervised Contrastive Learning: A Closer Look [28.350278251132078]
本稿では,機能拡張(Feature Augmentation)として知られる機能空間でデータ拡張を行う統一フレームワークを提案する。この戦略はドメインに依存しないため、元のものと同様の機能が追加され、データの多様性が向上する。
論文参考訳（メタデータ） (2024-10-16T09:25:11Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
Unsupervised Generative Feature Transformation via Graph Contrastive Pre-training and Multi-objective Fine-tuning [28.673952870674146]
教師なし特徴変換学習のための測定-事前訓練-ファネチューンパラダイムを開発した。教師なし特徴集合の実用性測定のために,特徴値の整合性維持の観点から提案する。生成的変換ファインタニングでは,特徴集合を特徴クロスシーケンス,特徴変換を逐次生成とみなす。
論文参考訳（メタデータ） (2024-05-27T06:50:00Z)
Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。 DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文参考訳（メタデータ） (2023-11-23T15:47:33Z)
MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations [2.94944680995069]
本稿では,パラメータ効率のよいマルチタスク型自己教師型フレームワーク(MT-SLVR)を提案する。我々は,様々な音声領域から抽出された数ショットの分類タスクに対するアプローチを評価し,分類性能の向上を実証した。
論文参考訳（メタデータ） (2023-05-29T09:10:50Z)
Agree to Disagree: Diversity through Disagreement for Better Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文参考訳（メタデータ） (2022-02-09T12:03:02Z)
Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文参考訳（メタデータ） (2021-12-10T20:46:13Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。