論文の概要: SVD-ViT: Does SVD Make Vision Transformers Attend More to the Foreground?
- arxiv url: http://arxiv.org/abs/2602.02765v1
- Date: Mon, 02 Feb 2026 20:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.067211
- Title: SVD-ViT: Does SVD Make Vision Transformers Attend More to the Foreground?
- Title(参考訳): SVD-ViT:SVDはビジョントランスフォーマーを前景に近づける?
- Authors: Haruhiko Murata, Kazuhiro Hotta,
- Abstract要約: 視覚変換器(ViT)は大規模な基礎モデルとして確立されている。
本稿では,前景特徴の学習を優先するSVD-ViTを提案する。
実験により,本手法は分類精度を向上し,情報的前景表現を効果的に学習することを示した。
- 参考スコア(独自算出の注目度): 17.159633200689225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT) have been established as large-scale foundation models. However, because self-attention operates globally, they lack an explicit mechanism to distinguish foreground from background. As a result, ViT may learn unnecessary background features and artifacts, leading to degraded classification performance. To address this issue, we propose SVD-ViT, which leverages singular value decomposition (SVD) to prioritize the learning of foreground features. SVD-ViT consists of three components-\textbf{SPC module}, \textbf{SSVA}, and \textbf{ID-RSVD}-and suppresses task-irrelevant factors such as background noise and artifacts by extracting and aggregating singular vectors that capture object foreground information. Experimental results demonstrate that our method improves classification accuracy and effectively learns informative foreground representations while reducing the impact of background noise.
- Abstract(参考訳): 視覚変換器(ViT)は大規模な基礎モデルとして確立されている。
しかし、自己意識は世界中で活動するため、前景と背景を区別する明確なメカニズムが欠如している。
その結果、ViTは不要なバックグラウンド機能やアーティファクトを学習し、分類性能が低下する可能性がある。
この問題に対処するために,単数値分解(SVD)を利用して前景特徴の学習を優先するSVD-ViTを提案する。
SVD-ViTは3つのコンポーネント-\textbf{SPC module}, \textbf{SSVA}, \textbf{ID-RSVD}-で構成され、オブジェクトフォアグラウンド情報をキャプチャする特異ベクトルを抽出・集約することにより、バックグラウンドノイズやアーティファクトなどのタスク非関連要素を抑制する。
実験により,本手法は分類精度を向上し,背景雑音の影響を低減しつつ,情報的前景表現を効果的に学習することを示した。
関連論文リスト
- Which Direction to Choose? An Analysis on the Representation Power of Self-Supervised ViTs in Downstream Tasks [43.473390101413166]
視覚変換のための自己監督学習(ViTs)は、近年、様々なコンピュータビジョンタスクの事前学習戦略としてかなりの可能性を示している。
本研究の目的は,画像分類とセグメント化タスクにまたがる未修正特徴の使用を体系的に評価することで,ギャップを埋めることである。
論文 参考訳(メタデータ) (2025-09-18T11:46:07Z) - LetheViT: Selective Machine Unlearning for Vision Transformers via Attention-Guided Contrastive Learning [8.104991333199264]
ViT(Vision Transformers)は、コンピュータビジョンタスクに革命をもたらした。
この研究は、ViTにおけるランダムなデータの忘れという特に困難なシナリオに対処する。
本稿では,ViTに適した非学習手法であるLetheViTを提案する。
論文 参考訳(メタデータ) (2025-08-03T03:37:31Z) - Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis [38.074487843137064]
本稿では,教師付き事前学習型視覚変換器(ViTs)と従来のニューラルネットワーク(ConvNets)とを比較し,顔深度画像やビデオの検出に有効であることを示す。
これは、特に限られたトレーニングデータを用いて、一般化と説明可能性を改善する可能性について検討する。
SSL ViTsを利用して、平易なデータによるディープフェイク検出と部分的な微調整を行い、注意機構を介してディープフェイク検出と説明可能性に匹敵する適応性を見出す。
論文 参考訳(メタデータ) (2024-05-01T07:16:49Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。