Fugu-MT 論文翻訳(概要): Convolutional Visual Prompt for Robust Visual Perception

論文の概要: Convolutional Visual Prompt for Robust Visual Perception

arxiv url: http://arxiv.org/abs/2303.00198v2
Date: Thu, 26 Oct 2023 03:10:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 02:38:55.558315
Title: Convolutional Visual Prompt for Robust Visual Perception
Title（参考訳）: ロバスト視覚知覚のための畳み込み視覚プロンプト
Authors: Yun-Yun Tsai, Chengzhi Mao, Junfeng Yang
Abstract要約: 視覚モデルは、適応することなく、しばしばオフ・オブ・ディストリビューション(OOD)サンプルに対して脆弱である。頑健な視覚知覚のためのラベルなしテスト時間適応のための畳み込み視覚プロンプトを導入する。当社のアプローチは有効であり、複数の大規模モデルに対して最大5.87%の堅牢性向上を実現しています。
参考スコア（独自算出の注目度）: 21.37507356862966
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision models are often vulnerable to out-of-distribution (OOD) samples without adapting. While visual prompts offer a lightweight method of input-space adaptation for large-scale vision models, they rely on a high-dimensional additive vector and labeled data. This leads to overfitting when adapting models in a self-supervised test-time setting without labels. We introduce convolutional visual prompts (CVP) for label-free test-time adaptation for robust visual perception. The structured nature of CVP demands fewer trainable parameters, less than 1\% compared to standard visual prompts, combating overfitting. Extensive experiments and analysis on a wide variety of OOD visual perception tasks show that our approach is effective, improving robustness by up to 5.87% over several large-scale models.
Abstract（参考訳）: 視覚モデルは、適応することなく、しばしばオフ・オブ・ディストリビューション(OOD)サンプルに対して脆弱である。視覚プロンプトは、大規模な視覚モデルに対する入力空間適応の軽量な方法を提供するが、それらは高次元の加算ベクトルとラベル付きデータに依存している。これはラベルなしで自己管理されたテスト時間設定でモデルを適応する際の過度な適合につながる。頑健な視覚知覚のためのラベルなしテスト時間適応のための畳み込み視覚プロンプト(CVP)を導入する。 CVPの構造的な性質はトレーニング可能なパラメータが少なく、標準の視覚的プロンプトに比べて1\%以下であり、オーバーフィッティングと戦っている。多様なOOD視覚認知タスクの広範囲な実験と分析により、我々のアプローチが効果的であることを示し、複数の大規模モデルに対して最大5.87%の堅牢性を向上した。

関連論文リスト

Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Noise is an Efficient Learner for Zero-Shot Vision-Language Models [9.519280130389935]
テスト時間ノイズチューニングは、視覚空間における予測不可能なシフトを処理する新しい方法である。埋め込みにおいてコヒーレンスを明示的に強制することにより、ビュー間表現アライメントのための新しいアプローチを導入する。これらの改善は、アダプティブ・アウト・オブ・ディストリビューション・ハンドリングの強力な基盤となった。
論文参考訳（メタデータ） (2025-02-09T20:25:42Z)
Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文参考訳（メタデータ） (2024-12-19T08:51:01Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文参考訳（メタデータ） (2024-10-12T07:56:47Z)
CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。 CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。 CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文参考訳（メタデータ） (2024-08-27T11:07:19Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Noise-Tolerant Few-Shot Unsupervised Adapter for Vision-Language Models [8.59772105902647]
NtUAは、雑音耐性のない教師なし適応器で、非競合なターゲットサンプルをほとんど持たない効果的なターゲットモデルの学習を可能にする。 NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、少数の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。 NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-09-26T13:35:31Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文参考訳（メタデータ） (2022-10-07T19:35:08Z)
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文参考訳（メタデータ） (2021-09-24T08:07:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。