論文の概要: BDC-Adapter: Brownian Distance Covariance for Better Vision-Language
Reasoning
- arxiv url: http://arxiv.org/abs/2309.01256v1
- Date: Sun, 3 Sep 2023 19:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:32:44.285041
- Title: BDC-Adapter: Brownian Distance Covariance for Better Vision-Language
Reasoning
- Title(参考訳): BDC-Adapter: より良い視覚言語推論のためのブラウン距離共分散
- Authors: Yi Zhang, Ce Zhang, Zihan Liao, Yushun Tang, Zhihai He
- Abstract要約: 視覚言語推論の分野にブラウン距離共分散(BDC)を導入する。
BDCは全ての可能な関係をモデル化でき、特徴依存を測定するための堅牢な指標を提供する。
本稿では,BDCプロトタイプの類似性推論とマルチモーダル推論ネットワーク予測を統合したBDC-Adapterを提案する。
- 参考スコア(独自算出の注目度): 26.75156572762166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained Vision-Language Models (VLMs), such as CLIP and
ALIGN, have introduced a new paradigm for learning transferable visual
representations. Recently, there has been a surge of interest among researchers
in developing lightweight fine-tuning techniques to adapt these models to
downstream visual tasks. We recognize that current state-of-the-art fine-tuning
methods, such as Tip-Adapter, simply consider the covariance between the query
image feature and features of support few-shot training samples, which only
captures linear relations and potentially instigates a deceptive perception of
independence. To address this issue, in this work, we innovatively introduce
Brownian Distance Covariance (BDC) to the field of vision-language reasoning.
The BDC metric can model all possible relations, providing a robust metric for
measuring feature dependence. Based on this, we present a novel method called
BDC-Adapter, which integrates BDC prototype similarity reasoning and
multi-modal reasoning network prediction to perform classification tasks. Our
extensive experimental results show that the proposed BDC-Adapter can freely
handle non-linear relations and fully characterize independence, outperforming
the current state-of-the-art methods by large margins.
- Abstract(参考訳): CLIPやALIGNのような大規模事前学習型視覚言語モデル(VLM)は、転送可能な視覚表現を学習するための新しいパラダイムを導入している。
近年、研究者の間では、これらのモデルを下流視覚タスクに適応させる軽量な微調整技術開発への関心が高まっている。
tip-adapterのような現在の最先端の微調整手法は、クエリ画像の特徴と、リニアリレーションのみをキャプチャし、潜在的に独立性知覚を誘惑する、少数ショットトレーニングサンプルの特徴との共分散を単純に考慮している。
この問題に対処するため、本研究では、視覚言語推論の分野にブラウン距離共分散(BDC)を革新的に導入する。
BDCメトリックはすべての可能な関係をモデル化することができ、特徴依存を測定するための堅牢な指標を提供する。
そこで本研究では,BDCプロトタイプの類似性推論とマルチモーダル推論ネットワーク予測を統合したBDC-Adapterを提案する。
広範な実験結果から,提案するbdc適応器は非線形関係を自由に処理でき,独立性を完全に特徴付けることができ,現在の最先端手法を大きなマージンで上回っている。
関連論文リスト
- Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning [16.998833621046117]
テスト期間中に直接動作するTT-DNA(Test-Time Distribution LearNing Adapter)を提案する。
具体的には,ガウス分布を推定し,少数ショット支援画像の視覚的特徴をモデル化し,支援セットから知識を抽出する。
ヒトの物体相互作用の視覚的推論に関する広範な実験結果から,提案したTT-DNAは既存の最先端手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2024-03-10T01:34:45Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Can Offline Reinforcement Learning Help Natural Language Understanding? [31.788133426611587]
オフライン強化学習(RL)と言語モデリング(LM)の関連性について検討する。
RLとLMは、局所的および長期的依存に依存する現在の状態と以前の状態に基づいて、次の状態を予測するのに類似している。
実験結果から, RL事前学習モデルでは, LM学習目標を用いたモデルと比較すると, 性能が良好であることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:55:10Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain,
Active and Continual Few-Shot Learning [41.07029317930986]
低ラベル方式で動作するモデルの分散感応クラスを提案する。
最初の手法であるSimple CNAPSは階層的に正規化されたマハラノビス距離に基づく分類器を用いる。
我々はさらに、このアプローチをトランスダクティブ学習環境に拡張し、トランスダクティブCNAPSを提案する。
論文 参考訳(メタデータ) (2022-01-13T18:59:02Z) - Minimizing subject-dependent calibration for BCI with Riemannian
transfer learning [0.8399688944263843]
異なる被験者から記録されたデータに基づいて分類器を訓練し、良好な性能を保ちながら校正を減らそうとする手法を提案する。
このアプローチの堅牢性を示すために,3つのBCIパラダイムに対して,複数のデータセットのメタ分析を行った。
論文 参考訳(メタデータ) (2021-11-23T18:37:58Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。