論文の概要: BDC-Adapter: Brownian Distance Covariance for Better Vision-Language
Reasoning
- arxiv url: http://arxiv.org/abs/2309.01256v1
- Date: Sun, 3 Sep 2023 19:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:32:44.285041
- Title: BDC-Adapter: Brownian Distance Covariance for Better Vision-Language
Reasoning
- Title(参考訳): BDC-Adapter: より良い視覚言語推論のためのブラウン距離共分散
- Authors: Yi Zhang, Ce Zhang, Zihan Liao, Yushun Tang, Zhihai He
- Abstract要約: 視覚言語推論の分野にブラウン距離共分散(BDC)を導入する。
BDCは全ての可能な関係をモデル化でき、特徴依存を測定するための堅牢な指標を提供する。
本稿では,BDCプロトタイプの類似性推論とマルチモーダル推論ネットワーク予測を統合したBDC-Adapterを提案する。
- 参考スコア(独自算出の注目度): 26.75156572762166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained Vision-Language Models (VLMs), such as CLIP and
ALIGN, have introduced a new paradigm for learning transferable visual
representations. Recently, there has been a surge of interest among researchers
in developing lightweight fine-tuning techniques to adapt these models to
downstream visual tasks. We recognize that current state-of-the-art fine-tuning
methods, such as Tip-Adapter, simply consider the covariance between the query
image feature and features of support few-shot training samples, which only
captures linear relations and potentially instigates a deceptive perception of
independence. To address this issue, in this work, we innovatively introduce
Brownian Distance Covariance (BDC) to the field of vision-language reasoning.
The BDC metric can model all possible relations, providing a robust metric for
measuring feature dependence. Based on this, we present a novel method called
BDC-Adapter, which integrates BDC prototype similarity reasoning and
multi-modal reasoning network prediction to perform classification tasks. Our
extensive experimental results show that the proposed BDC-Adapter can freely
handle non-linear relations and fully characterize independence, outperforming
the current state-of-the-art methods by large margins.
- Abstract(参考訳): CLIPやALIGNのような大規模事前学習型視覚言語モデル(VLM)は、転送可能な視覚表現を学習するための新しいパラダイムを導入している。
近年、研究者の間では、これらのモデルを下流視覚タスクに適応させる軽量な微調整技術開発への関心が高まっている。
tip-adapterのような現在の最先端の微調整手法は、クエリ画像の特徴と、リニアリレーションのみをキャプチャし、潜在的に独立性知覚を誘惑する、少数ショットトレーニングサンプルの特徴との共分散を単純に考慮している。
この問題に対処するため、本研究では、視覚言語推論の分野にブラウン距離共分散(BDC)を革新的に導入する。
BDCメトリックはすべての可能な関係をモデル化することができ、特徴依存を測定するための堅牢な指標を提供する。
そこで本研究では,BDCプロトタイプの類似性推論とマルチモーダル推論ネットワーク予測を統合したBDC-Adapterを提案する。
広範な実験結果から,提案するbdc適応器は非線形関係を自由に処理でき,独立性を完全に特徴付けることができ,現在の最先端手法を大きなマージンで上回っている。
関連論文リスト
- What Representational Similarity Measures Imply about Decodable Information [6.5879381737929945]
我々は、デコーディングの観点から、いくつかのニューラルネットワーク類似度尺度が等価に動機付けられることを示した。
CKAやCCAといった手法は、デコードタスクの分散を通して最適な線形読み込み間の平均的なアライメントを定量化します。
全体として、我々の研究は、神経表現の幾何学と情報を線形に復号する能力の密接な関係を実証している。
論文 参考訳(メタデータ) (2024-11-12T21:37:10Z) - Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment [31.402736873762418]
言語モデルアライメント手法により,高機能な誘導不要なAR視覚生成を容易にするためのテキストコンディションコントラストアライメント(CCA)を提案する。
実験の結果,CCAは1つのエポック微調整で全試験モデルの誘導不要性能を著しく向上させることができることがわかった。
このことは,言語的アライメントと視覚的アライメントの強い関係を実験的に確認する。
論文 参考訳(メタデータ) (2024-10-12T03:31:25Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Relational Concept Bottleneck Models [13.311396882130033]
概念ボトルネックモデル(CBM)は問題を解決するために設計されていない。
R-CBMは標準CBMとリレーショナルGNNの両方を表現できる。
特に,R-CBMが概念に基づく説明の生成を支援することを示す。
論文 参考訳(メタデータ) (2023-08-23T08:25:33Z) - Can Offline Reinforcement Learning Help Natural Language Understanding? [31.788133426611587]
オフライン強化学習(RL)と言語モデリング(LM)の関連性について検討する。
RLとLMは、局所的および長期的依存に依存する現在の状態と以前の状態に基づいて、次の状態を予測するのに類似している。
実験結果から, RL事前学習モデルでは, LM学習目標を用いたモデルと比較すると, 性能が良好であることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:55:10Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Minimizing subject-dependent calibration for BCI with Riemannian
transfer learning [0.8399688944263843]
異なる被験者から記録されたデータに基づいて分類器を訓練し、良好な性能を保ちながら校正を減らそうとする手法を提案する。
このアプローチの堅牢性を示すために,3つのBCIパラダイムに対して,複数のデータセットのメタ分析を行った。
論文 参考訳(メタデータ) (2021-11-23T18:37:58Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。