Fugu-MT 論文翻訳(概要): BDC-Adapter: Brownian Distance Covariance for Better Vision-Language Reasoning

論文の概要: BDC-Adapter: Brownian Distance Covariance for Better Vision-Language Reasoning

arxiv url: http://arxiv.org/abs/2309.01256v1
Date: Sun, 3 Sep 2023 19:45:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 20:32:44.285041
Title: BDC-Adapter: Brownian Distance Covariance for Better Vision-Language Reasoning
Title（参考訳）: BDC-Adapter: より良い視覚言語推論のためのブラウン距離共分散
Authors: Yi Zhang, Ce Zhang, Zihan Liao, Yushun Tang, Zhihai He
Abstract要約: 視覚言語推論の分野にブラウン距離共分散(BDC)を導入する。 BDCは全ての可能な関係をモデル化でき、特徴依存を測定するための堅牢な指標を提供する。本稿では,BDCプロトタイプの類似性推論とマルチモーダル推論ネットワーク予測を統合したBDC-Adapterを提案する。
参考スコア（独自算出の注目度）: 26.75156572762166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale pre-trained Vision-Language Models (VLMs), such as CLIP and ALIGN, have introduced a new paradigm for learning transferable visual representations. Recently, there has been a surge of interest among researchers in developing lightweight fine-tuning techniques to adapt these models to downstream visual tasks. We recognize that current state-of-the-art fine-tuning methods, such as Tip-Adapter, simply consider the covariance between the query image feature and features of support few-shot training samples, which only captures linear relations and potentially instigates a deceptive perception of independence. To address this issue, in this work, we innovatively introduce Brownian Distance Covariance (BDC) to the field of vision-language reasoning. The BDC metric can model all possible relations, providing a robust metric for measuring feature dependence. Based on this, we present a novel method called BDC-Adapter, which integrates BDC prototype similarity reasoning and multi-modal reasoning network prediction to perform classification tasks. Our extensive experimental results show that the proposed BDC-Adapter can freely handle non-linear relations and fully characterize independence, outperforming the current state-of-the-art methods by large margins.
Abstract（参考訳）: CLIPやALIGNのような大規模事前学習型視覚言語モデル(VLM)は、転送可能な視覚表現を学習するための新しいパラダイムを導入している。近年、研究者の間では、これらのモデルを下流視覚タスクに適応させる軽量な微調整技術開発への関心が高まっている。 tip-adapterのような現在の最先端の微調整手法は、クエリ画像の特徴と、リニアリレーションのみをキャプチャし、潜在的に独立性知覚を誘惑する、少数ショットトレーニングサンプルの特徴との共分散を単純に考慮している。この問題に対処するため、本研究では、視覚言語推論の分野にブラウン距離共分散(BDC)を革新的に導入する。 BDCメトリックはすべての可能な関係をモデル化することができ、特徴依存を測定するための堅牢な指標を提供する。そこで本研究では,BDCプロトタイプの類似性推論とマルチモーダル推論ネットワーク予測を統合したBDC-Adapterを提案する。広範な実験結果から,提案するbdc適応器は非線形関係を自由に処理でき,独立性を完全に特徴付けることができ,現在の最先端手法を大きなマージンで上回っている。

関連論文リスト

Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳（メタデータ） (2025-03-11T03:58:17Z)
Enhancing Multimodal Entity Linking with Jaccard Distance-based Conditional Contrastive Learning and Contextual Visual Augmentation [37.22528391940295]
本稿では,JD-CCL(Jaccard Distance-based Contrastive Learning)を提案する。参照やエンティティ間の視覚的モダリティの変化による制約を解決するために,新しいCVaCPT(Con Visual-aid Controllable Patch Transform)を提案する。
論文参考訳（メタデータ） (2025-01-24T01:35:10Z)
Debias your Large Multi-Modal Model at Test-Time via Non-Contrastive Visual Attribute Steering [7.471995248769638]
大規模マルチモーダルモデル(LMM)のための学習自由脱バイアスフレームワークを提案する。我々のフレームワークは、保護された属性に対する参照を減らすステアリングベクトルを構築することによって、テキスト生成中のモデルの表現に介入する。実験の結果,これらの介入は,感情や流布を維持しつつ,保護属性に関連するテキストを生成するLMMの妥当性を効果的に低下させることが示唆された。
論文参考訳（メタデータ） (2024-11-15T20:06:09Z)
What Representational Similarity Measures Imply about Decodable Information [6.5879381737929945]
我々は、デコーディングの観点から、いくつかのニューラルネットワーク類似度尺度が等価に動機付けられることを示した。 CKAやCCAといった手法は、デコードタスクの分散を通して最適な線形読み込み間の平均的なアライメントを定量化します。全体として、我々の研究は、神経表現の幾何学と情報を線形に復号する能力の密接な関係を実証している。
論文参考訳（メタデータ） (2024-11-12T21:37:10Z)
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment [31.402736873762418]
言語モデルアライメント手法により,高機能な誘導不要なAR視覚生成を容易にするためのテキストコンディションコントラストアライメント(CCA)を提案する。実験の結果,CCAは1つのエポック微調整で全試験モデルの誘導不要性能を著しく向上させることができることがわかった。このことは,言語的アライメントと視覚的アライメントの強い関係を実験的に確認する。
論文参考訳（メタデータ） (2024-10-12T03:31:25Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文参考訳（メタデータ） (2023-10-03T17:37:52Z)
Relational Concept Bottleneck Models [13.311396882130033]
概念ボトルネックモデル(CBM)は問題を解決するために設計されていない。 R-CBMは標準CBMとリレーショナルGNNの両方を表現できる。特に,R-CBMが概念に基づく説明の生成を支援することを示す。
論文参考訳（メタデータ） (2023-08-23T08:25:33Z)
Can Offline Reinforcement Learning Help Natural Language Understanding? [31.788133426611587]
オフライン強化学習(RL)と言語モデリング(LM)の関連性について検討する。 RLとLMは、局所的および長期的依存に依存する現在の状態と以前の状態に基づいて、次の状態を予測するのに類似している。実験結果から, RL事前学習モデルでは, LM学習目標を用いたモデルと比較すると, 性能が良好であることが示唆された。
論文参考訳（メタデータ） (2022-09-15T02:55:10Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)
Minimizing subject-dependent calibration for BCI with Riemannian transfer learning [0.8399688944263843]
異なる被験者から記録されたデータに基づいて分類器を訓練し、良好な性能を保ちながら校正を減らそうとする手法を提案する。このアプローチの堅牢性を示すために,3つのBCIパラダイムに対して,複数のデータセットのメタ分析を行った。
論文参考訳（メタデータ） (2021-11-23T18:37:58Z)
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文参考訳（メタデータ） (2021-06-07T05:31:06Z)
Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文参考訳（メタデータ） (2021-02-03T13:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。