論文の概要: Beyond Graph Model: Reliable VLM Fine-Tuning via Random Graph Adapter
- arxiv url: http://arxiv.org/abs/2507.10355v1
- Date: Mon, 14 Jul 2025 14:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.176372
- Title: Beyond Graph Model: Reliable VLM Fine-Tuning via Random Graph Adapter
- Title(参考訳): Beyond Graph Model: Random Graph Adapterによる信頼性の高いVLMファインチューニング
- Authors: Bo Jiang, Xueyang Ze, Beibei Wang, Xixi Wang, Xixi Wan, Bin Luo,
- Abstract要約: 既存の作品は一般的に、各カテゴリを洗練させるために決定論的テキスト特徴アダプタを使用している。
ランダムグラフモデルをVLMアダプタに利用し、新しいVertex Random Graph Adapter(VRGAdapter)を開発することを提案する。
VRGAdapterはまず、各カテゴリの固有の多様な記述と、異なるカテゴリのクラス間の関係を同時にモデル化する。
- 参考スコア(独自算出の注目度): 13.042863991752883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual adapter-based tuning methods have shown significant potential in transferring knowledge from pre-trained Vision-Language Models (VLMs) to downstream tasks. Existing works generally employ the deterministic textual feature adapter to refine each category textual representation. However, due to inherent factors such as different attributes and contexts, there exists significant diversity in textual descriptions for each category. Such description diversity offers rich discriminative semantic knowledge that can benefit downstream visual learning tasks. Obviously, traditional deterministic adapter model cannot adequately capture this varied semantic information. Also, it is desirable to exploit the inter-class relationships in VLM adapter. To address these issues, we propose to exploit random graph model into VLM adapter and develop a novel Vertex Random Graph Adapter (VRGAdapter). VRGAdapter first models the inherent diverse descriptions of each category and inter-class relationships of different categories simultaneously by leveraging a Vertex Random Knowledge Graph (VRKG) model. Then, it employs probabilistic message propagation on VRKG to learn context-aware distribution representation for each class node. Finally, it adopts a reparameterized sampling function to achieve textual adapter learning. Note that, VRGAdapter provides a more general adapter solution that encompasses traditional graph-based adapter as a special case. In addition, to enable more robust performance for downstream tasks, we also introduce a new Uncertainty-guided Multi-branch Fusion (UMF) scheme that dynamically integrates multiple pre-trained models for ensemble prediction. Extensive experiments on multiple benchmark datasets demonstrate the effectiveness of our approach.
- Abstract(参考訳): テキストアダプタに基づくチューニング手法は、事前訓練された視覚言語モデル(VLM)から下流タスクへ知識を伝達する大きな可能性を示している。
既存の作品では、各カテゴリのテキスト表現を洗練させるために、決定論的テキスト特徴アダプタが使用されるのが一般的である。
しかし、属性や文脈など固有の要因により、各カテゴリのテキスト記述には大きな多様性がある。
このような説明の多様性は、下流の視覚学習タスクに利益をもたらす豊富な識別的意味知識を提供する。
明らかに、従来の決定論的アダプタモデルは、この多様な意味情報を適切にキャプチャすることはできない。
また,VLMアダプタのクラス間関係を利用することも望ましい。
これらの問題に対処するため、我々はランダムグラフモデルをVLMアダプタに活用し、新しいVertex Random Graph Adapter(VRGAdapter)を開発することを提案する。
VRGAdapterはまず、Vertex Random Knowledge Graph (VRKG)モデルを活用することにより、各カテゴリの固有の多様な記述と、異なるカテゴリのクラス間関係を同時にモデル化する。
次に,VRKG上での確率的メッセージ伝搬を用いて,各クラスノードのコンテキスト認識分布表現を学習する。
最後に、テキストアダプタ学習を実現するために、再パラメータ化されたサンプリング機能を採用する。
なお、VRGAdapterは、従来のグラフベースのアダプタを特別なケースとして含む、より一般的なアダプタソリューションを提供する。
さらに、下流タスクのより堅牢な性能を実現するために、アンサンブル予測のために複数の事前学習されたモデルを動的に統合する、新しいUncertainty-Guided Multi-branch Fusion (UMF)スキームを導入する。
複数のベンチマークデータセットに対する大規模な実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter [19.557300178619382]
本稿では,下流タスクに対するVLMのチューニングを実現するために,新しいヘテロジニアスグラフアダプタを提案する。
我々は、下流タスクの多モード構造知識を探索するために、特定の不均一グラフニューラルネットワークを用いる。
11のベンチマークデータセットの実験結果は、提案したHeGraphAdapterの有効性とメリットを示している。
論文 参考訳(メタデータ) (2024-10-10T12:20:58Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph [63.81641578763094]
適応型効率的な伝達学習(ETL)は視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した
本稿では,2つのモーダリティ構造知識を明示的にモデル化し,テキストアダプティブを実行する,GraphAdapterと呼ばれる効果的なアダプタスタイルチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
論文 参考訳(メタデータ) (2023-09-24T12:56:40Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Multimodal Graph Transformer for Multimodal Question Answering [9.292566397511763]
本稿では,複数のモーダルをまたがる推論を必要とする質問応答タスクのための新しいマルチモーダルグラフ変換器を提案する。
マルチモーダルグラフ情報を組み込むための,グラフを包含したプラグアンドプレイ準アテンション機構を提案する。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-30T21:22:35Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Adaptive Visibility Graph Neural Network and It's Application in
Modulation Classification [2.3228726690478547]
本稿では,時系列を適応的にグラフにマッピングできる適応可視グラフ(AVG)アルゴリズムを提案する。
次に,無線通信分野において重要な課題である無線信号変調分類にAVGNetを採用する。
論文 参考訳(メタデータ) (2021-06-16T06:00:49Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。