論文の概要: p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.10613v1
- Date: Sun, 17 Dec 2023 05:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:31:42.806061
- Title: p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models
- Title(参考訳): 生成的事前訓練された視覚言語モデルに対するp-ラプラシアン適応
- Authors: Haoyuan Wu, Xinyun Zhang, Peng Xu, Peiyu Liao, Xufeng Yao, Bei Yu
- Abstract要約: 大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
- 参考スコア(独自算出の注目度): 10.713680139939354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language models (VLMs) pre-trained on large corpora have demonstrated
notable success across a range of downstream tasks. In light of the rapidly
increasing size of pre-trained VLMs, parameter-efficient transfer learning
(PETL) has garnered attention as a viable alternative to full fine-tuning. One
such approach is the adapter, which introduces a few trainable parameters into
the pre-trained models while preserving the original parameters during
adaptation. In this paper, we present a novel modeling framework that recasts
adapter tuning after attention as a graph message passing process on attention
graphs, where the projected query and value features and attention matrix
constitute the node features and the graph adjacency matrix, respectively.
Within this framework, tuning adapters in VLMs necessitates handling
heterophilic graphs, owing to the disparity between the projected query and
value space. To address this challenge, we propose a new adapter architecture,
$p$-adapter, which employs $p$-Laplacian message passing in Graph Neural
Networks (GNNs). Specifically, the attention weights are re-normalized based on
the features, and the features are then aggregated using the calibrated
attention matrix, enabling the dynamic exploitation of information with varying
frequencies in the heterophilic attention graphs. We conduct extensive
experiments on different pre-trained VLMs and multi-modal tasks, including
visual question answering, visual entailment, and image captioning. The
experimental results validate our method's significant superiority over other
PETL methods.
- Abstract(参考訳): 大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
プレトレーニングVLMのサイズが急速に大きくなる中、パラメータ効率変換学習(PETL)は完全な微調整の代替手段として注目されている。
そのようなアプローチのひとつにアダプタがあり、トレーニング可能なパラメータを事前トレーニングしたモデルに導入しながら、適応時に元のパラメータを保存できる。
本稿では,アテンショングラフ上のグラフメッセージパッシングプロセスとして,アテンショングラフ上でアテンション後のアテンションチューニングを再キャストする新しいモデリングフレームワークを提案する。
このフレームワーク内では、VLMのチューニングアダプタは、予測クエリと値空間の相違のため、異種グラフを扱う必要がある。
この課題に対処するために,グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
具体的には,特徴量に基づいて注目重みが再正規化され,キャリブレーションされた注目行列を用いて特徴量を集約し,異種注目グラフの様々な周波数を持つ情報の動的利用を可能にする。
我々は,視覚的質問応答,視覚的エンターテイメント,画像キャプションなど,様々な訓練済みのVLMとマルチモーダルタスクについて広範な実験を行った。
実験の結果,他のpetl法と比較して,本法が有意な優越性を示した。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter [19.557300178619382]
本稿では,下流タスクに対するVLMのチューニングを実現するために,新しいヘテロジニアスグラフアダプタを提案する。
我々は、下流タスクの多モード構造知識を探索するために、特定の不均一グラフニューラルネットワークを用いる。
11のベンチマークデータセットの実験結果は、提案したHeGraphAdapterの有効性とメリットを示している。
論文 参考訳(メタデータ) (2024-10-10T12:20:58Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - G-Adapter: Towards Structure-Aware Parameter-Efficient Transfer Learning
for Graph Transformer Networks [0.7118812771905295]
特徴分布シフトの問題から,既存のPEFTをグラフベースタスクへ直接転送することが準最適であることを示す。
本稿では,G-Adapter という新しい構造対応PEFT手法を提案する。
大規模な実験により、G-Adapterは9つのグラフベンチマークデータセットと比較すると、最先端のパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2023-05-17T16:10:36Z) - Multimodal Graph Transformer for Multimodal Question Answering [9.292566397511763]
本稿では,複数のモーダルをまたがる推論を必要とする質問応答タスクのための新しいマルチモーダルグラフ変換器を提案する。
マルチモーダルグラフ情報を組み込むための,グラフを包含したプラグアンドプレイ準アテンション機構を提案する。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-30T21:22:35Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。