論文の概要: GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph
- arxiv url: http://arxiv.org/abs/2309.13625v1
- Date: Sun, 24 Sep 2023 12:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 18:32:03.622889
- Title: GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph
- Title(参考訳): GraphAdapter: デュアル知識グラフによる視覚言語モデルのチューニング
- Authors: Xin Li, Dongze Lian, Zhihe Lu, Jiawang Bai, Zhibo Chen, and Xinchao
Wang
- Abstract要約: 適応型効率的な伝達学習(ETL)は視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した
本稿では,2つのモーダリティ構造知識を明示的にモデル化し,テキストアダプティブを実行する,GraphAdapterと呼ばれる効果的なアダプタスタイルチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
- 参考スコア(独自算出の注目度): 63.81641578763094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapter-style efficient transfer learning (ETL) has shown excellent
performance in the tuning of vision-language models (VLMs) under the low-data
regime, where only a few additional parameters are introduced to excavate the
task-specific knowledge based on the general and powerful representation of
VLMs. However, most adapter-style works face two limitations: (i) modeling
task-specific knowledge with a single modality only; and (ii) overlooking the
exploitation of the inter-class relationships in downstream tasks, thereby
leading to sub-optimal solutions. To mitigate that, we propose an effective
adapter-style tuning strategy, dubbed GraphAdapter, which performs the textual
adapter by explicitly modeling the dual-modality structure knowledge (i.e., the
correlation of different semantics/classes in textual and visual modalities)
with a dual knowledge graph. In particular, the dual knowledge graph is
established with two sub-graphs, i.e., a textual knowledge sub-graph, and a
visual knowledge sub-graph, where the nodes and edges represent the
semantics/classes and their correlations in two modalities, respectively. This
enables the textual feature of each prompt to leverage the task-specific
structure knowledge from both textual and visual modalities, yielding a more
effective classifier for downstream tasks. Extensive experimental results on 11
benchmark datasets reveal that our GraphAdapter significantly outperforms
previous adapter-based methods. The code will be released at
https://github.com/lixinustc/GraphAdapter
- Abstract(参考訳): 適応型効率的な伝達学習(ETL)は、VLMの汎用的かつ強力な表現に基づくタスク固有の知識を発掘するために、低データ体制下での視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した。
しかし、ほとんどのアダプタスタイルの作業には2つの制限がある。
(i)単一モダリティのみによるタスク固有の知識のモデル化
(ii)下流タスクにおけるクラス間関係の活用を見据え、結果として最適以下のソリューションへと導かれる。
そこで我々は,2種類の構造知識(すなわち,異なる意味・クラス間のテクスト的・視覚的モーダリティの相関)と2つの知識グラフを明示的にモデル化して,テクスト的アダプタを実行する,graphadapterという,効果的なアダプタスタイルのチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
これにより、各プロンプトのテキスト機能は、テキストと視覚の両方からタスク固有の構造知識を活用することができ、下流タスクのより効果的な分類器が得られる。
11のベンチマークデータセットに対する大規模な実験結果から、GraphAdapterは従来のアダプタベースのメソッドよりも大幅に優れています。
コードはhttps://github.com/lixinustc/GraphAdapterでリリースされる。
関連論文リスト
- HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter [19.557300178619382]
本稿では,下流タスクに対するVLMのチューニングを実現するために,新しいヘテロジニアスグラフアダプタを提案する。
我々は、下流タスクの多モード構造知識を探索するために、特定の不均一グラフニューラルネットワークを用いる。
11のベンチマークデータセットの実験結果は、提案したHeGraphAdapterの有効性とメリットを示している。
論文 参考訳(メタデータ) (2024-10-10T12:20:58Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Node Level Graph Autoencoder: Unified Pretraining for Textual Graph Learning [45.70767623846523]
我々は,Node Level Graph AutoEncoder (NodeGAE) という,教師なしの新たな学習オートエンコーダフレームワークを提案する。
我々は、自動エンコーダのバックボーンとして言語モデルを使用し、テキスト再構成を事前訓練する。
本手法は,学習過程における単純さを維持し,多種多様なテキストグラフや下流タスクの一般化性を示す。
論文 参考訳(メタデータ) (2024-08-09T14:57:53Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Subgraph Networks Based Contrastive Learning [5.736011243152416]
グラフコントラスト学習(GCL)は、注釈付きデータ不足の問題を解決する。
既存のGCL手法の多くは、グラフ拡張戦略や相互情報推定操作の設計に重点を置いている。
サブグラフネットワークに基づくコントラスト学習(SGNCL)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:52:44Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。