論文の概要: Learning Hierarchical Prompt with Structured Linguistic Knowledge for
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.06323v1
- Date: Mon, 11 Dec 2023 12:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:56:10.643244
- Title: Learning Hierarchical Prompt with Structured Linguistic Knowledge for
Vision-Language Models
- Title(参考訳): 視覚言語モデルのための構造化言語知識を用いた階層的プロンプトの学習
- Authors: Yubin Wang, Xinyang Jiang, De Cheng, Dongsheng Li, Cairong Zhao
- Abstract要約: 大規模言語モデル(LLM)における構造化知識を活用する新しい手法を提案する。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
さらに、高レベルのプロンプトとグローバルレベルのプロンプトを組み込むことで、提案された階層構造は、クロスレベルのインターリンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
- 参考スコア(独自算出の注目度): 43.56153167864033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has become a prevalent strategy for adapting vision-language
foundation models to downstream tasks. As large language models (LLMs) have
emerged, recent studies have explored the use of category-related descriptions
as input to enhance prompt effectiveness. Nevertheless, conventional
descriptions fall short of structured information that effectively represents
the interconnections among entities or attributes linked to a particular
category. To address this limitation and prioritize harnessing structured
knowledge, this paper advocates for leveraging LLMs to build a graph for each
description to model the entities and attributes describing the category, as
well as their correlations. Preexisting prompt tuning methods exhibit
inadequacies in managing this structured knowledge. Consequently, we propose a
novel approach called Hierarchical Prompt Tuning (HPT), which enables
simultaneous modeling of both structured and conventional linguistic knowledge.
Specifically, we introduce a relationship-guided attention module to capture
pair-wise associations among entities and attributes for low-level prompt
learning. In addition, by incorporating high-level and global-level prompts
modeling overall semantics, the proposed hierarchical structure forges
cross-level interlinks and empowers the model to handle more complex and
long-term relationships. Extensive experiments demonstrate that our HPT shows
strong effectiveness and generalizes much better than existing SOTA methods.
Our code is available at https://github.com/Vill-Lab/2024-AAAI-HPT.
- Abstract(参考訳): プロンプト学習は、視覚言語基礎モデルを下流タスクに適用するための一般的な戦略となっている。
大規模言語モデル (LLMs) が出現するにつれて, カテゴリ関連記述をインプットとして活用し, 即効性を高める方法が近年研究されている。
それでも、従来の記述は、特定のカテゴリに関連するエンティティや属性間の相互接続を効果的に表現する構造化情報に欠ける。
この制限に対処し、構造化知識の活用を優先するため、本論文では、llmを利用して各記述に対するグラフを構築し、カテゴリを記述するエンティティと属性とその相関関係をモデル化することを提唱する。
既存のプロンプトチューニング手法は、この構造化知識の管理に不整合を示す。
その結果,階層型プロンプトチューニング (HPT) と呼ばれる新しい手法が提案され,構造化知識と従来の言語知識の同時モデリングが可能となった。
具体的には,関係誘導型アテンションモジュールを導入し,低レベルプロンプト学習のためのエンティティと属性の対関係を捉える。
さらに、ハイレベルおよびグローバルレベルのプロンプトを総合的なセマンティクスのモデリングに組み込むことで、提案された階層構造は、クロスレベルな相互リンクを予測し、より複雑で長期的な関係を扱うモデルに権限を与える。
大規模な実験により,HPTは既存のSOTA法よりも高い有効性を示し,より一般化した。
私たちのコードはhttps://github.com/Vill-Lab/2024-AAAI-HPTで公開されています。
関連論文リスト
- MGSA: Multi-Granularity Graph Structure Attention for Knowledge Graph-to-Text Generation [10.607080796475815]
本稿では,事前学習言語モデル(PLM)に基づくMGSA(Multi-granularity Graph Structure Attention)を提案する。
モデルアーキテクチャのエンコーダは、エンティティレベルの構造符号化モジュールと、ワードレベルの構造符号化モジュールと、両方の構造から情報を合成する集約モジュールとを備える。
KG-to-Text GenerationベンチマークデータセットとWebNLG,EventNarrativeを用いて,MGSAモデルの広範な評価を行った。
論文 参考訳(メタデータ) (2024-09-16T14:01:03Z) - HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling [39.14392943549792]
本稿では,階層型プロンプトチューニング(HPT)と呼ばれる新しい手法を提案し,構造化知識と従来の言語知識の同時モデリングを可能にする。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
全体意味論をモデル化する高レベルかつグローバルレベルのプロンプトを取り入れることで、提案された階層構造は、クロスレベルな相互リンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文 参考訳(メタデータ) (2024-08-27T06:50:28Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - KGLM: Integrating Knowledge Graph Structure in Language Models for Link
Prediction [0.0]
我々は、異なるエンティティと関係型を区別することを学ぶ新しいエンティティ/リレーション埋め込み層を導入する。
知識グラフから抽出したトリプルを用いて、この追加埋め込み層を用いて言語モデルをさらに事前学習し、続いて標準微調整フェーズにより、ベンチマークデータセット上のリンク予測タスクに対して、新しい最先端のパフォーマンスが設定されることを示す。
論文 参考訳(メタデータ) (2022-11-04T20:38:12Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。