論文の概要: HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling
- arxiv url: http://arxiv.org/abs/2408.14812v1
- Date: Tue, 27 Aug 2024 06:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-28 14:54:56.737661
- Title: HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling
- Title(参考訳): HPT++:多粒度知識生成と構造モデリングの改善による階層的視覚言語モデルの構築
- Authors: Yubin Wang, Xinyang Jiang, De Cheng, Wenli Sun, Dongsheng Li, Cairong Zhao,
- Abstract要約: 本稿では,階層型プロンプトチューニング(HPT)と呼ばれる新しい手法を提案し,構造化知識と従来の言語知識の同時モデリングを可能にする。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
全体意味論をモデル化する高レベルかつグローバルレベルのプロンプトを取り入れることで、提案された階層構造は、クロスレベルな相互リンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
- 参考スコア(独自算出の注目度): 39.14392943549792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has become a prevalent strategy for adapting vision-language foundation models (VLMs) such as CLIP to downstream tasks. With the emergence of large language models (LLMs), recent studies have explored the potential of using category-related descriptions to enhance prompt effectiveness. However, conventional descriptions lack explicit structured information necessary to represent the interconnections among key elements like entities or attributes with relation to a particular category. Since existing prompt tuning methods give little consideration to managing structured knowledge, this paper advocates leveraging LLMs to construct a graph for each description to prioritize such structured knowledge. Consequently, we propose a novel approach called Hierarchical Prompt Tuning (HPT), enabling simultaneous modeling of both structured and conventional linguistic knowledge. Specifically, we introduce a relationship-guided attention module to capture pair-wise associations among entities and attributes for low-level prompt learning. In addition, by incorporating high-level and global-level prompts modeling overall semantics, the proposed hierarchical structure forges cross-level interlinks and empowers the model to handle more complex and long-term relationships. Finally, by enhancing multi-granularity knowledge generation, redesigning the relationship-driven attention re-weighting module, and incorporating consistent constraints on the hierarchical text encoder, we propose HPT++, which further improves the performance of HPT. Our experiments are conducted across a wide range of evaluation settings, including base-to-new generalization, cross-dataset evaluation, and domain generalization. Extensive results and ablation studies demonstrate the effectiveness of our methods, which consistently outperform existing SOTA methods.
- Abstract(参考訳): プロンプト学習は、CLIPのような視覚言語基礎モデル(VLM)を下流タスクに適用するための一般的な戦略となっている。
近年,大規模言語モデル (LLMs) の出現に伴い, カテゴリー関連記述を用いて, 即効性を高める可能性について検討されている。
しかし、従来の記述には、特定のカテゴリに関連するエンティティや属性といった重要な要素間の相互接続を表現するのに必要な明示的な構造化情報がない。
既存のプロンプトチューニング手法は構造化知識の管理にはほとんど考慮しないため,本論文ではLLMを活用して各記述のグラフを構築し,そのような構造化知識を優先順位付けすることを提唱する。
その結果,階層型プロンプトチューニング (HPT) と呼ばれる新しい手法が提案され,構造化知識と従来の言語知識の同時モデリングが可能となった。
具体的には、低レベルなプロンプト学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを提案する。
さらに、高レベルかつグローバルレベルのプロンプトを総合意味論のモデル化に取り入れることで、提案された階層構造は、クロスレベルなインターリンクを鍛え、より複雑で長期的な関係を扱うようにモデルに権限を与える。
最後に,階層型テキストエンコーダに一貫した制約を組み込んだマルチグラニュラリティ知識生成,リレーショナルアテンション再重み付けモジュールの再設計により,HPT++を提案し,HPTの性能をさらに向上させる。
本実験は, ベース・ツー・ニューな一般化, クロス・データセット評価, ドメインの一般化など, 幅広い評価条件で実施されている。
その結果,既存のSOTA法を一貫して上回る結果が得られた。
関連論文リスト
- Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality [59.651410243721045]
CoCoAは、マルチモーダル埋め込み最適化のための協調注意に基づくコンテンツ再構成事前学習パラダイムである。
EOSをベースとした再構築タスクを導入し、対応するEOS>埋め込みからの入力を再構成するようモデルに促す。
MMEB-V1の実験では、Qwen2-VLとQwen2.5-VLをベースにしたCoCoAが埋め込み品質を著しく向上することを示した。
論文 参考訳(メタデータ) (2026-03-02T05:34:45Z) - Multi-Scale Feature Fusion and Graph Neural Network Integration for Text Classification with Large Language Models [11.071281023081582]
本研究では、大規模言語モデルからの深い特徴抽出、特徴ピラミッドによるマルチスケール融合、複雑な意味文脈における性能向上のためのグラフニューラルネットワークによる構造化モデリングを統合するテキスト分類のハイブリッド手法について検討する。
提案手法は, ACC, F1-Score, AUC, Precisionの既存モデルよりも優れたロバスト性アライメント実験において, 有効性と安定性を検証した。
論文 参考訳(メタデータ) (2025-11-07T22:54:26Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - SLiNT: Structure-aware Language Model with Injection and Contrastive Training for Knowledge Graph Completion [11.686307370683922]
知識グラフにおけるリンク予測は、欠落したエンティティを推測するために構造情報と意味コンテキストを統合する必要がある。
SLiNTは,知識グラフに基づく構造的コンテキストを,ロラをベースとした軽量な適応型フリーズバックボーンに注入し,堅牢なリンク予測を行うモジュールフレームワークである。
WN18RRとFB15k-237の実験により、SLiNTは埋め込みベースとジェネレーションベースの両方と比較して優れた性能または競争性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-08T10:36:49Z) - Integrated Structural Prompt Learning for Vision-Language Models [15.002501540565781]
本稿では、視覚言語モデル(VLM)のための統合構造プロンプト(ISP)を提案する。
ISPは、学習可能なプロンプトと凍結トークンの間の構造関係をモデル化するために、自己構造的および相互構造的プロンプトモジュールを導入している。
ISPは最先端の手法に対して競争力を発揮する。
論文 参考訳(メタデータ) (2025-07-08T04:59:58Z) - Context-Guided Dynamic Retrieval for Improving Generation Quality in RAG Models [2.9687381456164004]
意味理解と知識スケジューリングの効率化を図るための状態認識型動的知識検索機構を提案する。
提案した構造は, GPT-4, GPT-4o, DeepSeek など,様々な大規模モデルで徹底的に評価されている。
このアプローチはまた、意味的あいまいさとマルチドキュメント融合を含むタスクにおいて、強い堅牢性と生成一貫性を示す。
論文 参考訳(メタデータ) (2025-04-28T02:50:45Z) - MGSA: Multi-Granularity Graph Structure Attention for Knowledge Graph-to-Text Generation [10.607080796475815]
本稿では,事前学習言語モデル(PLM)に基づくMGSA(Multi-granularity Graph Structure Attention)を提案する。
モデルアーキテクチャのエンコーダは、エンティティレベルの構造符号化モジュールと、ワードレベルの構造符号化モジュールと、両方の構造から情報を合成する集約モジュールとを備える。
KG-to-Text GenerationベンチマークデータセットとWebNLG,EventNarrativeを用いて,MGSAモデルの広範な評価を行った。
論文 参考訳(メタデータ) (2024-09-16T14:01:03Z) - Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Learning Hierarchical Prompt with Structured Linguistic Knowledge for
Vision-Language Models [43.56153167864033]
大規模言語モデル(LLM)における構造化知識を活用する新しい手法を提案する。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
さらに、高レベルのプロンプトとグローバルレベルのプロンプトを組み込むことで、提案された階層構造は、クロスレベルのインターリンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文 参考訳(メタデータ) (2023-12-11T12:14:06Z) - Semi-automatic Data Enhancement for Document-Level Relation Extraction
with Distant Supervision from Large Language Models [26.523153535336725]
ドキュメントレベルの関係抽出(DocRE)は、長いコンテキストから関係を抽出することを目的としている。
本稿では,大規模言語モデル (LLM) と自然言語推論 (NLI) モジュールを統合する手法を提案する。
DocGNREと呼ばれる拡張データセットを導入することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-13T13:10:44Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。