論文の概要: LLM-enhanced Action-aware Multi-modal Prompt Tuning for Image-Text Matching
- arxiv url: http://arxiv.org/abs/2506.23502v1
- Date: Mon, 30 Jun 2025 03:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.91235
- Title: LLM-enhanced Action-aware Multi-modal Prompt Tuning for Image-Text Matching
- Title(参考訳): 画像テキストマッチングのためのLLM対応アクション対応マルチモーダルプロンプトチューニング
- Authors: Mengxiao Tian, Xinxiao Wu, Shuo Yang,
- Abstract要約: 大規模言語モデル(LLM)が生成する行動関連外部知識を組み込むことにより,CLIPをきめ細かな行動レベル理解に役立てる。
本稿では,行動認識に基づく視覚的特徴を集約し,識別的・行動的視覚的表現を確立するための知識を付加する適応的相互作用モジュールを提案する。
- 参考スコア(独自算出の注目度): 25.883546163390957
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Driven by large-scale contrastive vision-language pre-trained models such as CLIP, recent advancements in the image-text matching task have achieved remarkable success in representation learning. Due to image-level visual-language alignment, CLIP falls short in understanding fine-grained details such as object attributes and spatial relationships between objects. Recent efforts have attempted to compel CLIP to acquire structured visual representations by introducing prompt learning to achieve object-level alignment. While achieving promising results, they still lack the capability to perceive actions, which are crucial for describing the states or relationships between objects. Therefore, we propose to endow CLIP with fine-grained action-level understanding by introducing an LLM-enhanced action-aware multi-modal prompt-tuning method, incorporating the action-related external knowledge generated by large language models (LLMs). Specifically, we design an action triplet prompt and an action state prompt to exploit compositional semantic knowledge and state-related causal knowledge implicitly stored in LLMs. Subsequently, we propose an adaptive interaction module to aggregate attentive visual features conditioned on action-aware prompted knowledge for establishing discriminative and action-aware visual representations, which further improves the performance. Comprehensive experimental results on two benchmark datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): CLIPのような大規模なコントラスト付き視覚言語事前学習モデルにより、画像テキストマッチングタスクの最近の進歩は、表現学習において顕著に成功している。
画像レベルの視覚言語アライメントのため、CLIPはオブジェクト属性やオブジェクト間の空間的関係といった細かい詳細を理解するのに不足している。
近年、CLIPは、オブジェクトレベルのアライメントを実現するために、素早い学習を導入することで、構造化された視覚表現を取得するよう強制されている。
有望な結果を達成する一方で、オブジェクト間の状態や関係を記述するのに不可欠なアクションを知覚する能力に欠けています。
そこで本研究では,大規模言語モデル(LLM)が生成する行動関連外部知識を取り入れた,LLM対応のアクション対応型マルチモーダルプロンプトチューニング手法を導入することで,アクションレベル理解のきめ細かいCLIPを実現することを提案する。
具体的には,LLMに暗黙的に記憶されている構成意味知識と状態関連因果知識を活用するために,アクショントリプレットプロンプトとアクション状態プロンプトを設計する。
次に,行動認識に基づく視覚的特徴を集約する適応的相互作用モジュールを提案し,識別的かつ行動認識的な視覚的表現を確立するための知識を与え,その性能をさらに向上させる。
2つのベンチマークデータセットの総合的な実験結果から,本手法の有効性が示された。
関連論文リスト
- Learning Visual Composition through Improved Semantic Guidance [19.24813992815684]
ラベル付けされたデータを大幅に改善することで、標準的なコントラスト学習手法の性能を大幅に改善できることを示す。
本結果は,DOCCIから得られた比較的新しいキャプションベンチマークで紹介する。
拡張されたデータでトレーニングされた標準的なCLIPモデルは、画像検索タスクにおいて印象的なパフォーマンスを示すかもしれない。
論文 参考訳(メタデータ) (2024-12-19T20:58:26Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。