論文の概要: Zero-shot Referring Expression Comprehension via Structural Similarity
Between Images and Captions
- arxiv url: http://arxiv.org/abs/2311.17048v1
- Date: Tue, 28 Nov 2023 18:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 16:59:14.827193
- Title: Zero-shot Referring Expression Comprehension via Structural Similarity
Between Images and Captions
- Title(参考訳): 画像とキャプションの構造的類似性によるゼロショット参照表現理解
- Authors: Zeyu Han, Fangrui Zhu, Qianru Lao, Huaizu Jiang
- Abstract要約: ゼロショット参照表現理解は、提供されたテキストプロンプトに対応する画像内のバウンディングボックスをローカライズすることを目的としている。
既存の視覚言語アライメントモデル、例えばCLIPは両方の側面で苦労しているため、このタスクに直接使用することはできない。
我々は、大きな基礎モデルを活用して、画像とテキストの両方を(オブジェクト、述語、オブジェクト)の形式で三つ子に分解する。
- 参考スコア(独自算出の注目度): 6.807325128946638
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Zero-shot referring expression comprehension aims at localizing bounding
boxes in an image corresponding to the provided textual prompts, which
requires: (i) a fine-grained disentanglement of complex visual scene and
textual context, and (ii) a capacity to understand relationships among
disentangled entities. Unfortunately, existing large vision-language alignment
(VLA) models, e.g., CLIP, struggle with both aspects so cannot be directly used
for this task. To mitigate this gap, we leverage large foundation models to
disentangle both images and texts into triplets in the format of (subject,
predicate, object). After that, grounding is accomplished by calculating the
structural similarity matrix between visual and textual triplets with a VLA
model, and subsequently propagate it to an instance-level similarity matrix.
Furthermore, to equip VLA models with the ability of relationship
understanding, we design a triplet-matching objective to fine-tune the VLA
models on a collection of curated dataset containing abundant entity
relationships. Experiments demonstrate that our visual grounding performance
increase of up to 19.5% over the SOTA zero-shot model on RefCOCO/+/g. On the
more challenging Who's Waldo dataset, our zero-shot approach achieves
comparable accuracy to the fully supervised model.
- Abstract(参考訳): Zero-shot Reference Expression comprehensionは、提供されたテキストプロンプトに対応するイメージ内のバウンディングボックスのローカライズを目的としている。
(i)複雑な視覚シーンとテクストコンテキストのきめ細かい絡み合い、
(二)異体間の関係を理解する能力
残念ながら、既存の大規模視覚言語アライメント(VLA)モデル(例えばCLIP)は、両方の側面で苦労しているため、このタスクに直接は使用できない。
このギャップを緩和するために、我々は大きな基礎モデルを活用し、画像とテキストを三つ子(オブジェクト、述語、オブジェクト)に分解する。
その後、VLAモデルを用いて視覚的三重項とテキスト的三重項の構造的類似性行列を計算し、次いでインスタンスレベルの類似性行列に伝播する。
さらに,VLAモデルに関係理解能力を持たせるために,豊富なエンティティ関係を含むキュレートデータセットの集合上で,VLAモデルを微調整する3重マッチング目標を設計する。
実験により,refcoco/+/g における sota ゼロショットモデルよりも最大 19.5% の性能向上が確認できた。
より困難なWho's Waldoデータセットでは、ゼロショットアプローチが完全に教師付きモデルに匹敵する精度を実現しています。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - Attention Guided Semantic Relationship Parsing for Visual Question
Answering [36.84737596725629]
人間は視覚質問回答(VQA)のような視覚言語タスクを実行するのに必要な高レベルな理解を示す意味ラベルとのオブジェクト間関係を説明する
既存のVQAモデルは、モデルがマルチモーダルタスクを解決しようとしている間、単一のドメイン内のオブジェクト間の相互作用を表現することを制約するオブジェクトレベルの視覚的特徴の組み合わせとして関係を表現します。
本稿では、画像中の主観的対象物三重項ごとに意味的特徴ベクトルを生成する汎用意味関係と、重要な関係三重項を識別する相互自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-05T00:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。