Fugu-MT 論文翻訳(概要): Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

論文の概要: Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

arxiv url: http://arxiv.org/abs/2311.17048v1
Date: Tue, 28 Nov 2023 18:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 16:59:14.827193
Title: Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions
Title（参考訳）: 画像とキャプションの構造的類似性によるゼロショット参照表現理解
Authors: Zeyu Han, Fangrui Zhu, Qianru Lao, Huaizu Jiang
Abstract要約: ゼロショット参照表現理解は、提供されたテキストプロンプトに対応する画像内のバウンディングボックスをローカライズすることを目的としている。既存の視覚言語アライメントモデル、例えばCLIPは両方の側面で苦労しているため、このタスクに直接使用することはできない。我々は、大きな基礎モデルを活用して、画像とテキストの両方を(オブジェクト、述語、オブジェクト)の形式で三つ子に分解する。
参考スコア（独自算出の注目度）: 6.807325128946638
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Zero-shot referring expression comprehension aims at localizing bounding boxes in an image corresponding to the provided textual prompts, which requires: (i) a fine-grained disentanglement of complex visual scene and textual context, and (ii) a capacity to understand relationships among disentangled entities. Unfortunately, existing large vision-language alignment (VLA) models, e.g., CLIP, struggle with both aspects so cannot be directly used for this task. To mitigate this gap, we leverage large foundation models to disentangle both images and texts into triplets in the format of (subject, predicate, object). After that, grounding is accomplished by calculating the structural similarity matrix between visual and textual triplets with a VLA model, and subsequently propagate it to an instance-level similarity matrix. Furthermore, to equip VLA models with the ability of relationship understanding, we design a triplet-matching objective to fine-tune the VLA models on a collection of curated dataset containing abundant entity relationships. Experiments demonstrate that our visual grounding performance increase of up to 19.5% over the SOTA zero-shot model on RefCOCO/+/g. On the more challenging Who's Waldo dataset, our zero-shot approach achieves comparable accuracy to the fully supervised model.
Abstract（参考訳）: Zero-shot Reference Expression comprehensionは、提供されたテキストプロンプトに対応するイメージ内のバウンディングボックスのローカライズを目的としている。 (i)複雑な視覚シーンとテクストコンテキストのきめ細かい絡み合い、 (二)異体間の関係を理解する能力残念ながら、既存の大規模視覚言語アライメント(VLA)モデル(例えばCLIP)は、両方の側面で苦労しているため、このタスクに直接は使用できない。このギャップを緩和するために、我々は大きな基礎モデルを活用し、画像とテキストを三つ子(オブジェクト、述語、オブジェクト)に分解する。その後、VLAモデルを用いて視覚的三重項とテキスト的三重項の構造的類似性行列を計算し、次いでインスタンスレベルの類似性行列に伝播する。さらに,VLAモデルに関係理解能力を持たせるために,豊富なエンティティ関係を含むキュレートデータセットの集合上で,VLAモデルを微調整する3重マッチング目標を設計する。実験により,refcoco/+/g における sota ゼロショットモデルよりも最大 19.5% の性能向上が確認できた。より困難なWho's Waldoデータセットでは、ゼロショットアプローチが完全に教師付きモデルに匹敵する精度を実現しています。

関連論文リスト

Hallucinate, Ground, Repeat: A Framework for Generalized Visual Relationship Detection [6.253919624802853]
本研究では,大規模言語モデル(LLM)を構造化されたリレーショナルプリミティブとして活用する,反復的なビジュアルグラウンドディングフレームワークを導入する。予測最大化(EM)にインスパイアされた本手法は,LLMを用いて検出対象から候補シーングラフを生成することと,視覚モデルを用いてこれらの仮説を知覚的証拠(最大化)と整合させる訓練とを交互に行う。オープンワールドVRDのための新しいベンチマークをVisual Genomeに導入し、21の予測付きで評価し、3つの設定で評価する。このモデルでは、LLMのみ、少数ショット、およびデバイアスベースラインを上回り、平均リコール(mR@50)を達成する。
論文参考訳（メタデータ） (2025-06-06T00:43:15Z)
DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
Compositional Image-Text Matching and Retrieval by Grounding Entities [1.962396488631213]
本稿では,CLIP埋め込みの学習不要なゼロショット拡張法を提案する。我々は、オブジェクトのサブイメージの個別の埋め込みと、最先端の開語彙検出器によって局所化される関係を計算する。結果として得られる埋め込みは、テキスト埋め込みと類似性計算に利用され、画像テキストマッチングの精度が平均1.5%向上する。
論文参考訳（メタデータ） (2025-05-04T22:18:14Z)
Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文参考訳（メタデータ） (2025-04-16T14:03:24Z)
Efficient Relational Context Perception for Knowledge Graph Completion [25.903926643251076]
知識グラフ(KG)は知識の構造化された表現を提供するが、しばしば不完全性の課題に悩まされる。従来の知識グラフ埋め込みモデルは、表現力のある特徴を捉える能力に制限がある。逐次情報をモデル化し,動的文脈の学習を可能にする三重受容アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-12-31T11:25:58Z)
Generate Any Scene: Scene Graph Driven Data Synthesis for Visual Generation Training [61.75337990107149]
データエンジンであるGenerate Any Sceneを紹介し、視覚的なシーンの配列を表すシーングラフを列挙する。サンプルのシーングラフが与えられた場合、Generate Any Sceneはそれを、テキスト・トゥ・イメージやテキスト・トゥ・ビデオ生成のためのキャプションに変換する。また、視覚的な質問応答の集合に翻訳し、意味的アライメントの自動評価と報酬モデリングを可能にする。
論文参考訳（メタデータ） (2024-12-11T09:17:39Z)
Towards Flexible Visual Relationship Segmentation [25.890273232954055]
視覚的関係理解は、人間と物体の相互作用の検出、シーングラフの生成、およびタスクを参照する関係において別々に研究されている。本稿では,FleVRSを提案する。FleVRSは,上述の3つの側面を,標準および即時的な視覚的関係のセグメンテーションにおいてシームレスに統合する単一モデルである。当社のフレームワークは,既存のモデルを,標準,即応性,オープンボキャブラリタスクで上回ります。
論文参考訳（メタデータ） (2024-08-15T17:57:38Z)
VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。 VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。 CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文参考訳（メタデータ） (2024-07-23T18:10:43Z)
Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文参考訳（メタデータ） (2024-04-23T21:00:22Z)
Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文参考訳（メタデータ） (2024-03-29T15:54:36Z)
Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文参考訳（メタデータ） (2024-03-03T07:58:03Z)
GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-12-22T20:14:55Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。本稿では,新たな意味論的構成学習戦略を提案する。最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文参考訳（メタデータ） (2021-08-19T10:13:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。