論文の概要: NEUCORE: Neural Concept Reasoning for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2310.01358v1
- Date: Mon, 2 Oct 2023 17:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-04 20:41:31.713438
- Title: NEUCORE: Neural Concept Reasoning for Composed Image Retrieval
- Title(参考訳): NEUCORE: 合成画像検索のためのニューラルコンセプト推論
- Authors: Shu Zhao, Huijuan Xu
- Abstract要約: NEUral Concept Reasoning モデルを提案する。
提案手法は3つのデータセットで評価し,最先端の結果を得る。
- 参考スコア(独自算出の注目度): 16.08214739525615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed image retrieval which combines a reference image and a text modifier
to identify the desired target image is a challenging task, and requires the
model to comprehend both vision and language modalities and their interactions.
Existing approaches focus on holistic multi-modal interaction modeling, and
ignore the composed and complimentary property between the reference image and
text modifier. In order to better utilize the complementarity of multi-modal
inputs for effective information fusion and retrieval, we move the multi-modal
understanding to fine-granularity at concept-level, and learn the multi-modal
concept alignment to identify the visual location in reference or target images
corresponding to text modifier. Toward the end, we propose a NEUral COncept
REasoning (NEUCORE) model which incorporates multi-modal concept alignment and
progressive multimodal fusion over aligned concepts. Specifically, considering
that text modifier may refer to semantic concepts not existing in the reference
image and requiring to be added into the target image, we learn the multi-modal
concept alignment between the text modifier and the concatenation of reference
and target images, under multiple-instance learning framework with image and
sentence level weak supervision. Furthermore, based on aligned concepts, to
form discriminative fusion features of the input modalities for accurate target
image retrieval, we propose a progressive fusion strategy with unified
execution architecture instantiated by the attended language semantic concepts.
Our proposed approach is evaluated on three datasets and achieves
state-of-the-art results.
- Abstract(参考訳): 対象画像を特定するための参照画像とテキスト修飾子を組み合わせた合成画像検索は困難な課題であり、視覚と言語の両方のモダリティとその相互作用を理解するモデルが必要である。
既存のアプローチでは、総合的なマルチモーダルインタラクションモデリングに重点を置いており、参照画像とテキスト修飾子の合成と補完性を無視している。
効果的な情報融合と検索のために,マルチモーダル入力の相補性をよりよく活用するために,マルチモーダル理解を概念レベルで細粒度に移行し,マルチモーダル概念アライメントを学習して,テキスト修飾子に対応する参照画像や対象画像の視覚的位置を特定する。
本稿では,マルチモーダル概念アライメントとプログレッシブ・マルチモーダル融合を組み合わせたニューラル・コンセプト・推論(neucore)モデルを提案する。
具体的には、テキスト修飾子が参照画像に存在しない意味概念を参照し、対象画像に付加する必要があることを考慮し、画像と文レベルの弱い教師付き複数インスタンス学習フレームワークを用いて、テキスト修飾子と参照画像と対象画像の連結との間の多様概念アラインメントを学習する。
さらに,アライメントされた概念に基づき,正確な対象画像検索のための入力モダリティの識別的融合特徴を形成するために,出席する言語意味概念によってインスタンス化される統一実行アーキテクチャを用いたプログレッシブ融合戦略を提案する。
提案手法は3つのデータセットで評価し,最新の結果を得た。
関連論文リスト
- Hierarchical Concept-to-Appearance Guidance for Multi-Subject Image Generation [22.845591588026366]
本稿では,高レベルの概念からきめ細かい外観まで,明示的で構造化された監視を提供するフレームワークを提案する。
概念レベルでは、VAEの参照機能をランダムに省略するVAEドロップアウトトレーニング戦略を導入する。
外観レベルでは、VLM由来の対応文を対応認識型マスキングアテンションモジュールに統合する。
論文 参考訳(メタデータ) (2026-02-03T12:13:29Z) - Entity-Guided Multi-Task Learning for Infrared and Visible Image Fusion [14.3937321254743]
Infrared and visible image fusion (EGMT) のためのEntity-Guided Multi-Task Learning という新しい融合手法を提案する。
大規模視覚言語モデルにより生成された画像キャプションからエンティティレベルのテキスト情報を抽出する原理的手法を提案する。
並列マルチタスク学習アーキテクチャを構築し、画像融合とマルチラベル分類タスクを統合する。
また、視覚的特徴とエンティティレベルのテキスト的特徴のきめ細かい相互作用を容易にするために、エンティティ誘導型クロスモーダルインタラクティブモジュールも開発されている。
論文 参考訳(メタデータ) (2026-01-05T08:00:03Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - MIMIC: Multimodal Inversion for Model Interpretation and Conceptualization [52.66401137323065]
視覚言語モデル(VLM)の内部表現を可視化するMIMIC(Multimodal Inversion for Model Interpretation and Conceptualization)フレームワークを提案する。
MIMICは、VLMの自己回帰処理のために、ジョイントVLMベースの反転と特徴アライメントの目的を使用する。
可変長自由形VLM出力テキストに対して視覚概念を反転させることによりMIMICを定量的に定性的に評価する。
論文 参考訳(メタデータ) (2025-08-11T10:36:58Z) - Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter [52.08332620725473]
テストタイムの微調整なしにオブジェクトと抽象概念を効果的にカスタマイズできるマルチコンセプトパーソナライズのためのチューニング不要な手法を提案する。
本手法は, 定量的, 質的, 人的評価によって支援された多概念パーソナライゼーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-24T09:21:32Z) - Shapley Value-based Contrastive Alignment for Multimodal Information Extraction [17.04865437165252]
我々は、画像-コンテキスト-テキストインタラクションの新しいパラダイムを導入する。
本稿では,新しいシェープ値に基づくコントラストアライメント(Shap-CA)法を提案する。
我々の手法は既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-25T08:15:43Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - Concept Weaver: Enabling Multi-Concept Fusion in Text-to-Image Models [85.14042557052352]
本研究では,カスタマイズされたテキストと画像の拡散モデルを推論時に作成する方法であるConcept Weaverを紹介する。
概念ウィーバーは、他のアプローチと比較して、アイデンティティの忠実度が高い複数のカスタム概念を生成可能であることを示す。
論文 参考訳(メタデータ) (2024-04-05T06:41:27Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base [61.53959791360333]
最初の概念中心型マルチモーダル知識ベース(MMKB)であるM2ConceptBaseを紹介する。
画像テキストデータセットのコンテキスト情報を用いて,概念イメージと概念記述ペアを協調するコンテキスト認識手法を提案する。
人間の研究は95%以上のアライメントの精度を確認し、その品質を裏付けている。
論文 参考訳(メタデータ) (2023-12-16T11:06:11Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。