論文の概要: Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2407.12346v1
- Date: Wed, 17 Jul 2024 06:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:17:30.634406
- Title: Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval
- Title(参考訳): クロスモーダル画像-テキスト検索のためのオブジェクト認識クエリ摂動
- Authors: Naoya Sogi, Takashi Shibata, Makoto Terao,
- Abstract要約: オブジェクト認識型クエリ摂動に基づくクロスモーダル画像テキスト検索フレームワーク」を提案する。
提案手法では、既存のV&Lモデルのリッチな表現力と検索性能を維持しつつ、追加の微調整をすることなく、オブジェクト認識のクロスモーダルな画像テキスト検索が可能となる。
- 参考スコア(独自算出の注目度): 6.493562178111347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-trained vision and language (V\&L) models have substantially improved the performance of cross-modal image-text retrieval. In general, however, V\&L models have limited retrieval performance for small objects because of the rough alignment between words and the small objects in the image. In contrast, it is known that human cognition is object-centric, and we pay more attention to important objects, even if they are small. To bridge this gap between the human cognition and the V\&L model's capability, we propose a cross-modal image-text retrieval framework based on ``object-aware query perturbation.'' The proposed method generates a key feature subspace of the detected objects and perturbs the corresponding queries using this subspace to improve the object awareness in the image. In our proposed method, object-aware cross-modal image-text retrieval is possible while keeping the rich expressive power and retrieval performance of existing V\&L models without additional fine-tuning. Comprehensive experiments on four public datasets show that our method outperforms conventional algorithms.
- Abstract(参考訳): 事前学習された視覚と言語(V\&L)モデルは、クロスモーダル画像テキスト検索の性能を大幅に改善した。
しかしながら、V\&Lモデルは、画像内の単語と小さなオブジェクトとの粗いアライメントのため、小さなオブジェクトに対して限られた検索性能を有する。
対照的に、人間の認知は対象中心であり、たとえ小さいとしても重要な対象にもっと注意を払うことが知られている。
人間の認識とV\&Lモデルの能力のギャップを埋めるために,<object-aware query perturbation>に基づく画像テキスト検索フレームワークを提案する。
提案手法は,検出対象の重要な特徴部分空間を生成し,この部分空間を用いて対応するクエリを摂動することで,画像内のオブジェクト認識を改善する。
提案手法では、既存のV\&Lモデルのリッチな表現力と検索性能を維持しつつ、追加の微調整を行わずにオブジェクト認識のクロスモーダル画像テキスト検索が可能となる。
4つの公開データセットの総合的な実験により,本手法が従来のアルゴリズムより優れていることが示された。
関連論文リスト
- High-resolution open-vocabulary object 6D pose estimation [30.835921843505123]
Horyonはオープン語彙のVLMベースのアーキテクチャで、見えないオブジェクトの2つのシーン間の相対的なポーズ推定に対処する。
4つのデータセットにまたがるさまざまな未知のオブジェクトをベンチマークで評価する。
論文 参考訳(メタデータ) (2024-06-24T07:53:46Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Retrieval Robust to Object Motion Blur [54.34823913494456]
本研究では,動きのぼやけの影響を受けやすい画像のオブジェクト検索手法を提案する。
ぼやけたオブジェクト検索のための最初の大規模データセットを提示する。
提案手法は,新しいぼやけた検索データセット上で,最先端の検索手法より優れている。
論文 参考訳(メタデータ) (2024-04-27T23:22:39Z) - Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [12.14013374452918]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-09-26T15:13:09Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。