論文の概要: A Multimodal Approach for Cross-Domain Image Retrieval
- arxiv url: http://arxiv.org/abs/2403.15152v1
- Date: Fri, 22 Mar 2024 12:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:38:51.124775
- Title: A Multimodal Approach for Cross-Domain Image Retrieval
- Title(参考訳): クロスドメイン画像検索のためのマルチモーダルアプローチ
- Authors: Lucas Iijima, Tania Stathaki,
- Abstract要約: 本稿では、生成した画像のコレクションを検査するための追加ツールとして使用できるCDIR(Cross-Domain Image Retrieval)に焦点を当てる。
理想的な検索システムは、複数の領域から見えない複雑な画像を一般化することができる。
本稿では,大規模データセット上で事前学習したマルチモーダル言語ビジョンアーキテクチャを活用する新しいキャプションマッチング手法を提案する。
- 参考スコア(独自算出の注目度): 6.24302896438145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generators are gaining vast amount of popularity and have rapidly changed how digital content is created. With the latest AI technology, millions of high quality images are being generated by the public, which are constantly motivating the research community to push the limits of generative models to create more complex and realistic images. This paper focuses on Cross-Domain Image Retrieval (CDIR) which can be used as an additional tool to inspect collections of generated images by determining the level of similarity between images in a dataset. An ideal retrieval system would be able to generalize to unseen complex images from multiple domains (e.g., photos, drawings and paintings). To address this goal, we propose a novel caption-matching approach that leverages multimodal language-vision architectures pre-trained on large datasets. The method is tested on DomainNet and Office-Home datasets and consistently achieves state-of-the-art performance over the latest approaches in the literature for cross-domain image retrieval. In order to verify the effectiveness with AI-generated images, the method was also put to test with a database composed by samples collected from Midjourney, which is a widely used generative platform for content creation.
- Abstract(参考訳): 画像生成装置は膨大な人気を集めており、デジタルコンテンツの作り方も急速に変化している。
最新のAI技術では、何百万もの高品質な画像が一般大衆によって生成され、それは常に研究コミュニティに、より複雑でリアルな画像を作るための生成モデルの限界を押し上げる動機になっている。
本稿では,データセット内の画像間の類似度を判定し,生成した画像のコレクションを検査するための追加ツールとして,CDIR(Cross-Domain Image Retrieval)に焦点を当てる。
理想的な検索システムは、複数のドメイン(写真、絵、絵画など)から見えない複雑な画像を一般化することができる。
この目的を達成するために,大規模データセット上で事前学習したマルチモーダル言語ビジョンアーキテクチャを活用する新しいキャプションマッチング手法を提案する。
この方法はDomainNetとOffice-Homeのデータセットでテストされ、クロスドメイン画像検索の文献における最新のアプローチよりも一貫して最先端のパフォーマンスを実現している。
また、AI生成画像の有効性を検証するために、コンテンツ生成のための広く利用されている生成プラットフォームであるMidjourneyから収集したサンプルをデータベースで検証した。
関連論文リスト
- Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia
Content Creation [42.35572014527354]
AToMiCデータセットは、画像/テキストのクロスモーダル検索の研究を進めるために設計されている。
我々は、ウィキペディアに埋め込まれた大規模な画像文書関連だけでなく、階層構造やテキスト、スタイル、画像のさまざまな領域を活用している。
AToMiCはスケーラブルで多様な再現可能なマルチメディア検索研究のためのテストベッドを提供する。
論文 参考訳(メタデータ) (2023-04-04T17:11:34Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Image Retrieval on Real-life Images with Pre-trained Vision-and-Language
Models [41.7254780975984]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。
CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。
比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T13:25:06Z) - Multi-Class Multi-Instance Count Conditioned Adversarial Image
Generation [9.560980936110234]
与えられたクラスから定義された数のオブジェクトを持つ画像を生成する条件付きジェネレーティブ・アドバーサリ・ネットワーク(GAN)を提案する。
これは(1)複雑な制約により高品質な画像を生成することができ、(2)与えられた画像内のクラスごとにオブジェクトインスタンスを数えることができるという2つの基本的な能力を伴う。
3つの異なるデータセットの実験において、複雑な背景が存在する場合でも、提案モデルが与えられた多重クラスカウント条件に従って画像を生成することを学習することを示す。
論文 参考訳(メタデータ) (2021-03-31T04:06:11Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。