Fugu-MT 論文翻訳(概要): A Multimodal Approach for Cross-Domain Image Retrieval

論文の概要: A Multimodal Approach for Cross-Domain Image Retrieval

arxiv url: http://arxiv.org/abs/2403.15152v1
Date: Fri, 22 Mar 2024 12:08:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 17:38:51.124775
Title: A Multimodal Approach for Cross-Domain Image Retrieval
Title（参考訳）: クロスドメイン画像検索のためのマルチモーダルアプローチ
Authors: Lucas Iijima, Tania Stathaki,
Abstract要約: 本稿では、生成した画像のコレクションを検査するための追加ツールとして使用できるCDIR(Cross-Domain Image Retrieval)に焦点を当てる。理想的な検索システムは、複数の領域から見えない複雑な画像を一般化することができる。本稿では,大規模データセット上で事前学習したマルチモーダル言語ビジョンアーキテクチャを活用する新しいキャプションマッチング手法を提案する。
参考スコア（独自算出の注目度）: 6.24302896438145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image generators are gaining vast amount of popularity and have rapidly changed how digital content is created. With the latest AI technology, millions of high quality images are being generated by the public, which are constantly motivating the research community to push the limits of generative models to create more complex and realistic images. This paper focuses on Cross-Domain Image Retrieval (CDIR) which can be used as an additional tool to inspect collections of generated images by determining the level of similarity between images in a dataset. An ideal retrieval system would be able to generalize to unseen complex images from multiple domains (e.g., photos, drawings and paintings). To address this goal, we propose a novel caption-matching approach that leverages multimodal language-vision architectures pre-trained on large datasets. The method is tested on DomainNet and Office-Home datasets and consistently achieves state-of-the-art performance over the latest approaches in the literature for cross-domain image retrieval. In order to verify the effectiveness with AI-generated images, the method was also put to test with a database composed by samples collected from Midjourney, which is a widely used generative platform for content creation.
Abstract（参考訳）: 画像生成装置は膨大な人気を集めており、デジタルコンテンツの作り方も急速に変化している。最新のAI技術では、何百万もの高品質な画像が一般大衆によって生成され、それは常に研究コミュニティに、より複雑でリアルな画像を作るための生成モデルの限界を押し上げる動機になっている。本稿では,データセット内の画像間の類似度を判定し,生成した画像のコレクションを検査するための追加ツールとして,CDIR(Cross-Domain Image Retrieval)に焦点を当てる。理想的な検索システムは、複数のドメイン(写真、絵、絵画など)から見えない複雑な画像を一般化することができる。この目的を達成するために,大規模データセット上で事前学習したマルチモーダル言語ビジョンアーキテクチャを活用する新しいキャプションマッチング手法を提案する。この方法はDomainNetとOffice-Homeのデータセットでテストされ、クロスドメイン画像検索の文献における最新のアプローチよりも一貫して最先端のパフォーマンスを実現している。また、AI生成画像の有効性を検証するために、コンテンツ生成のための広く利用されている生成プラットフォームであるMidjourneyから収集したサンプルをデータベースで検証した。

関連論文リスト

Graph-Based Cross-Domain Knowledge Distillation for Cross-Dataset Text-to-Image Person Retrieval [25.760438764541867]
ビデオ監視システムは、スマートシティにおける公共の安全と管理を確保するための重要な要素である。テキスト・トゥ・イメージ・パーソン検索は、与えられたテキスト記述に最もよくマッチする画像ギャラリーから対象人物を検索することを目的としている。既存のテキスト・画像人物検索手法の多くは、対象領域に十分なラベル付きデータを必要とする教師付き方法で訓練されている。
論文参考訳（メタデータ） (2025-01-25T03:24:34Z)
WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。 WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文参考訳（メタデータ） (2024-05-28T17:46:27Z)
Domain Agnostic Image-to-image Translation using Low-Resolution Conditioning [6.470760375991825]
ドメインが関係するきめ細かい問題に対して,ドメインに依存しないi2i法を提案する。本稿では、生成モデルを訓練し、関連するソース画像の固有情報を共有する画像を生成する新しいアプローチを提案する。 CelebA-HQ と AFHQ のデータセット上で,視覚的品質の向上を実証し,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-05-08T19:58:49Z)
Unsupervised Domain Adaptation for Semantic Segmentation using One-shot Image-to-Image Translation via Latent Representation Mixing [9.118706387430883]
超高解像度画像のセマンティックセグメンテーションのための新しい教師なし領域適応法を提案する。潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダの原理に基づいて,画像から画像への変換パラダイムを提案する。都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。
論文参考訳（メタデータ） (2022-12-07T18:16:17Z)
Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文参考訳（メタデータ） (2021-12-04T10:25:45Z)
Semantic Consistency in Image-to-Image Translation for Unsupervised Domain Adaptation [22.269565708490465]
Unsupervised Domain Adaptation (UDA)は、ソースドメインでトレーニングされたモデルを、ラベル付きデータが使用できない新しいターゲットドメインに適応させることを目的としている。 UDAの整合性正規化手法と組み合わせて意味論的に一貫した画像から画像への変換法を提案する。
論文参考訳（メタデータ） (2021-11-05T14:22:20Z)
Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文参考訳（メタデータ） (2021-05-18T02:38:22Z)
Crossing-Domain Generative Adversarial Networks for Unsupervised Multi-Domain Image-to-Image Translation [12.692904507625036]
複数の領域にまたがる教師なし画像間翻訳のための一般的なフレームワークを提案する。提案するフレームワークは,一対のエンコーダと一対のGANから構成される。
論文参考訳（メタデータ） (2020-08-27T01:54:07Z)
Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文参考訳（メタデータ） (2020-08-14T22:48:36Z)
Cross-domain Correspondence Learning for Exemplar-based Image Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-04-12T09:10:57Z)
CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-09T19:00:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。