論文の概要: MosAIc: Finding Artistic Connections across Culture with Conditional
Image Retrieval
- arxiv url: http://arxiv.org/abs/2007.07177v3
- Date: Sun, 28 Feb 2021 01:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:31:03.985784
- Title: MosAIc: Finding Artistic Connections across Culture with Conditional
Image Retrieval
- Title(参考訳): MosAIc: 条件付きイメージ検索で文化全体の芸術的つながりを見つける
- Authors: Mark Hamilton, Stephanie Fu, Mindren Lu, Johnny Bui, Darius Bopp,
Zhenbang Chen, Felix Tran, Margaret Wang, Marina Rogers, Lei Zhang, Chris
Hoder, William T. Freeman
- Abstract要約: 視覚的類似性検索とユーザ提供フィルタと「条件」を組み合わせた条件付き画像検索(CIR)を導入する。
CIRは、画像コーパスの異なるサブセットにまたがる類似した画像のペアを見つけることができる。
我々は,我々のCIRデータ構造がGAN(Generative Adversarial Networks)において,真のデータ分布を適切にモデル化できない「盲点」を識別可能であることを示す。
- 参考スコア(独自算出の注目度): 27.549695661396274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MosAIc, an interactive web app that allows users to find pairs
of semantically related artworks that span different cultures, media, and
millennia. To create this application, we introduce Conditional Image Retrieval
(CIR) which combines visual similarity search with user supplied filters or
"conditions". This technique allows one to find pairs of similar images that
span distinct subsets of the image corpus. We provide a generic way to adapt
existing image retrieval data-structures to this new domain and provide
theoretical bounds on our approach's efficiency. To quantify the performance of
CIR systems, we introduce new datasets for evaluating CIR methods and show that
CIR performs non-parametric style transfer. Finally, we demonstrate that our
CIR data-structures can identify "blind spots" in Generative Adversarial
Networks (GAN) where they fail to properly model the true data distribution.
- Abstract(参考訳): MosAIcはインタラクティブなウェブアプリケーションで、ユーザーは異なる文化、メディア、千年紀にまたがるセマンティックな関連アートワークのペアを見つけることができる。
このアプリケーションを作成するために,視覚的類似性検索とユーザが提供するフィルタや条件を組み合わせた条件付き画像検索(Conditional Image Retrieval, CIR)を導入する。
このテクニックにより、イメージコーパスの異なるサブセットにまたがる類似したイメージのペアを見つけることができる。
既存の画像検索データ構造をこの新しいドメインに適応させる汎用的な方法を提供し,提案手法の効率性に関する理論的境界を提供する。
CIRシステムの性能を定量化するために、CIR手法の評価のための新しいデータセットを導入し、CIRが非パラメトリックなスタイル転送を行うことを示す。
最後に、我々のCIRデータ構造がGAN(Generative Adversarial Networks)において真のデータ分布を適切にモデル化できない「盲点」を識別できることを実証する。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Integrating Visual and Semantic Similarity Using Hierarchies for Image
Retrieval [0.46040036610482665]
視覚的階層構造を用いて視覚的および意味的類似性の両方をキャプチャするCBIRの手法を提案する。
階層構造は、分類のために訓練されたディープニューラルネットワークの潜在空間に重複する特徴を持つクラスをマージすることによって構築される。
本手法は,既存の画像検索手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-16T15:23:14Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Image Retrieval on Real-life Images with Pre-trained Vision-and-Language
Models [41.7254780975984]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。
CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。
比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T13:25:06Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。