論文の概要: MosAIc: Finding Artistic Connections across Culture with Conditional
Image Retrieval
- arxiv url: http://arxiv.org/abs/2007.07177v3
- Date: Sun, 28 Feb 2021 01:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:31:03.985784
- Title: MosAIc: Finding Artistic Connections across Culture with Conditional
Image Retrieval
- Title(参考訳): MosAIc: 条件付きイメージ検索で文化全体の芸術的つながりを見つける
- Authors: Mark Hamilton, Stephanie Fu, Mindren Lu, Johnny Bui, Darius Bopp,
Zhenbang Chen, Felix Tran, Margaret Wang, Marina Rogers, Lei Zhang, Chris
Hoder, William T. Freeman
- Abstract要約: 視覚的類似性検索とユーザ提供フィルタと「条件」を組み合わせた条件付き画像検索(CIR)を導入する。
CIRは、画像コーパスの異なるサブセットにまたがる類似した画像のペアを見つけることができる。
我々は,我々のCIRデータ構造がGAN(Generative Adversarial Networks)において,真のデータ分布を適切にモデル化できない「盲点」を識別可能であることを示す。
- 参考スコア(独自算出の注目度): 27.549695661396274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MosAIc, an interactive web app that allows users to find pairs
of semantically related artworks that span different cultures, media, and
millennia. To create this application, we introduce Conditional Image Retrieval
(CIR) which combines visual similarity search with user supplied filters or
"conditions". This technique allows one to find pairs of similar images that
span distinct subsets of the image corpus. We provide a generic way to adapt
existing image retrieval data-structures to this new domain and provide
theoretical bounds on our approach's efficiency. To quantify the performance of
CIR systems, we introduce new datasets for evaluating CIR methods and show that
CIR performs non-parametric style transfer. Finally, we demonstrate that our
CIR data-structures can identify "blind spots" in Generative Adversarial
Networks (GAN) where they fail to properly model the true data distribution.
- Abstract(参考訳): MosAIcはインタラクティブなウェブアプリケーションで、ユーザーは異なる文化、メディア、千年紀にまたがるセマンティックな関連アートワークのペアを見つけることができる。
このアプリケーションを作成するために,視覚的類似性検索とユーザが提供するフィルタや条件を組み合わせた条件付き画像検索(Conditional Image Retrieval, CIR)を導入する。
このテクニックにより、イメージコーパスの異なるサブセットにまたがる類似したイメージのペアを見つけることができる。
既存の画像検索データ構造をこの新しいドメインに適応させる汎用的な方法を提供し,提案手法の効率性に関する理論的境界を提供する。
CIRシステムの性能を定量化するために、CIR手法の評価のための新しいデータセットを導入し、CIRが非パラメトリックなスタイル転送を行うことを示す。
最後に、我々のCIRデータ構造がGAN(Generative Adversarial Networks)において真のデータ分布を適切にモデル化できない「盲点」を識別できることを実証する。
関連論文リスト
- Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Integrating Visual and Semantic Similarity Using Hierarchies for Image
Retrieval [0.46040036610482665]
視覚的階層構造を用いて視覚的および意味的類似性の両方をキャプチャするCBIRの手法を提案する。
階層構造は、分類のために訓練されたディープニューラルネットワークの潜在空間に重複する特徴を持つクラスをマージすることによって構築される。
本手法は,既存の画像検索手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-16T15:23:14Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - Image Retrieval on Real-life Images with Pre-trained Vision-and-Language
Models [41.7254780975984]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。
CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。
比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T13:25:06Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - Cross-Spectral Iris Matching Using Conditional Coupled GAN [22.615156512223766]
クロススペクトル虹彩認識は、個人のアイデンティティを認証するための有望な生体計測手法として出現している。
異なるスペクトル帯域で取得したアイリス画像のマッチングは、単一帯域近赤外(NIR)マッチングと比較して顕著な性能低下を示した。
クロススペクトル虹彩認識のための条件結合生成対向ネットワーク(CpGAN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-09T19:13:24Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。