論文の概要: MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions
- arxiv url: http://arxiv.org/abs/2403.19651v2
- Date: Mon, 24 Jun 2024 23:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 20:09:17.383871
- Title: MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions
- Title(参考訳): MagicLens:オープンなインストラクションで自己監督されたイメージ検索
- Authors: Kai Zhang, Yi Luan, Hexiang Hu, Kenton Lee, Siyuan Qiao, Wenhu Chen, Yu Su, Ming-Wei Chang,
- Abstract要約: オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。
MagicLensは、重要な新しい洞察に基づいて構築されている。同じWebページで自然に起こるイメージペアは、幅広い暗黙の関係を含んでいる。
MagicLensは、さまざまな画像検索タスクの8つのベンチマークで、これまでの最高値に匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 64.89284104414865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retrieval, i.e., finding desired images given a reference image, inherently encompasses rich, multi-faceted search intents that are difficult to capture solely using image-based measures. Recent works leverage text instructions to allow users to more freely express their search intents. However, they primarily focus on image pairs that are visually similar and/or can be characterized by a small set of pre-defined relations. The core thesis of this paper is that text instructions can enable retrieving images with richer relations beyond visual similarity. To show this, we introduce MagicLens, a series of self-supervised image retrieval models that support open-ended instructions. MagicLens is built on a key novel insight: image pairs that naturally occur on the same web pages contain a wide range of implicit relations (e.g., inside view of), and we can bring those implicit relations explicit by synthesizing instructions via foundation models. Trained on 36.7M (query image, instruction, target image) triplets with rich semantic relations mined from the web, MagicLens achieves results comparable with or better than prior best on eight benchmarks of various image retrieval tasks, while maintaining high parameter efficiency with a significantly smaller model size. Additional human analyses on a 1.4M-image unseen corpus further demonstrate the diversity of search intents supported by MagicLens. Code and models are publicly available at https://open-vision-language.github.io/MagicLens/.
- Abstract(参考訳): 画像検索、すなわち、参照画像が与えられた所望の画像を見つけることは、本質的に、画像ベースの測度だけでは捉えがたい、リッチで多面的な検索意図を包含する。
最近の研究は、ユーザーが検索意図をより自由に表現できるようにテキスト命令を活用している。
しかし、主に視覚的に類似しており、/または事前定義された小さな関係によって特徴づけられるイメージペアに焦点を当てている。
本論文の核となるテーマは、テキスト命令により、視覚的類似性を超えて、よりリッチな関係を持つ画像の検索を可能にすることである。
これを示すために、オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。
MagicLensは、重要な新しい洞察に基づいて構築されている: 同じWebページに自然に発生するイメージペアは、幅広い暗黙の関係(例えば、内部ビュー)を含み、基礎モデルを通じて命令を合成することで、これらの暗黙の関係を明示することができる。
36.7M(クエリー画像、命令、ターゲット画像)でトレーニングされたMagicLensは、様々な画像検索タスクの8つのベンチマークにおいて、従来と同等かそれ以上の結果を得ると同時に、かなり小さなモデルサイズで高いパラメータ効率を維持する。
1.4Mイメージの未確認コーパスに関する追加の人間分析は、MagicLensがサポートする検索意図の多様性をさらに証明している。
コードとモデルはhttps://open-vision-lang.github.io/MagicLens/.comで公開されている。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。