論文の概要: IRGen: Generative Modeling for Image Retrieval
- arxiv url: http://arxiv.org/abs/2303.10126v3
- Date: Wed, 28 Jun 2023 13:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 18:01:50.678633
- Title: IRGen: Generative Modeling for Image Retrieval
- Title(参考訳): IRGen:画像検索のための生成モデリング
- Authors: Yidan Zhang, Ting Zhang, Dong Chen, Yujing Wang, Qi Chen, Xing Xie,
Hao Sun, Weiwei Deng, Qi Zhang, Fan Yang, Mao Yang, Qingmin Liao, Baining Guo
- Abstract要約: 我々はシーケンス・ツー・シーケンス・モデルを用いて画像検索を生成モデルの一形態として再キャストする。
我々のフレームワークIRGenは、エンドツーエンドの微分検索を可能にする統一モデルである。
- 参考スコア(独自算出の注目度): 49.73420524424285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While generative modeling has been ubiquitous in natural language processing
and computer vision, its application to image retrieval remains unexplored. In
this paper, we recast image retrieval as a form of generative modeling by
employing a sequence-to-sequence model, contributing to the current unified
theme. Our framework, IRGen, is a unified model that enables end-to-end
differentiable search, thus achieving superior performance thanks to direct
optimization. While developing IRGen we tackle the key technical challenge of
converting an image into quite a short sequence of semantic units in order to
enable efficient and effective retrieval. Empirical experiments demonstrate
that our model yields significant improvement over three commonly used
benchmarks, for example, 22.9\% higher than the best baseline method in
precision@10 on In-shop dataset with comparable recall@10 score.
- Abstract(参考訳): 生成的モデリングは自然言語処理やコンピュータビジョンにおいてユビキタスであるが、画像検索への応用は未検討である。
本稿では,シーケンス・ツー・シーケンスモデルを用いて画像検索を生成モデルの一形態として再キャストし,現在の統一テーマに寄与する。
我々のフレームワークIRGenは、エンドツーエンドの微分検索を可能にする統一モデルであり、直接最適化により優れた性能を実現する。
IRGenの開発中、画像の極めて短いセマンティックな配列に変換するという重要な技術的課題に取り組み、効率的かつ効果的な検索を可能にする。
実証実験により,本モデルが一般的に使用される3つのベンチマーク,例えばre recall@10スコアのin-shopデータセットにおけるprecision@10の最高基準法よりも22.9\%高い値が得られることを示した。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Fashion Image-to-Image Translation for Complementary Item Retrieval [13.88174783842901]
本稿では,ジェネレーティブ・コンパティビリティ・モデル(GeCo)を提案する。
3つのデータセットの評価によると、GeCoは最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-08-19T09:50:20Z) - Scaling Rectified Flow Transformers for High-Resolution Image Synthesis [22.11487736315616]
整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。
我々は,既存のノイズサンプリング手法を改良し,それらを知覚的に関係のあるスケールに偏りを持たせることにより,整流モデルの訓練を行う。
本稿では,2つのモードの重みを分離したテキスト・画像生成のためのトランスフォーマー・ベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-05T18:45:39Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Unified Framework for Histopathology Image Augmentation and Classification via Generative Models [6.404713841079193]
本稿では,データ生成とモデルトレーニングの段階を統一プロセスに統合する,革新的な統一フレームワークを提案する。
提案手法では、画像合成と分類の両方を同時に扱うために、純粋視覚変換器(ViT)ベースの条件付き生成適応ネットワーク(cGAN)モデルを用いる。
本実験により,我々の統合合成増強フレームワークは,病理組織像分類モデルの性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2022-12-20T03:40:44Z) - A Visual Navigation Perspective for Category-Level Object Pose
Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。
ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文 参考訳(メタデータ) (2022-03-25T10:57:37Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。