Fugu-MT 論文翻訳(概要): IRGen: Generative Modeling for Image Retrieval

論文の概要: IRGen: Generative Modeling for Image Retrieval

arxiv url: http://arxiv.org/abs/2303.10126v1
Date: Fri, 17 Mar 2023 17:07:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-20 13:50:24.200890
Title: IRGen: Generative Modeling for Image Retrieval
Title（参考訳）: IRGen:画像検索のための生成モデリング
Authors: Yidan Zhang, Ting Zhang, Dong Chen, Yujing Wang, Qi Chen, Xing Xie, Hao Sun, Weiwei Deng, Qi Zhang, Fan Yang, Mao Yang, Qingmin Liao, Baining Guo
Abstract要約: 我々はシーケンス・ツー・シーケンス・モデルを用いて画像検索を生成モデルの一形態として再キャストする。我々のフレームワークIRGenは、エンドツーエンドの微分検索を可能にする統一モデルである。
参考スコア（独自算出の注目度）: 49.73420524424285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While generative modeling has been ubiquitous in natural language processing and computer vision, its application to image retrieval remains unexplored. In this paper, we recast image retrieval as a form of generative modeling by employing a sequence-to-sequence model, contributing to the current unified theme. Our framework, IRGen, is a unified model that enables end-to-end differentiable search, thus achieving superior performance thanks to direct optimization. While developing IRGen we tackle the key technical challenge of converting an image into quite a short sequence of semantic units in order to enable efficient and effective retrieval. Empirical experiments demonstrate that our model yields significant improvement over three commonly used benchmarks, for example, 22.9\% higher than the best baseline method in precision@10 on In-shop dataset with comparable recall@10 score.
Abstract（参考訳）: 生成的モデリングは自然言語処理やコンピュータビジョンにおいてユビキタスであるが、画像検索への応用は未検討である。本稿では,シーケンス・ツー・シーケンスモデルを用いて画像検索を生成モデルの一形態として再キャストし,現在の統一テーマに寄与する。我々のフレームワークIRGenは、エンドツーエンドの微分検索を可能にする統一モデルであり、直接最適化により優れた性能を実現する。 IRGenの開発中、画像の極めて短いセマンティックな配列に変換するという重要な技術的課題に取り組み、効率的かつ効果的な検索を可能にする。実証実験により,本モデルが一般的に使用される3つのベンチマーク,例えばre recall@10スコアのin-shopデータセットにおけるprecision@10の最高基準法よりも22.9\%高い値が得られることを示した。

関連論文リスト

Modelship Attribution: Tracing Multi-Stage Manipulations Across Generative Models [37.368187232084324]
The Modelship Attribution”は、編集の順序を再現し、関連する生成モデルを特定することによって、編集された画像の進化を辿ることを目的としている。複雑な多段階操作における様々なモデルの寄与を効果的に認識し、属性付けするためのフレームワークであるMAT(Modelship Attribution Transformer)を導入する。
論文参考訳（メタデータ） (2025-06-03T03:45:09Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
HRR: Hierarchical Retrospection Refinement for Generated Image Detection [16.958383381415445]
階層的レトロスペクティブ再定義(HRR)と呼ばれる拡散モデルに基づく生成画像検出フレームワークを提案する。 HRRフレームワークは、生成した画像検出タスクにおいて、最先端のメソッドよりも優れたパフォーマンスを継続的に提供する。
論文参考訳（メタデータ） (2025-02-25T05:13:44Z)
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:43Z)
Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
Fashion Image-to-Image Translation for Complementary Item Retrieval [13.88174783842901]
本稿では,ジェネレーティブ・コンパティビリティ・モデル(GeCo)を提案する。 3つのデータセットの評価によると、GeCoは最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2024-08-19T09:50:20Z)
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis [22.11487736315616]
整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。我々は,既存のノイズサンプリング手法を改良し,それらを知覚的に関係のあるスケールに偏りを持たせることにより,整流モデルの訓練を行う。本稿では,2つのモードの重みを分離したテキスト・画像生成のためのトランスフォーマー・ベースアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-03-05T18:45:39Z)
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文参考訳（メタデータ） (2023-09-02T03:27:20Z)
Diffusion Models for Image Restoration and Enhancement -- A Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文参考訳（メタデータ） (2023-08-18T08:40:38Z)
Unified Framework for Histopathology Image Augmentation and Classification via Generative Models [6.404713841079193]
本稿では,データ生成とモデルトレーニングの段階を統一プロセスに統合する,革新的な統一フレームワークを提案する。提案手法では、画像合成と分類の両方を同時に扱うために、純粋視覚変換器(ViT)ベースの条件付き生成適応ネットワーク(cGAN)モデルを用いる。本実験により,我々の統合合成増強フレームワークは,病理組織像分類モデルの性能を一貫して向上させることが示された。
論文参考訳（メタデータ） (2022-12-20T03:40:44Z)
A Visual Navigation Perspective for Category-Level Object Pose Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文参考訳（メタデータ） (2022-03-25T10:57:37Z)
A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文参考訳（メタデータ） (2021-12-07T05:22:50Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。