論文の概要: Retrieval-guided Cross-view Image Synthesis
- arxiv url: http://arxiv.org/abs/2411.19510v2
- Date: Sat, 25 Jan 2025 06:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:51:59.514296
- Title: Retrieval-guided Cross-view Image Synthesis
- Title(参考訳): 検索誘導型クロスビュー画像合成
- Authors: Hongji Yang, Yiru Li, Yingying Zhu,
- Abstract要約: クロスビュー画像合成は、信頼性の高い対応を確立する上で大きな課題となる。
本稿では,検索手法が効果的なクロスビュー画像合成を促進する方法を再定義する検索誘導フレームワークを提案する。
我々の研究は、情報検索と合成タスクを橋渡しし、検索技術が複雑なドメイン間合成の課題にどのように対処できるかについての洞察を提供する。
- 参考スコア(独自算出の注目度): 3.7477511412024573
- License:
- Abstract: Information retrieval techniques have demonstrated exceptional capabilities in identifying semantic similarities across diverse domains through robust feature representations. However, their potential in guiding synthesis tasks, particularly cross-view image synthesis, remains underexplored. Cross-view image synthesis presents significant challenges in establishing reliable correspondences between drastically different viewpoints. To address this, we propose a novel retrieval-guided framework that reimagines how retrieval techniques can facilitate effective cross-view image synthesis. Unlike existing methods that rely on auxiliary information, such as semantic segmentation maps or preprocessing modules, our retrieval-guided framework captures semantic similarities across different viewpoints, trained through contrastive learning to create a smooth embedding space. Furthermore, a novel fusion mechanism leverages these embeddings to guide image synthesis while learning and encoding both view-invariant and view-specific features. To further advance this area, we introduce VIGOR-GEN, a new urban-focused dataset with complex viewpoint variations in real-world scenarios. Extensive experiments demonstrate that our retrieval-guided approach significantly outperforms existing methods on the CVUSA, CVACT and VIGOR-GEN datasets, particularly in retrieval accuracy (R@1) and synthesis quality (FID). Our work bridges information retrieval and synthesis tasks, offering insights into how retrieval techniques can address complex cross-domain synthesis challenges.
- Abstract(参考訳): 情報検索技術は、頑健な特徴表現を通して、多様な領域にまたがる意味的類似性を識別する異常な能力を示した。
しかし、合成タスク、特にクロスビュー画像合成を導く可能性については、いまだ未解明のままである。
クロスビュー画像合成は、大きく異なる視点間の信頼性の高い対応を確立する上で大きな課題となる。
そこで本研究では,検索手法が効果的なクロスビュー画像合成を促進する方法を再定義する,新たな検索誘導フレームワークを提案する。
セマンティックセグメンテーションマップや前処理モジュールなどの補助情報に依存する既存の手法とは異なり、検索誘導フレームワークは、異なる視点で意味的類似性を捉え、対照的な学習を通じて学習し、スムーズな埋め込み空間を作り出す。
さらに、新しい融合機構は、これらの埋め込みを利用して画像合成を誘導し、ビュー不変とビュー固有の両方の特徴を学習し、符号化する。
この領域をさらに推し進めるために、実世界のシナリオにおいて複雑な視点変化を持つ都市中心の新たなデータセットであるVIGOR-GENを紹介する。
検索誘導手法はCVUSA,CVACT,VIGOR-GENデータセット,特に検索精度(R@1)と合成品質(FID)において,既存の手法よりも優れていた。
我々の研究は、情報検索と合成タスクを橋渡しし、検索技術が複雑なドメイン間合成の課題にどのように対処できるかについての洞察を提供する。
関連論文リスト
- A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Where Do We Stand with Implicit Neural Representations? A Technical and Performance Survey [16.89460694470542]
Inlicit Neural Representation (INR) は知識表現のパラダイムとして登場した。
INRは、データを連続的な暗黙の関数としてモデル化するために多層パーセプトロン(MLP)を利用する。
この調査では、アクティベーション機能、位置エンコーディング、統合戦略、ネットワーク構造という4つの重要な領域に分類する明確な分類法を紹介した。
論文 参考訳(メタデータ) (2024-11-06T06:14:24Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Autoencoder for Synthetic to Real Generalization: From Simple to More
Complex Scenes [13.618797548020462]
我々は,自己エンコーダアーキテクチャに注目し,シミュレーション画像と実画像の領域シフトに起因する帰納的バイアスに不変な潜在空間表現の学習を目指す。
本稿では,視覚的複雑性が増大する実際のデータセットに対して,一般化可能性を高め,セマンティクスの保存を改善するためのアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-01T12:23:41Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z) - Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis [39.53519330457627]
本稿では,複数ショット認識と新規ビュー合成という新たな課題を提案する。
我々は、オブジェクト分類器を同時に学習し、新しい視点からそのタイプのオブジェクトの画像を生成することを目的としている。
生成モデルと識別モデルとの相互作用と協調に焦点を当てる。
論文 参考訳(メタデータ) (2020-08-16T19:40:56Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z) - Hierarchy Composition GAN for High-fidelity Image Synthesis [57.32311953820988]
本稿では,革新的階層構成GAN(HIC-GAN)を提案する。
HIC-GANは、幾何学と外観領域における画像合成をエンドツーエンドのトレーニング可能なネットワークに組み込んでいる。
シーンテキスト画像合成, 肖像画編集, 室内レンダリングタスクの実験により, 提案したHIC-GANは, 質的, 定量的に優れた合成性能が得られることを示した。
論文 参考訳(メタデータ) (2019-05-12T11:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。