Fugu-MT 論文翻訳(概要): Simple Yet Efficient: Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment

論文の概要: Simple Yet Efficient: Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment

arxiv url: http://arxiv.org/abs/2406.11551v2
Date: Sat, 22 Jun 2024 08:02:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 00:04:06.761206
Title: Simple Yet Efficient: Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment
Title（参考訳）: シンプルだが効率的なFG-SBIR : 統一されたサンプル特徴アライメントによる自己監督型FG-SBIRの実現
Authors: Jianan Jiang, Di Wu, Zhilin Jiang, Weiren Yu,
Abstract要約: FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。両モード間のギャップを狭めるための,単純かつ効率的な手法を提案する。このフレームワークは,CNNおよびViTベースのバックボーンにおいて優れた結果が得られる。
参考スコア（独自算出の注目度）: 6.034505799418777
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) aims to minimize the distance between sketches and corresponding images in the embedding space. However, scalability is hindered by the growing complexity of solutions, mainly due to the abstract nature of fine-grained sketches. In this paper, we propose a simple yet efficient approach to narrow the gap between the two modes. It mainly facilitates unified mutual information sharing both intra- and inter-samples, rather than treating them as a single feature alignment problem between modalities. Specifically, our approach includes: (i) Employing dual weight-sharing networks to optimize alignment within sketch and image domain, which also effectively mitigates model learning saturation issues. (ii) Introducing an objective optimization function based on contrastive loss to enhance the model's ability to align features intra- and inter-samples. (iii) Presenting a learnable TRSM combined of self-attention and cross-attention to promote feature representations among tokens, further enhancing sample alignment in the embedding space. Our framework achieves excellent results on CNN- and ViT-based backbones. Extensive experiments demonstrate its superiority over existing methods. We also introduce Cloths-V1, the first professional fashion sketches and images dataset, utilized to validate our method and will be beneficial for other applications.
Abstract（参考訳）: Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) は、スケッチと埋め込み空間における対応する画像の距離を最小化することを目的としている。しかし、スケーラビリティはソリューションの複雑さの増大によって妨げられ、主にきめ細かいスケッチの抽象的な性質が原因である。本稿では,2つのモード間のギャップを狭めるための,シンプルで効率的な手法を提案する。主に、モダリティ間の単一特徴アライメント問題として扱うのではなく、サンプル内の情報とサンプル間の情報を共有する統一的な情報共有を促進する。特に、我々のアプローチには以下のものがある。一二重重み共有ネットワークを用いてスケッチと画像領域内のアライメントを最適化し、モデル学習飽和問題を効果的に軽減する。 (2)コントラスト損失に基づく目的最適化関数の導入により,モデルがサンプル内およびサンプル間の特徴を整列する能力を高める。三トークン間の特徴表現を促進するために自己注意と相互注意を組み合わせた学習可能なTRSMを提示し、さらに埋め込み空間におけるサンプルアライメントを強化する。このフレームワークは,CNNおよびViTベースのバックボーンにおいて優れた結果が得られる。大規模な実験は、既存の方法よりも優れていることを示す。また、最初のプロのファッションスケッチとイメージデータセットであるCloss-V1を導入し、私たちのメソッドを検証するために利用し、他のアプリケーションに役立ちます。

関連論文リスト

Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文参考訳（メタデータ） (2025-07-14T14:28:15Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Relation-Aware Meta-Learning for Zero-shot Sketch-Based Image Retrieval [89.15541654536544]
スケッチベースの画像検索(SBIR)は、同じクラス内で自然写真を取得するためにフリーハンドスケッチに依存している。この制限に対処するため、タスクはゼロショットSketch-based Image Retrieval (ZS-SBIR)へと進化した。本稿では,ZS-SBIRのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-28T09:35:27Z)
Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文参考訳（メタデータ） (2024-06-10T02:20:26Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文参考訳（メタデータ） (2023-12-16T04:50:34Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。 MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文参考訳（メタデータ） (2023-07-23T03:38:55Z)
S2-Net: Self-supervision Guided Feature Representation Learning for Cross-Modality Images [0.0]
モダリティ間の画像ペアは、通信の特徴表現を可能な限り近いものにするのに失敗することが多い。本稿では,最近成功した検出・記述パイプラインに基づいて,モーダリティ間特徴表現学習ネットワークであるS2-Netを設計する。本稿では,自己教師型学習とよく設計された損失関数を導入し,本来の利点を捨てることなくトレーニングを指導する。
論文参考訳（メタデータ） (2022-03-28T08:47:49Z)
BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文参考訳（メタデータ） (2022-01-17T18:45:55Z)
MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文参考訳（メタデータ） (2021-10-21T16:45:23Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。