Fugu-MT 論文翻訳(概要): Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling

論文の概要: Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling

arxiv url: http://arxiv.org/abs/2406.11551v3
Date: Thu, 1 Aug 2024 16:00:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-02 13:55:00.762006
Title: Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling
Title（参考訳）: FG-SBIRの高機能化と多機能化に向けて
Authors: Jianan Jiang, Hao Tang, Zhilin Jiang, Weiren Yu, Di Wu,
Abstract要約: FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。両領域間のギャップを狭める効果的なアプローチを提案する。主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
参考スコア（独自算出の注目度）: 11.129453244307369
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) aims to minimize the distance between sketches and corresponding images in the embedding space. However, scalability is hindered by the growing complexity of solutions, mainly due to the abstract nature of fine-grained sketches. In this paper, we propose an effective approach to narrow the gap between the two domains. It mainly facilitates unified mutual information sharing both intra- and inter-samples, rather than treating them as a single feature alignment problem between modalities. Specifically, our approach includes: (i) Employing dual weight-sharing networks to optimize alignment within the sketch and image domain, which also effectively mitigates model learning saturation issues. (ii) Introducing an objective optimization function based on contrastive loss to enhance the model's ability to align features in both intra- and inter-samples. (iii) Presenting a self-supervised Multi-Scale Token Recycling (MSTR) Module featured by recycling discarded patch tokens in multi-scale features, further enhancing representation capability and retrieval performance. Our framework achieves excellent results on CNN- and ViT-based backbones. Extensive experiments demonstrate its superiority over existing methods. We also introduce Cloths-V1, the first professional fashion sketch-image dataset, utilized to validate our method and will be beneficial for other applications
Abstract（参考訳）: Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) は、スケッチと埋め込み空間における対応する画像の距離を最小化することを目的としている。しかし、スケーラビリティはソリューションの複雑さの増大によって妨げられ、主にきめ細かいスケッチの抽象的な性質が原因である。本稿では,二つの領域間のギャップを狭める効果的な手法を提案する。主に、モダリティ間の単一特徴アライメント問題として扱うのではなく、サンプル内の情報とサンプル間の情報を共有する統一的な情報共有を促進する。特に、我々のアプローチには以下のものがある。一複重共有ネットワークを用いてスケッチと画像領域内のアライメントを最適化し、モデル学習飽和問題を効果的に軽減する。 (2)コントラスト損失に基づく目的最適化関数の導入により,サンプル内およびサンプル間両方の特徴を整列するモデルの能力を高める。三捨てパッチトークンを多機能化した自己管理型マルチスケールトークンリサイクル(MSTR)モジュールの提示、表現能力の向上及び検索性能の向上。このフレームワークは,CNNおよびViTベースのバックボーンにおいて優れた結果が得られる。大規模な実験は、既存の方法よりも優れていることを示す。また、最初のプロのファッションスケッチイメージデータセットであるCloss-V1も導入し、私たちのメソッドを検証するために利用し、他のアプリケーションに役立ちます。

関連論文リスト

Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文参考訳（メタデータ） (2026-02-02T13:59:39Z)
CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。 CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文参考訳（メタデータ） (2026-01-07T09:21:38Z)
Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文参考訳（メタデータ） (2025-07-14T14:28:15Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Relation-Aware Meta-Learning for Zero-shot Sketch-Based Image Retrieval [89.15541654536544]
スケッチベースの画像検索(SBIR)は、同じクラス内で自然写真を取得するためにフリーハンドスケッチに依存している。この制限に対処するため、タスクはゼロショットSketch-based Image Retrieval (ZS-SBIR)へと進化した。本稿では,ZS-SBIRのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-28T09:35:27Z)
Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文参考訳（メタデータ） (2024-06-10T02:20:26Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文参考訳（メタデータ） (2023-12-16T04:50:34Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。 MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文参考訳（メタデータ） (2023-07-23T03:38:55Z)
S2-Net: Self-supervision Guided Feature Representation Learning for Cross-Modality Images [0.0]
モダリティ間の画像ペアは、通信の特徴表現を可能な限り近いものにするのに失敗することが多い。本稿では,最近成功した検出・記述パイプラインに基づいて,モーダリティ間特徴表現学習ネットワークであるS2-Netを設計する。本稿では,自己教師型学習とよく設計された損失関数を導入し,本来の利点を捨てることなくトレーニングを指導する。
論文参考訳（メタデータ） (2022-03-28T08:47:49Z)
BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文参考訳（メタデータ） (2022-01-17T18:45:55Z)
MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文参考訳（メタデータ） (2021-10-21T16:45:23Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。