論文の概要: Dynamic Multi-level Weighted Alignment Network for Zero-shot Sketch-based Image Retrieval
- arxiv url: http://arxiv.org/abs/2511.00925v1
- Date: Sun, 02 Nov 2025 13:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.997237
- Title: Dynamic Multi-level Weighted Alignment Network for Zero-shot Sketch-based Image Retrieval
- Title(参考訳): ゼロショットスケッチに基づく画像検索のための動的マルチレベル重み付きアライメントネットワーク
- Authors: Hanwen Su, Ge Song, Jiyan Wang, Yuanbo Zhu,
- Abstract要約: 本稿では,ZS-SBIRのための動的マルチレベル重み付けネットワークを提案する。
i)CLIPテキストエンコーダと、テキストおよびビジュアルトークンを抽出するViTを含むユニモーダル特徴抽出モジュール、(ii)ローカルおよびグローバルアグリゲーションブロックによるアライメントウェイトリストを生成するクロスモーダル多レベル重み付けモジュール、(iii)トリプルトロスにおけるドメインのバランス改善を目的とした軽量四重項損失モジュールの3つのコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 4.254577293760986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of zero-shot sketch-based image retrieval (ZS-SBIR) has achieved increasing attention due to its wide applications, e.g. e-commerce. Despite progress made in this field, previous works suffer from using imbalanced samples of modalities and inconsistent low-quality information during training, resulting in sub-optimal performance. Therefore, in this paper, we introduce an approach called Dynamic Multi-level Weighted Alignment Network for ZS-SBIR. It consists of three components: (i) a Uni-modal Feature Extraction Module that includes a CLIP text encoder and a ViT for extracting textual and visual tokens, (ii) a Cross-modal Multi-level Weighting Module that produces an alignment weight list by the local and global aggregation blocks to measure the aligning quality of sketch and image samples, (iii) a Weighted Quadruplet Loss Module aiming to improve the balance of domains in the triplet loss. Experiments on three benchmark datasets, i.e., Sketchy, TU-Berlin, and QuickDraw, show our method delivers superior performances over the state-of-the-art ZS-SBIR methods.
- Abstract(参考訳): ゼロショットスケッチベース画像検索(ZS-SBIR)の問題点は,eコマースなど幅広い応用によって注目されている。
この分野での進歩にもかかわらず、以前の研究はトレーニング中に不均衡なモダリティと不整合な低品質情報を使用することに悩まされ、結果として準最適性能がもたらされた。
そこで本稿では,ZS-SBIRのための動的マルチレベル重み付けネットワークを提案する。
3つの構成要素から構成される。
(i)CLIPテキストエンコーダとテキストトークンと視覚トークンを抽出するViTを含むユニモーダル特徴抽出モジュール
二 スケッチ及び画像サンプルの整合性を測定するため、局所及びグローバル集約ブロックによる整合重みリストを作成するクロスモーダル多層重みモジュール。
三)三重項損失におけるドメインのバランスを改善することを目的とした重み付き四重項損失モジュール。
Sketchy,TU-Berlin,QuickDrawの3つのベンチマークデータセットを用いた実験により,本手法は最先端のZS-SBIR法よりも優れた性能を示した。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval [10.202562518113677]
ゼロショットスケッチに基づく画像検索のための補助テキスト記述を用いたクロスモーダルアライメント・アライメント・ネットワークを提案する。
私たちの重要なイノベーションは、画像の補助情報としてテキストデータを使用することであり、それによって言語が提供する本質的にゼロショットの一般化能力を活用することです。
論文 参考訳(メタデータ) (2024-07-01T05:32:06Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文 参考訳(メタデータ) (2021-12-15T08:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。