論文の概要: Sketch and Text Synergy: Fusing Structural Contours and Descriptive Attributes for Fine-Grained Image Retrieval
- arxiv url: http://arxiv.org/abs/2604.15735v1
- Date: Fri, 17 Apr 2026 06:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.762162
- Title: Sketch and Text Synergy: Fusing Structural Contours and Descriptive Attributes for Fine-Grained Image Retrieval
- Title(参考訳): Sketch and Text Synergy:Fusing Structure Contours and Descriptive Attributes for Fine-Grained Image Retrieval
- Authors: Siyuan Wang, Hanchen Gao, Guangming Zhu, Jiang Lu, Yiyue Ma, Tianci Wu, Jincai Huang, Liang Zhang,
- Abstract要約: 手書きのスケッチやテキストによる記述によるきめ細かい画像検索は、固有のモダリティギャップのため、依然として重要な課題である。
スケッチとテキストに基づく画像検索 (STBIR) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.86778139491561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained image retrieval via hand-drawn sketches or textual descriptions remains a critical challenge due to inherent modality gaps. While hand-drawn sketches capture complex structural contours, they lack color and texture, which text effectively provides despite omitting spatial contours. Motivated by the complementary nature of these modalities, we propose the Sketch and Text Based Image Retrieval (STBIR) framework. By synergizing the rich color and texture cues from text with the structural outlines provided by sketches, STBIR achieves superior fine-grained retrieval performance. First, a curriculum learning driven robustness enhancement module is proposed to enhance the model's robustness when handling queries of varying quality. Second, we introduce a category-knowledge-based feature space optimization module, thereby significantly boosting the model's representational power. Finally, we design a multi-stage cross-modal feature alignment mechanism to effectively mitigate the challenges of cross modal feature alignment. Furthermore, we curate the fine-grained STBIR benchmark dataset to rigorously validate the efficacy of our proposed framework and to provide data support as a reference for subsequent related research. Extensive experiments demonstrate that the proposed STBIR framework significantly outperforms state of the art methods.
- Abstract(参考訳): 手書きのスケッチやテキストによる記述によるきめ細かい画像検索は、固有のモダリティギャップのため、依然として重要な課題である。
手描きのスケッチは複雑な構造的な輪郭をキャプチャするが、色やテクスチャが欠けており、空間的な輪郭を省略したテキストが効果的に提供される。
これらのモダリティの相補的な性質から,Sketch and Text Based Image Retrieval (STBIR) フレームワークを提案する。
STBIRはテキストからリッチな色とテクスチャのキューをスケッチによって提供される構造的なアウトラインと相乗することにより、よりきめ細かい検索性能を実現する。
まず、様々な品質の問合せを扱う際のモデルの堅牢性を高めるために、カリキュラム学習による堅牢性向上モジュールを提案する。
第2に,カテゴリ知識に基づく特徴空間最適化モジュールを導入し,モデルの表現力を大幅に向上させる。
最後に、多段階のクロスモーダル特徴アライメント機構を設計し、クロスモーダル特徴アライメントの課題を効果的に軽減する。
さらに,詳細なSTBIRベンチマークデータセットをキュレートして,提案フレームワークの有効性を厳格に検証し,その後の研究の参考としてデータサポートを提供する。
大規模な実験により、提案したSTBIRフレームワークは最先端の手法を大幅に上回っていることが示された。
関連論文リスト
- StableSketcher: Enhancing Diffusion Model for Pixel-based Sketch Generation via Visual Question Answering Feedback [4.851573895718146]
本研究では,手書きスケッチを高速に作成するための拡散モデルを実現する新しいフレームワークであるStableSketcherを提案する。
変分オートエンコーダを微調整して潜時デコーディングを最適化し、スケッチの特徴をよりよく捉えます。
並行して、視覚的質問応答に基づく強化学習のための新たな報酬関数を統合し、テキスト画像のアライメントと意味的一貫性を改善した。
論文 参考訳(メタデータ) (2025-10-23T00:27:32Z) - High Fidelity Text to Image Generation with Contrastive Alignment and Structural Guidance [0.0]
本稿では,既存のテキスト駆動画像生成手法の性能を,意味的アライメントの精度と構造的整合性の観点から考察する。
テキスト画像のコントラスト制約と構造誘導機構を統合することで,高忠実度画像生成手法を提案する。
本手法は,計算複雑性を増大させることなく,意味的アライメントと構造的忠実度とのギャップを効果的に埋めることを示す。
論文 参考訳(メタデータ) (2025-08-14T02:15:11Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Recovering Partially Corrupted Objects via Sketch-Guided Bidirectional Feature Interaction [16.03488741913531]
テキスト誘導拡散モデルはテキストプロンプトを通じて高レベルの意味指導を提供する。
これらはしばしば、部分的に破損した物体に正確なピクセルレベルの空間制御を欠いている。
本研究では,事前訓練された安定拡散モデルに基づくスケッチ誘導双方向特徴相互作用フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T08:34:31Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - Cross-SRN: Structure-Preserving Super-Resolution Network with Cross
Convolution [64.76159006851151]
低解像度 (LR) 画像から高解像度 (SR) 画像への復元は, 正確かつ明確である。
既存のディープラーニングは、画像の固有の構造情報をほとんど無視する。
構造情報の探索と保存を行う階層的特徴利用ネットワークを設計する。
論文 参考訳(メタデータ) (2022-01-05T05:15:01Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。