論文の概要: A Sketch+Text Composed Image Retrieval Dataset for Thangka
- arxiv url: http://arxiv.org/abs/2602.08411v1
- Date: Mon, 09 Feb 2026 09:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.144135
- Title: A Sketch+Text Composed Image Retrieval Dataset for Thangka
- Title(参考訳): Sketch+Text Composed Image Retrieval Dataset for Thangka
- Authors: Jinyu Xu, Yi Sun, Jiangling Zhang, Qing Xie, Daomin Ji, Zhifeng Bao, Jiachen Li, Yanchun Ma, Yongjian Liu,
- Abstract要約: Composed Image Retrieval (CIR)は、複数のクエリーモダリティを組み合わせることで画像検索を可能にする。
CIRThanは、Thangkaイメージ用のスケッチ+テキストコンポジションイメージ検索データセットである。
- 参考スコア(独自算出の注目度): 14.600552992453977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) enables image retrieval by combining multiple query modalities, but existing benchmarks predominantly focus on general-domain imagery and rely on reference images with short textual modifications. As a result, they provide limited support for retrieval scenarios that require fine-grained semantic reasoning, structured visual understanding, and domain-specific knowledge. In this work, we introduce CIRThan, a sketch+text Composed Image Retrieval dataset for Thangka imagery, a culturally grounded and knowledge-specific visual domain characterized by complex structures, dense symbolic elements, and domain-dependent semantic conventions. CIRThan contains 2,287 high-quality Thangka images, each paired with a human-drawn sketch and hierarchical textual descriptions at three semantic levels, enabling composed queries that jointly express structural intent and multi-level semantic specification. We provide standardized data splits, comprehensive dataset analysis, and benchmark evaluations of representative supervised and zero-shot CIR methods. Experimental results reveal that existing CIR approaches, largely developed for general-domain imagery, struggle to effectively align sketch-based abstractions and hierarchical textual semantics with fine-grained Thangka images, particularly without in-domain supervision. We believe CIRThan offers a valuable benchmark for advancing sketch+text CIR, hierarchical semantic modeling, and multimodal retrieval in cultural heritage and other knowledge-specific visual domains. The dataset is publicly available at https://github.com/jinyuxu-whut/CIRThan.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、複数のクエリーモダリティを組み合わせることで画像検索を可能にするが、既存のベンチマークは主に一般領域の画像に焦点を当て、短いテキスト修正による参照画像に依存している。
結果として、細粒度のセマンティック推論、構造化された視覚的理解、ドメイン固有の知識を必要とする検索シナリオを限定的にサポートする。
本研究では,タンッカ画像のためのスケッチ+テキスト合成画像検索データセットであるCIRThanを紹介する。
CIRThanは2,287の高品質なThangka画像を含み、それぞれが3つのセマンティックレベルで人間のスケッチと階層的なテキスト記述と組み合わせられ、構造的意図とマルチレベルのセマンティック仕様を共同で表現できる。
我々は、標準化されたデータ分割、包括的なデータセット分析、代表監督型およびゼロショットCIR法のベンチマーク評価を提供する。
実験結果から,既存のCIRアプローチは,スケッチベースの抽象化や階層的テキスト意味論を,特にドメイン内の監督を伴わない細粒なThangkaイメージに効果的に整合させることが困難であることがわかった。
我々はCIRThanが、スケッチ+テキストCIR、階層的セマンティックモデリング、文化遺産やその他の知識固有の視覚領域におけるマルチモーダル検索に有用なベンチマークを提供すると考えている。
データセットはhttps://github.com/jinyuxu-whut/CIRThanで公開されている。
関連論文リスト
- Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration [64.12127577975696]
ゼロショット合成画像検索(ZS-CIR)は急速に発展し,実用化が進んでいる分野である。
既存のZS-CIR法は、細粒度の変化を捉え、視覚情報と意味情報を効果的に統合するのに苦労することが多い。
補足型ビジュアルセマンティック統合を用いたファイングラインドゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2026-01-20T15:17:14Z) - Entity-Guided Multi-Task Learning for Infrared and Visible Image Fusion [14.3937321254743]
Infrared and visible image fusion (EGMT) のためのEntity-Guided Multi-Task Learning という新しい融合手法を提案する。
大規模視覚言語モデルにより生成された画像キャプションからエンティティレベルのテキスト情報を抽出する原理的手法を提案する。
並列マルチタスク学習アーキテクチャを構築し、画像融合とマルチラベル分類タスクを統合する。
また、視覚的特徴とエンティティレベルのテキスト的特徴のきめ細かい相互作用を容易にするために、エンティティ誘導型クロスモーダルインタラクティブモジュールも開発されている。
論文 参考訳(メタデータ) (2026-01-05T08:00:03Z) - Through the PRISm: Importance-Aware Scene Graphs for Image Retrieval [6.804414686833417]
PRISmは2つの新しいコンポーネントを通して画像と画像の検索を促進するマルチモーダルフレームワークである。
Importance Prediction Moduleは、イメージ内で最も重要なオブジェクトとリレーショナルトリガを特定し、保持する。
Edge-Aware Graph Neural Networkは、リレーショナル構造を明示的にエンコードし、グローバルな視覚的特徴を統合して、セマンティックなインフォメーション画像の埋め込みを生成する。
論文 参考訳(メタデータ) (2025-12-20T15:57:46Z) - Text-based Aerial-Ground Person Retrieval [55.31140361809554]
本研究はTAG-PR(Text-based Aerial-Ground Person Retrieval)を紹介する。
異質な空中・地上からの人物画像をテキスト記述で検索することを目的としている。
論文 参考訳(メタデータ) (2025-11-11T15:49:04Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival [8.656768875730904]
画像キャプションデータセットであるLuojiaHOGを導入する。
LuojiaHOGには階層的な空間サンプリング、Open Geospatial Consortium(OGC)標準への分類システム、詳細なキャプション生成が含まれる。
また,CLIPをベースとした画像セマンティックエンハンスメントネットワーク(CISEN)を提案する。
論文 参考訳(メタデータ) (2024-03-16T10:46:14Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。