論文の概要: Ranking-aware Uncertainty for Text-guided Image Retrieval
- arxiv url: http://arxiv.org/abs/2308.08131v1
- Date: Wed, 16 Aug 2023 03:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:04:49.844698
- Title: Ranking-aware Uncertainty for Text-guided Image Retrieval
- Title(参考訳): テキストガイド画像検索におけるランキング認識の不確かさ
- Authors: Junyang Chen and Hanjiang Lai
- Abstract要約: 本稿では,多対多対応をモデル化する新しいランキングアウェア不確実性手法を提案する。
既存の最先端手法と比較して,提案手法は2つの公開データセットに対して有意な結果が得られる。
- 参考スコア(独自算出の注目度): 17.70430913227593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image retrieval is to incorporate conditional text to better
capture users' intent. Traditionally, the existing methods focus on minimizing
the embedding distances between the source inputs and the targeted image, using
the provided triplets $\langle$source image, source text, target
image$\rangle$. However, such triplet optimization may limit the learned
retrieval model to capture more detailed ranking information, e.g., the
triplets are one-to-one correspondences and they fail to account for
many-to-many correspondences arising from semantic diversity in feedback
languages and images. To capture more ranking information, we propose a novel
ranking-aware uncertainty approach to model many-to-many correspondences by
only using the provided triplets. We introduce uncertainty learning to learn
the stochastic ranking list of features. Specifically, our approach mainly
comprises three components: (1) In-sample uncertainty, which aims to capture
semantic diversity using a Gaussian distribution derived from both combined and
target features; (2) Cross-sample uncertainty, which further mines the ranking
information from other samples' distributions; and (3) Distribution
regularization, which aligns the distributional representations of source
inputs and targeted image. Compared to the existing state-of-the-art methods,
our proposed method achieves significant results on two public datasets for
composed image retrieval.
- Abstract(参考訳): テキストガイド画像検索は、ユーザの意図をよりよく捉えるために条件付きテキストを組み込むことである。
従来、既存の手法ではソース入力とターゲット画像の間の埋め込み距離を最小化することに重点を置いており、提供されたトリプレット$\langle$source image, source text, target image$\rangle$を用いている。
しかし、このような三重項最適化は、学習された検索モデルを制限して、より詳細なランキング情報を取得することができる。例えば、三重項は1対1の対応であり、フィードバック言語や画像の意味的多様性から生じる多対多対応を考慮できない。
さらにランキング情報を取得するために,与えられた三重項のみを用いて多対多対応をモデル化する新しいランキング認識不確実性アプローチを提案する。
特徴の確率的ランキングリストを学習するために不確実性学習を導入する。
具体的には,(1)ガウス分布とターゲット分布の両方から得られたガウス分布を用いて意味的多様性を捉えることを目的としたサンプル内不確かさ,(2)他のサンプル分布からランキング情報をさらに抽出するサンプル間不確実性,(3)ソース入力とターゲット画像の分布表現を整合する分布正規化の3つの構成要素からなる。
提案手法は,既存の最先端手法と比較して,画像検索のための2つの公開データセットにおいて有意な結果が得られる。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - Probabilistic Warp Consistency for Weakly-Supervised Semantic
Correspondences [118.6018141306409]
本稿では,セマンティックマッチングのための弱教師付き学習目標である確率ワープ一貫性を提案する。
まず、同じオブジェクトクラスの異なるインスタンスを表現したペアで、既知のワープを画像の1つに適用することで、画像トリプルを構築する。
我々の目的はまた、キーポイントアノテーションと組み合わせることで、強く監督された体制を大幅に改善する。
論文 参考訳(メタデータ) (2022-03-08T18:55:11Z) - A Novel Triplet Sampling Method for Multi-Label Remote Sensing Image
Search and Retrieval [1.123376893295777]
計量空間を学ぶための一般的なアプローチは、類似した(正の)画像と異種(負の)画像の選択に依存する。
マルチラベルRS CBIR問題に対して定義されたディープニューラルネットワーク(DNNs)の枠組みにおける新しいトリプレットサンプリング法を提案する。
論文 参考訳(メタデータ) (2021-05-08T09:16:09Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - Rank-Consistency Deep Hashing for Scalable Multi-Label Image Search [90.30623718137244]
スケーラブルなマルチラベル画像検索のための新しいディープハッシュ法を提案する。
2つの空間の類似性順序を整列するために、新しい階数整合性目的を適用した。
強力な損失関数は、意味的類似性とハミング距離が一致しないサンプルをペナルティ化するように設計されている。
論文 参考訳(メタデータ) (2021-02-02T13:46:58Z) - Learning to Compare Relation: Semantic Alignment for Few-Shot Learning [48.463122399494175]
本稿では,コンテンツアライメントに頑健な関係を比較するための新しいセマンティックアライメントモデルを提案する。
数ショットの学習データセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2020-02-29T08:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。