論文の概要: Uncertainty-Aware Multi-View Visual Semantic Embedding
- arxiv url: http://arxiv.org/abs/2309.08154v1
- Date: Fri, 15 Sep 2023 04:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:05:21.569328
- Title: Uncertainty-Aware Multi-View Visual Semantic Embedding
- Title(参考訳): 不確実性を考慮したマルチビュービジュアルセマンティック埋め込み
- Authors: Wenzhang Wei, Zhipeng Gui, Changguang Wu, Anqi Zhao, Xingguang Wang,
Huayi Wu
- Abstract要約: 画像テキスト検索における重要な課題は、視覚と言語データの類似性を測定するために意味情報を有効に活用することである。
本論文では,画像テキストマッチング全体を複数のビューテキストマッチングに分解する不確実性認識型ビジュアルセマンティック埋め込みフレームワークを提案する。
本フレームワークでは、各ビューテキスト対応における不確実性を適応的にモデル化することにより、各ビューテキスト損失の重み付けを計算するための不確実性認識損失関数(UALoss)を導入している。
- 参考スコア(独自算出の注目度): 0.5242869847419834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The key challenge in image-text retrieval is effectively leveraging semantic
information to measure the similarity between vision and language data.
However, using instance-level binary labels, where each image is paired with a
single text, fails to capture multiple correspondences between different
semantic units, leading to uncertainty in multi-modal semantic understanding.
Although recent research has captured fine-grained information through more
complex model structures or pre-training techniques, few studies have directly
modeled uncertainty of correspondence to fully exploit binary labels. To
address this issue, we propose an Uncertainty-Aware Multi-View Visual Semantic
Embedding (UAMVSE)} framework that decomposes the overall image-text matching
into multiple view-text matchings. Our framework introduce an uncertainty-aware
loss function (UALoss) to compute the weighting of each view-text loss by
adaptively modeling the uncertainty in each view-text correspondence. Different
weightings guide the model to focus on different semantic information,
enhancing the model's ability to comprehend the correspondence of images and
texts. We also design an optimized image-text matching strategy by normalizing
the similarity matrix to improve model performance. Experimental results on the
Flicker30k and MS-COCO datasets demonstrate that UAMVSE outperforms
state-of-the-art models.
- Abstract(参考訳): 画像テキスト検索における重要な課題は、視覚と言語データの類似性を測定するために意味情報を有効に活用することである。
しかし、各画像が1つのテキストとペアリングされるインスタンスレベルのバイナリラベルを使用すると、異なるセマンティックユニット間の複数の対応をキャプチャできないため、マルチモーダルなセマンティック理解の不確実性が生じる。
近年の研究は、より複雑なモデル構造や事前学習技術を通じてきめ細かい情報を捉えているが、バイナリラベルを十分に活用するための対応の不確実性を直接モデル化した研究はほとんどない。
この問題に対処するために,画像テキストマッチング全体を複数のビューテキストマッチングに分解するUncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) フレームワークを提案する。
本研究では,各ビューテキスト対応における不確かさを適応的にモデル化することにより,各ビューテキスト損失の重み付けを計算するための不確実性認識損失関数(ualoss)を導入する。
重み付けの違いは、モデルが異なる意味情報に焦点を当てることを示し、モデルが画像とテキストの対応を理解する能力を高める。
また、類似度行列を正規化し、モデル性能を改善することで、最適化された画像テキストマッチング戦略を設計する。
Flicker30kとMS-COCOデータセットの実験結果は、UAMVSEが最先端モデルより優れていることを示している。
関連論文リスト
- DEMO: A Statistical Perspective for Efficient Image-Text Matching [32.256725860652914]
本稿では,効率的な画像テキストマッチングのための分散型構造マイニングと一貫性学習(DEMO)を提案する。
DEMOは、複数の拡張ビューを使用して各画像を特徴付け、本質的な意味分布から引き出されたサンプルと見なされる。
さらに,ハミング空間の類似構造を保存するだけでなく,異なる方向からの検索分布の整合性も促進する協調的一貫性学習を導入する。
論文 参考訳(メタデータ) (2024-05-19T09:38:56Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Improving Cross-Modal Retrieval with Set of Diverse Embeddings [19.365974066256026]
画像とテキストのモダリティを横断するクロスモーダル検索は、その固有の曖昧さのために難しい課題である。
この問題の解決策として、セットベースの埋め込みが研究されている。
本稿では,従来の2つの側面において異なる,新しい集合ベースの埋め込み手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T05:59:23Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - MPI: Multi-receptive and Parallel Integration for Salient Object
Detection [17.32228882721628]
深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠である。
本稿では,MPIと呼ばれる新しい手法を提案する。
提案手法は,異なる評価基準下での最先端手法よりも優れる。
論文 参考訳(メタデータ) (2021-08-08T12:01:44Z) - Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with
Adversarial Discriminative Domain Regularization [21.904563910555368]
本稿では,画像とテキストのペア内における識別データドメインの集合を構築するための新しい学習フレームワークを提案する。
我々のアプローチは一般的に既存のメトリクス学習フレームワークの学習効率と性能を改善することができる。
論文 参考訳(メタデータ) (2020-10-23T01:48:37Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。