論文の概要: 3SHNet: Boosting Image-Sentence Retrieval via Visual Semantic-Spatial Self-Highlighting
- arxiv url: http://arxiv.org/abs/2404.17273v1
- Date: Fri, 26 Apr 2024 09:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 13:34:31.370247
- Title: 3SHNet: Boosting Image-Sentence Retrieval via Visual Semantic-Spatial Self-Highlighting
- Title(参考訳): 3SHNet:視覚的セマンティック空間自己照準による画像文検索
- Authors: Xuri Ge, Songpei Xu, Fuhai Chen, Jie Wang, Guoxin Wang, Shan An, Joemon M. Jose,
- Abstract要約: 本稿では,高精度,高効率,高一般化画像文検索のための視覚的セマンティック・空間自己ハイライトネットワーク(3SHNet)を提案する。
3SHNetは、目立った物体とその空間的位置を視覚的に識別する。
MS-COCOとFlickr30Kベンチマークで実施された実験は、提案した3SHNetの優れた性能、推論効率、一般化を裏付けるものである。
- 参考スコア(独自算出の注目度): 12.770499009990864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel visual Semantic-Spatial Self-Highlighting Network (termed 3SHNet) for high-precision, high-efficiency and high-generalization image-sentence retrieval. 3SHNet highlights the salient identification of prominent objects and their spatial locations within the visual modality, thus allowing the integration of visual semantics-spatial interactions and maintaining independence between two modalities. This integration effectively combines object regions with the corresponding semantic and position layouts derived from segmentation to enhance the visual representation. And the modality-independence guarantees efficiency and generalization. Additionally, 3SHNet utilizes the structured contextual visual scene information from segmentation to conduct the local (region-based) or global (grid-based) guidance and achieve accurate hybrid-level retrieval. Extensive experiments conducted on MS-COCO and Flickr30K benchmarks substantiate the superior performances, inference efficiency and generalization of the proposed 3SHNet when juxtaposed with contemporary state-of-the-art methodologies. Specifically, on the larger MS-COCO 5K test set, we achieve 16.3%, 24.8%, and 18.3% improvements in terms of rSum score, respectively, compared with the state-of-the-art methods using different image representations, while maintaining optimal retrieval efficiency. Moreover, our performance on cross-dataset generalization improves by 18.6%. Data and code are available at https://github.com/XuriGe1995/3SHNet.
- Abstract(参考訳): 本稿では,高精度,高効率,高一般化画像文検索のための視覚的セマンティック・空間自己ハイライトネットワーク(3SHNet)を提案する。
3SHNetは、視覚的モダリティ内の顕著な物体とその空間的位置の同定を強調し、視覚的セマンティクスと空間的相互作用の統合と、2つのモダリティ間の独立性の維持を可能にする。
この統合は、視覚的表現を強化するために、オブジェクト領域とセグメンテーションから派生した対応する意味と位置のレイアウトを効果的に結合する。
そして、モダリティ独立性は効率と一般化を保証する。
さらに、3SHNetは、セグメンテーションから構造化されたコンテキストビジュアルシーン情報を利用して、ローカル(地域ベース)またはグローバル(グリッドベース)ガイダンスを実行し、正確なハイブリッドレベル検索を実現する。
MS-COCO と Flickr30K ベンチマークで実施された大規模な実験は、現代の最先端の方法論に照らし合わせると、提案した 3SHNet の優れた性能、推論効率、一般化を裏付けるものである。
具体的には、より大規模なMS-COCO 5Kテストセットにおいて、各rSumスコアの16.3%、24.8%、および18.3%の改善を実現した。
さらに,クロスデータセットの一般化性能は18.6%向上した。
データとコードはhttps://github.com/XuriGe 1995/3SHNetで入手できる。
関連論文リスト
- EnTri: Ensemble Learning with Tri-level Representations for Explainable Scene Recognition [27.199124692225777]
ディープラーニングに基づくシーン認識は大きな進歩を遂げているが、その性能にはまだ限界がある。
本稿では,視覚的特徴の階層構造を用いたアンサンブル学習フレームワークであるEnTriを提案する。
EnTriは認識精度の点で優れており、最先端のアプローチと比較して競争性能が向上している。
論文 参考訳(メタデータ) (2023-07-23T22:11:23Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Domain Adaptive Semantic Segmentation by Optimal Transport [13.133890240271308]
セマンティックシーンセグメンテーションは、それが含んでいるセマンティック情報の豊かさから、多くの注目を集めています。
現在のアプローチは主に畳み込みニューラルネットワーク(CNN)に基づいているが、多くのラベルに依存している。
本稿では、最適輸送(OT)とこの問題に対処するためのアテンションメカニズムに基づくドメイン適応(DA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-29T03:33:54Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z) - ExchNet: A Unified Hashing Network for Large-Scale Fine-Grained Image
Retrieval [43.41089241581596]
そこで我々は, きめ細かい画像のためのコンパクトなバイナリコードを生成するために, 新たなきめ細かなハッシュトピックについて検討した。
我々は、ExchNetと呼ばれる、エンドツーエンドのトレーニング可能な統合ネットワークを提案する。
提案手法は,5つのきめ細かいデータセットに対して,最先端の汎用ハッシュ法より一貫して優れている。
論文 参考訳(メタデータ) (2020-08-04T07:01:32Z) - Learning to Predict Context-adaptive Convolution for Semantic
Segmentation [66.27139797427147]
長距離コンテキスト情報は、高性能なセマンティックセグメンテーションを実現するために不可欠である。
空間的に変化する特徴重み付けベクトルを予測するためのコンテキスト適応畳み込みネットワーク(CaC-Net)を提案する。
当社のCaC-Netは,3つの公開データセット上でのセグメンテーション性能に優れています。
論文 参考訳(メタデータ) (2020-04-17T13:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。