論文の概要: S2-Net: Self-supervision Guided Feature Representation Learning for
Cross-Modality Images
- arxiv url: http://arxiv.org/abs/2203.14581v1
- Date: Mon, 28 Mar 2022 08:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:30:07.917969
- Title: S2-Net: Self-supervision Guided Feature Representation Learning for
Cross-Modality Images
- Title(参考訳): S2-Net: クロスモダリティ画像のための自己超越的特徴表現学習
- Authors: Shasha Mei
- Abstract要約: モダリティ間の画像ペアは、通信の特徴表現を可能な限り近いものにするのに失敗することが多い。
本稿では,最近成功した検出・記述パイプラインに基づいて,モーダリティ間特徴表現学習ネットワークであるS2-Netを設計する。
本稿では,自己教師型学習とよく設計された損失関数を導入し,本来の利点を捨てることなくトレーニングを指導する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining the respective advantages of cross-modality images can compensate
for the lack of information in the single modality, which has attracted
increasing attention of researchers into multi-modal image matching tasks.
Meanwhile, due to the great appearance differences between cross-modality image
pairs, it often fails to make the feature representations of correspondences as
close as possible. In this letter, we design a cross-modality feature
representation learning network, S2-Net, which is based on the recently
successful detect-and-describe pipeline, originally proposed for visible images
but adapted to work with cross-modality image pairs. To solve the consequent
problem of optimization difficulties, we introduce self-supervised learning
with a well-designed loss function to guide the training without discarding the
original advantages. This novel strategy simulates image pairs in the same
modality, which is also a useful guide for the training of cross-modality
images. Notably, it does not require additional data but significantly improves
the performance and is even workable for all methods of the detect-and-describe
pipeline. Extensive experiments are conducted to evaluate the performance of
the strategy we proposed, compared to both handcrafted and deep learning-based
methods. Results show that our elegant formulation of combined optimization of
supervised and self-supervised learning outperforms state-of-the-arts on
RoadScene and RGB-NIR datasets.
- Abstract(参考訳): 相互モダリティ画像のそれぞれの利点を組み合わせることで、単一モダリティにおける情報の不足を補うことができ、マルチモダリティ画像マッチングタスクへの研究者の関心が高まっている。
一方、クロスモダリティ画像ペア間の外観の大きな違いが大きいため、対応文の特徴表現を可能な限り近づけることができないことが多い。
本稿では,最近成功している検出・記述パイプラインに基づくクロスモダリティ特徴表現学習ネットワークs2-netを設計した。
最適化の難しさを解消するために,我々は,自己教師型学習とよく設計された損失関数を導入し,元の利点を捨てることなくトレーニングを指導する。
この新しい戦略は、画像対を同じモダリティでシミュレートするが、これはまた、モダリティ間の画像のトレーニングに有用なガイドでもある。
特に、追加のデータを必要としないため、パフォーマンスが大幅に向上し、検出と記述のパイプラインのすべてのメソッドでも動作可能である。
提案手法の性能を評価するために,手作り法と深層学習法の比較実験を行った。
その結果、教師付き学習と自己教師型学習の組合せ最適化のエレガントな定式化は、RoadSceneとRGB-NIRデータセットの最先端性に優れていた。
関連論文リスト
- Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。
深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。
本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文 参考訳(メタデータ) (2022-06-06T13:28:15Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。