論文の概要: Understanding Dark Scenes by Contrasting Multi-Modal Observations
- arxiv url: http://arxiv.org/abs/2308.12320v2
- Date: Sat, 18 Nov 2023 07:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:50:27.804565
- Title: Understanding Dark Scenes by Contrasting Multi-Modal Observations
- Title(参考訳): マルチモード観測による暗黒シーンの理解
- Authors: Xiaoyu Dong and Naoto Yokoya
- Abstract要約: 教師付きマルチモーダルコントラスト学習手法を導入し,学習したマルチモーダル特徴空間の意味的識別性を向上する。
クロスモーダルコントラストは、2つのモダリティの向こう側から同じクラスの埋め込みを促進する。
モード内コントラストは、各モード内に同じクラスまたは異なるクラスを埋め込むように強制する。
- 参考スコア(独自算出の注目度): 20.665687608385625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding dark scenes based on multi-modal image data is challenging, as
both the visible and auxiliary modalities provide limited semantic information
for the task. Previous methods focus on fusing the two modalities but neglect
the correlations among semantic classes when minimizing losses to align pixels
with labels, resulting in inaccurate class predictions. To address these
issues, we introduce a supervised multi-modal contrastive learning approach to
increase the semantic discriminability of the learned multi-modal feature
spaces by jointly performing cross-modal and intra-modal contrast under the
supervision of the class correlations. The cross-modal contrast encourages
same-class embeddings from across the two modalities to be closer and pushes
different-class ones apart. The intra-modal contrast forces same-class or
different-class embeddings within each modality to be together or apart. We
validate our approach on a variety of tasks that cover diverse light conditions
and image modalities. Experiments show that our approach can effectively
enhance dark scene understanding based on multi-modal images with limited
semantics by shaping semantic-discriminative feature spaces. Comparisons with
previous methods demonstrate our state-of-the-art performance. Code and
pretrained models are available at https://github.com/palmdong/SMMCL.
- Abstract(参考訳): 多モード画像データに基づく暗黒シーンの理解は、視覚と補助の両方がタスクに限定的な意味情報を提供するため困難である。
従来の手法では2つのモダリティを融合するが、損失を最小限にしてピクセルをラベルに合わせると意味クラス間の相関を無視し、結果としてクラス予測が不正確なものになる。
そこで本研究では,教師付きマルチモーダルコントラスト学習手法を導入し,クラス相関の監督下でクロスモーダル・イントラモーダルコントラストを共同で行うことにより,学習したマルチモーダル特徴空間の意味的識別性を高める。
クロスモーダルコントラストは、2つのモダリティを越えて同じクラスの埋め込みを促進し、異なるクラスを分割する。
モーダル内コントラストは、各モダリティ内に同じクラスまたは異なるクラス埋め込みを結合または分離させる。
我々は、様々な光条件と画像のモダリティをカバーする様々なタスクに対するアプローチを検証する。
実験により,提案手法は,意味・識別的特徴空間を形作ることによって,意味を限定したマルチモーダル画像に基づく暗視野理解を効果的に向上できることを示した。
従来の手法との比較により,最先端の性能が示された。
コードと事前訓練されたモデルはhttps://github.com/palmdong/SMMCL.comで入手できる。
関連論文リスト
- Turbo your multi-modal classification with contrastive learning [17.983460380784337]
本稿では,マルチモーダル理解を促進するために,$Turbo$と呼ばれる新しいコントラスト学習戦略を提案する。
具体的には、マルチモーダルデータペアは、異なる隠されたドロップアウトマスクでフォワードパスを2回送って、各モダリティに対して2つの異なる表現を得る。
これらの表現により、トレーニングのための複数のインモーダルおよびクロスモーダルのコントラスト目的が得られる。
論文 参考訳(メタデータ) (2024-09-14T03:15:34Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Deep Intra-Image Contrastive Learning for Weakly Supervised One-Step
Person Search [98.2559247611821]
本稿では,シームズネットワークを用いた画像内コントラスト学習について述べる。
本手法は,弱教師付きワンステップ人物探索手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-09T12:45:20Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。