論文の概要: How do Cross-View and Cross-Modal Alignment Affect Representations in
Contrastive Learning?
- arxiv url: http://arxiv.org/abs/2211.13309v1
- Date: Wed, 23 Nov 2022 21:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:14:57.755783
- Title: How do Cross-View and Cross-Modal Alignment Affect Representations in
Contrastive Learning?
- Title(参考訳): クロスビューとクロスモーダルアライメントはコントラスト学習における表現にどのように影響するか?
- Authors: Thomas M. Hehn, Julian F.P. Kooij, Dariu M. Gavrila
- Abstract要約: クロスモーダルな表現アライメントは、色やテクスチャなどの相補的な視覚情報を破棄し、代わりに冗長な深さの手がかりを強調する。
全体として、クロスモーダルアライメントは、クロスビューアライメントによる事前トレーニングよりも堅牢なエンコーダにつながる。
- 参考スコア(独自算出の注目度): 8.594140167290098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various state-of-the-art self-supervised visual representation learning
approaches take advantage of data from multiple sensors by aligning the feature
representations across views and/or modalities. In this work, we investigate
how aligning representations affects the visual features obtained from
cross-view and cross-modal contrastive learning on images and point clouds. On
five real-world datasets and on five tasks, we train and evaluate 108 models
based on four pretraining variations. We find that cross-modal representation
alignment discards complementary visual information, such as color and texture,
and instead emphasizes redundant depth cues. The depth cues obtained from
pretraining improve downstream depth prediction performance. Also overall,
cross-modal alignment leads to more robust encoders than pre-training by
cross-view alignment, especially on depth prediction, instance segmentation,
and object detection.
- Abstract(参考訳): 様々な最先端の自己教師型視覚表現学習アプローチは、ビューやモダリティにまたがって特徴表現を整列することで、複数のセンサからのデータを活用する。
本研究では,画像とポイントクラウド上でのクロスビューとクロスモーダルコントラスト学習から得られる視覚特徴に,表現の整合がどう影響するかを検討する。
5つの実世界のデータセットと5つのタスクに基づいて、事前学習の4つのバリエーションに基づいて108のモデルをトレーニングし、評価する。
クロスモーダル表現アライメントは色やテクスチャといった相補的な視覚情報を捨て、代わりに冗長な奥行きの手がかりを強調する。
プレトレーニングから得られる深さキューは下流深度予測性能を向上させる。
また、全体的なクロスモーダルアライメントは、特に深度予測、インスタンスセグメンテーション、オブジェクト検出において、クロスビューアライメントによる事前トレーニングよりも堅牢なエンコーダをもたらす。
関連論文リスト
- Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Learning Visual Representations for Transfer Learning by Suppressing
Texture [38.901410057407766]
自己教師付き学習では、低レベルのキューとしてのテクスチャは、ネットワークがより高いレベルの表現を学習することを防ぐショートカットを提供する。
本稿では,異方性拡散に基づく古典的手法を用いて,テクスチャを抑圧した画像を用いた強化訓練を提案する。
提案手法は,物体検出と画像分類における最先端の成果を実証的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。