論文の概要: Benchmarking Omni-Vision Representation through the Lens of Visual
Realms
- arxiv url: http://arxiv.org/abs/2207.07106v2
- Date: Fri, 15 Jul 2022 03:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 12:01:37.320517
- Title: Benchmarking Omni-Vision Representation through the Lens of Visual
Realms
- Title(参考訳): 視界レンズによるOmni-Vision Representationのベンチマーク
- Authors: Yuanhan Zhang, Zhenfei Yin, Jing Shao, Ziwei Liu
- Abstract要約: 既存のベンチマークは偏りがあり、オムニビジョン表現を評価するために非効率である。
提案するOmni-Realm Benchmarkは,データセットと1,074,346の画像を含む21のリアルタイムベンチマークである。
また,コントラスト学習 (ReCo) も提案する。
- 参考スコア(独自算出の注目度): 44.881363426168406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though impressive performance has been achieved in specific visual realms
(e.g. faces, dogs, and places), an omni-vision representation generalizing to
many natural visual domains is highly desirable. But, existing benchmarks are
biased and inefficient to evaluate the omni-vision representation -- these
benchmarks either only include several specific realms, or cover most realms at
the expense of subsuming numerous datasets that have extensive realm
overlapping. In this paper, we propose Omni-Realm Benchmark (OmniBenchmark). It
includes 21 realm-wise datasets with 7,372 concepts and 1,074,346 images.
Without semantic overlapping, these datasets cover most visual realms
comprehensively and meanwhile efficiently. In addition, we propose a new
supervised contrastive learning framework, namely Relational Contrastive
learning (ReCo), for a better omni-vision representation. Beyond pulling two
instances from the same concept closer -- the typical supervised contrastive
learning framework -- ReCo also pulls two instances from the same semantic
realm closer, encoding the semantic relation between concepts, and facilitating
omni-vision representation learning. We benchmark ReCo and other advances in
omni-vision representation studies that are different in architectures (from
CNNs to transformers) and in learning paradigms (from supervised learning to
self-supervised learning) on OmniBenchmark. We illustrate the superior of ReCo
to other supervised contrastive learning methods and reveal multiple practical
observations to facilitate future research.
- Abstract(参考訳): 特定の視覚領域(例えば、顔、犬、場所)では印象的なパフォーマンスが達成されているが、多くの自然な視覚領域に一般化した全視覚表現は非常に望ましい。
しかし、既存のベンチマークは、オムニビジョンの表現を評価するために偏りがあり非効率であり、これらのベンチマークにはいくつかの特定の領域しか含まれていない。
本稿では,Omni-Realmベンチマーク(OmniBenchmark)を提案する。
21のリアルタイムデータセットと7,372のコンセプト、1,074,346の画像が含まれている。
セマンティックオーバーラップがなければ、これらのデータセットはほとんどの視覚領域を包括的かつ効率よくカバーする。
さらに,新しい教師付きコントラスト学習フレームワークであるrelational contrastive learning (reco)を提案する。
同じ概念から2つのインスタンス -- 典型的な教師付きコントラスト学習フレームワーク -- を近づけるだけでなく、recoは、同じ意味領域から2つのインスタンスを引き寄せ、概念間の意味関係をエンコードし、全局的な表現学習を促進する。
我々は、omnibenchmarkにおけるアーキテクチャ(cnnからトランスフォーマーまで)と学習パラダイム(教師付き学習から自己教師付き学習まで)におけるrecoや他の全視野表現研究の進歩をベンチマークする。
本稿では,ReCoを他の教師付きコントラスト学習法と比較し,今後の研究を促進するために複数の実践的な観察方法を明らかにする。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - PointCMP: Contrastive Mask Prediction for Self-supervised Learning on
Point Cloud Videos [58.18707835387484]
本稿では,ポイントクラウドビデオ上での自己教師型学習のための対照的なマスク予測フレームワークを提案する。
PointCMPは、局所的情報と大域的情報の両方を同時に学習するために、2分岐構造を用いる。
我々のフレームワークは、ベンチマークデータセットにおける最先端のパフォーマンスを達成し、既存のフル教師付きデータセットよりも優れています。
論文 参考訳(メタデータ) (2023-05-06T15:47:48Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Attentive Multi-View Deep Subspace Clustering Net [4.3386084277869505]
我々は,AMVDSN(Attentive Multi-View Deep Subspace Nets)を提案する。
提案手法は,コンセンサス情報とビュー固有情報の両方を明示的に考慮した有意な潜在表現を求める。
7つの実世界のデータセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-23T12:57:26Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Beyond Single Instance Multi-view Unsupervised Representation Learning [21.449132256091662]
ランダムにサンプリングされた2つのインスタンス間の結合類似度を測定することにより、より正確なインスタンス識別能力を付与する。
符号化された特徴が潜伏した空間でより均等に分散される場合,共同学習の類似性によって性能が向上すると考えている。
論文 参考訳(メタデータ) (2020-11-26T15:43:27Z) - Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。
これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。
提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文 参考訳(メタデータ) (2020-09-28T11:57:43Z) - Memory-Augmented Relation Network for Few-Shot Learning [114.47866281436829]
本研究では,新しい距離学習手法であるメモリ拡張リレーショナルネットワーク(MRN)について検討する。
MRNでは、作業状況と視覚的に類似したサンプルを選択し、重み付け情報伝搬を行い、選択したサンプルから有用な情報を注意深く集約し、その表現を強化する。
我々は、MRNが祖先よりも大幅に向上し、他の数発の学習手法と比較して、競争力や性能が向上することを示した。
論文 参考訳(メタデータ) (2020-05-09T10:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。