論文の概要: MIMIC: Masked Image Modeling with Image Correspondences
- arxiv url: http://arxiv.org/abs/2306.15128v1
- Date: Tue, 27 Jun 2023 00:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 15:08:46.388719
- Title: MIMIC: Masked Image Modeling with Image Correspondences
- Title(参考訳): MIMIC:画像対応による仮面画像モデリング
- Authors: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha
Kembhavi, Linda G. Shapiro, Ranjay Krishna
- Abstract要約: アノテーションを必要としないデータセットキュレーション機構を提案する。
我々は、MIMIC-1M with 1.3MとMIMIC-3M with 3.1Mの2つのデータセットを、オープンソースビデオデータセットと合成3D環境から抽出した。
- 参考スコア(独自算出の注目度): 24.19488473644843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many pixelwise dense prediction tasks-depth estimation and semantic
segmentation in computer vision today rely on pretrained image representations.
Therefore, curating effective pretraining datasets is vital. Unfortunately, the
effective pretraining datasets are those with multi-view scenes and have only
been curated using annotated 3D meshes, point clouds, and camera parameters
from simulated environments. We propose a dataset-curation mechanism that does
not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and
MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and
from synthetic 3D environments. We train multiple self-supervised models with
different masked image modeling objectives to showcase the following findings:
Representations trained on MIMIC-3M outperform those mined using annotations on
multiple downstream tasks, including depth estimation, semantic segmentation,
surface normals, and pose estimation. They also outperform representations that
are frozen and when downstream training data is limited to few-shot. Larger
dataset (MIMIC-3M) significantly improves performance, which is promising since
our curation method can arbitrarily scale to produce even larger datasets.
MIMIC code, dataset, and pretrained models are open-sourced at
https://github.com/RAIVNLab/MIMIC.
- Abstract(参考訳): 現在、コンピュータビジョンにおける深度推定とセマンティックセグメンテーションは、事前訓練された画像表現に依存している。
したがって、効果的な事前学習データセットのキュレーションは不可欠である。
残念ながら、効果的な事前トレーニングデータセットは、マルチビューシーンを持つもので、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータを使用してのみキュレートされている。
アノテーションを必要としないデータセット作成機構を提案する。
我々は、MIMIC-1M with 1.3MとMIMIC-3M with 3.1Mの2つのデータセットを、オープンソースビデオデータセットと合成3D環境から抽出した。
マスク付き画像モデリングの目的が異なる複数の自己教師付きモデルをトレーニングし、以下の結果を示す。 深度推定、意味セグメンテーション、表面正規化、ポーズ推定など、複数の下流タスクでアノテーションを使用してマイニングされたものよりも、模倣3mでトレーニングされた表現が優れている。
また、ダウンストリームのトレーニングデータに制限がある場合、凍結された表現よりも優れています。
より大規模なデータセット(MIMIC-3M)は、より大規模なデータセットを生成するために任意にスケールできるので、パフォーマンスが大幅に向上する。
MIMICコード、データセット、トレーニング済みモデルはhttps://github.com/RAIVNLab/MIMICでオープンソース化されている。
関連論文リスト
- MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DiM: Distilling Dataset into Generative Model [42.32433831074992]
そこで我々は,大列車のtextbfinto 生成textbfModels の textbfDistill 情報に対する新しい蒸留手法を提案する。
蒸留段階では,実画像と生成画像のモデルプールによって予測されるロジットの差を最小限に抑える。
展開段階では、生成モデルはハエのランダムノイズから様々なトレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2023-03-08T16:48:24Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - Generating synthetic photogrammetric data for training deep learning
based 3D point cloud segmentation models [0.0]
I/ITSEC 2019で著者らは、3Dフォトグラムのポイントクラウド/ミームをセグメント化し、オブジェクト情報を抽出する、完全に自動化されたワークフローを発表した。
最終的な目標は、現実的な仮想環境を作成し、シミュレーションに必要な情報を提供することである。
論文 参考訳(メタデータ) (2020-08-21T18:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。