論文の概要: Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction
- arxiv url: http://arxiv.org/abs/2311.04834v1
- Date: Wed, 8 Nov 2023 16:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 14:57:38.366663
- Title: Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction
- Title(参考訳): マスクドバウンディングボックス再構成による視覚関係検出のための自己教師あり学習
- Authors: Zacharias Anastasakis, Dimitrios Mallis, Markos Diomataris, George
Alexandridis, Stefanos Kollias, Vassilis Pitsikalis
- Abstract要約: 表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。
Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
- 参考スコア(独自算出の注目度): 6.798515070856465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel self-supervised approach for representation learning,
particularly for the task of Visual Relationship Detection (VRD). Motivated by
the effectiveness of Masked Image Modeling (MIM), we propose Masked Bounding
Box Reconstruction (MBBR), a variation of MIM where a percentage of the
entities/objects within a scene are masked and subsequently reconstructed based
on the unmasked objects. The core idea is that, through object-level masked
modeling, the network learns context-aware representations that capture the
interaction of objects within a scene and thus are highly predictive of visual
object relationships. We extensively evaluate learned representations, both
qualitatively and quantitatively, in a few-shot setting and demonstrate the
efficacy of MBBR for learning robust visual representations, particularly
tailored for VRD. The proposed method is able to surpass state-of-the-art VRD
methods on the Predicate Detection (PredDet) evaluation setting, using only a
few annotated samples. We make our code available at
https://github.com/deeplab-ai/SelfSupervisedVRD.
- Abstract(参考訳): 本稿では,視覚的関係検出(VRD)の課題に対して,表現学習のための新しい自己教師型アプローチを提案する。
Masked Image Modeling (MIM) の有効性を生かして, シーン内の実体・対象のパーセンテージをマスクし, 被写体に基づいて再構成するMIMのバリエーションである Masked Bounding Box Reconstruction (MBBR) を提案する。
中心となる考え方は、オブジェクトレベルのマスキングモデリングを通じて、ネットワークはシーン内のオブジェクトのインタラクションをキャプチャするコンテキスト認識表現を学習し、視覚オブジェクトの関係を非常に予測する、というものだ。
学習表現を定性的かつ定量的に評価し,特にvrd用に調整されたロバストな視覚表現の学習におけるmbbrの有効性を実証した。
提案手法は,数個のアノテートサンプルを用いて,Predicate Detection (PredDet) 評価設定における最先端のVRD手法を超えることができる。
コードはhttps://github.com/deeplab-ai/SelfSupervisedVRDで公開しています。
関連論文リスト
- Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image
Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments [48.67345147676275]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
相乗的, 計算効率の両パラダイムを効果的に活用する方法を示す。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Object-wise Masked Autoencoders for Fast Pre-training [13.757095663704858]
現在のマスク付き画像符号化モデルは、単一のオブジェクト表現ではなく、シーン全体のすべてのオブジェクト間の基盤となる関係を学習することを示す。
興味のある領域マスクを用いて選択的な再構成を行うことで、オブジェクトの表現を学習するための非オブジェクトパッチをドロップする、新しいオブジェクト選択と分割戦略を導入する。
4つの一般的なデータセットの実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2022-05-28T05:13:45Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z) - Efficient Object-Level Visual Context Modeling for Multimodal Machine
Translation: Masking Irrelevant Objects Helps Grounding [25.590409802797538]
マルチモーダル機械翻訳のための視覚情報を効率的にキャプチャし探索するためのオブジェクトレベルのビジュアルコンテキストモデリングフレームワーク(OVC)を提案する。
OVCは、視覚的モダリティに無関係なオブジェクトをマスキングすることにより、望ましい視覚的オブジェクトに翻訳を根ざすようMTTを奨励します。
MMTデータセットの実験は、提案したOVCモデルが最先端のMTモデルより優れていることを示した。
論文 参考訳(メタデータ) (2020-12-18T11:10:00Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。