論文の概要: A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play
- arxiv url: http://arxiv.org/abs/2305.19445v1
- Date: Tue, 30 May 2023 22:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:17:01.401321
- Title: A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play
- Title(参考訳): Egocentric Object Playによる自己監督型ビジュアルラーニングの計算
- Authors: Deepayan Sanyal, Joel Michelson, Yuan Yang, James Ainooson and
Maithilee Kunda
- Abstract要約: 本研究では,異なる視点を同一視する学習信号が,頑健な視覚学習を支援する方法について検討する。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
- 参考スコア(独自算出の注目度): 3.486683381782259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in child development has shown that embodied experience handling
physical objects contributes to many cognitive abilities, including visual
learning. One characteristic of such experience is that the learner sees the
same object from several different viewpoints. In this paper, we study how
learning signals that equate different viewpoints -- e.g., assigning similar
representations to different views of a single object -- can support robust
visual learning. We use the Toybox dataset, which contains egocentric videos of
humans manipulating different objects, and conduct experiments using a computer
vision framework for self-supervised contrastive learning. We find that
representations learned by equating different physical viewpoints of an object
benefit downstream image classification accuracy. Further experiments show that
this performance improvement is robust to variations in the gaps between
viewpoints, and that the benefits transfer to several different image
classification tasks.
- Abstract(参考訳): 児童発達の研究は、身体的な物体を扱う経験が視覚学習を含む多くの認知能力に寄与することを示した。
このような経験の1つの特徴は、学習者が複数の異なる視点から同じ対象を見ることである。
本稿では,異なる視点を同一視する学習信号(例えば,同じ表現を1つの物体の異なる視点に割り当てること)が,堅牢な視覚学習を支援するかを検討する。
Toyboxデータセットは、異なるオブジェクトを操作する人間の自我中心のビデオを含み、コンピュータビジョンフレームワークを用いて自己教師付きコントラスト学習を行う。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
さらなる実験により、この性能改善は視点間の差のばらつきに頑健であり、利点は複数の異なる画像分類タスクに移されることが示された。
関連論文リスト
- Active Gaze Behavior Boosts Self-Supervised Object Learning [4.612042044544857]
本研究では, 視覚学習モデルを用いて, 幼児の視線行動を利用した視点不変物体認識の開発が可能であるかを検討した。
幼児の視線戦略が不変物体表現の学習を支援することを示す実験を行った。
本研究は,幼児の視線行動が視覚不変物体認識の自己教師付き学習を支援する方法を明らかにする。
論文 参考訳(メタデータ) (2024-11-04T10:44:46Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Self-supervised visual learning from interactions with objects [7.324459578044213]
自己教師付き学習(SSL)は視覚表現学習に革命をもたらしたが、人間の視覚の堅牢性は達成できていない。
オブジェクトとの具体的相互作用はオブジェクトカテゴリのSSLを改善することができることを示す。
論文 参考訳(メタデータ) (2024-07-09T09:31:15Z) - Matching Multiple Perspectives for Efficient Representation Learning [0.0]
本稿では,自己教師型学習とマルチパースペクティブマッチング技術を組み合わせたアプローチを提案する。
我々は,同一オブジェクトの複数ビューと多種多様な自己教師付き事前学習アルゴリズムを組み合わせることで,オブジェクト分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-16T10:33:13Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Unsupervised Learning of Compositional Scene Representations from
Multiple Unspecified Viewpoints [41.07379505694274]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2021-12-07T08:45:21Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。