論文の概要: Compositional Scene Representation Learning via Reconstruction: A Survey
- arxiv url: http://arxiv.org/abs/2202.07135v4
- Date: Wed, 14 Jun 2023 16:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 04:21:42.165095
- Title: Compositional Scene Representation Learning via Reconstruction: A Survey
- Title(参考訳): 再構成による構成シーン表現学習:調査
- Authors: Jinyang Yuan, Tonglin Chen, Bin Li, Xiangyang Xue
- Abstract要約: 構成シーン表現学習はそのような能力を実現するタスクである。
ディープニューラルネットワークは表現学習において有利であることが証明されている。
大量のラベルのないデータを使用し、費用がかかるデータアノテーションを避けることができるため、再構築による学習は有利である。
- 参考スコア(独自算出の注目度): 48.33349317481124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual scenes are composed of visual concepts and have the property of
combinatorial explosion. An important reason for humans to efficiently learn
from diverse visual scenes is the ability of compositional perception, and it
is desirable for artificial intelligence to have similar abilities.
Compositional scene representation learning is a task that enables such
abilities. In recent years, various methods have been proposed to apply deep
neural networks, which have been proven to be advantageous in representation
learning, to learn compositional scene representations via reconstruction,
advancing this research direction into the deep learning era. Learning via
reconstruction is advantageous because it may utilize massive unlabeled data
and avoid costly and laborious data annotation. In this survey, we first
outline the current progress on reconstruction-based compositional scene
representation learning with deep neural networks, including development
history and categorizations of existing methods from the perspectives of the
modeling of visual scenes and the inference of scene representations; then
provide benchmarks, including an open source toolbox to reproduce the benchmark
experiments, of representative methods that consider the most extensively
studied problem setting and form the foundation for other methods; and finally
discuss the limitations of existing methods and future directions of this
research topic.
- Abstract(参考訳): 視覚シーンは視覚概念で構成され、組み合わせ爆発の特性を持つ。
人間が多様な視覚シーンから効率的に学習する重要な理由は、構成的知覚能力であり、人工知能が同様の能力を持つことが望ましい。
構成シーン表現学習はそのような能力を実現するタスクである。
近年,表現学習に有利な深層ニューラルネットワークを応用し,再構成による構図表現を学習し,この研究の方向性を深層学習時代へと発展させる手法が提案されている。
大量のラベルのないデータを使用し、費用がかかるデータアノテーションを避けることができるため、再構築による学習は有利である。
In this survey, we first outline the current progress on reconstruction-based compositional scene representation learning with deep neural networks, including development history and categorizations of existing methods from the perspectives of the modeling of visual scenes and the inference of scene representations; then provide benchmarks, including an open source toolbox to reproduce the benchmark experiments, of representative methods that consider the most extensively studied problem setting and form the foundation for other methods; and finally discuss the limitations of existing methods and future directions of this research topic.
関連論文リスト
- Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Learning Structured Representations of Visual Scenes [1.6244541005112747]
本研究では,機械が個々の画像や映像の内容と視覚的関係を構造化表現として記述する方法について検討する。
具体的には,静的画像設定と映像設定の両方において,視覚シーンの構造的表現を効果的に構築し,学習する方法について検討する。
論文 参考訳(メタデータ) (2022-07-09T05:40:08Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Knowledge-Guided Object Discovery with Acquired Deep Impressions [41.07379505694274]
物体の知識を「印象」として継続的に学習するADI(Acquired Deep Impressions)というフレームワークを紹介します。
ADIはまず、1つのオブジェクトを含むシーンイメージから、監視された方法で知識を得ます。
そして、これまで見たことのないオブジェクトを含む可能性のある、新しいマルチオブジェクトシーンイメージから学習する。
論文 参考訳(メタデータ) (2021-03-19T03:17:57Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。