論文の概要: Compositional Scene Representation Learning via Reconstruction: A Survey
- arxiv url: http://arxiv.org/abs/2202.07135v1
- Date: Tue, 15 Feb 2022 02:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 14:29:50.067812
- Title: Compositional Scene Representation Learning via Reconstruction: A Survey
- Title(参考訳): 再構成による構成シーン表現学習:調査
- Authors: Jinyang Yuan, Tonglin Chen, Bin Li, Xiangyang Xue
- Abstract要約: 視覚的な場面でより適切な表現が学習されれば、視覚タスクのパフォーマンスが向上する可能性がある。
再構成による構成シーン表現学習は重要な研究課題である。
- 参考スコア(独自算出の注目度): 48.33349317481124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual scene representation learning is an important research problem in the
field of computer vision. The performance on vision tasks could be improved if
more suitable representations are learned for visual scenes. Complex visual
scenes are the composition of relatively simple visual concepts, and have the
property of combinatorial explosion. Compared with directly representing the
entire visual scene, extracting compositional scene representations can better
cope with the diverse combination of background and objects. Because
compositional scene representations abstract the concept of objects, performing
visual scene analysis and understanding based on these representations could be
easier and more interpretable. Moreover, learning compositional scene
representations via reconstruction can greatly reduce the need for training
data annotations. Therefore, compositional scene representation learning via
reconstruction has important research significance. In this survey, we first
discuss representative methods that either learn from a single viewpoint or
multiple viewpoints without object-level supervision, then the applications of
compositional scene representations, and finally the future directions on this
topic.
- Abstract(参考訳): 視覚シーン表現学習はコンピュータビジョンの分野で重要な研究課題である。
視覚シーンに適切な表現が学習されれば、視覚タスクのパフォーマンスが向上する可能性がある。
複雑な視覚シーンは比較的単純な視覚概念の合成であり、組合せ的爆発の性質を持っている。
視覚シーン全体を直接表現するのに比べ、構成的なシーン表現を抽出することは、背景とオブジェクトの多様な組み合わせに対処できる。
構成的シーン表現はオブジェクトの概念を抽象化するので、これらの表現に基づいて視覚的なシーン分析と理解を行うことは、より容易に解釈できる。
さらに、再構成による構成シーン表現の学習は、データアノテーションのトレーニングの必要性を大幅に減らすことができる。
したがって、再構成による構図表現学習は重要な研究課題である。
本稿では,まず,オブジェクト指向の監督なしに,一つの視点から学習するか,複数の視点から学習するか,構図表現の応用を行い,最終的にこの話題の今後の方向性について考察する。
関連論文リスト
- Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Learning Structured Representations of Visual Scenes [1.6244541005112747]
本研究では,機械が個々の画像や映像の内容と視覚的関係を構造化表現として記述する方法について検討する。
具体的には,静的画像設定と映像設定の両方において,視覚シーンの構造的表現を効果的に構築し,学習する方法について検討する。
論文 参考訳(メタデータ) (2022-07-09T05:40:08Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Knowledge-Guided Object Discovery with Acquired Deep Impressions [41.07379505694274]
物体の知識を「印象」として継続的に学習するADI(Acquired Deep Impressions)というフレームワークを紹介します。
ADIはまず、1つのオブジェクトを含むシーンイメージから、監視された方法で知識を得ます。
そして、これまで見たことのないオブジェクトを含む可能性のある、新しいマルチオブジェクトシーンイメージから学習する。
論文 参考訳(メタデータ) (2021-03-19T03:17:57Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。