論文の概要: Learning Physical Graph Representations from Visual Scenes
- arxiv url: http://arxiv.org/abs/2006.12373v2
- Date: Wed, 24 Jun 2020 17:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 05:20:41.387135
- Title: Learning Physical Graph Representations from Visual Scenes
- Title(参考訳): 視覚シーンから物理グラフ表現を学ぶ
- Authors: Daniel M. Bear, Chaofei Fan, Damian Mrowca, Yunzhu Li, Seth Alter,
Aran Nayebi, Jeremy Schwartz, Li Fei-Fei, Jiajun Wu, Joshua B. Tenenbaum,
Daniel L.K. Yamins
- Abstract要約: 物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 56.7938395379406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) have proved exceptional at learning
representations for visual object categorization. However, CNNs do not
explicitly encode objects, parts, and their physical properties, which has
limited CNNs' success on tasks that require structured understanding of visual
scenes. To overcome these limitations, we introduce the idea of Physical Scene
Graphs (PSGs), which represent scenes as hierarchical graphs, with nodes in the
hierarchy corresponding intuitively to object parts at different scales, and
edges to physical connections between parts. Bound to each node is a vector of
latent attributes that intuitively represent object properties such as surface
shape and texture. We also describe PSGNet, a network architecture that learns
to extract PSGs by reconstructing scenes through a PSG-structured bottleneck.
PSGNet augments standard CNNs by including: recurrent feedback connections to
combine low and high-level image information; graph pooling and vectorization
operations that convert spatially-uniform feature maps into object-centric
graph structures; and perceptual grouping principles to encourage the
identification of meaningful scene elements. We show that PSGNet outperforms
alternative self-supervised scene representation algorithms at scene
segmentation tasks, especially on complex real-world images, and generalizes
well to unseen object types and scene arrangements. PSGNet is also able learn
from physical motion, enhancing scene estimates even for static images. We
present a series of ablation studies illustrating the importance of each
component of the PSGNet architecture, analyses showing that learned latent
attributes capture intuitive scene properties, and illustrate the use of PSGs
for compositional scene inference.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、視覚オブジェクト分類のための学習表現において例外的である。
しかし、CNNは対象、部品、それらの物理的特性を明示的にエンコードしていないため、視覚シーンの構造的理解を必要とするタスクにおいてCNNの成功は制限されている。
これらの制約を克服するために,シーンを階層的なグラフとして表現する物理シーングラフ (PSG) の概念を導入し,階層内のノードは異なるスケールのオブジェクト部品に直感的に対応する。
各ノードの境界は、表面形状やテクスチャなどのオブジェクト特性を直感的に表現する潜在属性のベクトルである。
また,PSG構造化ボトルネックを通じてシーンを再構成することでPSGを抽出するネットワークアーキテクチャであるPSGNetについて述べる。
psgnetは、低レベルと高レベルの画像情報を組み合わせた繰り返しのフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作、意味のあるシーン要素の識別を促進する知覚的グループ化原則など、標準のcnnを強化している。
我々は,PSGNetがシーンセグメンテーションタスク,特に複雑な実世界の画像において,他の自己監督型シーン表現アルゴリズムよりも優れており,未知のオブジェクトタイプやシーンアレンジメントによく適応していることを示す。
psgnetは物理的な動きから学習でき、静止画像でもシーンの見積もりが向上する。
本稿では,psgnetアーキテクチャの各コンポーネントの重要性を示す一連のアブレーション研究を行い,学習された潜在属性が直感的なシーン特性をキャプチャすることを示す。
関連論文リスト
- Dynamic Graph Representation with Knowledge-aware Attention for
Histopathology Whole Slide Image Analysis [11.353826466710398]
本稿では,知識グラフ構造の形式としてWSIを概念化する新しい動的グラフ表現アルゴリズムを提案する。
具体的には、インスタンス間の頭と尾の関係に基づいて、隣人や方向のエッジの埋め込みを動的に構築する。
我々のエンドツーエンドグラフ表現学習アプローチは、TCGAベンチマーク3つのデータセットと社内テストセットにおける最先端のWSI分析手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T14:58:51Z) - Two Stream Scene Understanding on Graph Embedding [4.78180589767256]
本稿では,コンピュータビジョンにおけるシーン理解の促進を目的とした,新しい2ストリームネットワークアーキテクチャを提案する。
グラフ特徴ストリームネットワークは、セグメンテーション構造、シーングラフ生成、およびグラフ表現モジュールを含む。
ADE20Kデータセットで行った実験は、画像分類精度を向上させるために提案した2ストリームネットワークの有効性を示した。
論文 参考訳(メタデータ) (2023-11-12T05:57:56Z) - Learning and generalization of compositional representations of visual
scenes [2.960473840509733]
オブジェクト属性の分散表現とベクトルシンボルアーキテクチャにおけるベクトル演算を用いてシーンの完全な構成記述を作成する。
シーン構成を制御するために、複数の、翻訳された、色付きMNIST桁からなる人工画像を使用する。
ディープネットワークの出力はVSA共振器ネットワークによって解釈され、オブジェクトの同一性やその他のオブジェクトの特性を抽出する。
論文 参考訳(メタデータ) (2023-03-23T22:03:42Z) - Task-specific Scene Structure Representations [13.775485887433815]
本研究では,シーンのタスク固有の構造ガイダンスを抽出する単一汎用ニューラルネットワークアーキテクチャを提案する。
我々の主な貢献は、このような単純なネットワークが、いくつかの低レベル視覚アプリケーションに対して最先端の結果を得ることができることを示すことである。
論文 参考訳(メタデータ) (2023-01-02T08:25:47Z) - A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective [71.03621840455754]
グラフニューラルネットワーク(GNN)はグラフ表現学習において勢いを増している。
Graph Transformerは、グラフ構造をTransformerアーキテクチャに組み込んで、局所的な近傍集約の制限を克服します。
本稿では,タスク指向の観点から,コンピュータビジョンにおけるGNNとグラフトランスフォーマーの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-09-27T08:10:14Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。