論文の概要: Contextual Scene Augmentation and Synthesis via GSACNet
- arxiv url: http://arxiv.org/abs/2103.15369v1
- Date: Mon, 29 Mar 2021 06:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:17:58.260905
- Title: Contextual Scene Augmentation and Synthesis via GSACNet
- Title(参考訳): GSACNetによる文脈的シーン拡張と合成
- Authors: Mohammad Keshavarzi, Flaviano Christian Reyes, Ritika Shrivastava,
Oladapo Afolabi, Luisa Caldas, Allen Y. Yang
- Abstract要約: 限定的なシーン優先度でトレーニングできる文脈的シーン増強システムGSACNetを紹介します。
本研究では, シーン合成の先行技術よりも, 限られた場面合成の優先度が高まることを示唆した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indoor scene augmentation has become an emerging topic in the field of
computer vision and graphics with applications in augmented and virtual
reality. However, current state-of-the-art systems using deep neural networks
require large datasets for training. In this paper we introduce GSACNet, a
contextual scene augmentation system that can be trained with limited scene
priors. GSACNet utilizes a novel parametric data augmentation method combined
with a Graph Attention and Siamese network architecture followed by an
Autoencoder network to facilitate training with small datasets. We show the
effectiveness of our proposed system by conducting ablation and comparative
studies with alternative systems on the Matterport3D dataset. Our results
indicate that our scene augmentation outperforms prior art in scene synthesis
with limited scene priors available.
- Abstract(参考訳): 屋内シーンの強化は、拡張現実やバーチャルリアリティーの応用でコンピュータビジョンとグラフィックの分野で新たな話題となっている。
しかし、ディープニューラルネットワークを使用する現在の最先端システムは、トレーニングのために大きなデータセットを必要とする。
本稿では,限定的なシーン事前のトレーニングが可能なコンテキスト拡張システムであるGSACNetを紹介する。
gsacnetはグラフアテンションとシャムネットワークアーキテクチャを組み合わせた新しいパラメトリックデータ拡張法とオートエンコーダネットワークを使用して、小さなデータセットでのトレーニングを容易にする。
本稿では,Matterport3Dデータセットのアブレーションと代替システムとの比較により,提案システムの有効性を示す。
以上の結果から,シーン拡張はシーン合成において先行技術より優れており,シーン先行は限定的であることが示唆された。
関連論文リスト
- A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - Unsupervised Traffic Scene Generation with Synthetic 3D Scene Graphs [83.9783063609389]
本稿では,ドメイン不変シーン表現に基づくトラフィックシーンの画像をレンダリングせずに直接合成する手法を提案する。
具体的には、内部表現として合成シーングラフに依存し、現実的な交通シーン合成のための教師なしニューラルネットワークアーキテクチャを導入する。
論文 参考訳(メタデータ) (2023-03-15T09:26:29Z) - Remote Sensing Image Classification using Transfer Learning and
Attention Based Deep Neural Network [59.86658316440461]
本稿では、転送学習技術とマルチヘッドアテンションスキームを活用した、深層学習に基づくRSISCフレームワークを提案する。
提案したディープラーニングフレームワークは、ベンチマークNWPU-RESISC45データセットに基づいて評価され、最高の分類精度94.7%を達成する。
論文 参考訳(メタデータ) (2022-06-20T10:05:38Z) - Visual Feature Encoding for GNNs on Road Networks [14.274582421372308]
視覚バックボーンネットワークとグラフニューラルネットワークを組み合わせたアーキテクチャを提案する。
衛星画像の符号化により,オープンストリートマップ道路網上で道路型分類タスクを行う。
アーキテクチャによりさらに微調整が可能となり,事前学習により伝達学習のアプローチが評価される。
論文 参考訳(メタデータ) (2022-03-02T15:37:50Z) - OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer
Learning for Telepresence Robotics [124.08684545010664]
画像からのシーングラフ生成は、ロボット工学のようなアプリケーションに非常に関心を持つタスクである。
オントロジー誘導シーングラフ生成(OG-SGG)と呼ばれるフレームワークの初期近似を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:23:15Z) - Neural Networks for Semantic Gaze Analysis in XR Settings [0.0]
本稿では,関心量の注釈に必要な時間と情報を最小化する新しい手法を提案する。
画像拡張手法を用いて,仮想モデルに基づく合成データセット上で畳み込みニューラルネットワーク(cnns)を訓練する。
本手法は実環境および仮想環境で評価し,最先端の手法と競合できることを示す。
論文 参考訳(メタデータ) (2021-03-18T18:05:01Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。