論文の概要: Prediction of Scene Plausibility
- arxiv url: http://arxiv.org/abs/2212.01470v2
- Date: Tue, 6 Dec 2022 08:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 13:08:36.770626
- Title: Prediction of Scene Plausibility
- Title(参考訳): シーンの可塑性の予測
- Authors: Or Nachmias, Ohad Fried and Ariel Shamir
- Abstract要約: 可塑性は、物理的性質の項と、機能的および典型的な配置の項の両方で定義することができる。
合成画像のデータセットを構築し, 可視・可視の両方のシーンを合成する。
妥当性を認識し理解するタスクにおいて,様々な視覚モデルの成功を検証した。
- 参考スコア(独自算出の注目度): 11.641785968519114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the 3D world from 2D images involves more than detection and
segmentation of the objects within the scene. It also includes the
interpretation of the structure and arrangement of the scene elements. Such
understanding is often rooted in recognizing the physical world and its
limitations, and in prior knowledge as to how similar typical scenes are
arranged. In this research we pose a new challenge for neural network (or
other) scene understanding algorithms - can they distinguish between plausible
and implausible scenes? Plausibility can be defined both in terms of physical
properties and in terms of functional and typical arrangements. Hence, we
define plausibility as the probability of encountering a given scene in the
real physical world. We build a dataset of synthetic images containing both
plausible and implausible scenes, and test the success of various vision models
in the task of recognizing and understanding plausibility.
- Abstract(参考訳): 2D画像から3D世界を理解するには、シーン内のオブジェクトの検出とセグメンテーション以上のものが必要になる。
また、シーン要素の構造と配置の解釈も含んでいる。
このような理解は、しばしば物理的世界とその限界を認識することや、どのように類似した場面が配置されているかに関する事前知識に根ざしている。
本研究では,ニューラルネットワーク(あるいは他の)シーン理解アルゴリズムに対して,新たな課題を提起する。
プラウサビリティは、物理的性質と機能的配置と典型的な配置の両方で定義できる。
したがって,実世界においてある場面に遭遇する確率として,可能性を定義する。
可視・可視の両方のシーンを含む合成画像のデータセットを構築し、可視性を認識し理解するタスクにおいて、様々な視覚モデルの成功をテストする。
関連論文リスト
- Physically Plausible 3D Human-Scene Reconstruction from Monocular RGB
Image using an Adversarial Learning Approach [26.827712050966]
総合的な3次元人間シーン再構築の鍵となる課題は、単一の単眼RGB画像から物理的に可視な3Dシーンを生成することである。
本稿では、シーン要素の暗黙的特徴表現を用いて、人間と物体の物理的に妥当なアライメントを識別する。
既存の推論時間最適化手法とは異なり、この逆向きに訓練されたモデルを用いてシーンのフレームごとの3D再構成を行う。
論文 参考訳(メタデータ) (2023-07-27T01:07:15Z) - Understanding Cross-modal Interactions in V&L Models that Generate Scene
Descriptions [3.7957452405531256]
本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。
映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。
本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
論文 参考訳(メタデータ) (2022-11-09T15:33:51Z) - Compositional Law Parsing with Latent Random Functions [54.26307134687171]
合成Law Parsing (CLAP) のための潜時変動モデルを提案する。
CLAPは、シーンの概念を潜伏変数として表現するエンコーディング・デコーディングアーキテクチャを通じて、人間のような構成能力を実現する。
実験の結果,CLAPは複数の視覚的タスクにおいて比較されたベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-15T06:57:23Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - Learning Object-Compositional Neural Radiance Field for Editable Scene
Rendering [42.37007176376849]
本稿では,物体合成型ニューラルラジアンス場を学習し,クラスタ化された実世界のシーンをリアルにレンダリングするニューラルシーンレンダリングシステムを提案する。
密集したシーンでのトレーニングを生き残るために, 密集した領域における3次元空間のあいまいさを解消し, それぞれの物体の鋭い境界を学習するためのシーン誘導型トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-09-04T11:37:18Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z) - Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。
提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文 参考訳(メタデータ) (2020-07-07T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。