論文の概要: Towards Visual Foundational Models of Physical Scenes
- arxiv url: http://arxiv.org/abs/2306.03727v1
- Date: Tue, 6 Jun 2023 14:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 15:05:26.849282
- Title: Towards Visual Foundational Models of Physical Scenes
- Title(参考訳): 物理シーンの視覚基礎モデルに向けて
- Authors: Chethan Parameshwara, Alessandro Achille, Matthew Trager, Xiaolong Li,
Jiawei Mo, Matthew Trager, Ashwin Swaminathan, CJ Taylor, Dheera Venkatraman,
Xiaohan Fei, Stefano Soatto
- Abstract要約: 本稿では,イメージ予測のみをトレーニング基準として,物理シーンの汎用的な視覚表現を学習するための第一歩について述べる。
まず「物理シーン」を定義し、異なるエージェントが同じシーンの異なる表現を維持できたとしても、推論できる基礎となる物理シーンはユニークであることを示す。
- 参考スコア(独自算出の注目度): 107.40546386739422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a first step towards learning general-purpose visual
representations of physical scenes using only image prediction as a training
criterion. To do so, we first define "physical scene" and show that, even
though different agents may maintain different representations of the same
scene, the underlying physical scene that can be inferred is unique. Then, we
show that NeRFs cannot represent the physical scene, as they lack extrapolation
mechanisms. Those, however, could be provided by Diffusion Models, at least in
theory. To test this hypothesis empirically, NeRFs can be combined with
Diffusion Models, a process we refer to as NeRF Diffusion, used as unsupervised
representations of the physical scene. Our analysis is limited to visual data,
without external grounding mechanisms that can be provided by independent
sensory modalities.
- Abstract(参考訳): 本稿では,イメージ予測のみをトレーニング基準として,物理シーンの汎用的な視覚表現を学習するための第一歩について述べる。
そのために、まず「物理的シーン」を定義し、異なるエージェントが同じシーンの異なる表現を保持しても、推論できる物理的なシーンはユニークであることを示す。
そして,外挿機構が欠如しているため,NeRFは物理シーンを表現できないことを示す。
しかし、これらは少なくとも理論上は拡散モデルによって提供される。
この仮説を実証的に検証するために、NeRFは、物理シーンの教師なし表現として使われるプロセスである拡散モデルと組み合わせることができる。
我々の分析は視覚データに限られており、外部の接地機構は独立の感覚モーダルによって提供されない。
関連論文リスト
- DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment [34.821255203019554]
ビデオ駆動型ニューラルフェイスの再現は、元の顔のアイデンティティと外観をうまく保存する現実的な顔画像を合成することを目的としている。
拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。
本稿では,拡散モデルのフォトリアリスティック画像生成を利用して,ニューラルフェイスの再現を行う新しい手法であるDiffusionを提案する。
論文 参考訳(メタデータ) (2024-03-25T21:46:53Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Prediction of Scene Plausibility [11.641785968519114]
可塑性は、物理的性質の項と、機能的および典型的な配置の項の両方で定義することができる。
合成画像のデータセットを構築し, 可視・可視の両方のシーンを合成する。
妥当性を認識し理解するタスクにおいて,様々な視覚モデルの成功を検証した。
論文 参考訳(メタデータ) (2022-12-02T22:22:16Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Neural Implicit Representations for Physical Parameter Inference from a Single Video [49.766574469284485]
本稿では,外見モデルのためのニューラル暗黙表現と,物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。
提案モデルでは,大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に,単一のビデオから物理的パラメータを識別することが可能になる。
ニューラル暗示表現を使用することで、高解像度ビデオの処理とフォトリアリスティック画像の合成が可能になる。
論文 参考訳(メタデータ) (2022-04-29T11:55:35Z) - Control-NeRF: Editable Feature Volumes for Scene Rendering and
Manipulation [58.16911861917018]
高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現するための新しい手法を提案する。
モデルペアはシーンに依存しないニューラルネットワークを用いてシーン固有の特徴ボリュームを学習する。
我々は、シーンの混合、オブジェクトの変形、シーンへのオブジェクト挿入など、さまざまなシーン操作を実証すると同時に、写真リアリスティックな結果も生成する。
論文 参考訳(メタデータ) (2022-04-22T17:57:00Z) - A model for full local image interpretation [8.048166434189522]
本稿では,シーン内の構成要素の詳細な解釈を提供する人間の能力の計算モデルについて述べる。
我々のモデルは、既存のモデルがフィードフォワードに頼っているが、トップダウン処理に制限があるという事実に関連して、これが基本的な制限であることを示している。
本稿では,人間の視覚解釈モデルとコンピュータビジョンモデルによる視覚解釈モデルの有効性について論じる。
論文 参考訳(メタデータ) (2021-10-17T07:20:53Z) - Learning to Identify Physical Parameters from Video Using Differentiable
Physics [2.15242029196761]
本稿では,アクション条件付きビデオ表現ネットワーク内の物理エンジンを用いて物理潜在表現を学習する手法を提案する。
われわれのネットワークは、画像のエンコードと、ビデオやアクションシーケンスからの質量や摩擦などの物理的特性の同定を学習できることを実証する。
論文 参考訳(メタデータ) (2020-09-17T13:36:57Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。