Fugu-MT 論文翻訳(概要): Towards Visual Foundational Models of Physical Scenes

論文の概要: Towards Visual Foundational Models of Physical Scenes

arxiv url: http://arxiv.org/abs/2306.03727v1
Date: Tue, 6 Jun 2023 14:45:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 15:05:26.849282
Title: Towards Visual Foundational Models of Physical Scenes
Title（参考訳）: 物理シーンの視覚基礎モデルに向けて
Authors: Chethan Parameshwara, Alessandro Achille, Matthew Trager, Xiaolong Li, Jiawei Mo, Matthew Trager, Ashwin Swaminathan, CJ Taylor, Dheera Venkatraman, Xiaohan Fei, Stefano Soatto
Abstract要約: 本稿では,イメージ予測のみをトレーニング基準として,物理シーンの汎用的な視覚表現を学習するための第一歩について述べる。まず「物理シーン」を定義し、異なるエージェントが同じシーンの異なる表現を維持できたとしても、推論できる基礎となる物理シーンはユニークであることを示す。
参考スコア（独自算出の注目度）: 107.40546386739422
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We describe a first step towards learning general-purpose visual representations of physical scenes using only image prediction as a training criterion. To do so, we first define "physical scene" and show that, even though different agents may maintain different representations of the same scene, the underlying physical scene that can be inferred is unique. Then, we show that NeRFs cannot represent the physical scene, as they lack extrapolation mechanisms. Those, however, could be provided by Diffusion Models, at least in theory. To test this hypothesis empirically, NeRFs can be combined with Diffusion Models, a process we refer to as NeRF Diffusion, used as unsupervised representations of the physical scene. Our analysis is limited to visual data, without external grounding mechanisms that can be provided by independent sensory modalities.
Abstract（参考訳）: 本稿では,イメージ予測のみをトレーニング基準として,物理シーンの汎用的な視覚表現を学習するための第一歩について述べる。そのために、まず「物理的シーン」を定義し、異なるエージェントが同じシーンの異なる表現を保持しても、推論できる物理的なシーンはユニークであることを示す。そして,外挿機構が欠如しているため,NeRFは物理シーンを表現できないことを示す。しかし、これらは少なくとも理論上は拡散モデルによって提供される。この仮説を実証的に検証するために、NeRFは、物理シーンの教師なし表現として使われるプロセスである拡散モデルと組み合わせることができる。我々の分析は視覚データに限られており、外部の接地機構は独立の感覚モーダルによって提供されない。

関連論文リスト

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning [53.33388279933842]
本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
論文参考訳（メタデータ） (2025-04-22T14:20:59Z)
Compositional Physical Reasoning of Objects and Events from Videos [122.6862357340911]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文参考訳（メタデータ） (2024-08-02T15:19:55Z)
Toward a Diffusion-Based Generalist for Dense Vision Tasks [141.03236279493686]
近年の研究では、画像自体が汎用的な視覚知覚のための自然なインタフェースとして利用できることが示されている。我々は,画素空間での拡散を行い,高密度視覚タスクのための事前学習されたテキスト・画像拡散モデルを微調整するためのレシピを提案する。実験では,4種類のタスクに対して評価を行い,他のビジョンジェネラリストと競合する性能を示す。
論文参考訳（メタデータ） (2024-06-29T17:57:22Z)
DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment [34.821255203019554]
ビデオ駆動型ニューラルフェイスの再現は、元の顔のアイデンティティと外観をうまく保存する現実的な顔画像を合成することを目的としている。拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。本稿では,拡散モデルのフォトリアリスティック画像生成を利用して,ニューラルフェイスの再現を行う新しい手法であるDiffusionを提案する。
論文参考訳（メタデータ） (2024-03-25T21:46:53Z)
Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文参考訳（メタデータ） (2024-01-10T23:26:41Z)
Prediction of Scene Plausibility [11.641785968519114]
可塑性は、物理的性質の項と、機能的および典型的な配置の項の両方で定義することができる。合成画像のデータセットを構築し, 可視・可視の両方のシーンを合成する。妥当性を認識し理解するタスクにおいて,様々な視覚モデルの成功を検証した。
論文参考訳（メタデータ） (2022-12-02T22:22:16Z)
Neural Implicit Representations for Physical Parameter Inference from a Single Video [49.766574469284485]
本稿では,外見モデルのためのニューラル暗黙表現と,物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。提案モデルでは,大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に,単一のビデオから物理的パラメータを識別することが可能になる。ニューラル暗示表現を使用することで、高解像度ビデオの処理とフォトリアリスティック画像の合成が可能になる。
論文参考訳（メタデータ） (2022-04-29T11:55:35Z)
A model for full local image interpretation [8.048166434189522]
本稿では,シーン内の構成要素の詳細な解釈を提供する人間の能力の計算モデルについて述べる。我々のモデルは、既存のモデルがフィードフォワードに頼っているが、トップダウン処理に制限があるという事実に関連して、これが基本的な制限であることを示している。本稿では,人間の視覚解釈モデルとコンピュータビジョンモデルによる視覚解釈モデルの有効性について論じる。
論文参考訳（メタデータ） (2021-10-17T07:20:53Z)
Learning to Identify Physical Parameters from Video Using Differentiable Physics [2.15242029196761]
本稿では,アクション条件付きビデオ表現ネットワーク内の物理エンジンを用いて物理潜在表現を学習する手法を提案する。われわれのネットワークは、画像のエンコードと、ビデオやアクションシーケンスからの質量や摩擦などの物理的特性の同定を学習できることを実証する。
論文参考訳（メタデータ） (2020-09-17T13:36:57Z)
Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文参考訳（メタデータ） (2020-04-28T17:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。