論文の概要: Physical Property Understanding from Language-Embedded Feature Fields
- arxiv url: http://arxiv.org/abs/2404.04242v1
- Date: Fri, 5 Apr 2024 17:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 15:26:09.637289
- Title: Physical Property Understanding from Language-Embedded Feature Fields
- Title(参考訳): 言語を組み込んだ特徴分野からの物性理解
- Authors: Albert J. Zhai, Yuan Shen, Emily Y. Chen, Gloria X. Wang, Xinlei Wang, Sheng Wang, Kaiyu Guan, Shenlong Wang,
- Abstract要約: 本稿では,画像の集合を用いて物体の物理的特性を高密度に予測する手法を提案する。
人間が視覚を通して物理学をどう考えるかに触発されて、我々は大きな言語モデルを活用して、各対象に対して候補となる材料を提案する。
我々の手法は正確で、アノテーションなしで、オープン世界のどんなオブジェクトにも適用できます。
- 参考スコア(独自算出の注目度): 27.151380830258603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can computers perceive the physical properties of objects solely through vision? Research in cognitive science and vision science has shown that humans excel at identifying materials and estimating their physical properties based purely on visual appearance. In this paper, we present a novel approach for dense prediction of the physical properties of objects using a collection of images. Inspired by how humans reason about physics through vision, we leverage large language models to propose candidate materials for each object. We then construct a language-embedded point cloud and estimate the physical properties of each 3D point using a zero-shot kernel regression approach. Our method is accurate, annotation-free, and applicable to any object in the open world. Experiments demonstrate the effectiveness of the proposed approach in various physical property reasoning tasks, such as estimating the mass of common objects, as well as other properties like friction and hardness.
- Abstract(参考訳): コンピュータは視覚のみを通して物体の物理的特性を知覚できるのか?
認知科学と視覚科学の研究は、人間が物質を識別し、純粋に視覚的外観に基づいて物理的特性を推定するのに優れていることを示した。
本稿では,画像の集合を用いて物体の物理的特性を高密度に予測する手法を提案する。
人間が視覚を通して物理学をどう考えるかに触発されて、我々は大きな言語モデルを活用して、各対象に対して候補となる材料を提案する。
次に,言語埋め込みの点群を構築し,ゼロショットカーネル回帰手法を用いて各3次元点の物理特性を推定する。
我々の手法は正確で、アノテーションなしで、オープン世界のどんなオブジェクトにも適用できます。
実験は、一般的な物体の質量を推定したり、摩擦や硬さといった他の特性を推定したり、様々な物理的特性推論タスクにおいて提案されたアプローチの有効性を示す。
関連論文リスト
- Compositional Physical Reasoning of Objects and Events from Videos [122.6862357340911]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。
我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。
また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (2024-08-02T15:19:55Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - Physion++: Evaluating Physical Scene Understanding that Requires Online
Inference of Different Physical Properties [100.19685489335828]
この研究は、人工システムにおける視覚的身体的予測を厳格に評価する新しいデータセットとベンチマークであるPhysylon++を提案する。
正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存するシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
論文 参考訳(メタデータ) (2023-06-27T17:59:33Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - ComPhy: Compositional Physical Reasoning of Objects and Events from
Videos [113.2646904729092]
目に見える性質と隠れた性質の間の構成性は、物理的な世界から推論するAIモデルに固有の課題をもたらす。
ビデオ推論に関する既存の研究は、主に物体の外観、動き、接触相互作用などの視覚的に観察可能な要素に焦点を当てている。
本稿では,視覚知覚,物理特性学習,動的予測,記号実行を組み合わせた,構成物理学学習(CPL)と呼ばれるオラクルニューラルシンボリックフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-02T17:59:13Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。