論文の概要: Φeat: Physically-Grounded Feature Representation
- arxiv url: http://arxiv.org/abs/2511.11270v1
- Date: Fri, 14 Nov 2025 13:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.614329
- Title: Φeat: Physically-Grounded Feature Representation
- Title(参考訳): シーアット: 物理的に取り巻く特徴表現
- Authors: Giuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur,
- Abstract要約: 物質識別に敏感な表現を促進する新しい視覚バックボーンである$eatを紹介した。
私たちのキーとなる考え方は、異なる形状と照明条件下で同じ材料の空間的作物と物理的増強を対比する事前訓練戦略を採用することです。
特徴類似性分析と材料選択により学習した表現を評価し、$eatが意味的グループ化を超えて物理的に接地された構造をキャプチャすることを示した。
- 参考スコア(独自算出の注目度): 12.069056745665408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have emerged as effective backbones for many vision tasks. However, current self-supervised features entangle high-level semantics with low-level physical factors, such as geometry and illumination, hindering their use in tasks requiring explicit physical reasoning. In this paper, we introduce $Φ$eat, a novel physically-grounded visual backbone that encourages a representation sensitive to material identity, including reflectance cues and geometric mesostructure. Our key idea is to employ a pretraining strategy that contrasts spatial crops and physical augmentations of the same material under varying shapes and lighting conditions. While similar data have been used in high-end supervised tasks such as intrinsic decomposition or material estimation, we demonstrate that a pure self-supervised training strategy, without explicit labels, already provides a strong prior for tasks requiring robust features invariant to external physical factors. We evaluate the learned representations through feature similarity analysis and material selection, showing that $Φ$eat captures physically-grounded structure beyond semantic grouping. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics. These findings highlight the promise of unsupervised physical feature learning as a foundation for physics-aware perception in vision and graphics.
- Abstract(参考訳): 多くのビジョンタスクに有効なバックボーンとしてファンデーションモデルが登場した。
しかし、現在の自己監督的な特徴は、幾何学や照明といった低レベルの物理的要素と高レベルの意味論を絡めて、明示的な物理的推論を必要とするタスクでの使用を妨げる。
本稿では,反射率キューや幾何学的メソ構造など,物質的アイデンティティに敏感な表現を促進する,物理的に座屈した新しい視覚的バックボーンである「$$eat」を紹介する。
私たちのキーとなる考え方は、異なる形状と照明条件下で同じ材料の空間的作物と物理的増強を対比する事前訓練戦略を採用することです。
類似したデータは本質的な分解や物質推定といったハイエンドな教師付きタスクに使用されているが、明示的なラベルを持たない純粋な自己監督型トレーニング戦略は、外部の物理的要因に不変な頑健な特徴を必要とするタスクに対して、すでに強力な事前情報を提供していることを実証する。
特徴類似性分析と材料選択により学習した表現を評価し, 意味的グループ化以上の物理的に接地された構造を$$$eatでキャプチャすることを示した。
これらの知見は、視覚とグラフィックスにおける物理認識の基礎として、教師なしの身体的特徴学習の可能性を浮き彫りにしている。
これらの知見は、視覚とグラフィックスにおける物理認識の基礎として、教師なしの身体的特徴学習の可能性を浮き彫りにしている。
関連論文リスト
- Compositional Physical Reasoning of Objects and Events from Videos [122.6862357340911]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。
我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。
また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (2024-08-02T15:19:55Z) - Physical Property Understanding from Language-Embedded Feature Fields [27.151380830258603]
本稿では,画像の集合を用いて物体の物理的特性を高密度に予測する手法を提案する。
人間が視覚を通して物理学をどう考えるかに触発されて、我々は大きな言語モデルを活用して、各対象に対して候補となる材料を提案する。
我々の手法は正確で、アノテーションなしで、オープン世界のどんなオブジェクトにも適用できます。
論文 参考訳(メタデータ) (2024-04-05T17:45:07Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - On Binding Objects to Symbols: Learning Physical Concepts to Understand
Real from Fake [155.6741526791004]
我々は、ディープニューラルネットワークが合成データを生成する驚くべき能力に照らして、古典的な信号と記号の障壁を再考する。
物理オブジェクトを抽象概念として特徴付け,それ以前の解析を用いて,物理オブジェクトが有限なアーキテクチャで符号化可能であることを示す。
我々は、有限時間でデジタルIDに物理的実体を結合することは、有限資源で可能であると結論付けた。
論文 参考訳(メタデータ) (2022-07-25T17:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。