論文の概要: Physically Guided Visual Mass Estimation from a Single RGB Image
- arxiv url: http://arxiv.org/abs/2601.20303v1
- Date: Wed, 28 Jan 2026 06:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.802826
- Title: Physically Guided Visual Mass Estimation from a Single RGB Image
- Title(参考訳): 単一RGB画像からの物理ガイド付き視覚量推定
- Authors: Sungjae Lee, Junhan Jeong, Yeonjoo Hong, Kwang In Kim,
- Abstract要約: 物体の質量を視覚入力から推定することは、質量が幾何学的体積と物質依存密度に共同で依存するため困難である。
単一画像の質量推定のための物理的に構造化されたフレームワークを提案する。
image2mass と ABO-500 の実験により,提案手法が常に最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 22.22039659216091
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Estimating object mass from visual input is challenging because mass depends jointly on geometric volume and material-dependent density, neither of which is directly observable from RGB appearance. Consequently, mass prediction from pixels is ill-posed and therefore benefits from physically meaningful representations to constrain the space of plausible solutions. We propose a physically structured framework for single-image mass estimation that addresses this ambiguity by aligning visual cues with the physical factors governing mass. From a single RGB image, we recover object-centric three-dimensional geometry via monocular depth estimation to inform volume and extract coarse material semantics using a vision-language model to guide density-related reasoning. These geometry, semantic, and appearance representations are fused through an instance-adaptive gating mechanism, and two physically guided latent factors (volume- and density-related) are predicted through separate regression heads under mass-only supervision. Experiments on image2mass and ABO-500 show that the proposed method consistently outperforms state-of-the-art methods.
- Abstract(参考訳): 物体の質量を視覚入力から推定するのは、質量は幾何学的体積と物質依存密度に大きく依存するためである。
その結果、画素からの質量予測が悪用され、したがって物理的に意味のある表現の恩恵を受け、可算解の空間を制約する。
本稿では,このあいまいさに対処する単一画像の質量推定のための物理的に構造化された枠組みを提案する。
単一のRGB画像から、単眼深度推定による物体中心の3次元形状を復元し、体積を知らせ、視覚言語モデルを用いて粗い物質意味論を抽出し、密度関連推論を導出する。
これらの幾何、意味、外観表現は、インスタンス適応的ゲーティング機構を通じて融合し、2つの物理的に導かれる潜在因子(体積および密度関連)は、質量のみの監督の下で別々の回帰ヘッドによって予測される。
image2mass と ABO-500 の実験により,提案手法が常に最先端の手法より優れていることが示された。
関連論文リスト
- Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - Gaussian Alignment for Relative Camera Pose Estimation via Single-View Reconstruction [18.936573991468926]
GARPSは、2つの独立して再構成された3Dシーンの直接的なアライメントとしてこの問題を論じる、トレーニング不要のフレームワークである。
差分可能なGMMアライメント目標を最適化することにより、フィードフォワード2ビューポーズ推定器の初期ポーズを洗練する。
Real-Estate10Kデータセットの実験では、GARPSが古典的および最先端の学習ベースの手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-09-17T02:57:34Z) - A Simple Strategy for Body Estimation from Partial-View Images [8.05538560322898]
仮想試行と製品パーソナライズは、現代オンラインショッピングにおいてますます重要になってきており、正確な身体計測推定の必要性を強調している。
従来の研究では、RGB画像から3次元の身体形状を推定する研究が進んでいるが、画像中の人間の観察スケールは、距離と体次元の2つの未知の要因に依存するため、本質的に不明瞭である。
対象骨格を所望の位置に移動させ, スケールを正規化し, 両変数の関係を解消する, モジュラーで単純な高さ正規化法を提案する。
論文 参考訳(メタデータ) (2024-04-14T16:55:23Z) - S2P3: Self-Supervised Polarimetric Pose Prediction [55.43547228561919]
本稿では,マルチモーダルRGB+ポラリメトリック画像から,最初の自己監督型6次元オブジェクトポーズ予測を提案する。
1) 偏光の幾何学的情報を抽出する物理モデル,2) 教師による知識蒸留方式,3) 異なる制約による自己監督的損失の定式化を含む。
論文 参考訳(メタデータ) (2023-12-02T10:46:40Z) - Pixelated Reconstruction of Foreground Density and Background Surface
Brightness in Gravitational Lensing Systems using Recurrent Inference
Machines [116.33694183176617]
我々は、リカレント推論マシンに基づくニューラルネットワークを用いて、背景画像の歪みのない画像と、画素マップとしてのレンズ質量密度分布を再構成する。
従来のパラメトリックモデルと比較して、提案手法はより表現力が高く、複雑な質量分布を再構成することができる。
論文 参考訳(メタデータ) (2023-01-10T19:00:12Z) - Multi-View Reconstruction using Signed Ray Distance Functions (SRDF) [22.75986869918975]
本稿では,体積の新たな形状表現に基づく新しい計算手法について検討する。
この表現に関連する形状エネルギーは、与えられたカラー画像の3次元形状を評価し、外観予測を必要としない。
実際には、カメラ線に沿った深さによってパラメータ化される符号付き距離に基づいて、暗黙の形状表現であるSRDFを提案する。
論文 参考訳(メタデータ) (2022-08-31T19:32:17Z) - Visual Vibration Tomography: Estimating Interior Material Properties
from Monocular Video [66.94502090429806]
物体の内部の物質特性は、人間の目には見えないが、表面で観察される動きを決定する。
本研究では,物体の表面振動の単分子ビデオから物体の異種材料特性を推定する手法を提案する。
論文 参考訳(メタデータ) (2021-04-06T18:05:27Z) - Representation of 2D frame less visual space as a neural manifold and
its information geometric interpretation [0.0]
視覚空間の双曲性の起源は神経科学の証拠を用いて研究されている。
ヒト脳内の空間情報の処理は、フィッシャー・ラオ計量によって与えられるパラメトリック確率空間でモデル化することができる。
論文 参考訳(メタデータ) (2020-11-27T07:21:43Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。