論文の概要: One Patch is All You Need: Joint Surface Material Reconstruction and Classification from Minimal Visual Cues
- arxiv url: http://arxiv.org/abs/2511.20784v1
- Date: Tue, 25 Nov 2025 19:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.819454
- Title: One Patch is All You Need: Joint Surface Material Reconstruction and Classification from Minimal Visual Cues
- Title(参考訳): 表面を修復し、最小限のビジュアルクイズから分類する「One Patch」
- Authors: Sindhuja Penchala, Gavin Money, Gabriel Marques, Samuel Wood, Jessica Kirschman, Travis Atkison, Shahram Rahimi, Noorbakhsh Amiri Golilarz,
- Abstract要約: 最小限の視覚入力から表面マテリア再構成と分類のための統一モデルSMARCを導入する。
画像の10%の連続パッチしか与えないSMARCは、材料カテゴリを同時に分類しながら、完全なRGB表面を認識し、再構成する。
SMARCは、PSNRは17.55dB、材料分類精度は85.10%である。
- 参考スコア(独自算出の注目度): 0.9649815778578629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding material surfaces from sparse visual cues is critical for applications in robotics, simulation, and material perception. However, most existing methods rely on dense or full-scene observations, limiting their effectiveness in constrained or partial view environment. To address this challenge, we introduce SMARC, a unified model for Surface MAterial Reconstruction and Classification from minimal visual input. By giving only a single 10% contiguous patch of the image, SMARC recognizes and reconstructs the full RGB surface while simultaneously classifying the material category. Our architecture combines a Partial Convolutional U-Net with a classification head, enabling both spatial inpainting and semantic understanding under extreme observation sparsity. We compared SMARC against five models including convolutional autoencoders [17], Vision Transformer (ViT) [13], Masked Autoencoder (MAE) [5], Swin Transformer [9], and DETR [2] using Touch and Go dataset [16] of real-world surface textures. SMARC achieves state-of-the-art results with a PSNR of 17.55 dB and a material classification accuracy of 85.10%. Our findings highlight the advantages of partial convolution in spatial reasoning under missing data and establish a strong foundation for minimal-vision surface understanding.
- Abstract(参考訳): 粗い視覚的手がかりから材料表面を理解することは、ロボット工学、シミュレーション、材料知覚の応用に不可欠である。
しかし、既存のほとんどの手法は、密集した、またはフルシーンの観測に依存しており、制約された、または部分的な視野環境における効果を制限する。
この課題に対処するために、最小限の視覚入力からSurface MAterial Restructation and Classificationの統一モデルSMARCを導入する。
画像の10%の連続パッチしか与えないSMARCは、材料カテゴリを同時に分類しながら、完全なRGB表面を認識し、再構成する。
我々のアーキテクチャは部分畳み込み型U-Netと分類ヘッドを組み合わせることで、極端観測空間における空間的着色と意味的理解を両立させることができる。
我々は,畳み込みオートエンコーダ [17],ビジョントランスフォーマー (ViT) [13],マスケオートエンコーダ (MAE) [5],スウィントランスフォーマー [9],DETR [2] の5つのモデルに対して,タッチとGoの実際の表面テクスチャのデータセット [16] を用いてSMARCを比較した。
SMARCは、PSNRは17.55dB、材料分類精度は85.10%である。
本研究は,空間的推論における部分的畳み込みの利点を強調し,最小視野表面理解のための強力な基盤を確立した。
関連論文リスト
- Revisiting Efficient Semantic Segmentation: Learning Offsets for Better Spatial and Class Feature Alignment [67.94226713255732]
本稿では,クラス表現と空間像の特徴の両方を動的に洗練するために,特徴とクラスオフセットを学習するデュアルブランチオフセット学習パラダイムを提案する。
提案手法に基づいて,効率的なセマンティックセグメンテーションネットワークOffSegを構築した。
ADE20K、Cityscapes、COCO-Stuff-164K、Pascal Contextを含む4つのデータセットの実験は、無視可能なパラメータによる一貫した改善を示している。
論文 参考訳(メタデータ) (2025-08-12T10:10:10Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - MVGSR: Multi-View Consistency Gaussian Splatting for Robust Surface Reconstruction [46.081262181141504]
3D Gaussian Splatting (3DGS)は高品質なレンダリング機能、超高速トレーニング、推論速度で注目されている。
我々はロバスト表面再構成(textbfMVGSR)の領域に対するマルチビュー一貫性ガウススティングを提案する。
MVGSRは、最先端の表面再構成アルゴリズムと比較して、競合する幾何学的精度とレンダリング忠実度を実現している。
論文 参考訳(メタデータ) (2025-03-11T06:53:27Z) - Semantic Segmentation and Scene Reconstruction of RGB-D Image Frames: An End-to-End Modular Pipeline for Robotic Applications [0.7951977175758216]
従来のRGB-D処理パイプラインは主に幾何学的再構成に焦点を当てている。
セマンティックセグメンテーション、ヒューマントラッキング、ポイントクラウド融合、シーン再構築を統合した、新しいエンドツーエンドのモジュールパイプラインを導入する。
我々は、ベンチマークデータセットと現実世界のKinect RGB-Dデータにアプローチを検証し、効率、精度、ユーザビリティを改善した。
論文 参考訳(メタデータ) (2024-10-23T16:01:31Z) - Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。
提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。
提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文 参考訳(メタデータ) (2024-03-28T11:12:33Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - ReTR: Modeling Rendering Via Transformer for Generalizable Neural
Surface Reconstruction [24.596408773471477]
レコンストラクションTRansformer (ReTR) は、トランスフォーマーアーキテクチャをレンダリングプロセスに活用する新しいフレームワークである。
色空間ではなく高次元の特徴空間内で操作することで、ReTRはソースビューの投影色に対する感度を緩和する。
論文 参考訳(メタデータ) (2023-05-30T08:25:23Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。