論文の概要: Shape and Texture Recognition in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.23062v1
- Date: Sat, 29 Mar 2025 12:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:03.613270
- Title: Shape and Texture Recognition in Large Vision-Language Models
- Title(参考訳): 大視領域モデルにおける形状とテクスチャ認識
- Authors: Sagi Eppel, Mor Bismut, Alona Faktor,
- Abstract要約: このデータセットは、LVLM(Large Vision-Language Models)が2Dおよび3Dシーンの形状、テクスチャ、材料を効果的に理解する方法を評価するために使用される。
形状認識には, 方向, テクスチャ, 色, 環境によって異なる同一形状の形状をマッチングするモデルの能力をテストする。
テクスチャと材料認識のために,異なる物体や環境にまたがる同一のテクスチャや材料を識別するモデルの能力を評価する。
- 参考スコア(独自算出の注目度): 0.5266869303483376
- License:
- Abstract: Shape and texture recognition is fundamental to visual perception. The ability to identify shapes regardless of orientation, texture, or context, and to recognize textures independently of their associated objects, is essential for general visual understanding of the world. We introduce the Large Shape & Textures dataset (LAS&T), a giant collection of diverse shapes and textures automatically extracted from real-world images. This dataset is used to evaluate how effectively leading Large Vision-Language Models (LVLMs) understand shapes, textures, and materials in both 2D and 3D scenes. For shape recognition, we test models' ability to match identical shapes that differ in orientation, texture, color, or environment. Our results show that LVLMs' shape identification capabilities remain significantly below human performance. Single alterations (orientation, texture) cause minor decreases in matching accuracy, while multiple changes precipitate dramatic drops. LVLMs appear to rely predominantly on high-level and semantic features and struggle with abstract shapes lacking clear class associations. For texture and material recognition, we evaluate models' ability to identify identical textures and materials across different objects and environments. Interestingly, leading LVLMs approach human-level performance in recognizing materials in 3D scenes, yet substantially underperform humans when identifying simpler 2D textures. The LAS&T dataset and benchmark, the largest and most diverse resource for shape and texture evaluation, is freely available with generation and testing scripts.
- Abstract(参考訳): 形状とテクスチャ認識は視覚知覚の基本である。
向き、テクスチャ、文脈に関わらず形状を識別し、関連するオブジェクトとは独立してテクスチャを認識する能力は、世界の一般的な視覚的理解に不可欠である。
実世界の画像から自動的に抽出される多様な形状とテクスチャの巨大なコレクションであるLarge Shape & Textures dataset (LAS&T)を紹介した。
このデータセットは、LVLM(Large Vision-Language Models)が2Dシーンと3Dシーンの両方で形状、テクスチャ、材料を効果的に理解する方法を評価するために使用される。
形状認識には, 方向, テクスチャ, 色, 環境によって異なる同一形状の形状をマッチングするモデルの能力をテストする。
以上の結果から,LVLMの形状識別能力は人体よりも著しく劣っていることが明らかとなった。
単一の変化(向き、テクスチャ)は、マッチングの精度をわずかに低下させ、複数の変更は劇的な低下を引き起こす。
LVLMは、高レベルかつ意味的な特徴に大きく依存し、明確なクラス関連を持たない抽象的な形状に苦慮しているように見える。
テクスチャと材料認識のために,異なる物体や環境にまたがる同一のテクスチャや材料を識別するモデルの能力を評価する。
興味深いことに、LVLMは3Dシーンで素材を認識する際に人間レベルのパフォーマンスにアプローチする。
形状とテクスチャ評価のための最大かつ最も多様なリソースであるLAS&Tデータセットとベンチマークは、生成およびテストスクリプトで自由に利用できる。
関連論文リスト
- Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures [87.80984588545589]
スパースビューのRGB入力からのリアルタイム自由視点人体レンダリングは、センサー不足と厳しい時間予算のために難しい課題である。
最近の手法では、テクスチャ空間で動作する2次元CNNを活用して、レンダリングプリミティブを学習している。
本稿では,2重非プロジェクテッドテクスチャについて述べる。
論文 参考訳(メタデータ) (2024-12-17T18:57:38Z) - Do large language vision models understand 3D shapes? [0.6993026261767287]
大規模視覚言語モデル(LVLM)は、世界の一般的な視覚的理解を達成するための主要なA.Iアプローチである。
この研究は、LVLMが3次元形状を真に理解しているかどうかを、モデルが全く同じ3次元形状の物体を識別しマッチングする能力をテストすることで検証する。
論文 参考訳(メタデータ) (2024-12-14T17:35:27Z) - Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics [50.23625950905638]
6自由度(6-DOF)VR環境下での革新的な視線追跡実験により構築したテクスチャメッシュ・サリエンシのための新しいデータセットを提案する。
本モデルでは,各三角形の面を個々の単位として扱い,各局所表面領域の重要性を反映した塩分濃度値を割り当てることで,テクスチャメッシュ表面の塩分濃度マップを推定する。
論文 参考訳(メタデータ) (2024-12-11T08:27:33Z) - TextureDreamer: Image-guided Texture Synthesis through Geometry-aware
Diffusion [64.49276500129092]
TextureDreamerは画像誘導型テクスチャ合成法である。
少数の入力画像から任意のカテゴリでターゲットの3D形状に光沢のあるテクスチャを転送することができる。
論文 参考訳(メタデータ) (2024-01-17T18:55:49Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Texturify: Generating Textures on 3D Shape Surfaces [34.726179801982646]
本研究では3次元入力のテクスチャを予測する3次元形状を学習するためにTexturifyを提案する。
本手法では,3Dオブジェクトの学習に3Dカラー管理は不要である。
論文 参考訳(メタデータ) (2022-04-05T18:00:04Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。