論文の概要: Shape and Texture Recognition in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.23062v2
- Date: Mon, 02 Jun 2025 19:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.062535
- Title: Shape and Texture Recognition in Large Vision-Language Models
- Title(参考訳): 大視領域モデルにおける形状とテクスチャ認識
- Authors: Sagi Eppel, Mor Bismut, Alona Faktor-Strugatski,
- Abstract要約: この研究は、Large Shape and Texturesデータセット(LAS&T)を導入している。
このデータセットは、LVLM(Large Vision-Language Models)が2Dおよび3Dシーンの形状、テクスチャ、材料を効果的に理解する方法のベンチマークに使用される。
形状認識には, 方向, テクスチャ, 色, 環境によって異なる同一形状の画像をマッチングするモデルの能力をテストする。
テクスチャと材料認識のために,異なる物体や環境にまたがる同一のテクスチャと材料を用いた画像の識別能力を評価した。
- 参考スコア(独自算出の注目度): 0.5266869303483376
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Shapes and textures are the basic building blocks of visual perception. The ability to identify shapes regardless of orientation, texture, or context, and to recognize textures and materials independently of their associated objects, is essential for a general visual understanding of the world. This work introduces the Large Shape and Textures dataset (LAS&T), a giant collection of highly diverse shapes and textures, created by unsupervised extraction of patterns from natural images. This dataset is used to benchmark how effectively leading Large Vision-Language Models (LVLMs) understand shapes, textures, and materials in 2D and 3D scenes. For shape recognition, we test the models' ability to match images of identical shapes that differ in orientation, texture, color, or environment. Our results show that the shape recognition capabilities of the LVLMs remain significantly below human performance. LVLMs rely predominantly on high-level and semantic features and struggle with abstract shapes lacking clear class associations. For texture and material recognition, we evaluated the models' ability to identify images with identical textures and materials across different objects and environments. Interestingly, leading LVLMs approach human-level performance in recognizing materials in 3D scenes, yet substantially underperform humans when identifying simpler more abstract 2D textures. These results are consistent across a wide range of leading VLMs (GPT/Gemini/LLama/Qwen) and foundation vision models (DINO/CLIP), exposing major deficiencies in the ability of leading models to understand fundamental visual concepts. In contrast, simple nets trained directly for these tasks achieve high accuracy. The LAS&T dataset has been made available.
- Abstract(参考訳): 形状とテクスチャは視覚知覚の基本的な構成要素である。
向き、テクスチャ、文脈に関係なく形状を識別し、関連する物体とは独立してテクスチャや材料を認識する能力は、世界全般の視覚的理解に不可欠である。
この研究は、非常に多様な形状とテクスチャの巨大なコレクションであるLarge Shape and Textures dataset (LAS&T)を導入し、自然画像からのパターンの教師なし抽出によって作成した。
このデータセットは、LVLM(Large Vision-Language Models)が2Dおよび3Dシーンの形状、テクスチャ、材料を効果的に理解する方法のベンチマークに使用される。
形状認識には, 方向, テクスチャ, 色, 環境によって異なる同一形状の画像をマッチングするモデルの能力をテストする。
以上の結果から,LVLMの形状認識能力は人間の性能よりかなり低いことが示唆された。
LVLMは、高レベルかつ意味的な特徴に大きく依存し、明確なクラスアソシエーションを欠いた抽象的な形状に苦しむ。
テクスチャと材料認識のために,異なる物体や環境にまたがる同一のテクスチャと材料を用いた画像の識別能力を評価した。
興味深いことに、LVLMは、より単純な抽象的な2Dテクスチャを識別する際、3Dシーンで材料を認識する際に人間レベルのパフォーマンスにアプローチする。
これらの結果は、様々な主要なVLM (GPT/Gemini/LLama/Qwen) と基礎ビジョンモデル (DINO/CLIP) で一致しており、基礎的な視覚概念を理解するためにモデルを導く能力に重大な欠陥が浮かび上がっている。
対照的に、これらのタスクのために直接訓練された単純なネットは、高い精度を達成する。
LAS&Tデータセットが利用可能になった。
関連論文リスト
- Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures [87.80984588545589]
スパースビューのRGB入力からのリアルタイム自由視点人体レンダリングは、センサー不足と厳しい時間予算のために難しい課題である。
最近の手法では、テクスチャ空間で動作する2次元CNNを活用して、レンダリングプリミティブを学習している。
本稿では,2重非プロジェクテッドテクスチャについて述べる。
論文 参考訳(メタデータ) (2024-12-17T18:57:38Z) - Do large language vision models understand 3D shapes? [0.6993026261767287]
大規模視覚言語モデル(LVLM)は、世界の一般的な視覚的理解を達成するための主要なA.Iアプローチである。
この研究は、LVLMが3次元形状を真に理解しているかどうかを、モデルが全く同じ3次元形状の物体を識別しマッチングする能力をテストすることで検証する。
論文 参考訳(メタデータ) (2024-12-14T17:35:27Z) - Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics [50.23625950905638]
6自由度(6-DOF)VR環境下での革新的な視線追跡実験により構築したテクスチャメッシュ・サリエンシのための新しいデータセットを提案する。
本モデルでは,各三角形の面を個々の単位として扱い,各局所表面領域の重要性を反映した塩分濃度値を割り当てることで,テクスチャメッシュ表面の塩分濃度マップを推定する。
論文 参考訳(メタデータ) (2024-12-11T08:27:33Z) - TextureDreamer: Image-guided Texture Synthesis through Geometry-aware
Diffusion [64.49276500129092]
TextureDreamerは画像誘導型テクスチャ合成法である。
少数の入力画像から任意のカテゴリでターゲットの3D形状に光沢のあるテクスチャを転送することができる。
論文 参考訳(メタデータ) (2024-01-17T18:55:49Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Texturify: Generating Textures on 3D Shape Surfaces [34.726179801982646]
本研究では3次元入力のテクスチャを予測する3次元形状を学習するためにTexturifyを提案する。
本手法では,3Dオブジェクトの学習に3Dカラー管理は不要である。
論文 参考訳(メタデータ) (2022-04-05T18:00:04Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。