Fugu-MT 論文翻訳(概要): Harnessing the Power of Foundation Models for Accurate Material Classification

論文の概要: Harnessing the Power of Foundation Models for Accurate Material Classification

arxiv url: http://arxiv.org/abs/2603.17390v1
Date: Wed, 18 Mar 2026 06:14:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.537502
Title: Harnessing the Power of Foundation Models for Accurate Material Classification
Title（参考訳）: 正確な材料分類のための基礎モデルの力の調和
Authors: Qingran Lin, Fengwei Yang, Chaolun Zhu,
Abstract要約: 物質分類はコンピュータビジョンとグラフィックスにおいて重要な課題として浮上している。ビジョン言語基盤モデルの最近の進歩は、これらの問題に対処するための有望な道を提供する。本稿では,データ制限を克服し,分類精度を高めるために基礎モデルを効果的に活用する新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.22940141855172033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Material classification has emerged as a critical task in computer vision and graphics, supporting the assignment of accurate material properties to a wide range of digital and real-world applications. While traditionally framed as an image classification task, this domain faces significant challenges due to the scarcity of annotated data, limiting the accuracy and generalizability of trained models. Recent advances in vision-language foundation models (VLMs) offer promising avenues to address these issues, yet existing solutions leveraging these models still exhibit unsatisfying results in material recognition tasks. In this work, we propose a novel framework that effectively harnesses foundation models to overcome data limitations and enhance classification accuracy. Our method integrates two key innovations: (a) a robust image generation and auto-labeling pipeline that creates a diverse and high-quality training dataset with material-centric images, and automatically assigns labels by fusing object semantics and material attributes in text prompts; (b) a prior incorporation strategy to distill information from VLMs, combined with a joint fine-tuning method that optimizes a pre-trained vision foundation model alongside VLM-derived priors, preserving broad generalizability while adapting to material-specific features.Extensive experiments demonstrate significant improvements on multiple datasets. We show that our synthetic dataset effectively captures the characteristics of real world materials, and the integration of priors from vision-language models significantly enhances the final performance. The source code and dataset will be released.
Abstract（参考訳）: 物質分類は、コンピュータビジョンとグラフィックスにおいて重要な課題として現れ、幅広いデジタルおよび現実世界のアプリケーションへの正確な材料特性の割り当てをサポートする。従来、画像分類タスクとしてフレーム化されていたが、このドメインは、注釈付きデータの不足により、トレーニングされたモデルの精度と一般化性に制限があるため、大きな課題に直面している。視覚言語基礎モデル(VLM)の最近の進歩は、これらの問題に対処するための有望な道を提供するが、これらのモデルを活用する既存のソリューションは、物質認識タスクにおいて不満足な結果を示す。本研究では,データ制限を克服し,分類精度を高めるために基礎モデルを効果的に活用する新しいフレームワークを提案する。我々の手法は2つの重要なイノベーションを統合している。 (a)ロバストな画像生成と自動ラベル付けパイプラインで、素材中心の画像を含む多種多様な高品質のトレーニングデータセットを作成し、テキストプロンプトにオブジェクトの意味と素材属性を融合させてラベルを自動的に割り当てる。 b) VLMから情報を抽出するための事前の定式化戦略と,VLMから派生した先行モデルと並行して学習済みの視覚基盤モデルを最適化し,物質特異的な特徴に適応しながら広範な一般化性を維持する共同微調整手法を組み合わせることで,複数のデータセットに顕著な改善が示された。人工データセットは実世界の素材の特徴を効果的に捉えることができ、視覚言語モデルからの事前情報の統合は最終的な性能を著しく向上させることを示す。ソースコードとデータセットがリリースされる。

関連論文リスト

Dataset creation for supervised deep learning-based analysis of microscopic images - review of important considerations and recommendations [1.5380966418154165]
監視型ディープラーニング(DL)は,顕微鏡画像の自動解析に非常に関心がある。 DLモデルは高品質で大規模なデータセットの可用性に大きく依存している。このレビューは、データセット作成における重要なステップの包括的なガイドを提供する。
論文参考訳（メタデータ） (2025-12-04T08:27:01Z)
Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content [71.46991494014382]
本稿では,AI生成画像におけるリアリズムと妥当性の詳細な評価のための新しいデータセットであるQ-Realを紹介する。 Q-Realは、人気のあるテキスト・ツー・イメージ・モデルによって生成される3,088のイメージで構成されている。そこで本研究では,Q-Real Benchを2つの課題,すなわち判断と推論による根拠付けに基づいて評価する。
論文参考訳（メタデータ） (2025-11-21T02:43:17Z)
DINOv3 [62.31809406012177]
自己教師型学習は、手動データアノテーションの必要性を排除し、巨大なデータセットやより大きなアーキテクチャにモデルを集中的にスケールできるようにするという約束を守ります。この技術レポートでは、シンプルだが効果的な戦略を活用することで、このビジョンを実現するための大きなマイルストーンであるDINOv3を紹介します。 DINOv3は高品位な高精細な特徴を生み出し、様々な視覚タスクにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2025-08-13T18:00:55Z)
Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文参考訳（メタデータ） (2025-05-20T13:47:40Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Improving the Performance of Fine-Grain Image Classifiers via Generative Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。 DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文参考訳（メタデータ） (2020-08-12T15:29:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。