論文の概要: Revitalizing Dense Material Segmentation: Stabilized Vision Transformers and the Generalization Paradox
- arxiv url: http://arxiv.org/abs/2605.23747v1
- Date: Fri, 22 May 2026 15:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.40986
- Title: Revitalizing Dense Material Segmentation: Stabilized Vision Transformers and the Generalization Paradox
- Title(参考訳): 高密度材料セグメンテーションの活性化:安定化視覚変換器と一般化パラドックス
- Authors: Allan Kazakov, Duygu Cakir, Hilal Kurt İrfanoğlu, Yavuz İrfanoğlu,
- Abstract要約: 我々は、Apple-DMSベンチマークを復活させ、モダンなVision Transformerベースラインを確立する。
本稿では,ハイフィデリティ・ロジット・プロジェクション,クエリエントロピー規則化,およびドメイン固有の物理対応拡張パイプラインを特徴とする安定化されたトレーニングレシピを紹介する。
最適化されたSegFormer-B5は、最初のデータセット分割で0.4572 mIoUの新しいステート・オブ・ザ・アート(SOTA)を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Material segmentation, the pixel-wise classification of physical surface properties, remains a challenging problem in computer vision, requiring physicochemical understanding distinct from object-centric parsing. Despite the introduction of the rigorous Apple Dense Material Segmentation (DMS) dataset, the benchmark has suffered from attrition and stagnation, increasingly overshadowed by geometry-biased foundation models. In this paper, we revive the Apple-DMS benchmark to establish a modern Vision Transformer baseline. We conduct an exhaustive evaluation of SegFormer and Mask2Former architectures, revealing that standard training paradigms fail on amorphous texture fields due to high-variance gradients. To address this, we introduce a stabilized training recipe featuring High-Fidelity Logit Projection, Query Entropy Regularization, and a domain-specific, physics-compliant augmentation pipeline. Our optimized SegFormer-B5 achieves a new State-of-the-Art (SOTA) of 0.4572 mIoU on the original dataset split, significantly surpassing the prior convolutional baseline. Furthermore, we identify a critical "Generalization Paradox": while re-partitioning the dataset into a data-rich 80/10/10 split inflates the metric to 0.5276 mIoU, expert qualitative analysis reveals this induces distributional homogenization, severely degrading real-world, out-of-distribution performance. By releasing our recovered dataset index and robust training framework, we demonstrate that material perception is far from solved and urge the community to leverage the rigorous original split to drive genuine progress in physically grounded artificial intelligence.
- Abstract(参考訳): 物理的表面特性のピクセル単位での分類である材料セグメンテーションは、物体中心のパーシングとは異なる物理化学的理解を必要とする、コンピュータビジョンにおいて難しい問題である。
厳格なApple Dense Material Segmentation(DMS)データセットの導入にもかかわらず、このベンチマークは誘惑と停滞に悩まされ、幾何バイアスの基盤モデルによってますます影が薄れつつある。
本稿では、Apple-DMSベンチマークを復活させ、モダンなビジョントランスフォーマーのベースラインを確立する。
我々は、SegFormerとMask2Formerアーキテクチャの徹底的な評価を行い、標準トレーニングパラダイムが高分散勾配のため、アモルファスなテクスチャフィールドで失敗することを明らかにする。
そこで本研究では,ハイフィデリティ・ロジット・プロジェクション,クエリエントロピー・レギュラー化,およびドメイン固有の物理対応拡張パイプラインを特徴とする安定化されたトレーニングレシピを提案する。
最適化されたSegFormer-B5は、最初のデータセット分割で0.4572 mIoUの新しいステート・オブ・ザ・アート(SOTA)を実現し、以前の畳み込みベースラインを大幅に上回った。
さらに、データセットをデータリッチな80/10/10分割に分割すると、パラメータは0.5276 mIoUに膨らませるが、専門家の定性的分析により、これは分散均質化を誘発し、現実世界を著しく劣化させる。
回復したデータセットインデックスとロバストなトレーニングフレームワークを公開することによって、物質認識が解決には程遠いことを示し、厳密なオリジナルの分割を活用して、物理的な基盤を持つ人工知能の真の進歩を促進するようコミュニティに促す。
関連論文リスト
- MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - VFM-Recon: Unlocking Cross-Domain Scene-Level Neural Reconstruction with Scale-Aligned Foundation Priors [49.39553550491549]
VFMReconは, シーンレベルの神経再構成において, スケール一貫性の要求を満たすトランスファー可能なVFMプリエントをブリッジする最初の試みである。
具体的には、まず、マルチビュースケールコヒーレンスを復元する軽量なスケールアライメントステージを導入する。
次に、トレーニング済みのVFM機能を、軽量なタスク固有アダプタを介して、ニューラルボリューム再構築パイプラインに統合する。
論文 参考訳(メタデータ) (2026-03-13T05:00:44Z) - Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation [21.75204301463342]
ビジョントランスフォーマー(ViT)は3次元の医療セグメンテーションで優れるが、大量のデータセットを必要とする。
Formula-Driven Supervised Learning (F)は、合成数学的プリミティブを事前学習することで、プライバシ保護の代替手段を提供する。
本稿では,Fの無限拡張性と解剖学的リアリズムを一体化するための注釈付きインフォームド・シンセティック・アナトロジー・プレトレーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T08:15:18Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models [15.709482146201283]
現代のビジョン・ファンデーション・モデル(Vision Foundation Models)の凍結した特徴に基づいて訓練された単純な線形分類器は、新しい最先端技術を確立している。
この基準線は標準ベンチマーク上の特別な検出器と一致し、また、ウィジェット内のデータセット上では決定的に優れていることを示す。
我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
論文 参考訳(メタデータ) (2026-02-02T07:20:02Z) - UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass [83.7071371474926]
UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。
我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。
本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-01-03T16:06:27Z) - No-rank Tensor Decomposition Using Metric Learning [0.0]
本稿では,計量学習に基づく非ランクテンソル分解フレームワークを提案する。
フレームワークの収束に関する理論的保証を提供し、その計量特性の有界性を確立する。
提案手法は, トランスフォーマーに基づく手法と比較して, より少ないトレーニングデータセットで優れた性能を実現する。
論文 参考訳(メタデータ) (2025-11-03T18:21:53Z) - Migration as a Probe: A Generalizable Benchmark Framework for Specialist vs. Generalist Machine-Learned Force Fields [1.572216094651749]
機械学習力場(MLFF)は、分子動力学スケールでのアブ初期レベルの精度を実現することによって、計算材料科学を変革している。
研究者たちは、スペシャリストモデルをスクラッチから訓練するか、ファウンデーショナリストのファンデーションモデルを使うべきか、ハイブリッドアプローチを使うべきか?
本稿では, 弾性バンドトラジェクトリを用いて診断プローブとして評価する, 欠陥マイグレーション経路を用いたベンチマークフレームワークを提案する。
微調整モデルでは、運動特性に対するゼロショットおよびゼロショットのアプローチよりも大幅に優れるが、長距離物理学の部分的な損失を示す。
論文 参考訳(メタデータ) (2025-08-27T13:24:41Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation [20.676510832922016]
本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
論文 参考訳(メタデータ) (2024-02-20T01:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。