論文の概要: VLMaterial: Vision-Language Model-Based Camera-Radar Fusion for Physics-Grounded Material Identification
- arxiv url: http://arxiv.org/abs/2604.11671v2
- Date: Wed, 15 Apr 2026 01:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.447375
- Title: VLMaterial: Vision-Language Model-Based Camera-Radar Fusion for Physics-Grounded Material Identification
- Title(参考訳): VLMaterial:物理を取り巻く物質同定のためのビジョンランゲージモデルに基づくカメラレーダー核融合
- Authors: Jiangyou Zhu, He Chen,
- Abstract要約: 本稿では,視覚言語モデル(VLM)とドメイン固有のレーダ知識を融合した学習自由フレームワークを提案する。
実験の結果、VLMaterialは96.08%の認識精度を達成し、最先端のクローズドセットベンチマークと同等の性能を提供することがわかった。
- 参考スコア(独自算出の注目度): 2.934626037282987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate material recognition is a fundamental capability for intelligent perception systems to interact safely and effectively with the physical world. For instance, distinguishing visually similar objects like glass and plastic cups is critical for safety but challenging for vision-based methods due to specular reflections, transparency, and visual deception. While millimeter-wave (mmWave) radar offers robust material sensing regardless of lighting, existing camera-radar fusion methods are limited to closed-set categories and lack semantic interpretability. In this paper, we introduce VLMaterial, a training-free framework that fuses vision-language models (VLMs) with domain-specific radar knowledge for physics-grounded material identification. First, we propose a dual-pipeline architecture: an optical pipeline uses the segment anything model and VLM for material candidate proposals, while an electromagnetic characterization pipeline extracts the intrinsic dielectric constant from radar signals via an effective peak reflection cell area (PRCA) method and weighted vector synthesis. Second, we employ a context-augmented generation (CAG) strategy to equip the VLM with radar-specific physical knowledge, enabling it to interpret electromagnetic parameters as stable references. Third, an adaptive fusion mechanism is introduced to intelligently integrate outputs from both sensors by resolving cross-modal conflicts based on uncertainty estimation. We evaluated VLMaterial in over 120 real-world experiments involving 41 diverse everyday objects and 4 typical visually deceptive counterfeits across varying environments. Experimental results demonstrate that VLMaterial achieves a recognition accuracy of 96.08%, delivering performance on par with state-of-the-art closed-set benchmarks while eliminating the need for extensive task-specific data collection and training.
- Abstract(参考訳): 正確な物質認識は、知的知覚システムが物理的世界と安全かつ効果的に相互作用する基本的な能力である。
例えば、ガラスやプラスチックカップのような視覚的に類似した物体を区別することは、安全には重要だが、視線反射、透明性、視覚的騙しによる視覚ベースの手法には難しい。
ミリ波レーダ(mmWave)は照明によらず頑丈な材料を提供するが、既存のカメラとレーダーの融合方式はクローズドセットのカテゴリーに限られており、意味論的解釈性に欠ける。
本稿では,視覚言語モデル(VLM)を物理基底物質識別のための領域固有のレーダー知識と融合させる,トレーニング不要のフレームワークであるVLMaterialを紹介する。
まず,光パイプラインはセグメントの任意のモデルとVLMを材料候補として使用し,電磁的評価パイプラインは有効ピーク反射セル面積(PRCA)法と重み付きベクトル合成法により,レーダ信号から固有誘電率を抽出する。
第2に、VLMにレーダー固有の物理知識を付与するために、文脈拡張世代(CAG)戦略を採用し、電磁パラメータを安定した参照として解釈できるようにする。
第3に、不確実性推定に基づいてモード間競合を解決することにより、両センサからの出力をインテリジェントに統合する適応融合機構を導入する。
VLMaterialを実世界の120以上の実験で評価した。
実験の結果、VLMaterialは96.08%の認識精度を達成し、最先端のクローズドセットベンチマークと同等の性能を提供しながら、広範囲なタスク固有のデータ収集とトレーニングの必要性を排除した。
関連論文リスト
- Multi-Modal Landslide Detection from Sentinel-1 SAR and Sentinel-2 Optical Imagery Using Multi-Encoder Vision Transformers and Ensemble Learning [0.0]
地すべりは、人間の生活、インフラ、生態系に深刻な影響を与えている主要なジオハザードである。
本研究では、Sentinel-1 Synthetic Aperture Radar(SAR)データとSentinel-2光画像を融合したモジュラー・マルチモデルフレームワークを提案する。
提案手法は地すべり検出における最先端F1スコア0.919を達成する。
論文 参考訳(メタデータ) (2026-04-07T14:51:05Z) - TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection [70.42796551833946]
テクスチャレベルのアーティファクトとセマンティックな特徴をマルチモーダルな言語モデル(MLLM)に組み込むことで、AIGI検出能力を向上することができる。
本稿では,タスク認識型Optimal-Transport Fusionを統合した軽量フュージョンアダプタTranX-Adapterを提案する。
いくつかの高度なMLLM上での標準AIGI検出ベンチマークの実験は、TranX-Adapterが一貫性と大幅な改善をもたらすことを示している。
論文 参考訳(メタデータ) (2026-02-25T09:22:46Z) - Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - From Words to Wavelengths: VLMs for Few-Shot Multispectral Object Detection [7.459632891054827]
マルチスペクトル物体検出は、自律運転や監視といった安全に敏感なアプリケーションに不可欠である。
近年のコンピュータビジョンにおけるビジョン・ランゲージ・モデルの成功に触発されて、我々は、数発のマルチスペクトル物体検出の可能性を探る。
論文 参考訳(メタデータ) (2025-12-17T21:06:36Z) - SpectralCA: Bi-Directional Cross-Attention for Next-Generation UAV Hyperspectral Vision [0.0]
この研究の関連性は、複雑な環境で確実に運用できる無人航空機の需要の増加にある。
ハイパースペクトルイメージング(HSI)は、UAVベースのコンピュータビジョンにユニークな機会を提供する。
本研究の目的は、航法、物体検出、地形分類のためのUAV知覚にHSIを組み込んだディープラーニングアーキテクチャを開発することである。
論文 参考訳(メタデータ) (2025-10-10T22:53:28Z) - Graph-Based Multi-Modal Sensor Fusion for Autonomous Driving [3.770103075126785]
本稿では,グラフに基づく状態表現の開発に焦点をあてた,マルチモーダルセンサ融合に対する新しいアプローチを提案する。
本稿では,マルチモーダルグラフを融合する最初のオンライン状態推定手法であるSensor-Agnostic Graph-Aware Kalman Filterを提案する。
提案手法の有効性を,合成および実世界の運転データセットを用いた広範囲な実験により検証した。
論文 参考訳(メタデータ) (2024-11-06T06:58:17Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - SSTN: Self-Supervised Domain Adaptation Thermal Object Detection for
Autonomous Driving [6.810856082577402]
コントラスト学習により可視スペクトル領域と赤外スペクトル領域の情報を最大化するための機能埋め込みを学習するためのディープニューラルネットワークSelf Supervised Thermal Network (SSTN)を提案する。
提案手法は、FLIR-ADASデータセットとKAISTマルチスペクトラルデータセットの2つの公開データセットで広く評価されている。
論文 参考訳(メタデータ) (2021-03-04T16:42:49Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。