論文の概要: PolarVLM: Bridging the Semantic-Physical Gap in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.07574v1
- Date: Fri, 08 May 2026 10:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.004288
- Title: PolarVLM: Bridging the Semantic-Physical Gap in Vision-Language Models
- Title(参考訳): PolarVLM:視覚・言語モデルにおける意味論的ギャップを埋める
- Authors: Yuliang Li, Chu Zhou, Heng Guo, Boxin Shi, Imari Sato, Zhanyu Ma,
- Abstract要約: 視覚言語モデルに偏光物理パラメータを統合する最初のフレームワークであるPolarVLMを紹介する。
デュアルストリームアーキテクチャとプログレッシブ2段階のトレーニング戦略を用いることで、PolarVLMは一般的な視覚能力を維持しながら、物理的誤解釈を効果的に防止する。
実験の結果、PolarVLMは5つの評価タスクでRGBベースラインを25.4%上回ることがわかった。
- 参考スコア(独自算出の注目度): 79.07798242685293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream vision-language models (VLMs) fundamentally struggle with severe optical ambiguities, such as reflections and transparent objects, due to the inherent limitations of standard RGB inputs. While polarization imaging captures polarimetric physical parameters that resolve these ambiguities, existing methods are constrained by fixed-format outputs and remain isolated from open-ended reasoning. To bridge this semantic-physical gap, we introduce PolarVLM, the first multimodal framework integrating polarimetric physical parameters into VLMs. By employing a dual-stream architecture and a progressive two-stage training strategy, PolarVLM effectively prevents physical misinterpretations while preserving general visual abilities. Complementing our architecture, we construct PolarVQA, the first benchmark for polarization-aware VQA, featuring 75K physics-grounded instruction-tuning pairs targeting reflective and transparent scenes. Experiments show that PolarVLM surpasses the RGB baseline by 25.4% overall across five evaluation tasks, with remarkable gains of 26.6% in reflection recognition and 34.0% in glass counting, successfully unlocking physics-aware semantic understanding.
- Abstract(参考訳): メインストリーム視覚言語モデル(VLM)は、標準のRGB入力に固有の制限があるため、反射や透明な物体といった深刻な光学的曖昧さに根本的に苦しむ。
偏光イメージングはこれらの曖昧さを解消する偏光物理パラメータをキャプチャするが、既存の手法は固定形式出力によって制約され、未開の推論から分離される。
このセマンティック物理ギャップを埋めるために、偏光物理パラメータをVLMに統合する最初のマルチモーダルフレームワークであるPolarVLMを導入する。
デュアルストリームアーキテクチャとプログレッシブ2段階のトレーニング戦略を用いることで、PolarVLMは一般的な視覚能力を維持しながら、物理的誤解釈を効果的に防止する。
アーキテクチャを補完し、偏光を意識したVQAの最初のベンチマークであるPolarVQAを構築する。
実験の結果、PolarVLMは5つの評価タスクでRGBベースラインを25.4%上回り、リフレクション認識では26.6%、ガラスカウントでは34.0%となり、物理学を意識したセマンティック理解を解き放つことに成功した。
関連論文リスト
- VLMaterial: Vision-Language Model-Based Camera-Radar Fusion for Physics-Grounded Material Identification [2.934626037282987]
本稿では,視覚言語モデル(VLM)とドメイン固有のレーダ知識を融合した学習自由フレームワークを提案する。
実験の結果、VLMaterialは96.08%の認識精度を達成し、最先端のクローズドセットベンチマークと同等の性能を提供することがわかった。
論文 参考訳(メタデータ) (2026-04-13T16:16:28Z) - CDPR: Cross-modal Diffusion with Polarization for Reliable Monocular Depth Estimation [12.658602122161989]
CDPRは、推定ロバスト性を高めるために物理的に接地された偏光前処理を統合する新しい拡散ベースのフレームワークである。
また,CDPRは,標準シーンにおける競争性能を維持しつつ,挑戦的な領域においてRGBのみのベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-04-13T07:12:49Z) - High-Resolution Single-Shot Polarimetric Imaging Made Easy [76.04914313843774]
EasyPolarは多視点偏光イメージングフレームワークである。
3つの同期RGBカメラは、1つの非偏光ビューと2つの異なる方向の偏光ビューをキャプチャする。
多視点核融合における潜在的なミスアライメントに対処するために、信頼誘導偏光再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2026-04-07T08:20:58Z) - MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling [55.72785604682579]
MMPhysVideoは、共同マルチモーダルモデリングにおけるビデオ生成における物理的可視性を拡大するフレームワークである。
MMPhysVideoは、様々なベンチマークで高度なモデルよりも、物理的な可視性と視覚的品質を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-03T07:32:24Z) - Learning to See through Illumination Extremes with Event Streaming in Multimodal Large Language Models [26.703204607483404]
Event-MLLMは、RGBフレームで動的にイベントストリームを融合することで、全光視覚推論を実行するイベント強化モデルである。
MLLMの最初のマルチイルミネーションイベントインストラクションコーパスを2,241個のイベントRGBサンプルでキュレートする。
実験によると、Event-MLLMは汎用性、照明適応性、イベントのみのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-29T07:46:32Z) - VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models [64.56065206447788]
ビジョン言語モデル(VLM)は、標準の高品質なデータセット上で強力なパフォーマンスを達成する。
VLM-RobustBenchはノイズ、ブラー、天気、デジタル、幾何学にまたがる49種類の拡張型にまたがるベンチマークである。
低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
論文 参考訳(メタデータ) (2026-03-06T10:58:02Z) - Revisiting Shape from Polarization in the Era of Vision Foundation Models [11.779432473091754]
小さいデータセットでトレーニングされた軽量モデルは、単発物体表面の正常推定において、RGBのみの視覚基盤モデル(VFM)より優れていることを示す。
40Kのトレーニングシーンで,本手法は最先端のSfPアプローチとRGBのみのVFMの両方に優れていた。
論文 参考訳(メタデータ) (2026-03-05T05:07:03Z) - Fooling Polarization-based Vision using Locally Controllable Polarizing Projection [55.40484331029597]
我々は、RGBベースのビジョンよりも深刻な偏光ベースのビジョンの脆弱性のコミュニティに警告する。
商用LCDプロジェクタに適応することにより、局所的に制御可能な偏光投影を実現し、最先端の偏光に基づく視覚アルゴリズムにうまく活用する。
論文 参考訳(メタデータ) (2023-03-31T08:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。