論文の概要: AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?
- arxiv url: http://arxiv.org/abs/2412.03002v3
- Date: Sun, 09 Mar 2025 13:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:53.128620
- Title: AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?
- Title(参考訳): AdvDreamerが発表:ビジョンランゲージモデルは現実世界の3Dバリエーションに完全に対応できるか?
- Authors: Shouwei Ruan, Hanqing Liu, Yao Huang, Xiaoqi Wang, Caixin Kang, Hang Su, Yinpeng Dong, Xingxing Wei,
- Abstract要約: ヴィジュアル言語モデル(VLM)は目覚ましい一般化能力を示してきたが、動的現実シナリオにおける堅牢性はほとんど探索されていない。
本稿では, 物理再現可能な3次元変換(Adv-3DT)サンプルを単一視点で生成できる最初のフレームワークであるAdvDreamerを提案する。
- 参考スコア(独自算出の注目度): 32.57500114041348
- License:
- Abstract: Vision Language Models (VLMs) have exhibited remarkable generalization capabilities, yet their robustness in dynamic real-world scenarios remains largely unexplored. To systematically evaluate VLMs' robustness to real-world 3D variations, we propose AdvDreamer, the first framework capable of generating physically reproducible Adversarial 3D Transformation (Adv-3DT) samples from single-view observations. In AdvDreamer, we integrate three key innovations: Firstly, to characterize real-world 3D variations with limited prior knowledge precisely, we design a zero-shot Monocular Pose Manipulation pipeline built upon generative 3D priors. Secondly, to ensure the visual quality of worst-case Adv-3DT samples, we propose a Naturalness Reward Model that provides continuous naturalness regularization during adversarial optimization, effectively preventing convergence to hallucinated or unnatural elements. Thirdly, to enable systematic evaluation across diverse VLM architectures and visual-language tasks, we introduce the Inverse Semantic Probability loss as the adversarial optimization objective, which solely operates in the fundamental visual-textual alignment space. Based on the captured Adv-3DT samples with high aggressiveness and transferability, we establish MM3DTBench, the first VQA benchmark dataset tailored to evaluate VLM robustness under challenging 3D variations. Extensive evaluations of representative VLMs with varying architectures reveal that real-world 3D variations can pose severe threats to model performance across various tasks.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は目覚ましい一般化能力を示してきたが、動的現実シナリオにおける堅牢性はほとんど探索されていない。
実世界の3D変動に対するVLMの頑健さを体系的に評価するために,単視点観測から物理的に再現可能な3D変換(Adv-3DT)を生成可能な最初のフレームワークであるAdvDreamerを提案する。
AdvDreamerでは、3つの重要なイノベーションを統合しています。 まず、事前知識が限定された現実世界の3Dバリエーションを特徴付けるために、生成的な3Dプリミティブに基づいて構築されたゼロショットのモノクロポーズマニピュレーションパイプラインを設計します。
第2に、最悪のAdv-3DTサンプルの視覚的品質を確保するために、逆最適化中に連続的な自然性正則化を提供し、幻覚素子や非自然要素への収束を効果的に防止する自然性回帰モデルを提案する。
第3に,多様なVLMアーキテクチャと視覚言語タスクの体系的評価を実現するために,基本的視覚・テクストアライメント空間でのみ動作する対向最適化の目的として,逆意味確率損失を導入する。
高いアグレッシブ性と伝達性を有するAdv-3DTサンプルに基づいて,VQAベンチマークの最初のデータセットであるMM3DTBenchを構築し,VLMのロバスト性を評価する。
様々なアーキテクチャを持つ代表VLMの広範囲な評価により、現実世界の3Dバリエーションは、様々なタスクでパフォーマンスをモデル化するのに深刻な脅威をもたらすことが判明した。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Towards Transferable Targeted 3D Adversarial Attack in the Physical World [34.36328985344749]
移動可能な敵攻撃は、セキュリティクリティカルなタスクにより大きな脅威をもたらす可能性がある。
我々は、少数のマルチビュー画像からTransferable Targeted 3Dのテクスチャメッシュに迅速に再構成できるTT3Dという新しいフレームワークを開発した。
実験結果から,TT3Dは優れたクロスモデル転送性を示すだけでなく,異なるレンダリングやビジョンタスクにも適応性を維持することが示唆された。
論文 参考訳(メタデータ) (2023-12-15T06:33:14Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。