論文の概要: AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?
- arxiv url: http://arxiv.org/abs/2412.03002v1
- Date: Wed, 04 Dec 2024 03:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:24.263326
- Title: AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?
- Title(参考訳): AdvDreamerが発表:ビジョンランゲージモデルは現実世界の3Dバリエーションに完全に対応できるか?
- Authors: Shouwei Ruan, Hanqin Liu, Yao Huang, Xiaoqi Wang, Caixin Kang, Hang Su, Yinpeng Dong, Xingxing Wei,
- Abstract要約: 言語モデル(VLM)は目覚ましい一般化能力を示してきたが、動的現実シナリオにおける堅牢性はほとんど探索されていない。
単視点画像から物理的に再現可能な3次元変換サンプルを生成する最初のフレームワークであるAdvDreamerを提案する。
AdvDreamerは、先進的な生成技術と2つの重要なイノベーションを統合し、自然画像から3Dバリエーションの最悪の分布を特徴づけることを目指している。
- 参考スコア(独自算出の注目度): 31.972724150072228
- License:
- Abstract: Vision Language Models (VLMs) have exhibited remarkable generalization capabilities, yet their robustness in dynamic real-world scenarios remains largely unexplored. To systematically evaluate VLMs' robustness to real-world 3D variations, we propose AdvDreamer, the first framework that generates physically reproducible adversarial 3D transformation (Adv-3DT) samples from single-view images. AdvDreamer integrates advanced generative techniques with two key innovations and aims to characterize the worst-case distributions of 3D variations from natural images. To ensure adversarial effectiveness and method generality, we introduce an Inverse Semantic Probability Objective that executes adversarial optimization on fundamental vision-text alignment spaces, which can be generalizable across different VLM architectures and downstream tasks. To mitigate the distribution discrepancy between generated and real-world samples while maintaining physical reproducibility, we design a Naturalness Reward Model that provides regularization feedback during adversarial optimization, preventing convergence towards hallucinated and unnatural elements. Leveraging AdvDreamer, we establish MM3DTBench, the first VQA dataset for benchmarking VLMs' 3D variations robustness. Extensive evaluations on representative VLMs with diverse architectures highlight that 3D variations in the real world may pose severe threats to model performance across various tasks.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は目覚ましい一般化能力を示してきたが、動的現実シナリオにおける堅牢性はほとんど探索されていない。
実世界の3D変動に対するVLMの頑健さを体系的に評価するために,単視点画像から物理的に再現可能な3D変換(Adv-3DT)サンプルを生成する最初のフレームワークであるAdvDreamerを提案する。
AdvDreamerは、先進的な生成技術と2つの重要なイノベーションを統合し、自然画像から3Dバリエーションの最悪の分布を特徴づけることを目指している。
逆意味確率オブジェクトは、基本的な視覚テキストアライメント空間上で逆最適化を行い、異なるVLMアーキテクチャや下流タスクで一般化できる。
物理再現性を維持しつつ,生成したサンプルと実世界のサンプルの分布差を軽減するために,敵の最適化中に正規化フィードバックを提供し,幻覚的・非自然的要素への収束を防止できる自然性回帰モデルを構築した。
AdvDreamerを活用することで、VLMの3次元変動ロバスト性をベンチマークする最初のVQAデータセットであるMM3DTBenchを確立する。
多様なアーキテクチャを持つ代表VLMの広範囲な評価は、現実世界における3次元のバリエーションが、様々なタスクでパフォーマンスをモデル化するのに深刻な脅威をもたらす可能性があることを強調している。
関連論文リスト
- StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Towards Transferable Targeted 3D Adversarial Attack in the Physical World [34.36328985344749]
移動可能な敵攻撃は、セキュリティクリティカルなタスクにより大きな脅威をもたらす可能性がある。
我々は、少数のマルチビュー画像からTransferable Targeted 3Dのテクスチャメッシュに迅速に再構成できるTT3Dという新しいフレームワークを開発した。
実験結果から,TT3Dは優れたクロスモデル転送性を示すだけでなく,異なるレンダリングやビジョンタスクにも適応性を維持することが示唆された。
論文 参考訳(メタデータ) (2023-12-15T06:33:14Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。