論文の概要: AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?
- arxiv url: http://arxiv.org/abs/2412.03002v2
- Date: Wed, 11 Dec 2024 08:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:44:55.673965
- Title: AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?
- Title(参考訳): AdvDreamerが発表:ビジョンランゲージモデルは現実世界の3Dバリエーションに完全に対応できるか?
- Authors: Shouwei Ruan, Hanqing Liu, Yao Huang, Xiaoqi Wang, Caixin Kang, Hang Su, Yinpeng Dong, Xingxing Wei,
- Abstract要約: 言語モデル(VLM)は目覚ましい一般化能力を示してきたが、動的現実シナリオにおける堅牢性はほとんど探索されていない。
単視点画像から物理的に再現可能な3次元変換サンプルを生成する最初のフレームワークであるAdvDreamerを提案する。
AdvDreamerは、先進的な生成技術と2つの重要なイノベーションを統合し、自然画像から3Dバリエーションの最悪の分布を特徴づけることを目指している。
- 参考スコア(独自算出の注目度): 32.57500114041348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) have exhibited remarkable generalization capabilities, yet their robustness in dynamic real-world scenarios remains largely unexplored. To systematically evaluate VLMs' robustness to real-world 3D variations, we propose AdvDreamer, the first framework that generates physically reproducible adversarial 3D transformation (Adv-3DT) samples from single-view images. AdvDreamer integrates advanced generative techniques with two key innovations and aims to characterize the worst-case distributions of 3D variations from natural images. To ensure adversarial effectiveness and method generality, we introduce an Inverse Semantic Probability Objective that executes adversarial optimization on fundamental vision-text alignment spaces, which can be generalizable across different VLM architectures and downstream tasks. To mitigate the distribution discrepancy between generated and real-world samples while maintaining physical reproducibility, we design a Naturalness Reward Model that provides regularization feedback during adversarial optimization, preventing convergence towards hallucinated and unnatural elements. Leveraging AdvDreamer, we establish MM3DTBench, the first VQA dataset for benchmarking VLMs' 3D variations robustness. Extensive evaluations on representative VLMs with diverse architectures highlight that 3D variations in the real world may pose severe threats to model performance across various tasks.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は目覚ましい一般化能力を示してきたが、動的現実シナリオにおける堅牢性はほとんど探索されていない。
実世界の3D変動に対するVLMの頑健さを体系的に評価するために,単視点画像から物理的に再現可能な3D変換(Adv-3DT)サンプルを生成する最初のフレームワークであるAdvDreamerを提案する。
AdvDreamerは、先進的な生成技術と2つの重要なイノベーションを統合し、自然画像から3Dバリエーションの最悪の分布を特徴づけることを目指している。
逆意味確率オブジェクトは、基本的な視覚テキストアライメント空間上で逆最適化を行い、異なるVLMアーキテクチャや下流タスクで一般化できる。
物理再現性を維持しつつ,生成したサンプルと実世界のサンプルの分布差を軽減するために,敵の最適化中に正規化フィードバックを提供し,幻覚的・非自然的要素への収束を防止できる自然性回帰モデルを構築した。
AdvDreamerを活用することで、VLMの3次元変動ロバスト性をベンチマークする最初のVQAデータセットであるMM3DTBenchを確立する。
多様なアーキテクチャを持つ代表VLMの広範囲な評価は、現実世界における3次元のバリエーションが、様々なタスクでパフォーマンスをモデル化するのに深刻な脅威をもたらす可能性があることを強調している。
関連論文リスト
- GATE3D: Generalized Attention-based Task-synergized Estimation in 3D* [0.7373617024876725]
GATE3Dは、弱い監督による一般化されたモノクル3Dオブジェクト検出のための新しいフレームワークである。
以上の結果から,GATE3Dは限られたアノテートデータからの学習を著しく加速することが示された。
論文 参考訳(メタデータ) (2025-04-15T09:37:54Z) - Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning [10.51523800391153]
我々は、VTベースのモデルの3次元認識を評価し、強化する。
本稿では,3次元対応に基づく簡易かつ効果的なファインタニング戦略を提案する。
論文 参考訳(メタデータ) (2024-11-29T04:02:11Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Towards Transferable Targeted 3D Adversarial Attack in the Physical World [34.36328985344749]
移動可能な敵攻撃は、セキュリティクリティカルなタスクにより大きな脅威をもたらす可能性がある。
我々は、少数のマルチビュー画像からTransferable Targeted 3Dのテクスチャメッシュに迅速に再構成できるTT3Dという新しいフレームワークを開発した。
実験結果から,TT3Dは優れたクロスモデル転送性を示すだけでなく,異なるレンダリングやビジョンタスクにも適応性を維持することが示唆された。
論文 参考訳(メタデータ) (2023-12-15T06:33:14Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。