論文の概要: Extended to Reality: Prompt Injection in 3D Environments
- arxiv url: http://arxiv.org/abs/2602.07104v1
- Date: Fri, 06 Feb 2026 17:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.451482
- Title: Extended to Reality: Prompt Injection in 3D Environments
- Title(参考訳): 拡張現実への拡張:3D環境におけるプロンプト注入
- Authors: Zhuoheng Li, Ying Chen,
- Abstract要約: MLLM(Multimodal large language model)は、3D環境における視覚的入力を解釈し、処理する能力の進歩である。
攻撃者はMLLMの意図したタスクをオーバーライドするために、テキストを含む物理的オブジェクトを環境に配置することができる。
本稿では,3次元環境におけるMLLMに対する即時注入攻撃であるPI3Dを紹介する。
- 参考スコア(独自算出の注目度): 4.167408391008487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have advanced the capabilities to interpret and act on visual input in 3D environments, empowering diverse applications such as robotics and situated conversational agents. When MLLMs reason over camera-captured views of the physical world, a new attack surface emerges: an attacker can place text-bearing physical objects in the environment to override MLLMs' intended task. While prior work has studied prompt injection in the text domain and through digitally edited 2D images, it remains unclear how these attacks function in 3D physical environments. To bridge the gap, we introduce PI3D, a prompt injection attack against MLLMs in 3D environments, realized through text-bearing physical object placement rather than digital image edits. We formulate and solve the problem of identifying an effective 3D object pose (position and orientation) with injected text, where the attacker's goal is to induce the MLLM to perform the injected task while ensuring that the object placement remains physically plausible. Experiments demonstrate that PI3D is an effective attack against multiple MLLMs under diverse camera trajectories. We further evaluate existing defenses and show that they are insufficient to defend against PI3D.
- Abstract(参考訳): MLLM(Multimodal large language model)は、3D環境における視覚的入力を解釈し、動作させる能力を進歩させ、ロボット工学や会話エージェントの配置といった多様な応用に力を入れている。
MLLMが物理的世界のカメラキャプチャーされたビューに対して理にかなっていると、新たな攻撃面が現れる: 攻撃者は、MLLMの意図したタスクをオーバーライドするために、テキストを含む物理的オブジェクトを環境に配置することができる。
これまで、テキスト領域やデジタル編集された2D画像のインジェクションについて研究してきたが、これらの攻撃が3D物理環境でどのように機能するかは定かではない。
このギャップを埋めるために,3次元環境におけるMLLMに対する迅速なインジェクション攻撃であるPI3Dを導入する。
本研究では, 物体配置が物理的に妥当であることを保証しつつ, MLLMを誘導し, 物体配置を指示することを目的として, 効果的な3次元オブジェクトポーズ(位置と向き)を注入テキストで識別する問題を定式化し, 解決する。
実験により、PI3Dは多様なカメラ軌道下での複数のMLLMに対する効果的な攻撃であることが示された。
さらに,既存の防衛効果を評価し,PI3Dに対する防御には不十分であることを示す。
関連論文リスト
- VULCAN: Tool-Augmented Multi Agents for Iterative 3D Object Arrangement [66.13644883379087]
MLLMを用いた3次元オブジェクト配置における3つの課題に対処する。
まず、MLLMの弱い視覚的基盤に対処するために、MPPベースのAPIを導入する。
第2に、MLLMの3Dシーン理解を、特殊な視覚ツール群で強化する。
第3に,反復的かつエラーを起こしやすい更新を管理するために,協調的なマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T19:22:39Z) - REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting [16.896443736904356]
既存の3Dセグメンテーション手法は、しばしば曖昧で推論に基づく指示を解釈するのに苦労する。
本稿では,オープンワールド推論に基づくセグメンテーションを実現する,革新的なMLLMエージェントフレームワークであるREALMを紹介する。
我々のフレームワークは、オブジェクトの削除、置換、スタイル転送など、様々な3Dインタラクションタスクをシームレスにサポートしています。
論文 参考訳(メタデータ) (2025-10-18T08:53:08Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。