Fugu-MT 論文翻訳(概要): 3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

論文の概要: 3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

arxiv url: http://arxiv.org/abs/2604.08645v1
Date: Thu, 09 Apr 2026 17:57:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.516765
Title: 3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding
Title（参考訳）: 3D-VCD:視覚コントラストデコードによる3D-LLM人工血管の幻覚軽減
Authors: Makanjuola Ogunleye, Eman Abdelrahman, Ismini Lourentzou,
Abstract要約: 3D-VCDは、3Dエンボディエージェントの幻覚緩和のための最初の推論時視覚コントラストデコーディングフレームワークである。 3D-VCDは、オブジェクト中心の表現に意味的および幾何学的摂動を適用することで、歪んだ3Dシーングラフを構築する。再訓練をすることなく,基礎的推論を継続的に改善できることが示される。
参考スコア（独自算出の注目度）: 4.6658306510829
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large multimodal models are increasingly used as the reasoning core of embodied agents operating in 3D environments, yet they remain prone to hallucinations that can produce unsafe and ungrounded decisions. Existing inference-time hallucination mitigation methods largely target 2D vision-language settings and do not transfer to embodied 3D reasoning, where failures arise from object presence, spatial layout, and geometric grounding rather than pixel-level inconsistencies. We introduce 3D-VCD, the first inference-time visual contrastive decoding framework for hallucination mitigation in 3D embodied agents. 3D-VCD constructs a distorted 3D scene graph by applying semantic and geometric perturbations to object-centric representations, such as category substitutions and coordinate or extent corruption. By contrasting predictions under the original and distorted 3D contexts, our method suppresses tokens that are insensitive to grounded scene evidence and are therefore likely driven by language priors. We evaluate 3D-VCD on the 3D-POPE and HEAL benchmarks and show that it consistently improves grounded reasoning without any retraining, establishing inference-time contrastive decoding over structured 3D representations as an effective and practical route to more reliable embodied intelligence.
Abstract（参考訳）: 大規模なマルチモーダルモデルは、3D環境で動作するエンボディエージェントの推論コアとして使われることが多いが、安全でない決定を下す幻覚を引き起こす傾向にある。既存の推定時幻覚緩和法は主に2次元視覚言語の設定をターゲットにしており、物体の存在、空間配置、幾何学的接地による失敗がピクセルレベルの不整合から生じる3次元推論に移動しない。 3D-VCDは、3Dエンボディエージェントの幻覚緩和のための最初の推論時視覚コントラストデコーディングフレームワークである。 3D-VCDは、カテゴリー置換や座標や範囲汚職といったオブジェクト中心の表現に意味的および幾何学的摂動を適用することで、歪んだ3Dシーングラフを構築する。原文および歪んだ3次元文脈下での予測とは対照的に,本手法は現場の証拠に敏感なトークンを抑える。我々は3D-POPEとHEALのベンチマークを用いて3D-VCDを評価し,より信頼性の高いインボディードインテリジェンスへの効果的なルートとして,構造化された3D表現に対する推論時コントラストデコーディングを確立することにより,基礎的推論を再トレーニングせずに一貫して改善することを示す。

関連論文リスト

3D-IDE: 3D Implicit Depth Emergent [45.72771473431863]
3D-Implicit Depth Emergenceは、幾何学的自己視覚から派生した創発的特性として3D知覚を再構成する手法である。本手法により,高密度領域において3次元知覚が暗黙的に出現し,不連続な特徴を呈することができる。提案手法は,様々な下流タスクにおいて高い性能を維持しつつ,推論遅延を55%削減する。
論文参考訳（メタデータ） (2026-03-28T00:54:19Z)
OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder [90.8453349494245]
本研究では,コヒーレントな3次元表現空間内で直接拡散を行うOneWorldを提案する。 OneWorldは、最先端の2Dベースの方法と比較して、クロスビューの一貫性に優れた高品質な3Dシーンを生成する。
論文参考訳（メタデータ） (2026-03-17T03:43:37Z)
3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence [15.064925965953122]
3Dキャプションは、自然言語で3Dシーンを記述することを目的としている。一般化可能な3Dキャプションフレームワークである3D CoCa v2を提案する。 ScanReferでは+1.50 CIDEr@0.5IoUの3D CoCa, Nr3Dでは+1.61 CIDEr@0.5IoUの改善を示す。
論文参考訳（メタデータ） (2026-01-10T09:13:10Z)
Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views [41.05815610513033]
3DThinkerは、画像に埋め込まれたリッチな幾何学的情報を、人間のように推論しながら活用するフレームワークだ。私たちのフレームワークは,3D事前入力を使わずに推論中に初めて3Dのメンタリングを可能にするもので,トレーニングのために明示的にラベル付けされた3Dデータに頼らない。
論文参考訳（メタデータ） (2025-10-21T13:36:58Z)
Semantic Causality-Aware Vision-Based 3D Occupancy Prediction [63.752869043357585]
視覚に基づく3Dセマンティック占有予測は、3Dビジョンにおいて重要な課題である。しかし、既存のメソッドは、しばしばモジュラーパイプラインに依存している。本稿では,モジュール型2D-to-3Dトランスフォーメーションパイプラインの全体的,エンドツーエンドの監視を可能にする新たな因果損失を提案する。
論文参考訳（メタデータ） (2025-09-10T08:29:22Z)
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。 3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文参考訳（メタデータ） (2025-06-05T17:56:12Z)
PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection [13.60524473223155]
本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。 PointADは、複数の2Dレンダリングに3D異常をレンダリングし、それらを3D空間に投影する。我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに強化することができる。
論文参考訳（メタデータ） (2024-10-01T01:40:22Z)
3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文参考訳（メタデータ） (2022-02-17T09:54:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。