論文の概要: Open-Vocabulary 3D Instruction Ambiguity Detection
- arxiv url: http://arxiv.org/abs/2601.05991v1
- Date: Fri, 09 Jan 2026 18:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.068045
- Title: Open-Vocabulary 3D Instruction Ambiguity Detection
- Title(参考訳): Open-Vocabulary 3D Instruction Ambiguity Detection
- Authors: Jiayu Ding, Haoran Tang, Ge Li,
- Abstract要約: 安全クリティカルな領域では、言語的曖昧さは深刻な結果をもたらす可能性がある。
ほとんどの具体的AI研究は、指示が明確で、確認よりも実行に重点を置いていると仮定して、これを見落としている。
Open-Vocabulary 3D Instruction Ambiguity Detectionを最初に定義しました。
- 参考スコア(独自算出の注目度): 21.137149888707537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In safety-critical domains, linguistic ambiguity can have severe consequences; a vague command like "Pass me the vial" in a surgical setting could lead to catastrophic errors. Yet, most embodied AI research overlooks this, assuming instructions are clear and focusing on execution rather than confirmation. To address this critical safety gap, we are the first to define Open-Vocabulary 3D Instruction Ambiguity Detection, a fundamental new task where a model must determine if a command has a single, unambiguous meaning within a given 3D scene. To support this research, we build Ambi3D, the large-scale benchmark for this task, featuring over 700 diverse 3D scenes and around 22k instructions. Our analysis reveals a surprising limitation: state-of-the-art 3D Large Language Models (LLMs) struggle to reliably determine if an instruction is ambiguous. To address this challenge, we propose AmbiVer, a two-stage framework that collects explicit visual evidence from multiple views and uses it to guide an vision-language model (VLM) in judging instruction ambiguity. Extensive experiments demonstrate the challenge of our task and the effectiveness of AmbiVer, paving the way for safer and more trustworthy embodied AI. Code and dataset available at https://jiayuding031020.github.io/ambi3d/.
- Abstract(参考訳): 安全クリティカルな領域では、言語的曖昧さは深刻な結果をもたらす可能性がある。
しかし、ほとんどの具体的AI研究は、指示が明確で、確認ではなく実行に焦点を当てていると仮定して、これを見落としている。
この重要な安全性のギャップに対処するために、我々は最初にOpen-Vocabulary 3D Instruction Ambiguity Detectionを定義する。
この研究を支援するために、700以上の多様な3Dシーンと約22kの命令を特徴とする大規模なベンチマークであるAmbi3Dを構築した。
現状の3D大言語モデル(LLM)は、命令があいまいかどうかを確実に判断するのに苦労しています。
この課題に対処するため,複数の視点から明確な視覚的証拠を収集し,視覚言語モデル(VLM)を用いて指示のあいまいさを判断する2段階のフレームワークであるAmbiVerを提案する。
大規模な実験は、我々のタスクの課題とAmbiVerの有効性を示し、より安全で信頼性の高いインボディードAIへの道を開いた。
コードとデータセットはhttps://jiayuding031020.github.io/ambi3d/で入手できる。
関連論文リスト
- Pursuing Minimal Sufficiency in Spatial Reasoning [42.564463357503875]
空間的推論、言語を3Dで理解する能力は、ビジョンモデルにとって永続的な課題である。
2次元の故障に起因する不適切な3D理解能力と冗長な3D情報である。
この原理を実装したデュアルエージェントフレームワークであるMS(空間空間)を導入する。
論文 参考訳(メタデータ) (2025-10-19T02:29:09Z) - FlySearch: Exploring how vision-language models explore [5.7210882663967615]
複雑な場面でオブジェクトを検索してナビゲートするための3D,屋外,環境であるFlySearchを紹介した。
我々は最先端のビジョン・ランゲージ・モデル(VLM)が、最も単純な探索作業でさえ確実に解決できないことを観察する。
我々は、視覚からコンテキスト誤解、タスク計画失敗に至るまで、中心的な原因のセットを特定し、それらの一部が微調整によって対処可能であることを示す。
論文 参考訳(メタデータ) (2025-06-03T14:03:42Z) - 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding [9.289977174410824]
3Dビジュアルグラウンドティングは、自然言語テキストによって参照される3Dシーンでエンティティをローカライズする。
多様な言語パターンに対して視覚的接地手法を評価するための診断データセットである3D (ViGiL3D) の視覚的接地について紹介する。
論文 参考訳(メタデータ) (2025-01-02T17:20:41Z) - Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統合された3Dシーン理解フレームワークである。
単一のモデル内で、パノプティクス、セマンティック、インスタンス、インタラクティブ、参照、オープンボキャブラリセグメンテーションタスクを達成する。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - WeakM3D: Towards Weakly Supervised Monocular 3D Object Detection [29.616568669869206]
既存のモノクロ3D検出方法は、LiDAR点雲上の手動で注釈付けされた3Dボックスラベルに依存している。
本稿では,まず画像上の2Dボックスをまず検出し,次に生成された2Dボックスを用いて,対応するRoI LiDAR点を弱監視として選択する。
このネットワークは、新たに提案した3Dボックス推定値と対応するRoI LiDAR点とのアライメント損失を最小化することによって学習される。
論文 参考訳(メタデータ) (2022-03-16T00:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。