論文の概要: Open-Vocabulary 3D Instruction Ambiguity Detection
- arxiv url: http://arxiv.org/abs/2601.05991v1
- Date: Fri, 09 Jan 2026 18:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.068045
- Title: Open-Vocabulary 3D Instruction Ambiguity Detection
- Title(参考訳): Open-Vocabulary 3D Instruction Ambiguity Detection
- Authors: Jiayu Ding, Haoran Tang, Ge Li,
- Abstract要約: 安全クリティカルな領域では、言語的曖昧さは深刻な結果をもたらす可能性がある。
ほとんどの具体的AI研究は、指示が明確で、確認よりも実行に重点を置いていると仮定して、これを見落としている。
Open-Vocabulary 3D Instruction Ambiguity Detectionを最初に定義しました。
- 参考スコア(独自算出の注目度): 21.137149888707537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In safety-critical domains, linguistic ambiguity can have severe consequences; a vague command like "Pass me the vial" in a surgical setting could lead to catastrophic errors. Yet, most embodied AI research overlooks this, assuming instructions are clear and focusing on execution rather than confirmation. To address this critical safety gap, we are the first to define Open-Vocabulary 3D Instruction Ambiguity Detection, a fundamental new task where a model must determine if a command has a single, unambiguous meaning within a given 3D scene. To support this research, we build Ambi3D, the large-scale benchmark for this task, featuring over 700 diverse 3D scenes and around 22k instructions. Our analysis reveals a surprising limitation: state-of-the-art 3D Large Language Models (LLMs) struggle to reliably determine if an instruction is ambiguous. To address this challenge, we propose AmbiVer, a two-stage framework that collects explicit visual evidence from multiple views and uses it to guide an vision-language model (VLM) in judging instruction ambiguity. Extensive experiments demonstrate the challenge of our task and the effectiveness of AmbiVer, paving the way for safer and more trustworthy embodied AI. Code and dataset available at https://jiayuding031020.github.io/ambi3d/.
- Abstract(参考訳): 安全クリティカルな領域では、言語的曖昧さは深刻な結果をもたらす可能性がある。
しかし、ほとんどの具体的AI研究は、指示が明確で、確認ではなく実行に焦点を当てていると仮定して、これを見落としている。
この重要な安全性のギャップに対処するために、我々は最初にOpen-Vocabulary 3D Instruction Ambiguity Detectionを定義する。
この研究を支援するために、700以上の多様な3Dシーンと約22kの命令を特徴とする大規模なベンチマークであるAmbi3Dを構築した。
現状の3D大言語モデル(LLM)は、命令があいまいかどうかを確実に判断するのに苦労しています。
この課題に対処するため,複数の視点から明確な視覚的証拠を収集し,視覚言語モデル(VLM)を用いて指示のあいまいさを判断する2段階のフレームワークであるAmbiVerを提案する。
大規模な実験は、我々のタスクの課題とAmbiVerの有効性を示し、より安全で信頼性の高いインボディードAIへの道を開いた。
コードとデータセットはhttps://jiayuding031020.github.io/ambi3d/で入手できる。
関連論文リスト
- FlySearch: Exploring how vision-language models explore [5.7210882663967615]
複雑な場面でオブジェクトを検索してナビゲートするための3D,屋外,環境であるFlySearchを紹介した。
我々は最先端のビジョン・ランゲージ・モデル(VLM)が、最も単純な探索作業でさえ確実に解決できないことを観察する。
我々は、視覚からコンテキスト誤解、タスク計画失敗に至るまで、中心的な原因のセットを特定し、それらの一部が微調整によって対処可能であることを示す。
論文 参考訳(メタデータ) (2025-06-03T14:03:42Z) - 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding [9.289977174410824]
3Dビジュアルグラウンドティングは、自然言語テキストによって参照される3Dシーンでエンティティをローカライズする。
多様な言語パターンに対して視覚的接地手法を評価するための診断データセットである3D (ViGiL3D) の視覚的接地について紹介する。
論文 参考訳(メタデータ) (2025-01-02T17:20:41Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。