論文の概要: Where Are You? Localization from Embodied Dialog
- arxiv url: http://arxiv.org/abs/2011.08277v2
- Date: Fri, 3 Sep 2021 13:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 23:29:46.134385
- Title: Where Are You? Localization from Embodied Dialog
- Title(参考訳): どこにいるの?
エンボダイアログからの局在
- Authors: Meera Hahn, Jacob Krantz, Dhruv Batra, Devi Parikh, James M. Rehg,
Stefan Lee and Peter Anderson
- Abstract要約: 本稿では,2人の人間(オブザーバとロケータ)が協調的なローカライゼーションタスクを完了する6kダイアログのデータセットを提案する。
我々の最良のモデルは、見知らぬ建物で3m以内のオブザーバーの位置を32.7%、人間のロケーターでは70.4%で識別することに成功した。
- 参考スコア(独自算出の注目度): 83.37951108169307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Where Are You? (WAY), a dataset of ~6k dialogs in which two humans
-- an Observer and a Locator -- complete a cooperative localization task. The
Observer is spawned at random in a 3D environment and can navigate from
first-person views while answering questions from the Locator. The Locator must
localize the Observer in a detailed top-down map by asking questions and giving
instructions. Based on this dataset, we define three challenging tasks:
Localization from Embodied Dialog or LED (localizing the Observer from dialog
history), Embodied Visual Dialog (modeling the Observer), and Cooperative
Localization (modeling both agents). In this paper, we focus on the LED task --
providing a strong baseline model with detailed ablations characterizing both
dataset biases and the importance of various modeling choices. Our best model
achieves 32.7% success at identifying the Observer's location within 3m in
unseen buildings, vs. 70.4% for human Locators.
- Abstract(参考訳): どこにいるの?
2人の人間(オブザーバとロケータ)が協調的なローカライズタスクを完了させる、~6kダイアログのデータセットである。
Observerは3D環境でランダムに生成され、Locatorからの質問に答えながら、一人称ビューからナビゲートできる。
Locatorは、質問や指示をすることで、Observerを詳細なトップダウンマップにローカライズする必要がある。
本データセットに基づいて,Embodied DialogやLEDからのローカライゼーション(ダイアログ履歴からオブザーバをローカライズする),Embodied Visual Dialog(オブザーバをモデル化する),Cooperative Localization(両方のエージェントをモデル化する)の3つの課題を定義する。
本稿では,データセットバイアスと様々なモデリング選択の重要性の両方を特徴付ける,強力なベースラインモデルを提供するLEDタスクに焦点を当てる。
我々の最良のモデルでは、3m以内のビルでオブザーバーの位置を特定するのに32.7%の成功を収めています。
関連論文リスト
- Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-07-18T18:55:56Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - Transformer-based Localization from Embodied Dialog with Large-scale
Pre-training [24.867080519723896]
我々は新しいLED-Bertアーキテクチャを開発し、効果的な事前学習戦略を提案する。
グラフに基づくシーン表現は,以前の作業で使用したトップダウン2Dマップよりも効果的であることを示す。
論文 参考訳(メタデータ) (2022-10-10T17:25:06Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z) - Intent Detection with WikiHow [28.28719498563396]
私たちのモデルは、wikiHowでトレーニングされているため、多くのアクションから幅広い目的を予測できます。
我々のモデルは、Snipsデータセット、Guided Dialogueデータセット、およびFacebookの多言語ダイアログデータセットの3つの言語で最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-12T12:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。