論文の概要: PanGEA: The Panoramic Graph Environment Annotation Toolkit
- arxiv url: http://arxiv.org/abs/2103.12703v1
- Date: Tue, 23 Mar 2021 17:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 16:31:14.816895
- Title: PanGEA: The Panoramic Graph Environment Annotation Toolkit
- Title(参考訳): PanGEA: Panoramic Graph Environment Annotation Toolkit
- Authors: Alexander Ku and Peter Anderson and Jordi Pont-Tuset and Jason
Baldridge
- Abstract要約: PanGEAは、写真リアルな3D環境で音声とテキストのアノテーションを収集するためのツールキットです。
PanGEAは、Webベースのシミュレーションにアノテーションを没頭し、会話やリスニングをしながら簡単に動き回ることができます。
- 参考スコア(独自算出の注目度): 83.12648898284048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PanGEA, the Panoramic Graph Environment Annotation toolkit, is a lightweight
toolkit for collecting speech and text annotations in photo-realistic 3D
environments. PanGEA immerses annotators in a web-based simulation and allows
them to move around easily as they speak and/or listen. It includes database
and cloud storage integration, plus utilities for automatically aligning
recorded speech with manual transcriptions and the virtual pose of the
annotators. Out of the box, PanGEA supports two tasks -- collecting navigation
instructions and navigation instruction following -- and it could be easily
adapted for annotating walking tours, finding and labeling landmarks or
objects, and similar tasks. We share best practices learned from using PanGEA
in a 20,000 hour annotation effort to collect the Room-Across-Room dataset. We
hope that our open-source annotation toolkit and insights will both expedite
future data collection efforts and spur innovation on the kinds of grounded
language tasks such environments can support.
- Abstract(参考訳): PanGEAはパノラマグラフ環境アノテーションツールキットであり、フォトリアリスティックな3D環境で音声やテキストのアノテーションを収集するための軽量ツールキットである。
PanGEAはアノテータをウェブベースのシミュレーションに没入させ、話すときや聞くときに簡単に動き回れるようにする。
データベースとクラウドストレージの統合に加えて、記録された音声と手書きの書き起こしとアノテータの仮想ポーズを自動的に調整するユーティリティが含まれている。
PanGEAは、ナビゲーション指示とナビゲーション指示の収集という2つのタスクをサポートしており、ウォーキングツアーのアノテート、ランドマークやオブジェクトの発見とラベル付け、同様のタスクに容易に適応できる。
私たちは、Room-Across-Roomデータセット収集のために20,000時間のアノテーションでPanGEAを使用して学んだベストプラクティスを共有します。
当社のオープンソースアノテーションツールキットとインサイトが,将来のデータ収集活動の迅速化と,環境がサポート可能な基盤的言語タスクのイノベーションの促進の両方を期待しています。
関連論文リスト
- Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Interactive Navigation in Environments with Traversable Obstacles Using
Large Language and Vision-Language Models [14.871309526022516]
本稿では,大規模言語と視覚言語を用いた対話型ナビゲーションフレームワークを提案する。
我々は、微調整なしで効果的な経路計画を行うためのアクション対応コストマップを作成する。
すべての実験結果から,提案フレームワークの有効性と多様な環境への適応性が確認された。
論文 参考訳(メタデータ) (2023-10-13T05:59:03Z) - PanoGen: Text-Conditioned Panoramic Environment Generation for
Vision-and-Language Navigation [96.8435716885159]
VLN(Vision-and-Language Navigation)は、エージェントが3D環境をナビゲートするために言語命令に従う必要がある。
VLNの主な課題のひとつは、トレーニング環境の可用性が限定されていることだ。
パノジェネレーション(PanoGen)は、テキストに条件付けされた多様なパノラマ環境を無限に生成できる生成方法である。
論文 参考訳(メタデータ) (2023-05-30T16:39:54Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。