論文の概要: PanoGen: Text-Conditioned Panoramic Environment Generation for
Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2305.19195v1
- Date: Tue, 30 May 2023 16:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:06:30.060750
- Title: PanoGen: Text-Conditioned Panoramic Environment Generation for
Vision-and-Language Navigation
- Title(参考訳): PanoGen:視覚・言語ナビゲーションのためのテキスト記述型パノラマ環境生成
- Authors: Jialu Li, Mohit Bansal
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが3D環境をナビゲートするために言語命令に従う必要がある。
VLNの主な課題のひとつは、トレーニング環境の可用性が限定されていることだ。
パノジェネレーション(PanoGen)は、テキストに条件付けされた多様なパノラマ環境を無限に生成できる生成方法である。
- 参考スコア(独自算出の注目度): 96.8435716885159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) requires the agent to follow language
instructions to navigate through 3D environments. One main challenge in VLN is
the limited availability of photorealistic training environments, which makes
it hard to generalize to new and unseen environments. To address this problem,
we propose PanoGen, a generation method that can potentially create an infinite
number of diverse panoramic environments conditioned on text. Specifically, we
collect room descriptions by captioning the room images in existing
Matterport3D environments, and leverage a state-of-the-art text-to-image
diffusion model to generate the new panoramic environments. We use recursive
outpainting over the generated images to create consistent 360-degree panorama
views. Our new panoramic environments share similar semantic information with
the original environments by conditioning on text descriptions, which ensures
the co-occurrence of objects in the panorama follows human intuition, and
creates enough diversity in room appearance and layout with image outpainting.
Lastly, we explore two ways of utilizing PanoGen in VLN pre-training and
fine-tuning. We generate instructions for paths in our PanoGen environments
with a speaker built on a pre-trained vision-and-language model for VLN
pre-training, and augment the visual observation with our panoramic
environments during agents' fine-tuning to avoid overfitting to seen
environments. Empirically, learning with our PanoGen environments achieves the
new state-of-the-art on the Room-to-Room, Room-for-Room, and CVDN datasets.
Pre-training with our PanoGen speaker data is especially effective for CVDN,
which has under-specified instructions and needs commonsense knowledge. Lastly,
we show that the agent can benefit from training with more generated panoramic
environments, suggesting promising results for scaling up the PanoGen
environments.
- Abstract(参考訳): vision-and-language navigation (vln) はエージェントが3d環境をナビゲートするために言語命令に従う必要がある。
VLNの主な課題の1つは、フォトリアリスティックなトレーニング環境の可用性の制限である。
そこで本研究では,テキストに条件付けされたパノラマ環境を無限に生成可能な生成手法であるPanoGenを提案する。
具体的には,既存のMatterport3D環境に部屋イメージをキャプションすることで部屋記述を収集し,最先端のテキスト・画像拡散モデルを用いて新しいパノラマ環境を生成する。
生成した画像に対する再帰的露光を利用して、一貫した360度パノラマビューを作成します。
新しいパノラマ環境は、テキスト記述を条件付けすることで、同じ意味情報を元の環境と共有し、パノラマ内のオブジェクトの共起が人間の直感に従うことを保証する。
最後に、VLNの事前学習と微調整にPanoGenを利用する2つの方法を検討する。
我々は,VLN事前学習のための事前学習型ビジョン・アンド・ランゲージモデルに基づく話者を用いて,パノラマ環境におけるパスの指示を生成し,エージェントの微調整中にパノラマ環境による視覚的観察を増強し,観察環境への過度な適合を避ける。
経験的に、PanoGen環境での学習は、Room-to-Room、Room-for-Room、CVDNデータセットの新たな最先端を実現する。
PanoGenの話者データによる事前学習は、未指定の指示と常識知識を必要とするCVDNに特に有効である。
最後に、エージェントはより生成されたパノラマ環境でのトレーニングの恩恵を受けることができ、PanoGen環境をスケールアップするための有望な結果を示唆する。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - EnvEdit: Environment Editing for Vision-and-Language Navigation [98.30038910061894]
Vision-and-Language Navigation (VLN)では、エージェントは自然言語命令に基づいて環境をナビゲートする必要がある。
本研究では,既存の環境を編集して新しい環境を作成するデータ拡張手法であるEnvEditを提案する。
提案手法は,事前学習および未学習のVLNエージェントにおいて,すべての指標において有意な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-03-29T15:44:32Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。