論文の概要: PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2503.09938v1
- Date: Thu, 13 Mar 2025 01:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:50:58.561956
- Title: PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation
- Title(参考訳): PanoGen++: 視覚・言語ナビゲーションのためのドメイン適応型テキストガイドパノラマ環境生成
- Authors: Sen Wang, Dongliang Zhou, Liang Xie, Chao Xu, Ye Yan, Erwei Yin,
- Abstract要約: PanoGen++は、視覚と言語のナビゲーションタスクのための、多種多様なパノラマ環境を生成するフレームワークである。
事前訓練された拡散モデルとドメイン固有の微調整を取り入れ、計算コストを最小限に抑えるために低ランク適応のようなパラメータ効率の手法を用いる。
PanoGen++はトレーニング環境の多様性と妥当性を高め、VLNタスクの一般化と有効性を向上させる。
- 参考スコア(独自算出の注目度): 11.936832709051082
- License:
- Abstract: Vision-and-language navigation (VLN) tasks require agents to navigate three-dimensional environments guided by natural language instructions, offering substantial potential for diverse applications. However, the scarcity of training data impedes progress in this field. This paper introduces PanoGen++, a novel framework that addresses this limitation by generating varied and pertinent panoramic environments for VLN tasks. PanoGen++ incorporates pre-trained diffusion models with domain-specific fine-tuning, employing parameter-efficient techniques such as low-rank adaptation to minimize computational costs. We investigate two settings for environment generation: masked image inpainting and recursive image outpainting. The former maximizes novel environment creation by inpainting masked regions based on textual descriptions, while the latter facilitates agents' learning of spatial relationships within panoramas. Empirical evaluations on room-to-room (R2R), room-for-room (R4R), and cooperative vision-and-dialog navigation (CVDN) datasets reveal significant performance enhancements: a 2.44% increase in success rate on the R2R test leaderboard, a 0.63% improvement on the R4R validation unseen set, and a 0.75-meter enhancement in goal progress on the CVDN validation unseen set. PanoGen++ augments the diversity and relevance of training environments, resulting in improved generalization and efficacy in VLN tasks.
- Abstract(参考訳): ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクでは、エージェントが自然言語命令で誘導される3次元環境をナビゲートする必要がある。
しかし、この分野ではトレーニングデータの不足が進歩を妨げている。
本稿では,VLNタスクに対して,多様なパノラマ環境を生成することによって,この制限に対処する新しいフレームワークであるPanoGen++を紹介する。
PanoGen++は、事前訓練された拡散モデルとドメイン固有の微調整を取り入れており、計算コストを最小限に抑えるために低ランク適応のようなパラメータ効率の手法を採用している。
本研究では,環境生成のための2つの設定について検討する。
前者はテキスト記述に基づくマスキング領域の塗布による新しい環境創造を最大化し、後者はパノラマ内の空間的関係の学習を促進する。
ルーム・ツー・ルーム(R2R)、ルーム・フォー・ルーム(R4R)、コラボレーティブ・ビジョン・アンド・ダイアログ・ナビゲーション(CVDN)のデータセットに対する実証的な評価は、R2Rテスト・リーダーボードでの成功率2.44%、R4R検証の0.63%の改善、CVDN検証の目標進捗の0.75m向上など、大きなパフォーマンス向上を示している。
PanoGen++はトレーニング環境の多様性と妥当性を高め、VLNタスクの一般化と有効性を向上させる。
関連論文リスト
- General Scene Adaptation for Vision-and-Language Navigation [19.215183093931785]
VLN(Vision-and-Language Navigation)タスクは、主に複数の環境にまたがる個々の命令のワンタイム実行に基づいてエージェントを評価する。
GSA-VLNは、エージェントが特定のシーン内でナビゲーション命令を実行し、時間とともにパフォーマンスを向上させるために同時にそれに対応することを要求する新しいタスクである。
本稿では,新しいデータセット GSA-R2R を提案し,R2R データセットに対する環境と指示の多様性と量を大幅に拡張する。
論文 参考訳(メタデータ) (2025-01-29T03:57:56Z) - World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - Fast Context-Based Low-Light Image Enhancement via Neural Implicit Representations [6.113035634680655]
現在のディープラーニングベースの低照度画像強調手法は高解像度画像としばしば競合する。
我々は、未露出画像の2次元座標を照明成分にマッピングすることで、拡張過程を再定義する、CoLIEと呼ばれる新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-07-17T11:51:52Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - PanoGen: Text-Conditioned Panoramic Environment Generation for
Vision-and-Language Navigation [96.8435716885159]
VLN(Vision-and-Language Navigation)は、エージェントが3D環境をナビゲートするために言語命令に従う必要がある。
VLNの主な課題のひとつは、トレーニング環境の可用性が限定されていることだ。
パノジェネレーション(PanoGen)は、テキストに条件付けされた多様なパノラマ環境を無限に生成できる生成方法である。
論文 参考訳(メタデータ) (2023-05-30T16:39:54Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。