論文の概要: Generative Language-Grounded Policy in Vision-and-Language Navigation
with Bayes' Rule
- arxiv url: http://arxiv.org/abs/2009.07783v3
- Date: Thu, 8 Oct 2020 17:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 00:04:49.366516
- Title: Generative Language-Grounded Policy in Vision-and-Language Navigation
with Bayes' Rule
- Title(参考訳): ベイズ規則による視覚・言語ナビゲーションにおける生成言語群ポリシー
- Authors: Shuhei Kurita and Kyunghyun Cho
- Abstract要約: 視覚言語ナビゲーション(VLN)は、エージェントが現実的な3D環境に具体化され、目標ノードに到達するための指示に従うタスクである。
本稿では,言語モデルを用いて可能なすべての命令の分布を計算する生成言語基底ポリシーの設計と検討を行う。
実験では,提案手法がRoom-2-Room (R2R) とRoom-4-Room (R4R) データセット,特に未確認環境において差別的アプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 80.0853069632445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) is a task in which an agent is embodied
in a realistic 3D environment and follows an instruction to reach the goal
node. While most of the previous studies have built and investigated a
discriminative approach, we notice that there are in fact two possible
approaches to building such a VLN agent: discriminative \textit{and}
generative. In this paper, we design and investigate a generative
language-grounded policy which uses a language model to compute the
distribution over all possible instructions i.e. all possible sequences of
vocabulary tokens given action and the transition history. In experiments, we
show that the proposed generative approach outperforms the discriminative
approach in the Room-2-Room (R2R) and Room-4-Room (R4R) datasets, especially in
the unseen environments. We further show that the combination of the generative
and discriminative policies achieves close to the state-of-the art results in
the R2R dataset, demonstrating that the generative and discriminative policies
capture the different aspects of VLN.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、エージェントが現実的な3D環境に具体化され、目標ノードに到達するための指示に従うタスクである。
従来の研究の多くは差別的アプローチを構築し、研究してきたが、実際にそのようなVLNエージェントを構築するための2つのアプローチがあることに気付いた。
本稿では,全ての可能な命令,すなわち与えられた動作と遷移履歴の全ての可能な語彙トークン列の分布を計算するために言語モデルを用いた生成型言語基底ポリシーを設計・検討する。
実験では,提案手法はRoom-2-Room(R2R)およびRoom-4-Room(R4R)データセットにおいて,特に未確認環境において差別的アプローチよりも優れていることを示す。
さらに、R2Rデータセットにおける生成的および識別的ポリシーの組み合わせは、最先端の成果に近い結果が得られることを示し、生成的および識別的ポリシーがVLNの異なる側面を捉えていることを示す。
関連論文リスト
- Towards Explainable, Safe Autonomous Driving with Language Embeddings
for Novelty Identification and Active Learning: Framework and Experimental
Analysis with Real-World Data Sets [0.0]
本研究では、自律運転データセットにおけるアクティブラーニングのための言語埋め込みの統合について検討する。
提案手法は,新規シーンの識別に言語に基づく表現を用い,安全テイクオーバ応答とアクティブラーニングの両目的を強調した。
論文 参考訳(メタデータ) (2024-02-11T22:53:21Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language
Navigation [23.94546957057613]
クロスモーダルアライメントはビジョン・アンド・ランゲージ・ナビゲーション(VLN)の鍵となる課題である
本稿では,VLNタスクの事前学習パラダイムとして,GELA(Gunded Entity-Landmark Adaptive)を提案する。
論文 参考訳(メタデータ) (2023-08-24T06:25:20Z) - Unifying Vision-Language Representation Space with Single-tower
Transformer [29.604520441315135]
両モダリティを同時にモダリティに依存しない方法で符号化する統一視覚言語表現空間を学習するためにモデルを訓練する。
我々は、モダリティ固有の表現空間を学習する以前の作品とOneRを区別する興味深い性質を発見する。
論文 参考訳(メタデータ) (2022-11-21T02:34:21Z) - INTERACTION: A Generative XAI Framework for Natural Language Inference
Explanations [58.062003028768636]
現在のXAIアプローチは、ひとつの説明を提供することにのみ焦点をあてています。
本稿では、生成型XAIフレームワーク、InterACTION(explaIn aNd predicT thEn queRy with contextuAl CondiTional variational autO-eNcoder)を提案する。
提案するフレームワークは,説明とラベル予測の2つのステップ,および(ステップ2)異種証拠生成の2つのステップで説明を行う。
論文 参考訳(メタデータ) (2022-09-02T13:52:39Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。