論文の概要: PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For
Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2305.11918v1
- Date: Fri, 19 May 2023 02:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:03:01.410294
- Title: PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For
Vision-and-Language Navigation
- Title(参考訳): pasts: 視覚・言語ナビゲーションのための時空間トランスフォーマースピーカ
- Authors: Liuyi Wang, Chengju Liu, Zongtao He, Shu Li, Qingqing Yan, Huiyi Chen,
Qijun Chen
- Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、重要な、しかし困難なクロスモーダル・ナビゲーションタスクである。
VLNの性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。
本稿では,ネットワークのコアとしてトランスフォーマーを用いるPASTSモデルを提案する。
- 参考スコア(独自算出の注目度): 6.11362142120604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) is a crucial but challenging cross-modal
navigation task. One powerful technique to enhance the generalization
performance in VLN is the use of an independent speaker model to provide pseudo
instructions for data augmentation. However, current speaker models based on
Long-Short Term Memory (LSTM) lack the ability to attend to features relevant
at different locations and time steps. To address this, we propose a novel
progress-aware spatio-temporal transformer speaker (PASTS) model that uses the
transformer as the core of the network. PASTS uses a spatio-temporal encoder to
fuse panoramic representations and encode intermediate connections through
steps. Besides, to avoid the misalignment problem that could result in
incorrect supervision, a speaker progress monitor (SPM) is proposed to enable
the model to estimate the progress of instruction generation and facilitate
more fine-grained caption results. Additionally, a multifeature dropout (MFD)
strategy is introduced to alleviate overfitting. The proposed PASTS is flexible
to be combined with existing VLN models. The experimental results demonstrate
that PASTS outperforms all existing speaker models and successfully improves
the performance of previous VLN models, achieving state-of-the-art performance
on the standard Room-to-Room (R2R) dataset.
- Abstract(参考訳): 視覚・言語ナビゲーション (vln) は重要だが難解なクロスモーダルナビゲーションタスクである。
VLNにおける一般化性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。
しかし、Long-Short Term Memory (LSTM)に基づく現在の話者モデルは、異なる場所や時間ステップで関連する機能に出席する能力がない。
そこで,本稿では,トランスフォーマーをネットワークのコアとして用いる,新たな時空間トランスフォーマースピーカ(pasts)モデルを提案する。
PASTSは時空間エンコーダを使用してパノラマ表現を融合し、ステップを通して中間接続を符号化する。
また、誤調整問題を回避するため、話者進行モニター(SPM)が提案され、モデルが命令生成の進捗を推定し、よりきめ細かなキャプション結果を容易にする。
さらに,多機能ドロップアウト(MFD)戦略を導入し,オーバーフィッティングを緩和する。
提案されたPASTSは、既存のVLNモデルと組み合わせることができる。
実験の結果,PASTSは既存の話者モデルよりも優れており,従来のVLNモデルの性能向上に成功し,標準的なRoom-to-Room(R2R)データセット上で最先端のパフォーマンスを実現していることがわかった。
関連論文リスト
- Test-time Adaptive Vision-and-Language Navigation [75.50521064106732]
視覚・言語ナビゲーションのためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、さまざまなレベルの一貫性を持つコンポーネントに分解する。
遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Prompt Generation Networks for Input-based Adaptation of Frozen Vision
Transformers [9.080472817672264]
Prompt Generation Network (PGN)は、トークンのエンドツーエンドの学習ライブラリからサンプリングすることで、高性能で入力に依存したプロンプトを生成する。
PGNを遅延空間で効率的に訓練できる"prompt inversion"トリックは、推論のための厳密な入力専用プロンプトとしてデプロイされる。
12/12データセットでは従来よりも大きなマージンで,さらに5/12ではフルファインタニングでもパフォーマンスが向上し,パラメータの100倍も削減されている。
論文 参考訳(メタデータ) (2022-10-12T17:59:58Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Temporal Transformer Networks with Self-Supervision for Action
Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。
TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。
提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文 参考訳(メタデータ) (2021-12-14T12:53:53Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。
我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-11-26T00:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。