Fugu-MT 論文翻訳(概要): PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation

論文の概要: PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2305.11918v1
Date: Fri, 19 May 2023 02:25:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 02:03:01.410294
Title: PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation
Title（参考訳）: pasts: 視覚・言語ナビゲーションのための時空間トランスフォーマースピーカ
Authors: Liuyi Wang, Chengju Liu, Zongtao He, Shu Li, Qingqing Yan, Huiyi Chen, Qijun Chen
Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、重要な、しかし困難なクロスモーダル・ナビゲーションタスクである。 VLNの性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。本稿では,ネットワークのコアとしてトランスフォーマーを用いるPASTSモデルを提案する。
参考スコア（独自算出の注目度）: 6.11362142120604
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-language navigation (VLN) is a crucial but challenging cross-modal navigation task. One powerful technique to enhance the generalization performance in VLN is the use of an independent speaker model to provide pseudo instructions for data augmentation. However, current speaker models based on Long-Short Term Memory (LSTM) lack the ability to attend to features relevant at different locations and time steps. To address this, we propose a novel progress-aware spatio-temporal transformer speaker (PASTS) model that uses the transformer as the core of the network. PASTS uses a spatio-temporal encoder to fuse panoramic representations and encode intermediate connections through steps. Besides, to avoid the misalignment problem that could result in incorrect supervision, a speaker progress monitor (SPM) is proposed to enable the model to estimate the progress of instruction generation and facilitate more fine-grained caption results. Additionally, a multifeature dropout (MFD) strategy is introduced to alleviate overfitting. The proposed PASTS is flexible to be combined with existing VLN models. The experimental results demonstrate that PASTS outperforms all existing speaker models and successfully improves the performance of previous VLN models, achieving state-of-the-art performance on the standard Room-to-Room (R2R) dataset.
Abstract（参考訳）: 視覚・言語ナビゲーション (vln) は重要だが難解なクロスモーダルナビゲーションタスクである。 VLNにおける一般化性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。しかし、Long-Short Term Memory (LSTM)に基づく現在の話者モデルは、異なる場所や時間ステップで関連する機能に出席する能力がない。そこで,本稿では,トランスフォーマーをネットワークのコアとして用いる,新たな時空間トランスフォーマースピーカ(pasts)モデルを提案する。 PASTSは時空間エンコーダを使用してパノラマ表現を融合し、ステップを通して中間接続を符号化する。また、誤調整問題を回避するため、話者進行モニター(SPM)が提案され、モデルが命令生成の進捗を推定し、よりきめ細かなキャプション結果を容易にする。さらに,多機能ドロップアウト(MFD)戦略を導入し,オーバーフィッティングを緩和する。提案されたPASTSは、既存のVLNモデルと組み合わせることができる。実験の結果,PASTSは既存の話者モデルよりも優れており,従来のVLNモデルの性能向上に成功し,標準的なRoom-to-Room(R2R)データセット上で最先端のパフォーマンスを実現していることがわかった。

関連論文リスト

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
Making Acoustic Side-Channel Attacks on Noisy Keyboards Viable with LLM-Assisted Spectrograms' "Typo" Correction [5.0998111447316194]
マイクロホンのデバイスへの大規模な統合はアコースティックサイドチャネルアタック(ASCA)の機会を増大させる ASCAの現在の状態-Of-The-Art(SOTA)モデルは、現実的な雑音条件下では限られた堅牢性を示す。本稿では,視覚変換器(VTs)と大言語モデル(LLMs)をASCAに組み込む一貫したアプローチを提案する。
論文参考訳（メタデータ） (2025-04-15T21:23:25Z)
Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文参考訳（メタデータ） (2024-12-11T18:57:32Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
Boosting Vision-Language Models with Transduction [12.281505126587048]
本稿では,視覚言語モデルのための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。 TransCLIPは、一般的なinductive zero- and few-shotモデルの上に、プラグイン・アンド・プレイモジュールとして適用することができる。
論文参考訳（メタデータ） (2024-06-03T23:09:30Z)
Vision-and-Language Navigation Generative Pretrained Transformer [0.0]
VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer) トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。 VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
論文参考訳（メタデータ） (2024-05-27T09:42:04Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文参考訳（メタデータ） (2022-03-17T05:49:35Z)
Temporal Transformer Networks with Self-Supervision for Action Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。 TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文参考訳（メタデータ） (2021-12-14T12:53:53Z)
A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文参考訳（メタデータ） (2020-11-26T00:23:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。