論文の概要: Test-time Adaptive Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2311.13209v2
- Date: Thu, 1 Feb 2024 02:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 18:49:44.607510
- Title: Test-time Adaptive Vision-and-Language Navigation
- Title(参考訳): テスト時間適応視覚・言語ナビゲーション
- Authors: Junyu Gao, Xuan Yao, Changsheng Xu
- Abstract要約: 視覚・言語ナビゲーションのためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、さまざまなレベルの一貫性を持つコンポーネントに分解する。
遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。
- 参考スコア(独自算出の注目度): 75.50521064106732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) has witnessed significant advancements
in recent years, largely attributed to meticulously curated datasets and
proficiently trained models. Nevertheless, when tested in diverse environments,
the trained models inevitably encounter significant shifts in data
distribution, highlighting that relying solely on pre-trained and fixed
navigation models is insufficient. To enhance models' generalization ability,
test-time adaptation (TTA) demonstrates significant potential in the computer
vision field by leveraging unlabeled test samples for model updates. However,
simply applying existing TTA methods to the VLN task cannot well handle the
adaptability-stability dilemma of VLN models, i.e., frequent updates can result
in drastic changes in model parameters, while occasional updates can make the
models ill-equipped to handle dynamically changing environments. Therefore, we
propose a Fast-Slow Test-Time Adaptation (FSTTA) approach for VLN by performing
decomposition-accumulation analysis for both gradients and parameters in a
unified framework. Specifically, in the fast update phase, gradients generated
during the recent multi-step navigation process are decomposed into components
with varying levels of consistency. Then, these components are adaptively
accumulated to pinpoint a concordant direction for fast model adaptation. In
the slow update phase, historically recorded parameters are gathered, and a
similar decomposition-accumulation analysis is conducted to revert the model to
a stable state. Extensive experiments show that our method obtains impressive
performance gains on four popular benchmarks.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は近年大きな進歩を遂げている。
それでも、さまざまな環境でテストされた場合、トレーニングされたモデルは必然的にデータ分散の大幅な変化に遭遇し、事前訓練された固定されたナビゲーションモデルのみに依存することが不十分であることを強調する。
モデルの一般化能力を高めるため、テスト時間適応(TTA)は、未ラベルのテストサンプルをモデル更新に活用することにより、コンピュータビジョン分野において大きなポテンシャルを示す。
しかし、既存のTTAメソッドをVLNタスクに適用するだけでは、VLNモデルの適応性と安定性のジレンマをうまく扱えない。
そこで本研究では,統合フレームワークにおいて,勾配とパラメータの分解・蓄積解析を行うことにより,vlnの高速テストタイム適応(fstta)手法を提案する。
具体的には、高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、様々なレベルの一貫性を持つコンポーネントに分解する。
そして、これらの成分を適応的に蓄積して、高速モデル適応のための一致方向をピンポイントする。
遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。
実験結果から,本手法は4つのベンチマークにおいて優れた性能向上を示す。
関連論文リスト
- Empirical Analysis of Efficient Fine-Tuning Methods for Large
Pre-Trained Language Models [4.096453902709292]
BitFitとアダプタモジュールは、標準のフルモデルファインチューニングと比較される。
BitFitアプローチは、さまざまなトレーニングデータにわたる完全な微調整パフォーマンスと一致します。
アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
論文 参考訳(メタデータ) (2024-01-08T17:44:43Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [16.85284386728494]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
提案手法はAR-TTAと呼ばれ、合成およびより現実的なベンチマークにおいて既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - Time Series Continuous Modeling for Imputation and Forecasting with
Implicit Neural Representations [16.47768802227772]
本稿では,実世界のデータでしばしば発生する課題に対処するために,時系列計算と予測のための新しいモデリング手法を提案する。
本手法はシリーズの進化力学の連続時間依存モデルに依存する。
メタラーニングアルゴリズムによって駆動される変調機構は、観測されたタイムウインドウを超えて、見えないサンプルや外挿への適応を可能にする。
論文 参考訳(メタデータ) (2023-06-09T13:20:04Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time
Adaptation [49.84571101331491]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、CTTAタスクを提案する。
我々はCTTAのためのビジュアルドメインアダプタ(ViDA)を提案し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - Online learning techniques for prediction of temporal tabular datasets
with regime changes [0.0]
時間パネルデータセットの予測をランキングするモジュール型機械学習パイプラインを提案する。
パイプラインのモジュラリティにより、GBDT(Gradient Boosting Decision Tree)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。
モデルの再トレーニングを必要としないオンライン学習技術は、予測後の結果を高めるために使用することができる。
論文 参考訳(メタデータ) (2022-12-30T17:19:00Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。