論文の概要: Test-time Adaptive Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2311.13209v1
- Date: Wed, 22 Nov 2023 07:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:57:32.770058
- Title: Test-time Adaptive Vision-and-Language Navigation
- Title(参考訳): テスト時間適応視覚・言語ナビゲーション
- Authors: Junyu Gao, Xuan Yao, Changsheng Xu
- Abstract要約: 視覚・言語ナビゲーションのためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、さまざまなレベルの一貫性を持つコンポーネントに分解する。
遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。
- 参考スコア(独自算出の注目度): 75.50521064106732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) has witnessed significant advancements
in recent years, largely attributed to meticulously curated datasets and
proficiently trained models. Nevertheless, when tested in diverse environments,
the trained models inevitably encounter significant shifts in data
distribution, highlighting that relying solely on pre-trained and fixed
navigation models is insufficient. To enhance models' generalization ability,
test-time adaptation (TTA) demonstrates significant potential in the computer
vision field by leveraging unlabeled test samples for model updates. However,
simply applying existing TTA methods to the VLN task cannot well handle the
adaptability-stability dilemma of VLN models, i.e., frequent updates can result
in drastic changes in model parameters, while occasional updates can make the
models ill-equipped to handle dynamically changing environments. Therefore, we
propose a Fast-Slow Test-Time Adaptation (FSTTA) approach for VLN by performing
decomposition-accumulation analysis for both gradients and parameters in a
unified framework. Specifically, in the fast update phase, gradients generated
during the recent multi-step navigation process are decomposed into components
with varying levels of consistency. Then, these components are adaptively
accumulated to pinpoint a concordant direction for fast model adaptation. In
the slow update phase, historically recorded parameters are gathered, and a
similar decomposition-accumulation analysis is conducted to revert the model to
a stable state. Extensive experiments show that our method obtains impressive
performance gains on four popular benchmarks.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は近年大きな進歩を遂げている。
それでも、さまざまな環境でテストされた場合、トレーニングされたモデルは必然的にデータ分散の大幅な変化に遭遇し、事前訓練された固定されたナビゲーションモデルのみに依存することが不十分であることを強調する。
モデルの一般化能力を高めるため、テスト時間適応(TTA)は、未ラベルのテストサンプルをモデル更新に活用することにより、コンピュータビジョン分野において大きなポテンシャルを示す。
しかし、既存のTTAメソッドをVLNタスクに適用するだけでは、VLNモデルの適応性と安定性のジレンマをうまく扱えない。
そこで本研究では,統合フレームワークにおいて,勾配とパラメータの分解・蓄積解析を行うことにより,vlnの高速テストタイム適応(fstta)手法を提案する。
具体的には、高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、様々なレベルの一貫性を持つコンポーネントに分解する。
そして、これらの成分を適応的に蓄積して、高速モデル適応のための一致方向をピンポイントする。
遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。
実験結果から,本手法は4つのベンチマークにおいて優れた性能向上を示す。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。
TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文 参考訳(メタデータ) (2024-07-22T17:59:19Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Revisiting Dynamic Evaluation: Online Adaptation for Large Language
Models [88.47454470043552]
我々は、動的評価(動的評価)としても知られる、テスト時の言語モデルのパラメータをオンラインで微調整する問題を考察する。
オンライン適応はパラメータを時間的に変化する状態に変換し、メモリを重み付けしたコンテキスト長拡張の形式を提供する。
論文 参考訳(メタデータ) (2024-03-03T14:03:48Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。
この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。
グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。
本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文 参考訳(メタデータ) (2021-09-29T12:12:59Z) - Towards Self-Adaptive Metric Learning On the Fly [16.61982837441342]
我々は,適応的メトリック関数をオンザフライで学習する上で,オンライン適応メトリック学習(OAML)のオープンな課題に対処することを目指している。
従来のオンラインメトリック学習とは異なり、学習されたメトリックは非線形であり、モデルは自己適応的である必要があるため、OAMLははるかに困難である。
制約の流れから適応モデルの複雑性を備えたANNベースのメトリクスを学習することで、この課題に取り組む新しいオンラインメトリック学習フレームワークを紹介します。
論文 参考訳(メタデータ) (2021-04-03T23:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。