Fugu-MT 論文翻訳(概要): Test-time Adaptive Vision-and-Language Navigation

論文の概要: Test-time Adaptive Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2311.13209v2
Date: Thu, 1 Feb 2024 02:27:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 18:49:44.607510
Title: Test-time Adaptive Vision-and-Language Navigation
Title（参考訳）: テスト時間適応視覚・言語ナビゲーション
Authors: Junyu Gao, Xuan Yao, Changsheng Xu
Abstract要約: 視覚・言語ナビゲーションのためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、さまざまなレベルの一貫性を持つコンポーネントに分解する。遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。
参考スコア（独自算出の注目度）: 75.50521064106732
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-Language Navigation (VLN) has witnessed significant advancements in recent years, largely attributed to meticulously curated datasets and proficiently trained models. Nevertheless, when tested in diverse environments, the trained models inevitably encounter significant shifts in data distribution, highlighting that relying solely on pre-trained and fixed navigation models is insufficient. To enhance models' generalization ability, test-time adaptation (TTA) demonstrates significant potential in the computer vision field by leveraging unlabeled test samples for model updates. However, simply applying existing TTA methods to the VLN task cannot well handle the adaptability-stability dilemma of VLN models, i.e., frequent updates can result in drastic changes in model parameters, while occasional updates can make the models ill-equipped to handle dynamically changing environments. Therefore, we propose a Fast-Slow Test-Time Adaptation (FSTTA) approach for VLN by performing decomposition-accumulation analysis for both gradients and parameters in a unified framework. Specifically, in the fast update phase, gradients generated during the recent multi-step navigation process are decomposed into components with varying levels of consistency. Then, these components are adaptively accumulated to pinpoint a concordant direction for fast model adaptation. In the slow update phase, historically recorded parameters are gathered, and a similar decomposition-accumulation analysis is conducted to revert the model to a stable state. Extensive experiments show that our method obtains impressive performance gains on four popular benchmarks.
Abstract（参考訳）: VLN(Vision-and-Language Navigation)は近年大きな進歩を遂げている。それでも、さまざまな環境でテストされた場合、トレーニングされたモデルは必然的にデータ分散の大幅な変化に遭遇し、事前訓練された固定されたナビゲーションモデルのみに依存することが不十分であることを強調する。モデルの一般化能力を高めるため、テスト時間適応(TTA)は、未ラベルのテストサンプルをモデル更新に活用することにより、コンピュータビジョン分野において大きなポテンシャルを示す。しかし、既存のTTAメソッドをVLNタスクに適用するだけでは、VLNモデルの適応性と安定性のジレンマをうまく扱えない。そこで本研究では,統合フレームワークにおいて,勾配とパラメータの分解・蓄積解析を行うことにより,vlnの高速テストタイム適応(fstta)手法を提案する。具体的には、高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、様々なレベルの一貫性を持つコンポーネントに分解する。そして、これらの成分を適応的に蓄積して、高速モデル適応のための一致方向をピンポイントする。遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。実験結果から,本手法は4つのベンチマークにおいて優れた性能向上を示す。

関連論文リスト

TAPS : Frustratingly Simple Test Time Active Learning for VLMs [0.0]
テスト時間最適化により、モデルはパラメータをオンザフライで更新することで、推論中に新しいデータに適応できる。本研究では,不確実なサンプルを適応的にクエリし,動的に更新するテスト時アクティブラーニングフレームワークを提案する。我々のフレームワークは、自律システムや医療診断などの安全クリティカルなアプリケーションに現実世界を配置するための実用的で効果的なソリューションを提供する。
論文参考訳（メタデータ） (2025-07-26T18:04:49Z)
LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.84458417662404]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。 LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文参考訳（メタデータ） (2025-04-15T17:14:06Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。 TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文参考訳（メタデータ） (2024-07-22T17:59:19Z)
Efficient Open Set Single Image Test Time Adaptation of Vision Language Models [15.621092104244003]
動的で現実世界の環境にモデルを適応させることは、ディープラーニングにおける重要な課題である。動的に更新された機能バンクを利用して信頼性の高いテストサンプルを識別する新しいフレームワークであるROSITAを提案する。このアプローチは、未知のサンプルを拒絶しながら、既知のクラスに対するドメインシフトにモデルを効果的に適用する。
論文参考訳（メタデータ） (2024-06-01T16:21:42Z)
Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。テスト時間フォワード最適化適応法(FOA)を提案する。 FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文参考訳（メタデータ） (2024-04-02T05:34:33Z)
Revisiting Dynamic Evaluation: Online Adaptation for Large Language Models [88.47454470043552]
我々は、動的評価(動的評価)としても知られる、テスト時の言語モデルのパラメータをオンラインで微調整する問題を考察する。オンライン適応はパラメータを時間的に変化する状態に変換し、メモリを重み付けしたコンテキスト長拡張の形式を提供する。
論文参考訳（メタデータ） (2024-03-03T14:03:48Z)
AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文参考訳（メタデータ） (2023-09-18T19:34:23Z)
Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。 Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文参考訳（メタデータ） (2022-06-27T17:59:17Z)
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (2022-03-08T11:01:24Z)
Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文参考訳（メタデータ） (2021-09-29T12:12:59Z)
Towards Self-Adaptive Metric Learning On the Fly [16.61982837441342]
我々は,適応的メトリック関数をオンザフライで学習する上で,オンライン適応メトリック学習(OAML)のオープンな課題に対処することを目指している。従来のオンラインメトリック学習とは異なり、学習されたメトリックは非線形であり、モデルは自己適応的である必要があるため、OAMLははるかに困難である。制約の流れから適応モデルの複雑性を備えたANNベースのメトリクスを学習することで、この課題に取り組む新しいオンラインメトリック学習フレームワークを紹介します。
論文参考訳（メタデータ） (2021-04-03T23:11:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。