論文の概要: Harnessing Input-Adaptive Inference for Efficient VLN
- arxiv url: http://arxiv.org/abs/2508.09262v1
- Date: Tue, 12 Aug 2025 18:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.655437
- Title: Harnessing Input-Adaptive Inference for Efficient VLN
- Title(参考訳): 効率的なVLNに対する入力適応推論のハーネス化
- Authors: Dongwoo Kang, Akhil Perincherry, Zachary Coalson, Aiden Gabriel, Stefan Lee, Sanghyun Hong,
- Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における新たなパラダイムは、歴史を意識したマルチモーダルトランスモデルの利用である。
本稿では,VLNモデルの効率を向上させるための新しい入力適応ナビゲーション手法を提案する。
- 参考スコア(独自算出の注目度): 13.847596428283861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An emerging paradigm in vision-and-language navigation (VLN) is the use of history-aware multi-modal transformer models. Given a language instruction, these models process observation and navigation history to predict the most appropriate action for an agent. While they have significantly improved performance, the scale of these models can be a bottleneck in practical settings with limited computational resources. In this work, we propose a novel input-adaptive navigation method to enhance VLN model efficiency. We first show that existing input-adaptive mechanisms fail to reduce computations without substantial performance degradation. To address this, we introduce three adaptive algorithms, each deployed at a different level: (1) To improve spatial efficiency, we selectively process panoramic views at each observation of an agent. (2) To improve intra-model efficiency, we propose importance-based adaptive thresholding for the early-exit methods. (3) To improve temporal efficiency, we implement a caching mechanism that prevents reprocessing of views previously seen by the agent. In evaluations on seven VLN benchmarks, we demonstrate over a 2$\times$ reduction in computation across three off-the-shelf agents in both standard and continuous environments. Our code is publicly available at https://github.com/secure-ai-systems-group/adaptive-vision-and-language-navigation.
- Abstract(参考訳): ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における新たなパラダイムは、歴史を意識したマルチモーダルトランスモデルの利用である。
言語命令が与えられた場合、これらのモデルは観察履歴とナビゲーション履歴を処理し、エージェントにとって最も適切なアクションを予測する。
性能は大幅に改善されているが、計算資源が限られている現実的な環境では、これらのモデルのスケールがボトルネックとなる可能性がある。
本稿では,VLNモデルの効率を向上させるための新しい入力適応ナビゲーション手法を提案する。
まず,既存の入力適応機構が性能劣化を伴わずに計算量を削減できないことを示す。
1)空間効率を向上させるために,エージェントの観察毎にパノラマビューを選択的に処理する。
2) モデル内効率を改善するために, 早期終了法における重要度に基づく適応しきい値設定を提案する。
(3) 時間効率を改善するため,エージェントが以前見たビューの再処理を防止するキャッシング機構を実装した。
7つのVLNベンチマークの評価において、標準環境と連続環境の3つのオフ・ザ・シェルフエージェント間での2$\times$計算の削減を実証する。
私たちのコードはhttps://github.com/secure-ai-systems-group/adaptive-vision-and- language-navigationで公開されています。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning [23.92661395403251]
近年のリハーサルフリーな手法は,視覚関連連続学習(CL)とドリフトデータに優れ,資源効率に欠ける。
本稿では,Resource-Efficient Prompting(REP)を提案する。
提案手法は高速なプロンプト選択を用いて、注意深く設定されたモデルを用いて入力データを洗練する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Break a Lag: Triple Exponential Moving Average for Enhanced Optimization [2.0199251985015434]
本稿では,三重指数移動平均のパワーを利用する新しい最適化手法であるFAMEを紹介する。
FAMEはデータダイナミクスに対する応答性を高め、トレンド識別ラグを緩和し、学習効率を最適化する。
包括的評価は、画像分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なコンピュータビジョンタスクを含み、FAMEを30の異なるアーキテクチャに統合する。
論文 参考訳(メタデータ) (2023-06-02T10:29:33Z) - An Efficient and Scalable Collection of Fly-inspired Voting Units for
Visual Place Recognition in Changing Environments [20.485491385050615]
ローオーバーヘッドのVPR技術は、ローエンドの安価なハードウェアを搭載したプラットフォームを可能にする。
我々のゴールは、外観変化と小さな視点変化に対する最先端のロバスト性を達成しつつ、極端なコンパクト性と効率のアルゴリズムを提供することである。
論文 参考訳(メタデータ) (2021-09-22T19:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。