Fugu-MT 論文翻訳(概要): Explore the Potential Performance of Vision-and-Language Navigation Model: a Snapshot Ensemble Method

論文の概要: Explore the Potential Performance of Vision-and-Language Navigation Model: a Snapshot Ensemble Method

arxiv url: http://arxiv.org/abs/2111.14267v1
Date: Sun, 28 Nov 2021 23:07:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-30 14:59:59.197527
Title: Explore the Potential Performance of Vision-and-Language Navigation Model: a Snapshot Ensemble Method
Title（参考訳）: 視覚言語ナビゲーションモデルの潜在的な性能を探る:スナップショットアンサンブル法
Authors: Wenda Qin, Teruhisa Misu, Derry Wijaya
Abstract要約: VLN(Vision-and-Language Navigation)は、人工知能分野における課題である。 VLNモデルを改善するための新しい視点を提供する。
参考スコア（独自算出の注目度）: 6.349841849317769
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision-and-Language Navigation (VLN) is a challenging task in the field of artificial intelligence. Although massive progress has been made in this task over the past few years attributed to breakthroughs in deep vision and language models, it remains tough to build VLN models that can generalize as well as humans. In this paper, we provide a new perspective to improve VLN models. Based on our discovery that snapshots of the same VLN model behave significantly differently even when their success rates are relatively the same, we propose a snapshot-based ensemble solution that leverages predictions among multiple snapshots. Constructed on the snapshots of the existing state-of-the-art (SOTA) model $\circlearrowright$BERT and our past-action-aware modification, our proposed ensemble achieves the new SOTA performance in the R2R dataset challenge in Navigation Error (NE) and Success weighted by Path Length (SPL).
Abstract（参考訳）: VLN(Vision-and-Language Navigation)は、人工知能分野における課題である。深部ビジョンと言語モデルのブレークスルーが原因で、ここ数年でこのタスクは大きな進歩を遂げてきたが、人間と同様に一般化できるvlnモデルを構築するのは難しいままである。本稿では,VLNモデルを改善するための新しい視点を提供する。同一のVLNモデルのスナップショットは、成功率が比較的同じであっても、かなり異なる振る舞いをするという発見に基づいて、複数のスナップショット間の予測を活用するスナップショットベースのアンサンブルソリューションを提案する。提案手法は,既存のSOTAモデルである$\circlearrowright$BERTのスナップショットと過去の動作を意識した修正に基づいて構築され,ナビゲーションエラー(NE)におけるR2RデータセットチャレンジとPath Length(SPL)の重み付けによる継承において,新たなSOTAパフォーマンスを実現する。

関連論文リスト

Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities [31.498539233768334]
VLN-PEは、人間型、四足型、車輪型ロボットをサポートする物理的に現実的なVLNプラットフォームである。われわれは,エゴ中心のVLN手法を,様々な技術パイプラインにまたがる物理ロボット設定において初めて評価した。以上の結果から,ロボット観測空間の制限,環境光の変動,衝突や落下などの物理的課題による性能劣化が明らかとなった。
論文参考訳（メタデータ） (2025-07-17T11:46:00Z)
VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.764069327701186]
VLM(Vision-Language Models)は、人工知能のブレークスルーである。 VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文参考訳（メタデータ） (2025-03-12T15:48:13Z)
Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method [94.74003109176581]
Long-Horizon Vision-Language Navigation (LH-VLN)は、連続したサブタスク間の長期計画と意思決定の一貫性を強調する新しいVLNタスクである。我々のプラットフォーム、ベンチマーク、メソッドは、ロバストなデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給する。
論文参考訳（メタデータ） (2024-12-12T09:08:13Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation [6.11362142120604]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、重要な、しかし困難なクロスモーダル・ナビゲーションタスクである。 VLNの性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。本稿では,ネットワークのコアとしてトランスフォーマーを用いるPASTSモデルを提案する。
論文参考訳（メタデータ） (2023-05-19T02:25:56Z)
Waypoint Models for Instruction-guided Navigation in Continuous Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文参考訳（メタデータ） (2021-10-05T17:55:49Z)
Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。近年の方法は、VLN剤の一般化を改善するための事前学習である。大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文参考訳（メタデータ） (2021-08-20T10:58:09Z)
A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文参考訳（メタデータ） (2020-11-26T00:23:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。