論文の概要: Active Test-time Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2506.06630v1
- Date: Sat, 07 Jun 2025 02:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.368415
- Title: Active Test-time Vision-Language Navigation
- Title(参考訳): アクティブテストタイムビジョンランゲージナビゲーション
- Authors: Heeju Ko, Sungjune Kim, Gyeongrok Oh, Jeongyoon Yoon, Honglak Lee, Sujin Jang, Seungryong Kim, Sangpil Kim,
- Abstract要約: ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
- 参考スコア(独自算出の注目度): 60.69722522420299
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Navigation (VLN) policies trained on offline datasets often exhibit degraded task performance when deployed in unfamiliar navigation environments at test time, where agents are typically evaluated without access to external interaction or feedback. Entropy minimization has emerged as a practical solution for reducing prediction uncertainty at test time; however, it can suffer from accumulated errors, as agents may become overconfident in incorrect actions without sufficient contextual grounding. To tackle these challenges, we introduce ATENA (Active TEst-time Navigation Agent), a test-time active learning framework that enables a practical human-robot interaction via episodic feedback on uncertain navigation outcomes. In particular, ATENA learns to increase certainty in successful episodes and decrease it in failed ones, improving uncertainty calibration. Here, we propose mixture entropy optimization, where entropy is obtained from a combination of the action and pseudo-expert distributions-a hypothetical action distribution assuming the agent's selected action to be optimal-controlling both prediction confidence and action preference. In addition, we propose a self-active learning strategy that enables an agent to evaluate its navigation outcomes based on confident predictions. As a result, the agent stays actively engaged throughout all iterations, leading to well-grounded and adaptive decision-making. Extensive evaluations on challenging VLN benchmarks-REVERIE, R2R, and R2R-CE-demonstrate that ATENA successfully overcomes distributional shifts at test time, outperforming the compared baseline methods across various settings.
- Abstract(参考訳): オフラインデータセットでトレーニングされたVLN(Vision-Language Navigation)ポリシは、テスト時に馴染みのないナビゲーション環境にデプロイされた場合、通常、エージェントが外部のインタラクションやフィードバックにアクセスせずに評価される場合に、劣化したタスクパフォーマンスを示す。
エントロピー最小化(Entropy Minimization)は、テスト時に予測の不確かさを減らすための実用的なソリューションとして登場したが、エージェントが十分な文脈的根拠を持たない誤った行動に過度に自信を持つため、蓄積されたエラーに悩まされる可能性がある。
これらの課題に対処するために,不確実なナビゲーション結果に対するエピソードフィードバックを通じて,人間とロボットの実践的なインタラクションを可能にする,テスト時のアクティブな学習フレームワークであるATENA(Active TEst-time Navigation Agent)を紹介した。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
本稿では,エージェントの選択した動作が予測信頼度と行動嗜好の両方を最適に制御していると仮定して,アクションと擬似専門家分布の組み合わせからエントロピーを求める混合エントロピー最適化を提案する。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
結果として、エージェントは全てのイテレーションを通して活発に活動し続け、十分に地味で適応的な意思決定へと繋がる。
VLNベンチマークの挑戦であるREVERIE、R2R、R2R-CE-demonstrateに対する大規模な評価では、ATENAはテスト時に分散シフトを克服し、さまざまな設定で比較されたベースラインメソッドよりも優れています。
関連論文リスト
- Aurora: Are Android Malware Classifiers Reliable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAはさらに、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完されている。
最先端のフレームワークで観察する脆弱さは、ホワイトボードに戻る必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.009759731505746]
ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。
リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。
提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T03:37:33Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。
与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。
本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:06:39Z) - An active learning method for solving competitive multi-agent decision-making and control problems [1.2430809884830318]
競合エージェントの集団に対する定常行動プロファイルを特定するための,新しいアクティブラーニング手法を提案する。
提案手法は,典型的なマルチエージェント制御と意思決定問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-12-23T19:37:39Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。