論文の概要: The Essence of Balance for Self-Improving Agents in Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2604.19064v1
- Date: Tue, 21 Apr 2026 04:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.61375
- Title: The Essence of Balance for Self-Improving Agents in Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションにおける自己改善エージェントのバランス
- Authors: Zhen Liu, Yuhan Liu, Jinjun Wang, Jianyi Liu, Wei Song, Jingwen Fu,
- Abstract要約: 安定度バランス(SDB)は、視覚・言語ナビゲーション(VLN)における平衡自己改善のためのプラグアンドプレイ機構である。
SDBは命令条件付き隠れ状態に制御されたシフトを適用することで、各決定ステップを複数の潜在行動仮説に拡張する。
R2R、SOON、REVERIEの実験は一貫して改善されている。
- 参考スコア(独自算出の注目度): 38.77209165510599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In vision-and-language navigation (VLN), self-improvement from policy-induced experience, using only standard VLN action supervision, critically depends on balancing behavioral diversity and learning stability, which governs whether the agent can extract a reliable learning signal for improvement. Increasing behavioral diversity is necessary to expose alternative action hypotheses but can destabilize policy-induced learning signals, whereas overly conservative stability constraints suppress exploration and induce early commitment, making reliable self-improvement difficult. To address this challenge, we propose Stability-Diversity Balance (SDB), a plug-and-play mechanism for balanced self-improvement in VLN. SDB expands each decision step into multiple latent behavioral hypotheses by applying controlled shifts in the instruction-conditioned hidden states, and then performs reliability-aware soft evaluation and aggregation to retain diverse yet instruction-consistent alternatives during learning. An explicit regularizer further constrains hypothesis interactions, preventing excessive drift or premature collapse of hypothesis diversity and stabilizing self-improvement without discarding training signals. Experiments on R2R, SOON, and REVERIE show consistent improvements; for example, on REVERIE val-unseen, SDB improves SPL from 33.73 to 35.93 and OSR from 51.07 to 54.25.
- Abstract(参考訳): ヴィジュアル・アンド・ランゲージナビゲーション(VLN)では、標準的なVLNアクション監視のみを使用して、ポリシーによって引き起こされる経験からの自己改善は、エージェントが改善のために信頼できる学習信号を抽出できるかどうかを左右する振る舞いの多様性と学習安定性のバランスに極めて依存する。
行動多様性の増大は、代替の行動仮説を公開するために必要であるが、政策によって引き起こされる学習シグナルを不安定化させる一方、過度に保守的な安定性の制約は探索を抑制し、早期のコミットメントを誘導し、信頼性の高い自己改善を困難にする。
この課題に対処するため,VLNにおける自己改善のためのプラグ・アンド・プレイ機構である安定性・ダイバーシティ・バランス(SDB)を提案する。
SDBは、命令条件付き隠れ状態の制御シフトを適用して、各決定ステップを複数の潜在行動仮説に拡張し、その後、信頼性に配慮したソフト評価とアグリゲーションを行い、学習中に多種多様な命令一貫性のある代替手段を維持する。
明示的な正規化器は、仮説の相互作用をさらに制限し、過剰なドリフトや仮説の多様性の早期崩壊を防ぎ、訓練信号を捨てることなく自己改善を安定化する。
例えば、REVERIE val-unseenでは、SDBは33.73から35.93に、OSRは51.07から54.25に改善されている。
関連論文リスト
- Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks [52.81286869496811]
大規模な言語モデルは、自信を持って不正確な推論が現実世界の害を引き起こすような、ハイテイクなタスクにますますデプロイされている。
内的フィードバックからの教師なし強化学習と推論・トラス誘導型推論蒸留を併用して協調的に最適化することを提案する。
PRG方式のメトリクスを用いてRDとRLIFを適応的に重み付けするハイブリッドポストトレーニングフレームワークであるHyTuningを紹介する。
論文 参考訳(メタデータ) (2026-04-09T16:50:11Z) - Stable Reasoning, Unstable Responses: Mitigating LLM Deception via Stability Asymmetry [19.669339224904277]
決定的なリスクは本質的な詐欺であり、モデルがユーザを戦略的に誤解させ、自身の目的を達成させる。
CoT監視に基づく既存のアライメントアプローチは、明確な推論トレースを監督する。
本稿では,この分布非対称性を正規化する新たなアライメント目標である安定非対称性正規化(SAR)を提案する。
論文 参考訳(メタデータ) (2026-03-27T09:47:57Z) - VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。
モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文 参考訳(メタデータ) (2026-02-13T03:40:52Z) - Uncertainty-aware Generative Recommendation [52.0751022792023]
Uncertainty-aware Generative Recommendation (UGR)は、適応最適化のための重要な信号として不確実性を利用する統一的なフレームワークである。
UGRは優れたレコメンデーション性能を得るだけでなく、トレーニングを根本的に安定化させ、標準手法でよく見られる性能劣化を防ぐ。
論文 参考訳(メタデータ) (2026-02-12T08:48:51Z) - Meta-Cognitive Reinforcement Learning with Self-Doubt and Recovery [25.522943543082363]
本稿では,エージェントが学習行動を評価し,制御し,回復することを可能にするメタ認知強化学習フレームワークを提案する。
提案手法では,値予測エラー安定性(VPES)によって駆動されるメタトラスト変数を導入し,フェールセーフな制御と段階的信頼回復を通じて学習ダイナミクスを変調する。
論文 参考訳(メタデータ) (2026-01-28T02:43:03Z) - Parent-Guided Adaptive Reliability (PGAR): A Behavioural Meta-Learning Framework for Stable and Trustworthy AI [0.0]
Parent-Guided Adaptive Reliability (PGAR)は軽量な振る舞いメタ学習フレームワークである。
障害時の安定性、キャリブレーション、リカバリを改善するため、標準的な学習者の上に、監督的な"親"層を追加します。
PGARは既存の最適化と学習パイプラインのためのプラグイン信頼性レイヤとして機能し、安全関連設定の解釈可能なトレースをサポートする。
論文 参考訳(メタデータ) (2026-01-07T06:02:34Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。