論文の概要: pFedNavi: Structure-Aware Personalized Federated Vision-Language Navigation for Embodied AI
- arxiv url: http://arxiv.org/abs/2602.14401v1
- Date: Mon, 16 Feb 2026 02:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.044817
- Title: pFedNavi: Structure-Aware Personalized Federated Vision-Language Navigation for Embodied AI
- Title(参考訳): pFedNavi: 身体的AIのための構造化された個人化されたビジョンランゲージナビゲーション
- Authors: Qingqian Yang, Hao Wang, Sai Qian Zhang, Jian Li, Yang Hua, Miao Pan, Tao Song, Zhengwei Qi, Haibing Guan,
- Abstract要約: Vision-Language Navigation VLNは、プライベート屋内環境からの大規模な軌道指示データを必要とする。
フェデレートラーニングFLはデバイス上のデータを保持することでこれを緩和するが、バニラFLはVLNの極度のクロスクライアント不均一性の下で苦労する。
本稿では,VLNに適した構造認識および動的適応型パーソナライズド・フェデレーション学習フレームワークであるpFedNaviを提案する。
- 参考スコア(独自算出の注目度): 27.929546538010516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation VLN requires large-scale trajectory instruction data from private indoor environments, raising significant privacy concerns. Federated Learning FL mitigates this by keeping data on-device, but vanilla FL struggles under VLNs' extreme cross-client heterogeneity in environments and instruction styles, making a single global model suboptimal. This paper proposes pFedNavi, a structure-aware and dynamically adaptive personalized federated learning framework tailored for VLN. Our key idea is to personalize where it matters: pFedNavi adaptively identifies client-specific layers via layer-wise mixing coefficients, and performs fine-grained parameter fusion on the selected components (e.g., the encoder-decoder projection and environment-sensitive decoder layers) to balance global knowledge sharing with local specialization. We evaluate pFedNavi on two standard VLN benchmarks, R2R and RxR, using both ResNet and CLIP visual representations. Across all metrics, pFedNavi consistently outperforms the FedAvg-based VLN baseline, achieving up to 7.5% improvement in navigation success rate and up to 7.8% gain in trajectory fidelity, while converging 1.38x faster under non-IID conditions.
- Abstract(参考訳): Vision-Language Navigation VLNは、プライベート屋内環境からの大規模な軌道指示データを必要とし、プライバシー上の懸念を生じさせる。
フェデレートラーニングFLはデバイス上のデータを保持することでこれを緩和するが、バニラFLは環境や命令スタイルにおいてVLNの極度のクロスクライアントな異質性の下で苦労し、単一のグローバルモデルが最適である。
本稿では,VLNに適した構造認識および動的適応型パーソナライズド・フェデレーション学習フレームワークであるpFedNaviを提案する。
pFedNaviは、レイヤワイド混合係数を介してクライアント固有のレイヤを適応的に識別し、選択したコンポーネント(エンコーダ・デコーダ・プロジェクションや環境に配慮したデコーダ・レイヤなど)上できめ細かいパラメータ融合を行い、グローバルな知識共有とローカルな特殊化のバランスをとる。
我々は、ResNetとCLIPの両方のビジュアル表現を用いて、2つの標準VLNベンチマークR2RとRxRでpFedNaviを評価する。
すべての指標において、pFedNaviはFedAvgベースのVLNベースラインを一貫して上回り、航法の成功率を最大7.5%改善し、軌道の忠実度を最大7.8%向上させ、非IID条件下では1.38倍高速に収束させる。
関連論文リスト
- Adaptive Dual-Weighting Framework for Federated Learning via Out-of-Distribution Detection [53.45696787935487]
Federated Learning (FL)は、大規模分散サービスノード間の協調的なモデルトレーニングを可能にする。
実世界のサービス指向デプロイメントでは、異種ユーザ、デバイス、アプリケーションシナリオによって生成されたデータは本質的にIIDではない。
FLoodは、オフ・オブ・ディストリビューション(OOD)検出にインスパイアされた新しいFLフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T05:54:59Z) - VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation [52.00474922315126]
未確認環境のための視覚言語ナビゲーションフレームワークであるVLN-Zeroを提案する。
我々は視覚言語モデルを用いて、記号的なシーングラフを効率的に構築し、ゼロショットのニューロシンボリックナビゲーションを可能にする。
VLN-Zeroは、最先端のゼロショットモデルと比べて2倍の成功率を獲得し、最も微調整されたベースラインを上回り、半分の時間でゴール地点に達する。
論文 参考訳(メタデータ) (2025-09-23T03:23:03Z) - GCN-TULHOR: Trajectory-User Linking Leveraging GCNs and Higher-Order Spatial Representations [3.704533038474922]
Trajectory-user Linking (TUL) は、匿名化されたトラジェクトリとそれを生成したユーザを関連付けることを目的としている。
本稿では,GCN-TULHORという,原位置データを高次移動フロー表現に変換する手法を紹介する。
提案手法は,スパースチェックインと連続GPSトラジェクトリデータの両方を高次フロー表現に変換する。
論文 参考訳(メタデータ) (2025-09-14T05:14:09Z) - Personalized Subgraph Federated Learning with Differentiable Auxiliary Projections [15.488985833084408]
補助投影を用いたフェデレーション学習(FedAux)を紹介する。
FedAuxはパーソナライズされたサブグラフFLフレームワークで、生のデータやノードの埋め込みを共有することなく、均一に分散されたローカルモデルを調整、比較、集約することを学ぶ。
多様なグラフベンチマークによる実証的な評価は、FedAuxが精度とパーソナライズ性能の両方で既存のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T09:17:49Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Reinforced Structured State-Evolution for Vision-Language Navigation [42.46176089721314]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクは、自然言語の指示に従って遠隔地へ移動するための実施エージェントを必要とする。
従来の手法は通常、シークエンスモデル(TransformerやLSTMなど)をナビゲータとして採用していた。
本稿では,VLNの環境レイアウトの手がかりを効果的に維持するために,構造化状態進化(SEvol)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-20T07:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。