論文の概要: Information-Theoretic Constraints for Continual Vision-Language-Action Alignment
- arxiv url: http://arxiv.org/abs/2603.13335v1
- Date: Fri, 06 Mar 2026 13:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.315124
- Title: Information-Theoretic Constraints for Continual Vision-Language-Action Alignment
- Title(参考訳): 連続視覚言語行動アライメントのための情報理論的制約
- Authors: Libang Zhao, Qixin Zeng, Hongyin Zhang, Donglin Wang,
- Abstract要約: Vision-Language-Action(VLA)モデルは、新しいスキルを継続的に獲得する必要があるが、破滅的な忘れに苦しむ。
本稿では,情報保存型連続学習フレームワークであるInfo-VLAを提案する。
LIBEROの実験では、Info-VLAはタスクの保持と適応の両方において既存の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 29.181586019540145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deployed in open-ended robotic environments, Vision--Language--Action (VLA) models need to continually acquire new skills, yet suffer from severe catastrophic forgetting. We observe that this degradation is related to the deterioration of cross-modal information structure, where dependencies among visual observations, language instructions, and actions progressively diffuse during continual adaptation. But existing continual learning methods fail to preserve such cross-modal information dependencies. Thus, we propose Info-VLA, an information-preserving continual learning framework that maintains cross-modal information structure through two complementary constraints. Replay Anchor Contrastive Learning constructs stable alignment anchors from a frozen teacher model, preserving cross-modal alignment in the representation space. Cross-Modal Mutual Information Maximization further preserves dependency structure between visual and language representations through mutual information constraints. By jointly preserving historical alignment and cross-modal dependency information, Info-VLA balances stability and plasticity during continual learning. Furthermore, experiments on the LIBERO show that Info-VLA significantly outperforms existing methods in both task retention and adaptation.
- Abstract(参考訳): オープンエンドのロボット環境に配備される場合、Vision-Language-Action(VLA)モデルは、新しいスキルを継続的に獲得する必要がある。
この劣化は, 視覚的観察, 言語指示, 行動の相互依存が, 連続的な適応の過程で徐々に拡散する, クロスモーダル情報構造が劣化することに関連している。
しかし、既存の連続的な学習手法は、そのようなクロスモーダルな情報依存を保存できない。
そこで本稿では,情報保存型連続学習フレームワークであるInfo-VLAを提案する。
Replay Anchor Contrastive Learningは、凍結した教師モデルから安定したアライメントアンカーを構築し、表現空間におけるクロスモーダルアライメントを保存する。
相互情報制約を通した視覚表現と言語表現間の依存関係構造をさらに保存する。
歴史的アライメントと相互依存情報を共同保存することにより、Info-VLAは連続学習時の安定性と可塑性のバランスをとる。
さらに、LIBERO実験により、Info-VLAはタスク保持と適応の両方において既存の手法よりも大幅に優れていることが示された。
関連論文リスト
- Auditing Language Model Unlearning via Information Decomposition [68.48660428111593]
部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
論文 参考訳(メタデータ) (2026-01-21T15:51:19Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning [47.56496248878093]
継続的な学習は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。
本稿では,テキスト先行のアンチフォッゲッティングと構造化の性質を利用した統合フレームワークを提案し,セマンティック・アウェア・ナレッジ・トランスファーを導く。
論文 参考訳(メタデータ) (2025-08-03T04:09:00Z) - Bisecle: Binding and Separation in Continual Learning for Video Language Understanding [11.710573955384511]
海馬における高速な結合とパターン分離機構に着想を得たビデオ言語連続学習のためのBisecleを提案する。
Bisecleは、いくつかのVideoQAベンチマークにおいて、忘れを緩和し、クロスタスクの一般化を強化する。
論文 参考訳(メタデータ) (2025-07-01T06:28:57Z) - Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。