論文の概要: AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents
- arxiv url: http://arxiv.org/abs/2605.17933v1
- Date: Mon, 18 May 2026 06:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.928355
- Title: AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents
- Title(参考訳): AtlasVA: 教師なしVLMエージェントのための自己進化型ビジュアルスキルメモリ
- Authors: Pan Wang, Yihao Hu, Xiujin Liu, Jingchu Yang, Hang Wang, Zhihao Wen,
- Abstract要約: 視覚言語モデル(VLM)エージェントは、長期のタスクでの経験を再利用するために、メモリ強化された強化学習に依存している。
既存のフレームワークの多くは、メモリをテキストとして保存し、それを要約または洗練するために独自の教師モデルに依存している。
教師なしの視覚スキル記憶フレームワークである textbfAtlasVA を提案する。
- 参考スコア(独自算出の注目度): 22.846371945424988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language model (VLM) agents increasingly rely on memory-augmented reinforcement learning to reuse experience across long-horizon tasks, yet most existing frameworks store memory as text and depend on proprietary teacher models to summarize or refine it. This design is poorly matched to spatial decision making: geometric priors are compressed into lossy language, and sparse interaction is often supervised through delayed textual feedback rather than dense visually grounded signals. We argue that reusable experience for VLM agents should remain visually grounded. Based on this insight, we propose \textbf{AtlasVA}, a teacher-free visual skill memory framework that organizes memory into three complementary layers: spatial heatmaps, visual exemplars, and symbolic text skills. AtlasVA further evolves danger and affinity atlases directly from trajectory statistics and lightweight grid heuristics, and reuses these self-evolving atlases as potential-based shaping rewards for reinforcement learning. This unifies perception, memory, and optimization without external LLM supervision. Experiments on \textsc{Sokoban}, \textsc{FrozenLake}, 3D embodied navigation, and 3D robotic manipulation benchmarks show that AtlasVA consistently outperforms text-centric memory baselines and competitive VLM agents, with especially strong gains on spatially intensive tasks. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb
- Abstract(参考訳): 視覚言語モデル(VLM)エージェントは、長期のタスクにまたがる経験を再利用するために、メモリ拡張強化学習にますます依存しているが、既存のほとんどのフレームワークは、メモリをテキストとして保存し、それを要約または洗練するためにプロプライエタリな教師モデルに依存する。
この設計は空間的意思決定とあまり一致しない: 幾何学的事前は損失のある言語に圧縮され、疎結合はしばしば、密集した視覚的接地信号ではなく、遅延したテキストフィードバックによって監督される。
我々は、VLMエージェントの再利用体験は、視覚的基盤を保たなければならないと論じている。
この知見に基づいて,空間的ヒートマップ,視覚経験者,記号的テキストスキルの3つの相補的なレイヤにメモリを整理する教師なし視覚スキル記憶フレームワークである「textbf{AtlasVA}」を提案する。
AtlasVAはさらに、軌道統計と軽量グリッドヒューリスティックから直接危険と親和性アラスを進化させ、これらの自己進化アラスを、強化学習のためのポテンシャルベースの形状報酬として再利用する。
これは、外部のLLM監督なしで知覚、記憶、最適化を統一する。
textsc{Sokoban}, \textsc{FrozenLake}, 3D Embodied Navigation, そして3Dロボット操作ベンチマークの実験によると、AtlasVAはテキスト中心のメモリベースラインと競合するVLMエージェントを一貫して上回り、特に空間的に集中的なタスクに強い利益をもたらす。
ホームページ:https://wangpan-ustc.github.io/AtlasvaWeb
関連論文リスト
- Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models [78.88575188716378]
VisMemはヴィジュアル・ランゲージ・モデルに動的潜在視覚記憶、微細な知覚保持のための短期モジュール、抽象的セマンティック・コンソリデーションのための長期モジュールを装備するフレームワークである。
我々の実験によると、VisMemはバニラモデルと比較して11.8%の大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-11-14T06:51:34Z) - Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。