論文の概要: AstraNav-Memory: Contexts Compression for Long Memory
- arxiv url: http://arxiv.org/abs/2512.21627v1
- Date: Thu, 25 Dec 2025 11:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.520618
- Title: AstraNav-Memory: Contexts Compression for Long Memory
- Title(参考訳): AstraNav-Memory:長期記憶のためのコンテキスト圧縮
- Authors: Botao Ren, Junjun Hu, Xinda Xue, Minghua Luo, Jintao Chen, Haochen Bai, Liangliang You, Mu Xu,
- Abstract要約: 生涯体現されたナビゲーションでは、エージェントはタスク全体にわたって空間的セマンティックな経験を蓄積し、保持し、活用する必要がある。
本稿では,視覚的文脈圧縮モジュールを用いた長期暗黙記憶を実現する画像中心メモリフレームワークを提案する。
提案手法は,最先端のナビゲーション性能を実現し,慣れ親しんだ環境の探索を改善し,慣れ親しんだ場所の経路を短縮する。
- 参考スコア(独自算出の注目度): 4.937773809989081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifelong embodied navigation requires agents to accumulate, retain, and exploit spatial-semantic experience across tasks, enabling efficient exploration in novel environments and rapid goal reaching in familiar ones. While object-centric memory is interpretable, it depends on detection and reconstruction pipelines that limit robustness and scalability. We propose an image-centric memory framework that achieves long-term implicit memory via an efficient visual context compression module end-to-end coupled with a Qwen2.5-VL-based navigation policy. Built atop a ViT backbone with frozen DINOv3 features and lightweight PixelUnshuffle+Conv blocks, our visual tokenizer supports configurable compression rates; for example, under a representative 16$\times$ compression setting, each image is encoded with about 30 tokens, expanding the effective context capacity from tens to hundreds of images. Experimental results on GOAT-Bench and HM3D-OVON show that our method achieves state-of-the-art navigation performance, improving exploration in unfamiliar environments and shortening paths in familiar ones. Ablation studies further reveal that moderate compression provides the best balance between efficiency and accuracy. These findings position compressed image-centric memory as a practical and scalable interface for lifelong embodied agents, enabling them to reason over long visual histories and navigate with human-like efficiency.
- Abstract(参考訳): 生涯にわたる実施ナビゲーションでは、エージェントはタスク全体にわたって空間的な経験を蓄積し、保持し、活用し、新しい環境における効率的な探索と、慣れ親しんだものへの迅速な到達を可能にする必要がある。
オブジェクト中心のメモリは解釈可能であるが、堅牢性とスケーラビリティを制限する検出と再構築パイプラインに依存している。
本稿では,Qwen2.5-VLベースのナビゲーションポリシと組み合わせた視覚的コンテキスト圧縮モジュールをエンドツーエンドにすることで,長期暗黙記憶を実現する画像中心メモリフレームワークを提案する。
凍結したDINOv3機能と軽量なPixelUnshuffle+Convブロックを備えたViTバックボーン上に構築されたビジュアルトークンライザは、設定可能な圧縮レートをサポートします。
GOAT-Bench と HM3D-OVON の実験結果から,本手法は最先端のナビゲーション性能を実現し,未知の環境における探索を改善し,慣れ親しんだ経路を短縮することを示す。
アブレーション研究により、適度な圧縮が効率と精度の最良のバランスを提供することが明らかになった。
これらの知見は、圧縮画像中心記憶を、生涯にわたるエンボディエージェントの実用的でスケーラブルなインターフェースとして位置づけ、長い視覚履歴を推論し、人間のような効率でナビゲートすることを可能にする。
関連論文リスト
- From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - IQViC: In-context, Question Adaptive Vision Compressor for Long-term Video Understanding LMMs [0.0]
我々は、新しいビジュアルコンプレッサー、IQViC(In-context, Question Adaptive Visual)を組み込んだ長期ビデオ理解のためのフレームワークを提案する。
IQViCはトランスフォーマーベースのビジュアル圧縮機であり、ビデオの完全な視覚的特徴に依存する既存の方法とは異なり、質問条件付きテキスト内圧縮を可能にする。
提案するIQViCフレームワークの有効性と,映像理解の精度とメモリ効率の観点から,最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-13T06:52:02Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。
リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。