論文の概要: HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy
- arxiv url: http://arxiv.org/abs/2510.00695v2
- Date: Thu, 02 Oct 2025 06:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.197402
- Title: HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy
- Title(参考訳): HAMLET:ビジョン・ランゲージ・アクション・モデルからヒストリ・アウェア・ポリシーへ
- Authors: Myungkyu Koo, Daewon Choi, Taeyoung Kim, Kyungmin Lee, Changyeon Kim, Younggyo Seo, Jinwoo Shin,
- Abstract要約: HAMLETは、行動予測中の歴史的状況に対応するためにビジョン・ランゲージ・アクションモデルを適用するためのフレームワークである。
HAMLETは、最先端のVLAを履歴認識ポリシーに変換することに成功していることを示す。
GR00T N1.5に加えて、HAMLETは歴史に依存した実世界のタスクで平均76.4%の成功率を達成した。
- 参考スコア(独自算出の注目度): 61.668591984635846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inherently, robotic manipulation tasks are history-dependent: leveraging past context could be beneficial. However, most existing Vision-Language-Action models (VLAs) have been designed without considering this aspect, i.e., they rely solely on the current observation, ignoring preceding context. In this paper, we propose HAMLET, a scalable framework to adapt VLAs to attend to the historical context during action prediction. Specifically, we introduce moment tokens that compactly encode perceptual information at each timestep. Their representations are initialized with time-contrastive learning, allowing them to better capture temporally distinctive aspects. Next, we employ a lightweight memory module that integrates the moment tokens across past timesteps into memory features, which are then leveraged for action prediction. Through empirical evaluation, we show that HAMLET successfully transforms a state-of-the-art VLA into a history-aware policy, especially demonstrating significant improvements on long-horizon tasks that require historical context. In particular, on top of GR00T N1.5, HAMLET achieves an average success rate of 76.4% on history-dependent real-world tasks, surpassing the baseline performance by 47.2%. Furthermore, HAMLET pushes prior art performance from 64.1% to 66.4% on RoboCasa Kitchen (100-demo setup) and from 95.6% to 97.7% on LIBERO, highlighting its effectiveness even under generic robot-manipulation benchmarks.
- Abstract(参考訳): 因みに、ロボット操作タスクは歴史に依存している。
しかしながら、既存のヴィジュアル・ランゲージ・アクション・モデル(VLA)の多くは、この側面を考慮せずに設計されている。
本稿では,行動予測における歴史的文脈に対応するために,VLAを適応するためのスケーラブルなフレームワークであるHAMLETを提案する。
具体的には,各タイミングで知覚情報をコンパクトに符号化するモーメントトークンを導入する。
それらの表現は、時間差学習によって初期化され、時間的に特徴的な側面をよりよく捉えることができる。
次に、過去のタイムステップにまたがるモーメントトークンをメモリ機能に統合する軽量メモリモジュールを使用し、アクション予測に利用します。
実験的な評価により,HAMLETは,最先端のVLAを歴史認識ポリシーに変換することに成功し,特に歴史的文脈を必要とする長期タスクにおいて顕著な改善が見られた。
特にGR00T N1.5上において、HAMLETは歴史に依存した実世界のタスクで平均76.4%の成功率を獲得し、ベースライン性能を47.2%上回った。
さらに、HAMLETは、RoboCasa Kitchen(100-demoのセットアップ)で64.1%から66.4%、LIBEROで95.6%から97.7%に先行技術性能を押し上げ、汎用的なロボット操作ベンチマークでもその効果が強調されている。
関連論文リスト
- MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation [59.31354761628506]
このようなタスクは本質的にマルコフ的ではないが、主流のVLAモデルはそれを見落としているため、ロボット操作には時間的コンテキストが不可欠である。
本稿では,長距離ロボット操作のためのコグニション・メモリ・アクション・フレームワークであるMemoryVLAを提案する。
本稿では,3つのロボットを対象とした150以上のシミュレーションと実世界のタスクについて評価する。
論文 参考訳(メタデータ) (2025-08-26T17:57:16Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization [3.187381965457262]
本報告では,OnTAL 用 History-Augmented Anchor Transformer (HAT) フレームワークについて述べる。
歴史的文脈を統合することにより,長期情報と短期情報との相乗効果が向上する。
我々は,PREGO(Procedural egocentric)データセットと標準非PREGOOnTALデータセットの両方を用いて,本モデルを評価した。
論文 参考訳(メタデータ) (2024-08-12T18:29:48Z) - The future is different: Large pre-trained language models fail in
prediction tasks [2.9005223064604078]
WALLSTREETBETS, ASKSCIENCE, THE DONALD, POLITICSの4つの新しいREDDITデータセットを紹介した。
まず,トピック分布が時間とともに変化するサブレディットからのポストの人気を予測した場合,LPLMは平均88%の性能低下を示すことを実証的に実証した。
次に、ニューラル変動動的トピックモデルとアテンションメカニズムを利用して、回帰タスクの時間的言語モデル表現を推論する簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-11-01T11:01:36Z) - FCM: Forgetful Causal Masking Makes Causal Language Models Better
Zero-Shot Learners [139.6321017962092]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。
我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。
実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文 参考訳(メタデータ) (2022-10-24T17:46:57Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。