論文の概要: A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics
- arxiv url: http://arxiv.org/abs/2604.15215v1
- Date: Thu, 16 Apr 2026 16:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.010405
- Title: A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics
- Title(参考訳): ロボットにおけるインテクスト模倣学習のための階層的時空間行動トケナイザ
- Authors: Fawad Javed Fateh, Ali Shah Ali, Murad Popattia, Usman Nizamani, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran,
- Abstract要約: 非コンテキスト模倣学習のための新しい階層的アクショントークンー、すなわちHiST-ATを提案する。この階層的時間的アプローチは、入力アクションと関連するタイムスタンプのキューを同時に回復しながら、マルチレベルクラスタリングを行う。
- 参考スコア(独自算出の注目度): 6.4420182172671865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel hierarchical spatiotemporal action tokenizer for in-context imitation learning. We first propose a hierarchical approach, which consists of two successive levels of vector quantization. In particular, the lower level assigns input actions to fine-grained subclusters, while the higher level further maps fine-grained subclusters to clusters. Our hierarchical approach outperforms the non-hierarchical counterpart, while mainly exploiting spatial information by reconstructing input actions. Furthermore, we extend our approach by utilizing both spatial and temporal cues, forming a hierarchical spatiotemporal action tokenizer, namely HiST-AT. Specifically, our hierarchical spatiotemporal approach conducts multi-level clustering, while simultaneously recovering input actions and their associated timestamps. Finally, extensive evaluations on multiple simulation and real robotic manipulation benchmarks show that our approach establishes a new state-of-the-art performance in in-context imitation learning.
- Abstract(参考訳): テキスト内模倣学習のための新しい階層的時空間行動トークン化器を提案する。
まず、2つの連続するベクトル量子化のレベルからなる階層的アプローチを提案する。
特に、下位レベルは入力アクションを細粒度サブクラスタに割り当て、上位レベルはさらに細粒度サブクラスタをクラスタにマッピングする。
階層的アプローチは非階層的アプローチよりも優れており,入力動作の再構築による空間情報の利用が主である。
さらに、空間的および時間的両方の手がかりを利用して、階層的時空間行動トークンー、すなわちHiST-ATを形成することによって、我々のアプローチを拡張した。
具体的には、階層的な時空間的アプローチは、入力動作と関連するタイムスタンプを同時に回復しながら、マルチレベルクラスタリングを行う。
最後に、複数のシミュレーションと実際のロボット操作ベンチマークに関する広範な評価により、本手法がテキスト内模倣学習における新しい最先端性能を確立していることを示す。
関連論文リスト
- Unsupervised Skeleton-Based Action Segmentation via Hierarchical Spatiotemporal Vector Quantization [4.446876533427628]
本研究では,非教師付き骨格に基づく時間的行動セグメンテーションのための新しい階層的時間的ベクトル化フレームワークを提案する。
提案手法は,非教師付き骨格に基づく時間的動作セグメント化において,新しい最先端性能を確立し,セグメント長の偏りを低減させるものである。
論文 参考訳(メタデータ) (2026-04-16T16:24:40Z) - Feature Identification for Hierarchical Contrastive Learning [7.655211354400059]
本稿では,2つの新しい階層型コントラスト学習法を提案する。
提案手法は,階層レベルのクラス間関係と不均衡なクラス分布を明示的にモデル化する。
提案手法は,線形評価における最先端性能を実現し,既存の階層的コントラスト学習法を精度で2ポイント向上させる。
論文 参考訳(メタデータ) (2025-10-01T12:46:47Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
CRISPは、階層的強化学習における不安定性に取り組むカリキュラム駆動のフレームワークである。
現在の低レベルプリミティブによって常に到達可能なサブゴールを生成するために、エキスパートのデモを適応的にリラベルする。
強い階層的ベースラインと平坦なベースラインに対して、成功率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。