論文の概要: CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2510.00726v1
- Date: Wed, 01 Oct 2025 10:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.504262
- Title: CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation
- Title(参考訳): CroStata: ロボットマニピュレーションのための状態遷移注意変換器
- Authors: Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini,
- Abstract要約: 本稿では,学習状態の進化パターンに基づいて標準注意重みを変調するクロス状態遷移注意変換器を提案する。
我々のアプローチは、この構造化された注意とトレーニング中の時間的マスキングを組み合わせることで、最近の時間経過から視覚情報をランダムに取り除き、歴史的文脈からの時間的推論を促進する。
- 参考スコア(独自算出の注目度): 3.710529259029568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robotic manipulation policies through supervised learning from demonstrations remains challenging when policies encounter execution variations not explicitly covered during training. While incorporating historical context through attention mechanisms can improve robustness, standard approaches process all past states in a sequence without explicitly modeling the temporal structure that demonstrations may include, such as failure and recovery patterns. We propose a Cross-State Transition Attention Transformer that employs a novel State Transition Attention (STA) mechanism to modulate standard attention weights based on learned state evolution patterns, enabling policies to better adapt their behavior based on execution history. Our approach combines this structured attention with temporal masking during training, where visual information is randomly removed from recent timesteps to encourage temporal reasoning from historical context. Evaluation in simulation shows that STA consistently outperforms standard cross-attention and temporal modeling approaches like TCN and LSTM networks across all tasks, achieving more than 2x improvement over cross-attention on precision-critical tasks.
- Abstract(参考訳): デモから教師付き学習を通じてロボット操作ポリシーを学ぶことは、トレーニング中に明示的にカバーされない実行のバリエーションに直面するポリシーが困難である。
注意機構を通じて歴史的なコンテキストを組み込むことでロバスト性を改善することができるが、標準的なアプローチでは、障害や回復パターンなど、デモに含まれる可能性のある時間構造を明示的にモデル化することなく、すべての過去の状態をシーケンスで処理する。
本研究では、学習状態の進化パターンに基づいて標準注意重みを変調する新しい状態遷移注意変換機構(STA)を用いて、ポリシーが実行履歴に基づいて行動に適応できるようにするクロスステート遷移注意変換器を提案する。
我々のアプローチは、この構造化された注意とトレーニング中の時間的マスキングを組み合わせることで、最近の時間経過から視覚情報をランダムに取り除き、歴史的文脈からの時間的推論を促進する。
シミュレーションによる評価では、STAは全タスクにわたって標準のクロスアテンションおよび時間的モデリングアプローチ、例えばTCNやLSTMネットワークを一貫して上回り、精度クリティカルなタスクにおけるクロスアテンションよりも2倍以上の改善を実現している。
関連論文リスト
- PLanTS: Periodicity-aware Latent-state Representation Learning for Multivariate Time Series [10.332959619473652]
本稿では,不規則状態とその遷移を明示的にモデル化した周期性を考慮した自己教師型学習フレームワークPLanTSを提案する。
PLanTSは既存のSSLメソッドよりも一貫して表現品質を改善し、DTWベースのメソッドよりも優れた実行効率を示す。
論文 参考訳(メタデータ) (2025-09-05T20:10:09Z) - E-CaTCH: Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling for Misinformation Detection [4.34871407874107]
E-CaTCHはソーシャルメディア上の誤情報を堅牢に検出するためのフレームワークである。
テキストの類似性と時間的近接性に基づいて、ポストを擬似イベントに集約し、各イベントを独立して処理する。
E-CaTCHは、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-15T04:13:23Z) - SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations [68.9300049150948]
インタラクション実証(Reinforcement Demonstration, RLID)からの強化学習における根本的な課題に対処する。
既存のデータ収集アプローチはスパース、非接続、ノイズのトラジェクトリを生成し、スキルのバリエーションとトランジションの完全なスペクトルをキャプチャできない。
本稿では,実証技術間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と,実証地区内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T13:00:29Z) - Community-Aware Temporal Walks: Parameter-Free Representation Learning on Continuous-Time Dynamic Graphs [3.833708891059351]
Community-Aware Temporal Walks (CTWalks)は、連続時間動的グラフ上での表現学習のための新しいフレームワークである。
CTWalksは、コミュニティベースのパラメータフリー時間ウォークサンプリング機構、コミュニティラベルに富んだ匿名化戦略、エンコーディングプロセスを統合する。
ベンチマークデータセットの実験では、CTWalksは時間リンク予測タスクにおいて確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-21T04:16:46Z) - Disentangling Latent Shifts of In-Context Learning with Weak Supervision [0.0]
In-context Learning (ICL)により、大規模言語モデルでは、プロンプト内のラベル付き例を条件にすることで、少数ショット学習が可能となる。
柔軟性にも拘わらず、ICLはより多くのデモで即時長が増加するにつれて不安定に悩まされる。
提案手法は,実演による潜時変化をクエリから切り離すパラメータ効率の手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T13:00:21Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-02-19T15:47:24Z) - Parallel Attention Forcing for Machine Translation [1.4213973379473654]
注意に基づく自己回帰モデルは、様々なシーケンス・ツー・シーケンスタスクにおいて最先端のパフォーマンスを達成した。
標準的なトレーニングアプローチである教師強制は、参照バックヒストリーでモデルをガイドする。
本稿では,これらの課題に対処するための2つの注意力拡張について紹介する。
論文 参考訳(メタデータ) (2022-11-06T23:29:07Z) - Spatial Entropy Regularization for Vision Transformers [71.44392961125807]
視覚変換器(VT)は、訓練が監督されたときに自然に出現しない意味的セグメンテーション構造を含むことができる。
本稿では,情報エントロピーの空間的定式化に基づくVT正規化手法を提案する。
提案手法は,異なるトレーニングシナリオ,データセット,下流タスク,VTアーキテクチャに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-06-09T17:34:39Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。