論文の概要: TransMASK: Masked State Representation through Learned Transformation
- arxiv url: http://arxiv.org/abs/2603.05670v1
- Date: Thu, 05 Mar 2026 20:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.959849
- Title: TransMASK: Masked State Representation through Learned Transformation
- Title(参考訳): TransMASK:学習型変換によるマスケ状態表現
- Authors: Sagar Parekh, Preston Culbertson, Dylan P. Losey,
- Abstract要約: 人間はロボットを訓練してひとつの環境でタスクを完了させ、ロボットが新しい環境で同じタスクを実行することを期待する。
人間として、我々は環境のどの側面(すなわち状態)がタスクに関連しているかを知っている。
本稿では,その状態を関連する要素に偏った潜在表現に変換するマスクを学習するための自己教師型手法を提案する。
- 参考スコア(独自算出の注目度): 6.4469081197749345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans train robots to complete tasks in one environment, and expect robots to perform those same tasks in new environments. As humans, we know which aspects of the environment (i.e., the state) are relevant to the task. But there are also things that do not matter; e.g., the color of the table or the presence of clutter in the background. Ideally, the robot's policy learns to ignore these irrelevant state components. Achieving this invariance improves generalization: the robot knows not to factor irrelevant variables into its control decisions, making the policy more robust to environment changes. In this paper we therefore propose a self-supervised method to learn a mask which, when multiplied by the observed state, transforms that state into a latent representation that is biased towards relevant elements. Our method -- which we call TransMASK -- can be combined with a variety of imitation learning frameworks (such as diffusion policies) without any additional labels or alterations to the loss function. To achieve this, we recognize that the learned policy updates to better match the human's true policy. This true policy only depends on the relevant parts of the state; hence, as the gradients pass back through the learned policy and our proposed mask, they increase the value for elements that cause the robot to better imitate the human. We can therefore train TransMASK at the same time as we learn the policy. By normalizing the magnitude of each row in TransMASK, we force the mask to align with the Jacobian of the expert policy: columns that correspond to relevant states have large magnitudes, while columns for irrelevant states approach zero magnitude. We compare our approach to other methods that extract relevant states for downstream imitation learning. See our project website: https://collab.me.vt.edu/TransMASK/
- Abstract(参考訳): 人間はロボットを訓練してひとつの環境でタスクを完了させ、ロボットが新しい環境で同じタスクを実行することを期待する。
人間として、我々は環境のどの側面(すなわち状態)がタスクに関連しているかを知っている。
しかし、テーブルの色や乱雑な背景の存在など、重要ではないものもあります。
理想的には、ロボットのポリシーは、これらの無関係な状態コンポーネントを無視することを学ぶ。
ロボットは、無関係な変数を制御決定に分解しないことを知っており、環境変化に対するポリシーをより堅牢にする。
そこで本稿では,観測状態に乗じると,その状態を関連する要素に偏った潜在表現に変換するマスクを自己指導的に学習する手法を提案する。
われわれはTransMASKと呼ぶ手法を、損失関数にラベルや変更を加えることなく、様々な模倣学習フレームワーク(拡散ポリシーなど)と組み合わせることができる。
これを達成するために、学習されたポリシーが人間の真のポリシーによく合うように更新されることを認識します。
この真のポリシーは、状態の関連部分のみに依存するため、勾配が学習されたポリシーと提案されたマスクを通り抜けるにつれて、ロボットが人間をよりよく模倣する要素の価値が増大する。
したがって、ポリシを学ぶと同時に、TransMASKをトレーニングすることができます。
トランスMASKにおける各行の大きさを正規化することにより、マスクはエキスパートポリシーのヤコビアンと整合するように強制される: 関連する状態に対応する列は大きな大きさを持ち、無関係な状態に対する列はゼロ等級に近づく。
我々は、下流模倣学習の関連状態を抽出する他の手法と比較する。
プロジェクトのWebサイト https://collab.me.vt.edu/TransMASK/
関連論文リスト
- Flow Policy Gradients for Robot Control [67.61978635211048]
フローマッチングポリシ勾配は、より表現力のあるポリシのトレーニングと微調整に有効である。
我々は、スクラッチからトレーニングを行う際に、フロー表現をどのように活用するかを示し、ベースラインよりもきめ細やかな堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-02T18:56:49Z) - Prepare Before You Act: Learning From Humans to Rearrange Initial States [4.637185817866919]
イミテーション学習(IL)は、幅広い操作タスクで有効であることが証明されている。
本稿では,初期状態を取り,オブジェクトのポーズを自律的に修正するアルゴリズムReSETを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:18:52Z) - Grounding Bodily Awareness in Visual Representations for Efficient Policy Learning [1.8810643529425775]
視覚変換器(ViT)のトークンレベル表現に適用するコントラスト学習手法であるIConを提案する。
IConはエージェント固有のトークンと環境固有のトークンの間の特徴空間の分離を強制し、結果としてエージェント中心の視覚表現がボディ固有の帰納バイアスを埋め込む。
実験の結果、IConは様々な操作タスク間でポリシー性能を向上させるだけでなく、異なるロボット間でポリシー伝達を促進することがわかった。
論文 参考訳(メタデータ) (2025-05-24T03:25:37Z) - Local Policies Enable Zero-shot Long-horizon Manipulation [80.1161776000682]
ManipGenを紹介します。これはsim2real転送のための新しいポリシーのクラスであるローカルポリシーを活用します。
ManipGenは、SayCan、OpenVLA、LLMTrajGen、VoxPoserといったSOTAアプローチを、50の現実世界操作タスクで36%、76%、62%、60%で上回っている。
論文 参考訳(メタデータ) (2024-10-29T17:59:55Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Masked Imitation Learning: Discovering Environment-Invariant Modalities
in Multimodal Demonstrations [37.33625951008865]
外部データモダリティは、状態の過剰な特定につながる可能性がある。
状態の過度な特定は、トレーニングデータ配布の外部を一般化しない学習ポリシーのような問題につながる。
我々はこのマスクを学習し、過度に特定されたモダリティを正確にフィルタする二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-09-16T02:45:13Z) - Variational Meta Reinforcement Learning for Social Robotics [15.754961709819938]
社会ロボティクスは依然として多くの課題に直面している。
1つのボトルネックは、社会規範が環境に強く依存するため、ロボットの振る舞いを頻繁に適応させることである。
本研究ではメタ強化学習(meta-RL)を潜在的ソリューションとして検討する。
論文 参考訳(メタデータ) (2022-06-07T12:08:59Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。