論文の概要: Pixel Motion as Universal Representation for Robot Control
- arxiv url: http://arxiv.org/abs/2505.07817v1
- Date: Mon, 12 May 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.540421
- Title: Pixel Motion as Universal Representation for Robot Control
- Title(参考訳): ロボット制御のためのユニバーサル表現としての画素運動
- Authors: Kanchana Ranasinghe, Xiang Li, Cristina Mata, Jongwoo Park, Michael S Ryoo,
- Abstract要約: LangToMoは、ピクセルの動き予測を中間表現として使用するビジョンキャプチャーアクションフレームワークである。
システム1は、モーション・ツー・アクションマッピング機能を通じて、ピクセルの動きをロボット動作に変換する。
システム2は、疎時間間隔で適用される高レベルポリシーとして機能し、システム1は密時間間隔で低レベルポリシーとして機能する。
- 参考スコア(独自算出の注目度): 35.03696773312879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LangToMo, a vision-language-action framework structured as a dual-system architecture that uses pixel motion forecasts as intermediate representations. Our high-level System 2, an image diffusion model, generates text-conditioned pixel motion sequences from a single frame to guide robot control. Pixel motion-a universal, interpretable, and motion-centric representation-can be extracted from videos in a self-supervised manner, enabling diffusion model training on web-scale video-caption data. Treating generated pixel motion as learned universal representations, our low level System 1 module translates these into robot actions via motion-to-action mapping functions, which can be either hand-crafted or learned with minimal supervision. System 2 operates as a high-level policy applied at sparse temporal intervals, while System 1 acts as a low-level policy at dense temporal intervals. This hierarchical decoupling enables flexible, scalable, and generalizable robot control under both unsupervised and supervised settings, bridging the gap between language, motion, and action. Checkout https://kahnchana.github.io/LangToMo for visualizations.
- Abstract(参考訳): 本稿では、画素の動き予測を中間表現として使用するデュアルシステムアーキテクチャとして構成された視覚言語アクションフレームワークであるLangToMoを提案する。
画像拡散モデルである高レベルシステム2は、単一のフレームからテキスト条件のピクセルの動きシーケンスを生成し、ロボット制御を誘導する。
カメラモーション(英: Pixel motion)は、Webスケールのビデオキャプチャーデータに基づく拡散モデルトレーニングを可能にする、動画から、普遍的、解釈可能、および動き中心の表現を自己監督的に抽出することができる。
生成したピクセルの動きを普遍的な表現として扱うことで、私たちの低レベルシステム1モジュールは、これらをモーション・ツー・アクションマッピング機能を通じてロボットアクションに変換します。
システム2は、疎時間間隔で適用される高レベルポリシーとして機能し、システム1は密時間間隔で低レベルポリシーとして機能する。
この階層的な分離は、教師なしと教師なしの両方の設定下で柔軟でスケーラブルで汎用的なロボット制御を可能にし、言語、動き、行動のギャップを埋める。
視覚化はhttps://kahnchana.github.io/LangToMoを参照。
関連論文リスト
- TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control [62.93681680333618]
TextOpはリアルタイムテキスト駆動型ヒューマノイドモーション生成および制御フレームワークである。
ストリーミング言語コマンドと実行中のオンザフライ命令修正をサポートする。
対話型モーション生成を堅牢な全身制御でブリッジすることで、TextOpは自由形式のインテント表現をアンロックする。
論文 参考訳(メタデータ) (2026-02-07T08:42:11Z) - Image Generation as a Visual Planner for Robotic Manipulation [0.0]
リアルなロボット操作ビデオを生成することは、エンボディエージェントの知覚、計画、行動を統合するための重要なステップである。
本稿では,(1)言語命令と第1フレームを使用するテキスト条件生成と,(2)2次元トラジェクトリオーバーレイと同一初期フレームを使用するトラジェクトリ条件生成とを含む2部構成のフレームワークを提案する。
以上の結果から,予め訓練した画像生成装置は,移動可能な時間的先行を符号化し,最小限の監督下でビデオライクなロボットプランナーとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-29T15:54:16Z) - Pixel Motion Diffusion is What We Need for Robot Control [38.925028601732116]
DAWNは言語条件のロボット操作のための統合拡散ベースのフレームワークである。
高レベルの動き意図と低レベルのロボット動作を、構造化されたピクセルの動き表現を介してブリッジする。
DAWNは、挑戦的なCALVINベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-26T17:59:59Z) - Vidar: Embodied Video Diffusion Model for Generalist Bimanual Manipulation [21.424029706788883]
アクション推論のためのビデオ拡散(Vidar)について紹介する。
実世界の3つのロボットプラットフォームから、750Kのマルチビュービデオ上で、ビデオ拡散モデルを事前訓練する。
ロボットプラットフォーム上での人間によるデモはわずか20分で終わるが、Vidarは目に見えないタスクや背景を、強力なセマンティックな理解で一般化する。
論文 参考訳(メタデータ) (2025-07-17T08:31:55Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction [10.38090975412416]
ロボットが障害から回復するためには、一般化可能な自己補正システムの構築が不可欠である。
我々は,高レベルな意味的反射と低レベルなロボット動作補正を接続するブリッジとして動作指示を利用するPhoenixフレームワークを構築した。
RoboMimicシミュレーションと実世界のシナリオの両方で実施された実験は、我々のフレームワークのより優れた一般化とロバスト性を証明する。
論文 参考訳(メタデータ) (2025-04-20T12:30:43Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Unimotion: Unifying 3D Human Motion Synthesis and Understanding [47.18338511861108]
フレキシブル・モーション・コントロールとフレームレベルのモーション・理解を両立できる初のマルチタスク・ヒューマン・モーション・モデルであるUnimotionを導入する。
Unimotionは、グローバルテキストやローカルフレームレベルのテキストでモーションを制御できる。
論文 参考訳(メタデータ) (2024-09-24T09:20:06Z) - Robot Manipulation in Salient Vision through Referring Image Segmentation and Geometric Constraints [1.256530849333063]
言語表現からの微細粒界と構造セグメンテーションのための軽量参照画像セグメンテーションモデルを提案する。
実世界におけるロボット制御を実現するために,視覚サーボシステムにモデルを配置する。
論文 参考訳(メタデータ) (2024-09-17T19:40:28Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Motion-I2V: Consistent and Controllable Image-to-Video Generation with
Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。
I2Vを2段階に分解し、明示的なモーションモデリングを行う。
Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文 参考訳(メタデータ) (2024-01-29T09:06:43Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion
Synthesis System [51.43113919042621]
本稿では,長期・多動作型人体動作合成のためのニューラルネットワークシステムを提案する。
このシステムは、単純なユーザ入力からスムーズな遷移を伴う有意義な動作を生成することができる。
また,マルチアクション動作合成タスクに特化した新しいデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-27T07:10:20Z) - Neural Network Based Lidar Gesture Recognition for Realtime Robot
Teleoperation [0.0]
移動ロボット制御のための低複雑さライダージェスチャー認識システムを提案する。
このシステムは軽量で、限られた計算能力を持つ移動ロボット制御に適している。
ライダーの使用はシステムの堅牢性に寄与し、ほとんどの屋外環境での運用を可能にしている。
論文 参考訳(メタデータ) (2021-09-17T00:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。