Fugu-MT 論文翻訳(概要): Pixel Motion as Universal Representation for Robot Control

論文の概要: Pixel Motion as Universal Representation for Robot Control

arxiv url: http://arxiv.org/abs/2505.07817v1
Date: Mon, 12 May 2025 17:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.540421
Title: Pixel Motion as Universal Representation for Robot Control
Title（参考訳）: ロボット制御のためのユニバーサル表現としての画素運動
Authors: Kanchana Ranasinghe, Xiang Li, Cristina Mata, Jongwoo Park, Michael S Ryoo,
Abstract要約: LangToMoは、ピクセルの動き予測を中間表現として使用するビジョンキャプチャーアクションフレームワークである。システム1は、モーション・ツー・アクションマッピング機能を通じて、ピクセルの動きをロボット動作に変換する。システム2は、疎時間間隔で適用される高レベルポリシーとして機能し、システム1は密時間間隔で低レベルポリシーとして機能する。
参考スコア（独自算出の注目度）: 35.03696773312879
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present LangToMo, a vision-language-action framework structured as a dual-system architecture that uses pixel motion forecasts as intermediate representations. Our high-level System 2, an image diffusion model, generates text-conditioned pixel motion sequences from a single frame to guide robot control. Pixel motion-a universal, interpretable, and motion-centric representation-can be extracted from videos in a self-supervised manner, enabling diffusion model training on web-scale video-caption data. Treating generated pixel motion as learned universal representations, our low level System 1 module translates these into robot actions via motion-to-action mapping functions, which can be either hand-crafted or learned with minimal supervision. System 2 operates as a high-level policy applied at sparse temporal intervals, while System 1 acts as a low-level policy at dense temporal intervals. This hierarchical decoupling enables flexible, scalable, and generalizable robot control under both unsupervised and supervised settings, bridging the gap between language, motion, and action. Checkout https://kahnchana.github.io/LangToMo for visualizations.
Abstract（参考訳）: 本稿では、画素の動き予測を中間表現として使用するデュアルシステムアーキテクチャとして構成された視覚言語アクションフレームワークであるLangToMoを提案する。画像拡散モデルである高レベルシステム2は、単一のフレームからテキスト条件のピクセルの動きシーケンスを生成し、ロボット制御を誘導する。カメラモーション(英: Pixel motion)は、Webスケールのビデオキャプチャーデータに基づく拡散モデルトレーニングを可能にする、動画から、普遍的、解釈可能、および動き中心の表現を自己監督的に抽出することができる。生成したピクセルの動きを普遍的な表現として扱うことで、私たちの低レベルシステム1モジュールは、これらをモーション・ツー・アクションマッピング機能を通じてロボットアクションに変換します。システム2は、疎時間間隔で適用される高レベルポリシーとして機能し、システム1は密時間間隔で低レベルポリシーとして機能する。この階層的な分離は、教師なしと教師なしの両方の設定下で柔軟でスケーラブルで汎用的なロボット制御を可能にし、言語、動き、行動のギャップを埋める。視覚化はhttps://kahnchana.github.io/LangToMoを参照。

関連論文リスト

Vidar: Embodied Video Diffusion Model for Generalist Bimanual Manipulation [21.424029706788883]
アクション推論のためのビデオ拡散(Vidar)について紹介する。実世界の3つのロボットプラットフォームから、750Kのマルチビュービデオ上で、ビデオ拡散モデルを事前訓練する。ロボットプラットフォーム上での人間によるデモはわずか20分で終わるが、Vidarは目に見えないタスクや背景を、強力なセマンティックな理解で一般化する。
論文参考訳（メタデータ） (2025-07-17T08:31:55Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction [10.38090975412416]
ロボットが障害から回復するためには、一般化可能な自己補正システムの構築が不可欠である。我々は,高レベルな意味的反射と低レベルなロボット動作補正を接続するブリッジとして動作指示を利用するPhoenixフレームワークを構築した。 RoboMimicシミュレーションと実世界のシナリオの両方で実施された実験は、我々のフレームワークのより優れた一般化とロバスト性を証明する。
論文参考訳（メタデータ） (2025-04-20T12:30:43Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
Unimotion: Unifying 3D Human Motion Synthesis and Understanding [47.18338511861108]
フレキシブル・モーション・コントロールとフレームレベルのモーション・理解を両立できる初のマルチタスク・ヒューマン・モーション・モデルであるUnimotionを導入する。 Unimotionは、グローバルテキストやローカルフレームレベルのテキストでモーションを制御できる。
論文参考訳（メタデータ） (2024-09-24T09:20:06Z)
Robot Manipulation in Salient Vision through Referring Image Segmentation and Geometric Constraints [1.256530849333063]
言語表現からの微細粒界と構造セグメンテーションのための軽量参照画像セグメンテーションモデルを提案する。実世界におけるロボット制御を実現するために,視覚サーボシステムにモデルを配置する。
論文参考訳（メタデータ） (2024-09-17T19:40:28Z)
Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文参考訳（メタデータ） (2024-02-20T01:43:51Z)
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。 I2Vを2段階に分解し、明示的なモーションモデリングを行う。 Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文参考訳（メタデータ） (2024-01-29T09:06:43Z)
NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion Synthesis System [51.43113919042621]
本稿では,長期・多動作型人体動作合成のためのニューラルネットワークシステムを提案する。このシステムは、単純なユーザ入力からスムーズな遷移を伴う有意義な動作を生成することができる。また,マルチアクション動作合成タスクに特化した新しいデータセットを提案する。
論文参考訳（メタデータ） (2022-09-27T07:10:20Z)
Neural Network Based Lidar Gesture Recognition for Realtime Robot Teleoperation [0.0]
移動ロボット制御のための低複雑さライダージェスチャー認識システムを提案する。このシステムは軽量で、限られた計算能力を持つ移動ロボット制御に適している。ライダーの使用はシステムの堅牢性に寄与し、ほとんどの屋外環境での運用を可能にしている。
論文参考訳（メタデータ） (2021-09-17T00:49:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。