論文の概要: ActionSink: Toward Precise Robot Manipulation with Dynamic Integration of Action Flow
- arxiv url: http://arxiv.org/abs/2508.03218v1
- Date: Tue, 05 Aug 2025 08:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.871272
- Title: ActionSink: Toward Precise Robot Manipulation with Dynamic Integration of Action Flow
- Title(参考訳): ActionSink:アクションフローの動的統合による精密ロボットマニピュレーションを目指して
- Authors: Shanshan Guo, Xiwen Liang, Junfan Lin, Yuzheng Zhuang, Liang Lin, Xiaodan Liang,
- Abstract要約: 本稿では,アクション推定のための新しいロボット操作フレームワークであるActionSinkを紹介する。
その名前が示すように、ActionSinkは、アクションフローと呼ばれるビデオからのアクション起因の光学フローとして、ロボットのアクションを再構成する。
我々のフレームワークは,LIBEROベンチマークのSOTAよりも7.9%向上し,長軸視覚課題LIBERO-Longの精度は8%近く向上した。
- 参考スコア(独自算出の注目度): 93.00917887667234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-instructed robot manipulation has garnered significant interest due to the potential of learning from collected data. While the challenges in high-level perception and planning are continually addressed along the progress of general large pre-trained models, the low precision of low-level action estimation has emerged as the key limiting factor in manipulation performance. To this end, this paper introduces a novel robot manipulation framework, i.e., ActionSink, to pave the way toward precise action estimations in the field of learning-based robot manipulation. As the name suggests, ActionSink reformulates the actions of robots as action-caused optical flows from videos, called "action flow", in a self-supervised manner, which are then used to be retrieved and integrated to enhance the action estimation. Specifically, ActionSink incorporates two primary modules. The first module is a coarse-to-fine action flow matcher, which continuously refines the accuracy of action flow via iterative retrieval and denoising process. The second module is a dynamic action flow integrator, which employs a working memory pool that dynamically and efficiently manages the historical action flows that should be used to integrate to enhance the current action estimation. In this module, a multi-layer fusion module is proposed to integrate direct estimation and action flows from both the current and the working memory, achieving highly accurate action estimation through a series of estimation-integration processes. Our ActionSink framework outperformed prior SOTA on the LIBERO benchmark by a 7.9\% success rate, and obtained nearly an 8\% accuracy gain on the challenging long-horizon visual task LIBERO-Long.
- Abstract(参考訳): 言語で指示されたロボット操作は、収集されたデータから学習する可能性から、大きな関心を集めている。
高レベルの知覚と計画の課題は、一般的な大規模事前訓練モデルの進行に伴って継続的に対処されるが、低レベルの行動推定の低精度が操作性能の鍵となる要因として現れている。
そこで本研究では,学習型ロボット操作の分野における高精度な行動推定への道を開くために,新しいロボット操作フレームワークであるActionSinkを紹介する。
名前が示すように、ActionSinkは、ロボットのアクションを「アクションフロー」と呼ばれるビデオからのアクション起因の光学フローとして自己監督的な方法で再構成し、その後、アクション推定を強化するために検索と統合に使用される。
具体的には、ActionSinkには2つの主要なモジュールが含まれている。
第1のモジュールは粗いアクションフロー整流器であり、反復的検索および復調プロセスを通じて、アクションフローの精度を継続的に改善する。
第2のモジュールは動的アクションフローインテグレータであり、作業メモリプールを使用し、現在のアクション推定を強化するために使用するべき過去のアクションフローを動的かつ効率的に管理する。
本モジュールでは、電流と動作メモリの両方から直接推定と動作フローを統合するために多層融合モジュールを提案し、一連の推定積分プロセスを通じて高精度な動作推定を実現する。
私たちのActionSinkフレームワークは、LIBEROベンチマークのSOTAよりも7.9\%の成功率で優れており、挑戦的なロングホライゾン視覚タスクLIBERO-Longの精度が8倍近く向上した。
関連論文リスト
- EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow [10.674192015199996]
Embodiment-Centric Flow (EC-Flow)は、アクション未ラベルのビデオから操作を学ぶフレームワークである。
我々の重要な洞察は、エンボディメント固有のキネマティクスを取り入れることで、汎用的な操作シナリオへの一般化が著しく向上するということである。
EC-Flowを実行可能なロボットアクションに翻訳するには、キネマティックな制約を指定するのに標準的なロボットURDFファイルが必要である。
論文 参考訳(メタデータ) (2025-07-08T17:57:03Z) - FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation [34.045199714747596]
FlowRAMは、生成モデルを利用して地域認識を実現する新しいフレームワークである。
FlowRAMは4段階未満のステップで、さまざまな現実世界のタスクに対して物理的に妥当なアクションを生成することができる。
論文 参考訳(メタデータ) (2025-06-19T10:30:02Z) - Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers [23.292429025366417]
本稿では,逆ダイナミクスコントローラのアクションデータ効率向上を目的としたプランテイン制御フレームワークを提案する。
具体的には、Deep Koopman Operatorフレームワークを用いて力学系をモデル化し、観測のみの軌跡を用いて潜在動作表現を学習する。
この潜在表現は、線形アクションデコーダを用いて実高次元連続的なアクションに効果的にマッピングすることができる。
論文 参考訳(メタデータ) (2024-10-10T03:33:57Z) - Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本稿では,ロボット操作支援のためのフレームワークを提案する。
第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。
我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation [4.717749411286867]
バナナの皮剥きなどの変形可能な物体の長時間条件付きデキスタスロボット操作は問題となる。
本稿では,目標条件付きデュアルアクション・ディープ・模倣学習(DIL)アプローチを提案する。
論文 参考訳(メタデータ) (2022-03-18T05:17:00Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。