Fugu-MT 論文翻訳(概要): VOLT: Vision and Language Trajectory Segmentation for Faster-than-Demonstration Policies

論文の概要: VOLT: Vision and Language Trajectory Segmentation for Faster-than-Demonstration Policies

arxiv url: http://arxiv.org/abs/2606.06323v2
Date: Tue, 09 Jun 2026 15:35:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:57.939526
Title: VOLT: Vision and Language Trajectory Segmentation for Faster-than-Demonstration Policies
Title（参考訳）: VOLT: より高速なDemonstration Policiesのためのビジョンと言語軌道セグメンテーション
Authors: Robert Ramirez Sanchez, Daniel J. Evans, Dylan P. Losey, Siddarth Jain,
Abstract要約: 人間は、ロボットが実行するために必要なタスクよりも、タスクを示すのに時間がかかります。本稿では,視覚・言語トラジェクトリセグメンテーション手法VOLTを紹介する。 VOLTは遅い故意運動が必要なセグメントを特定し、残りのセグメントを選択的にダウンサンプリングする。
参考スコア（独自算出の注目度）: 7.210982964205077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans often take longer to demonstrate a task than a robot would need to execute it. Rather than learning to replicate the demonstration at the same pace, many industrial and practical applications require robots to perform tasks as quickly as possible. In this paper, we investigate several hypotheses for learning policies that operate faster-than-demonstrations. Our experiments show that the most effective strategy is to downsample recorded demonstrations and train the robot's policy on this accelerated data. However, uniformly downsampling an entire trajectory can be problematic. Some parts of a task can be safely sped up (e.g., unconstrained motion), while others demand slower, more precise motion (e.g., object interactions or fine manipulation). To address this challenge, we introduce VOLT, a vision-and-language trajectory segmentation method that reasons over video demonstrations, and leverages contextual cues to determine when acceleration is appropriate and when careful precision is required. VOLT identifies segments where slow, deliberate motion is necessary, then selectively downsamples the remaining segments. The resulting reformatted trajectories can be used with standard imitation learning approaches, such as diffusion policies. Our results highlight that segmentation quality is critical -- baseline methods often misidentify when acceleration is possible, leading to overly cautious or unreliable policies. Compared to state-of-the-art alternatives, VOLT allows robots to execute tasks faster while maintaining strong performance.
Abstract（参考訳）: 人間は、ロボットが実行するために必要なタスクよりも、タスクを示すのに時間がかかります。デモを同じペースで再現することを学ぶのではなく、多くの工業的および実践的なアプリケーションは、できるだけ早くタスクを実行するようロボットに要求する。本稿では,より高速に行動する学習方針に関するいくつかの仮説を考察する。我々の実験によると、最も効果的な戦略は、記録されたデモをダウンサンプルし、この加速されたデータに基づいてロボットのポリシーを訓練することである。しかし、全軌道を一様にダウンサンプリングすることは問題となる。タスクのいくつかの部分は安全に起動できる(例えば、制約のない動き)が、他の部分は遅く、より正確な動き(例えば、オブジェクトのインタラクションや微調整)を要求する。この課題に対処するために,ビデオのデモよりも視覚と言語によるトラジェクトリセグメンテーション手法VOLTを導入し,アクセラレーションがいつ適切か,そして注意深い精度が必要かを決定するために文脈的手がかりを活用する。 VOLTは遅い故意運動が必要なセグメントを特定し、残りのセグメントを選択的にダウンサンプリングする。結果として得られた改革された軌道は、拡散ポリシーのような標準的な模倣学習手法で利用することができる。セグメンテーションの質は重要であり、ベースラインの手法は加速が可能かを誤認することが多く、過度に慎重なポリシーや信頼できないポリシーをもたらす。最先端の代替技術と比較すると、VOLTはロボットが高い性能を維持しながらタスクを高速に実行できるようにする。

関連論文リスト

Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos [56.510263910611684]
本研究では,様々な動作を行う前に物体をつかむタスクを包括的操作に対処する。人間のビデオは、移植後の動作を学ぶための強力な信号を提供するが、必要な把握行動を学ぶのにはあまり役に立たない。本稿では、人間の動画モーションデータを用いたモジュラー操作ポリシーをトレーニングするためのフレームワークであるPerceive-Simulate-Imitate(PSI)を提案する。
論文参考訳（メタデータ） (2026-02-13T18:59:10Z)
Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文参考訳（メタデータ） (2025-09-11T17:59:07Z)
Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。 Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15～35%以上の絶対的な成功率を達成する。
論文参考訳（メタデータ） (2025-03-05T17:58:16Z)
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation [36.43143326197769]
Track-Any-Point (TAP) モデルは、デモ中の関連する動きを分離し、低レベルのコントローラをパラメータ化して、シーン構成の変化をまたいでこの動きを再現する。この結果は,形状整合,積み重ね,さらには接着や物体の付着といった完全な経路追従といった複雑な物体配置タスクを解くことのできるロバストなロボットポリシーで示される。
論文参考訳（メタデータ） (2023-08-30T11:57:04Z)
Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文参考訳（メタデータ） (2022-11-09T10:28:40Z)
Teaching Robots to Grasp Like Humans: An Interactive Approach [3.3836709236378746]
本研究は,実証と修正に基づいて,人間から把握する複雑な作業がどのように学習されるかを検討する。より良いデモを提供するように訓練する代わりに、専門家でないユーザには、最初のデモのダイナミクスをインタラクティブに修正する能力が提供される。
論文参考訳（メタデータ） (2021-10-09T10:27:50Z)
Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文参考訳（メタデータ） (2021-02-24T09:07:52Z)
Assembly robots with optimized control stiffness through reinforcement learning [3.4410212782758047]
本稿では,ロボットの性能向上のために強化学習を利用する手法を提案する。提案手法は,局所軌道最適化の性能向上に役立つ剛性行列のオンライン生成を保証する。本手法の有効性は,2つのコンタクトリッチタスクを含む実験により検証した。
論文参考訳（メタデータ） (2020-02-27T15:54:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。