論文の概要: ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics
- arxiv url: http://arxiv.org/abs/2605.18617v1
- Date: Mon, 18 May 2026 16:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.015891
- Title: ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics
- Title(参考訳): ManiSoft:ソフト・コンティニュム・ロボティクスのためのビジョンランゲージ・マニピュレーションを目指して
- Authors: Ziyu Wei, Luting Wang, Chen Gao, Li Wen, Si Liu,
- Abstract要約: ManiSoftは、ソフトアームを用いた視覚言語操作のためのベンチマークである。
現実的なソフトボディ力学と接触に富んだ相互作用を弾性力制約によって結合する。
ManiSoftは4つのタスクを定義し、それぞれが変形可能なコントロールの異なる側面を強調している。
- 参考スコア(独自算出の注目度): 18.85602008366256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing vision-language manipulation research targets rigid robotic arms, whose fixed morphology limits adaptability in cluttered or confined spaces. Soft robotic arms offer an appealing alternative due to their deformability, but confront challenges such as unreliable proprioception and distributed low-level actuation. To investigate these challenges, we introduce \ManiSoft, a benchmark for vision-language manipulation with soft arms. ManiSoft features a tailored simulator that couples realistic soft-body dynamics with contact-rich interactions via an elastic force constraint. On this basis, ManiSoft defines four tasks, each highlighting distinct aspects of deformable control, from basic end-effector coordination to obstacle avoidance. To support policy training and evaluation, \ManiSoft{} includes an automated pipeline that generates $6{,}300$ diverse scenes and corresponding expert trajectories. To produce high-quality trajectories at scale, we first employ a high-level planner to decompose each task into a sequence of waypoints, followed by a low-level reinforcement learning policy that generates torque commands to track waypoints. Benchmarking three representative policy models shows relatively promising results in clean scenes but substantial performance drop under randomization. Visualization analysis indicates that failures stem primarily from inaccurate visual estimation of proprioceptive state and limited exploitation of deformability for adaptive obstacle avoiding. We anticipate ManiSoft to serve as a valuable testbed, bridging the gap between rigid and soft arms in the context of vision-language manipulation. Out codes and datasets are released at https://buaa-colalab.github.io/ManiSoft.
- Abstract(参考訳): 既存の視覚言語操作研究の多くは、剛体ロボットアームをターゲットにしており、その固定形態は、散らばった空間や狭い空間における適応性を制限している。
ソフトロボットアームは変形性のために魅力的な代替手段を提供するが、信頼性の低い受容や低レベルの分散動作といった課題に直面している。
これらの課題を解明するために,ソフトアームを用いた視覚言語操作のベンチマークである \ManiSoft を紹介する。
ManiSoftは、リアルなソフトボディのダイナミクスと接触に富んだ相互作用を弾性力の制約によって結合する、調整されたシミュレータを備えている。
このベースで、ManiSoftは4つのタスクを定義し、それぞれが基本的なエンドエフェクタ調整から障害物回避まで、変形可能な制御の異なる側面を強調している。
ポリシーのトレーニングと評価をサポートするために、 \ManiSoft{}は、6,300$の多様なシーンとそれに対応する専門家の軌跡を生成する自動パイプラインを含んでいる。
高品質な軌道を大規模に生成するために,まず,各タスクを一連のウェイポイントに分解する高レベルプランナを用い,次に,ウェイポイントを追跡するトルクコマンドを生成する低レベル強化学習方針を定めている。
3つの代表的なポリシーモデルのベンチマークでは、クリーンなシーンでは比較的有望な結果を示すが、ランダム化ではパフォーマンスが大幅に低下する。
可視化分析の結果, 障害の原因は主に, 固有受容状態の不正確な視覚的推定と適応的障害物回避のための変形性の限定的利用であることがわかった。
ManiSoftは、視覚言語操作の文脈において、硬い腕と柔らかい腕の間のギャップを埋めて、貴重なテストベッドとして機能することを期待しています。
アウトコードとデータセットはhttps://buaa-colalab.github.io/ManiSoft.comで公開されている。
関連論文リスト
- ManiDreams: An Open-Source Library for Robust Object Manipulation via Uncertainty-aware Task-specific Intuitive Physics [5.503129542452224]
直感的な物理モデルを用いた不確実性認識操作計画のためのモジュラーフレームワークであるManiDreamsを,オープンソースとして公開した。
ManiDreamsは知覚、パラメトリック、構造という3つの不確実性の原因に対処している。
これは、分布結果に対する候補行動を評価するサンプル予測制約ループで、基本方針をラップする。
論文 参考訳(メタデータ) (2026-03-18T22:46:46Z) - Tactile Memory with Soft Robot: Robust Object Insertion via Masked Encoding and Soft Wrist [10.982180941605256]
我々は,ソフトハンドと検索制御を統合し,安全で堅牢な操作を可能にするシステムであるTactile Memory with Soft Robot (TaSo-bot)を紹介した。
このシステムの中核はMasked Tactile Trajectory Transformer (MATtext3$) で、ロボットの動作、触覚フィードバック、力トルク測定、および受容性信号の相互作用を共同でモデル化する。
MATtext3$は、すべての条件に対するベースラインよりも高い成功率を実現し、目に見えないペグや条件に適応する顕著な能力を示している。
論文 参考訳(メタデータ) (2026-01-27T07:04:01Z) - Learning Noise-Resilient and Transferable Graph-Text Alignment via Dynamic Quality Assessment [19.204800655283744]
テキスト分散グラフ(TAG)上のGFM(Pre-training Graph Foundation Models)は、検索、レコメンデーション、知識発見などのWebスケールアプリケーションの中心である。
ノードとテキスト間の厳密な1対1対応を前提としており、さまざまなデータ品質に適応できない静的アライメントの目標に依存しているため、ノイズの多い監視下では不安定である。
我々は,多対多の表現と保守的な一対一の目的を,監督品質に応じて動的に調整する品質対応グラフテキストアライメントフレームワークADAlignerを提案する。
論文 参考訳(メタデータ) (2025-10-22T09:01:17Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback [23.48582504679409]
最先端の政策モデルでさえ不安定な把握行動を示すことが多い。
視覚言語モデル誘導フィードバックによるグルーピング性能の向上を目的とした,プラグイン・アンド・プレイモジュールであるGraspCorrectを紹介する。
論文 参考訳(メタデータ) (2025-03-19T09:25:32Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - DiffVL: Scaling Up Soft Body Manipulation using Vision-Language Driven
Differentiable Physics [69.6158232150048]
DiffVLは、非専門家がソフトボディ操作タスクをコミュニケーションできるようにする手法である。
大規模言語モデルを用いてタスク記述を機械解釈可能な最適化対象に翻訳する。
論文 参考訳(メタデータ) (2023-12-11T14:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。