Fugu-MT 論文翻訳(概要): CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

論文の概要: CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

arxiv url: http://arxiv.org/abs/2506.16263v1
Date: Thu, 19 Jun 2025 12:25:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.0665
Title: CapsDT: Diffusion-Transformer for Capsule Robot Manipulation
Title（参考訳）: CapsDT: カプセルロボット操作のための拡散変換器
Authors: Xiting He, Mingwu Su, Xinqi Jiang, Long Bai, Jiewen Lai, Hongliang Ren,
Abstract要約: VLA(Vision-Language-Action)モデルが顕著な研究領域として登場し、様々な応用において大きな可能性を示している。本研究では,胃内ロボット操作のためのDiffusion TransformerモデルであるCapsDTを設計する。本研究では,ロボットアーム付き磁石によって制御されるカプセル内視鏡ロボットシステムを開発した。
参考スコア（独自算出の注目度）: 6.540622306548993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models have emerged as a prominent research area, showcasing significant potential across a variety of applications. However, their performance in endoscopy robotics, particularly endoscopy capsule robots that perform actions within the digestive system, remains unexplored. The integration of VLA models into endoscopy robots allows more intuitive and efficient interactions between human operators and medical devices, improving both diagnostic accuracy and treatment outcomes. In this work, we design CapsDT, a Diffusion Transformer model for capsule robot manipulation in the stomach. By processing interleaved visual inputs, and textual instructions, CapsDT can infer corresponding robotic control signals to facilitate endoscopy tasks. In addition, we developed a capsule endoscopy robot system, a capsule robot controlled by a robotic arm-held magnet, addressing different levels of four endoscopy tasks and creating corresponding capsule robot datasets within the stomach simulator. Comprehensive evaluations on various robotic tasks indicate that CapsDT can serve as a robust vision-language generalist, achieving state-of-the-art performance in various levels of endoscopy tasks while achieving a 26.25% success rate in real-world simulation manipulation.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルが顕著な研究領域として登場し、様々な応用において大きな可能性を示している。しかし、内視鏡ロボティクス、特に消化器系内での動作を行う内視鏡カプセルロボットにおけるそれらの性能は未解明のままである。 VLAモデルの内視鏡ロボットへの統合により、人間のオペレーターと医療機器とのより直感的で効率的な相互作用が可能になり、診断精度と治療結果の両方が改善される。本研究では,胃内ロボット操作のためのDiffusion TransformerモデルであるCapsDTを設計する。インターリーブされた視覚入力とテキスト命令を処理することにより、CapsDTは対応するロボット制御信号を推論し、内視鏡作業を容易にする。さらに,ロボットアーム付き磁石で制御されるカプセルロボットであるカプセル内視鏡ロボットシステムを開発し,4つの内視鏡タスクのレベルに対処し,胃シミュレータ内で対応するカプセルロボットデータセットを作成する。様々なロボットタスクに関する総合的な評価は、CapsDTが実世界のシミュレーション操作において26.25%の成功率を達成しつつ、様々なレベルの内視鏡タスクにおいて最先端のパフォーマンスを達成し、堅牢な視覚言語ジェネラリストとして機能できることを示している。

関連論文リスト

FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文参考訳（メタデータ） (2025-01-16T18:57:04Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。 5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文参考訳（メタデータ） (2024-03-25T13:09:40Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
General-purpose foundation models for increased autonomy in robot-assisted surgery [4.155479231940454]
本稿では,ロボット支援手術における自律性向上を目指す。手術ロボットは汎用モデルの利点を享受し,ロボット支援手術における自律性向上に向けた3つの指針を提供する。
論文参考訳（メタデータ） (2024-01-01T06:15:16Z)
RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation [33.10577695383743]
ロボット操作のためのマルチタスク汎用エージェントRoboCatを提案する。このデータは、シミュレートされた本物のロボットアームから、さまざまな観察とアクションのセットでモーターコントロールスキルの大規模なレパートリーにまたがる。 RoboCatでは、ゼロショットだけでなく、100-1000例のみを用いて適応することで、新しいタスクやロボットに一般化する能力を実証する。
論文参考訳（メタデータ） (2023-06-20T17:35:20Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Collaborative Robotic Ultrasound Tissue Scanning for Surgical Resection Guidance in Neurosurgery [1.372026330898297]
本研究の目的は、自律型iUS組織スキャンのためのロボットプラットフォームを導入することである。提案プラットフォームの重要な応用は、腫瘍切除をガイドする脳組織のスキャンである。
論文参考訳（メタデータ） (2023-01-19T17:05:07Z)
Robotic Navigation Autonomy for Subretinal Injection via Intelligent Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。ブタ前眼の精度と再現性について実験を行った。
論文参考訳（メタデータ） (2023-01-17T21:41:21Z)
ColibriDoc: An Eye-in-Hand Autonomous Trocar Docking System [46.91300647669861]
コンピュータビジョンとロボットセットアップを組み合わせた,自律型トロカードッキングプラットフォームを提案する。キューバのColibri(ハミングバード)にインスパイアされたそのくちばしは、視覚だけで花に合わせる。
論文参考訳（メタデータ） (2021-11-30T13:21:37Z)
Using Conditional Generative Adversarial Networks to Reduce the Effects of Latency in Robotic Telesurgery [0.0]
手術では、どんなマイクロ遅延でも重傷を負い、場合によっては致命傷を負うことがある。現在の外科用ロボットは、腕や道具の位置を測定するために校正されたセンサーを使用している。本研究は、患者の組織に関するツール位置を測定するための、純粋に光学的なアプローチを提案する。
論文参考訳（メタデータ） (2020-10-07T13:40:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。