論文の概要: Intelligent Control of Robotic X-ray Devices using a Language-promptable Digital Twin
- arxiv url: http://arxiv.org/abs/2412.08020v1
- Date: Wed, 11 Dec 2024 02:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:12.231783
- Title: Intelligent Control of Robotic X-ray Devices using a Language-promptable Digital Twin
- Title(参考訳): 言語対応型ディジタルツインを用いたロボットX線デバイスの知的制御
- Authors: Benjamin D. Killeen, Anushri Suresh, Catalina Gomez, Blanca Inigo, Christopher Bailey, Mathias Unberath,
- Abstract要約: 自然言語はロボットC-アームX線システムを制御するために使用できる。
専門的なAIモデルは、X線画像を解釈して推論のセマンティック表現を作成する。
我々のシステムは、言語を通して誘導される柔軟で言語に整合したAIモデルを組み込んでいる。
- 参考スコア(独自算出の注目度): 4.633797083336808
- License:
- Abstract: Natural language offers a convenient, flexible interface for controlling robotic C-arm X-ray systems, making advanced functionality and controls accessible. However, enabling language interfaces requires specialized AI models that interpret X-ray images to create a semantic representation for reasoning. The fixed outputs of such AI models limit the functionality of language controls. Incorporating flexible, language-aligned AI models prompted through language enables more versatile interfaces for diverse tasks and procedures. Using a language-aligned foundation model for X-ray image segmentation, our system continually updates a patient digital twin based on sparse reconstructions of desired anatomical structures. This supports autonomous capabilities such as visualization, patient-specific viewfinding, and automatic collimation from novel viewpoints, enabling commands 'Focus in on the lower lumbar vertebrae.' In a cadaver study, users visualized, localized, and collimated structures across the torso using verbal commands, achieving 84% end-to-end success. Post hoc analysis of randomly oriented images showed our patient digital twin could localize 35 commonly requested structures to within 51.68 mm, enabling localization and isolation from arbitrary orientations. Our results demonstrate how intelligent robotic X-ray systems can incorporate physicians' expressed intent directly. While existing foundation models for intra-operative X-ray analysis exhibit failure modes, as they improve, they can facilitate highly flexible, intelligent robotic C-arms.
- Abstract(参考訳): 自然言語はロボットCアームのX線システムを制御し、高度な機能と制御を利用できる便利なフレキシブルなインタフェースを提供する。
しかし、言語インタフェースを有効にするには、推論のための意味表現を作成するためにX線画像を解釈する特殊なAIモデルが必要である。
このようなAIモデルの固定出力は、言語制御の機能を制限する。
言語を通じた柔軟な言語対応AIモデルを組み込むことで、さまざまなタスクやプロシージャのためのより汎用的なインターフェースが可能になる。
X線画像分割のための言語整合基盤モデルを用いて,所望の解剖学的構造を疎再構築した患者用デジタルツインを継続的に更新する。
これは、可視化、患者固有の視野調整、新しい視点からの自動照合などの自律的な機能をサポートし、「下腰椎のFocus in on the lower lumbar vertebrae」のコマンドを可能にしている。
調査では、ユーザーは言語コマンドを使って胴体を視覚化し、局所化し、統合した構造を作り、84%のエンド・ツー・エンドの成功を達成した。
画像解析の結果, デジタル双生児は一般に要求される35の構造物を51.68mm以内に局所化でき, 任意の方向からの局所化と隔離が可能であった。
我々の研究結果は、インテリジェントなX線システムが医師の表現された意図を直接組み込むことができることを示す。
術中X線分析のための既存の基礎モデルは、改善されるにつれて、高度に柔軟でインテリジェントなロボットCアームを促進することができる。
関連論文リスト
- VoxelPrompt: A Vision-Language Agent for Grounded Medical Image Analysis [9.937830036053871]
VoxelPromptは、自然言語、画像ボリューム、分析メトリクスの合同モデリングを通じて、様々な放射線学的な課題に取り組む。
我々は,VoxelPromptが数百の解剖学的,病理学的特徴を記述し,多くの複雑な形態的特性を計測し,病変の特徴をオープン言語で解析できることを示した。
論文 参考訳(メタデータ) (2024-10-10T22:11:43Z) - CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting [0.0]
胸部X線解釈のための基礎的視覚言語モデルとして, 一般に公開されている技術の現状を評価した。
視覚言語モデルは、しばしば自信のある言語と幻覚し、臨床解釈を遅くする。
我々は,CheXagentの線形プローブとBioViL-Tのフレーズグラウンドティングツールを用いて,エージェントベースの視覚言語によるレポート生成手法を開発した。
論文 参考訳(メタデータ) (2024-07-11T18:39:19Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - FluoroSAM: A Language-aligned Foundation Model for X-ray Image Segmentation [11.55858990545478]
我々は、1.6Mの合成X線画像に基づいて、ゼロから訓練されたセグメンテーション・アニーシング・モデルの言語対応版であるFluoroSAMを開発した。
FluoroSAMは0.51と0.79のDICEでテキストのみのプロンプトに基づいて骨質の解剖学的構造を分割することができる。
また、言語アライメントのおかげで、トレーニングセット以外のセグメントクラスへのゼロショットの一般化も可能である。
論文 参考訳(メタデータ) (2024-03-12T20:11:38Z) - MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation [28.497591315598402]
MLLM(Multimodal Large Language Models)は、様々な画像処理タスクで成功している。
胸部X線(CXR)の理解・生成におけるMLLMsの可能性について検討した。
論文 参考訳(メタデータ) (2023-12-04T06:40:12Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。