論文の概要: Autonomous Skeletal Landmark Localization towards Agentic C-Arm Control
- arxiv url: http://arxiv.org/abs/2604.18740v1
- Date: Mon, 20 Apr 2026 18:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.431171
- Title: Autonomous Skeletal Landmark Localization towards Agentic C-Arm Control
- Title(参考訳): エージェントC-Arm制御に向けた自律的骨格ランドマーク位置決め
- Authors: Jay Jung, Ahmad Arrabi, Jax Luo, Scott Raymond, Safwan Wshah,
- Abstract要約: MLLM(Multimodal large language model)に基づくエージェントC-arm制御フレームワークが非常に望ましい。
骨格ランドマークの局所化はCアーム制御に不可欠であり,自律的ランドマークの局所化にMLLMを適用することを検討する。
- 参考スコア(独自算出の注目度): 1.9866981475156222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Automated C-arm positioning ensures timely treatment in patients requiring emergent interventions. When a conventional Deep Learning (DL) approach for C-arm control fails, clinicians must revert to manual operation, resulting in additional delays. Consequently, an agentic C-arm control framework based on multimodal large language models (MLLMs) is highly desirable, as it can incorporate clinician feedback and use reasoning to make adjustments toward more accurate positioning. Skeletal landmark localization is essential for C-arm control, and we investigate adapting MLLMs for autonomous landmark localization. Methods: We used an annotated synthetic X-ray dataset and a real X-ray dataset. Each X-ray in both datasets is paired with several skeletal landmarks. We fine-tuned two MLLMs and tasked them with retrieving the closest landmarks from each X-ray. Quantitative evaluations of landmark localization were performed and compared against a leading DL approach. We further conducted qualitative experiments demonstrating: (1) how an MLLM can correct an initially incorrect prediction through reasoning, and (2) how the MLLM can sequentially navigate the C-arm toward a target location. Results: On both datasets, fine-tuned MLLMs demonstrate competitive performance across all localization tasks when compared with the DL approach. In the qualitative experiments, the MLLMs provide evidence of reasoning and spatial awareness. Conclusion: This study shows that fine-tuned MLLMs achieve accurate skeletal landmark localization and hold promise for agentic autonomous C-arm control. Our code is available athttps://github.com/marszzibros/C-arm-localization-LLMs.git
- Abstract(参考訳): 目的:C腕自動位置決めは緊急介入を必要とする患者の時間的治療を保証する。
C-armコントロールのための従来のDeep Learning (DL)アプローチが失敗すると、臨床医は手動操作に戻らなければならない。
その結果,マルチモーダルな大規模言語モデル(MLLM)に基づくエージェントC-アーム制御フレームワークが望まれている。
骨格ランドマークの局所化はCアーム制御に不可欠であり,自律的ランドマークの局所化にMLLMを適用することを検討する。
方法: 注釈付き合成X線データセットと実X線データセットを用いた。
両方のデータセットのX線は、いくつかの骨格のランドマークとペアリングされる。
我々は2つのMLLMを微調整し、各X線から最も近いランドマークを取得するよう指示した。
ランドマークの局所化を定量的に評価し, 先行DL法と比較した。
我々はさらに,(1)MLLMが推論によって初期誤予測をいかに修正できるか,(2)MLLMがCアームを目標位置に向けて順次ナビゲートできるか,といった定性的な実験を行った。
結果: 両方のデータセットにおいて, 微調整MLLMは, DLアプローチと比較して, 全ローカライゼーションタスク間の競合性能を示す。
定性的実験では、MLLMは推論と空間認識の証拠を提供する。
結論: 本研究は, 細調整されたMLLMが正確な骨格のランドマークの局在を達成し, エージェント式自律式C-アーム制御の可能性を秘めていることを示す。
私たちのコードはhttps://github.com/marszzibros/C-arm-localization-LLMs.gitで利用可能です。
関連論文リスト
- Synergizing Discriminative Exemplars and Self-Refined Experience for MLLM-based In-Context Learning in Medical Diagnosis [4.619078510367921]
クリニック・ミメティックは、差別的模範的コアセット選択(DECS)と自己修正経験要約(SRES)を相乗化するために設計された新しいインコンテキスト・ラーニング(ICL)フレームワークである。
DECSは、ノイズデータから識別的視覚コアセットを計算レベルで選択することで、臨床医の「アンカーケース」を参照する能力をシミュレートする。
SRESは、多様なロールアウトを動的テキスト体験銀行に蒸留することにより、臨床診断における認知と反射を模倣する。
論文 参考訳(メタデータ) (2026-03-29T15:29:59Z) - PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency [22.13541624406203]
VLM(Vision-Language Models)は、解釈可能な画像解析、自動レポート、スケーラブルな意思決定支援を可能にすることにより、計算病理学において大きな可能性を秘めている。
このギャップに対処するために,3次元にわたる病理VLMを評価する新しい基準フリー評価フレームワークPathGLSを提案する。
The Experiments on Quilt-1M, TCGA, REG2025, PathMMU and TCGA-Sarcoma datasets showed the superiority of PathGLS。
論文 参考訳(メタデータ) (2026-03-17T04:25:55Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - SUGAR: Learning Skeleton Representation with Visual-Motion Knowledge for Action Recognition [70.56416162106036]
我々は行動認識のためのvisUal-motion knowledGe(SUGAR)を紹介する。
パイプラインでは、まず、市販の大規模ビデオモデルを知識ベースとして利用し、アクションに関連する視覚的、運動的な情報を生成する。
これらの表現を理解して、所望のアクションターゲットと記述を生成するために、未修正の事前学習重み付きLLMを使用する。
論文 参考訳(メタデータ) (2025-11-13T08:45:24Z) - Automated C-Arm Positioning via Conformal Landmark Localization [1.8749230688537357]
我々は,X線画像を利用してCアームを解剖学的ランドマークに自律的にナビゲートするパイプラインを提案する。
操作テーブル上の任意の開始位置から入力されたX線画像が与えられた場合、モデルは、体に沿った各目標ランドマークに対する3次元変位ベクトルを予測する。
我々は、DeepDRRから生成された合成X線データセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-10-17T19:04:08Z) - Spatial Preference Rewarding for MLLMs Spatial Understanding [92.25703021388142]
マルチモーダル大言語モデル (MLLM) は, 有望な空間理解能力を示した。
彼らの成功にもかかわらず、MLLMは依然として微粒な空間知覚能力に不足している。
本稿では,MLLMの空間能力を高めるSPR(Spatial Preference Rewarding)アプローチを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:16:18Z) - Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation [3.952186976672079]
本稿では,高速エンジニアリングや小型微調整を含む軽量な介入により,探索手法の計算オーバーヘッドを伴わずに精度を向上できることを示す。
階層的なニアミスエラーに対処するために,単体タスクとパイプラインコンポーネントの両方に臨床コード検証を導入する。
論文 参考訳(メタデータ) (2025-10-08T23:50:58Z) - Exploring the Capabilities of LLM Encoders for Image-Text Retrieval in Chest X-rays [8.019362739504087]
視覚言語による事前訓練は画像とテキストのアライメントが進んでいるが、臨床報告の不均一性によって放射線学の進歩が制限されている。
我々は,大規模言語モデル (LLM) エンコーダが,多様なスタイルにまたがる堅牢な臨床表現を提供できるかどうかを問う。
胸部X線レポート用のドメイン適応エンコーダLLM2VEC4CXRと、このエンコーダとビジョンバックボーンを結合するデュアルトウワーフレームワークLLM2CLIP4CXRを紹介する。
論文 参考訳(メタデータ) (2025-09-17T09:44:59Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。