論文の概要: Beyond Rigid AI: Towards Natural Human-Machine Symbiosis for Interoperative Surgical Assistance
- arxiv url: http://arxiv.org/abs/2507.23088v1
- Date: Wed, 30 Jul 2025 20:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.721796
- Title: Beyond Rigid AI: Towards Natural Human-Machine Symbiosis for Interoperative Surgical Assistance
- Title(参考訳): Rigid AIを超えて : 手術支援のための自然なヒト・マシーン共生を目指して
- Authors: Lalithkumar Seenivasan, Jiru Xu, Roger D. Soberanis Mukul, Hao Ding, Grayson Byrd, Yu-Chun Ku, Jose L. Porras, Masaru Ishii, Mathias Unberath,
- Abstract要約: この研究は、リアルタイム手術支援において、より自然な人間と機械の相互作用を可能にする新しい知覚エージェントを導入している。
我々のエージェントは、直感的な相互作用を通じて、手術シーンにおける既知の要素と見えない要素の両方を分割する柔軟性を提供する。
- 参考スコア(独自算出の注目度): 6.832434059337678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging surgical data science and robotics solutions, especially those designed to provide assistance in situ, require natural human-machine interfaces to fully unlock their potential in providing adaptive and intuitive aid. Contemporary AI-driven solutions remain inherently rigid, offering limited flexibility and restricting natural human-machine interaction in dynamic surgical environments. These solutions rely heavily on extensive task-specific pre-training, fixed object categories, and explicit manual-prompting. This work introduces a novel Perception Agent that leverages speech-integrated prompt-engineered large language models (LLMs), segment anything model (SAM), and any-point tracking foundation models to enable a more natural human-machine interaction in real-time intraoperative surgical assistance. Incorporating a memory repository and two novel mechanisms for segmenting unseen elements, Perception Agent offers the flexibility to segment both known and unseen elements in the surgical scene through intuitive interaction. Incorporating the ability to memorize novel elements for use in future surgeries, this work takes a marked step towards human-machine symbiosis in surgical procedures. Through quantitative analysis on a public dataset, we show that the performance of our agent is on par with considerably more labor-intensive manual-prompting strategies. Qualitatively, we show the flexibility of our agent in segmenting novel elements (instruments, phantom grafts, and gauze) in a custom-curated dataset. By offering natural human-machine interaction and overcoming rigidity, our Perception Agent potentially brings AI-based real-time assistance in dynamic surgical environments closer to reality.
- Abstract(参考訳): 外科的データ科学とロボティクスのソリューション、特にその場で補助を提供するように設計されたものは、適応的で直感的な補助を提供する可能性を完全に解き放つために、自然な人間と機械のインターフェースを必要とする。
現代のAI駆動ソリューションは本質的に厳格であり、柔軟性が制限され、動的な手術環境での自然な人間と機械の相互作用が制限される。
これらのソリューションは、タスク固有の事前トレーニング、固定オブジェクトカテゴリ、明示的な手動プロンプティングに大きく依存しています。
本研究は,音声統合型プロンプトエンジニアリング型大規模言語モデル(LLMs),セグメンテーション・アプライアンス・モデル(SAM),および任意の点追跡基盤モデルを活用した知覚エージェントを導入し,リアルタイム手術支援における人間と機械のより自然な相互作用を実現する。
メモリレポジトリと、見えない要素をセグメント化するための2つの新しいメカニズムを組み込んだPerception Agentは、直感的な相互作用を通じて、手術シーンにおける既知の要素と見えない要素の両方をセグメント化するための柔軟性を提供する。
今後の外科手術で使用する新しい要素を記憶する能力を取り入れたこの研究は,外科手術におけるヒト-機械共生への顕著な一歩を踏み出した。
公開データセットの定量的分析により、我々のエージェントの性能は、より労働集約的な手動プロンプティング戦略と同等であることを示す。
定性的に、我々はエージェントの柔軟性を示し、カスタマイズされたデータセットで新しい要素(構成要素、ファントムグラフト、ガーゼ)を分割する。
自然な人間と機械の相互作用を提供し、剛性を克服することで、知覚エージェントはAIベースの動的な外科的環境におけるリアルタイムのアシストを現実に近づける可能性がある。
関連論文リスト
- Mapping Neural Signals to Agent Performance, A Step Towards Reinforcement Learning from Neural Feedback [2.9060647847644985]
NEURO-LOOPは、人間とエージェントの相互作用を促進するために、本質的な人間報酬システムを利用する暗黙のフィードバックフレームワークである。
この研究は、NEURO-LOOPフレームワークにおける重要な第一歩である脳信号をエージェントのパフォーマンスにマッピングする可能性を示している。
従来の機械学習手法を用いて,fNIRSデータとエージェント性能の関係を検証した。
論文 参考訳(メタデータ) (2025-06-14T21:38:31Z) - 3HANDS Dataset: Learning from Humans for Generating Naturalistic Handovers with Supernumerary Robotic Limbs [64.99122701615151]
スーパー数式ロボットアーム(英: Supernumerary Robotics limbs、SRL)は、ユーザーの身体と密に統合されたロボット構造である。
3HANDSは,日常活動を行う参加者と,ヒップマウントSRLを自然な方法で実施する参加者との間の,オブジェクトハンドオーバインタラクションの新たなデータセットである。
本稿では,自然なハンドオーバ軌跡を生成する3つのモデル,適切なハンドオーバエンドポイントを決定する1つのモデル,ハンドオーバ開始のタイミングを予測する3つのモデルを提案する。
論文 参考訳(メタデータ) (2025-03-06T17:23:55Z) - Integrating Reinforcement Learning and AI Agents for Adaptive Robotic Interaction and Assistance in Dementia Care [5.749791442522375]
本研究では,社会的支援型ロボット,強化学習(RL),大規模言語モデル(LLM),臨床領域の専門知識をシミュレートされた環境に組み込むことにより,認知症ケアの進歩に向けた新たなアプローチを探求する。
論文 参考訳(メタデータ) (2025-01-28T06:38:24Z) - AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation [0.0]
オンラインニューログラフィック操作と深部探索によるユーザインタフェースの自律的変換
我々のエンジンはエージェントが複雑に理解し実装し、非並列な効率で動的Web環境に適応することを可能にする。
AUTONODEの汎用性と有効性は一連の実験を通じて実証され、様々なWebベースのタスクを管理する能力を強調している。
論文 参考訳(メタデータ) (2024-03-15T10:27:17Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - ST(OR)2: Spatio-Temporal Object Level Reasoning for Activity Recognition
in the Operating Room [6.132617753806978]
ORにおける外科的活動認識のための新しい試料効率およびオブジェクトベースアプローチを提案する。
本手法は, 臨床医と手術器具の幾何学的配置に着目し, ORにおける重要な物体相互作用のダイナミクスを活用する。
論文 参考訳(メタデータ) (2023-12-19T15:33:57Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - SPA: Verbal Interactions between Agents and Avatars in Shared Virtual
Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。
提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文 参考訳(メタデータ) (2020-02-08T23:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。