論文の概要: EchoAgent: Towards Reliable Echocardiography Interpretation with "Eyes","Hands" and "Minds"
- arxiv url: http://arxiv.org/abs/2604.05541v2
- Date: Thu, 16 Apr 2026 09:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.122922
- Title: EchoAgent: Towards Reliable Echocardiography Interpretation with "Eyes","Hands" and "Minds"
- Title(参考訳): EchoAgent: "Eyes"、"Hands"、"Minds"による信頼性のあるエコー心電図解釈を目指して
- Authors: Qin Wang, Zhiqing He, Yu Liu, Bowen Guo, Zeju Li, Miao Zhao, Wenhao Ju, Zhiling Luo, Xianhong Shu, Yi Guo, Yuanyuan Wang,
- Abstract要約: 本稿では,エンドツーエンドのEcho解釈に適したエージェントシステムであるEchoAgentを提案する。
完全に協調した眼科医のワークフローを実現し、心臓のソノグラフィーのように学び、観察し、操作する。
CAMUS と MIMIC-EchoQA データセット上での EchoAgent の評価を行った。
- 参考スコア(独自算出の注目度): 11.13999636495972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable interpretation of echocardiography (Echo) is crucial for assessing cardiac function, which demands clinicians to synchronously orchestrate multiple capabilities, including visual observation (eyes), manual measurement (hands), and expert knowledge learning and reasoning (minds). While current task-specific deep-learning approaches and multimodal large language models have demonstrated promise in assisting Echo analysis through automated segmentation or reasoning, they remain focused on restricted skills, i.e., eyes-hands or eyes-minds, thereby limiting clinical reliability and utility. To address these issues, we propose EchoAgent, an agentic system tailored for end-to-end Echo interpretation, which achieves a fully coordinated eyes-hands-minds workflow that learns, observes, operates, and reasons like a cardiac sonographer. First, we introduce an expertise-driven cognition engine where our agent can automatically assimilate credible Echo guidelines into a structured knowledge base, thus constructing an Echo-customized mind. Second, we devise a hierarchical collaboration toolkit to endow EchoAgent with eyes-hands, which can automatically parse Echo video streams, identify cardiac views, perform anatomical segmentation, and quantitative measurement. Third, we integrate the perceived multimodal evidence with the exclusive knowledge base into an orchestrated reasoning hub to conduct explainable inferences. We evaluate EchoAgent on CAMUS and MIMIC-EchoQA datasets, which cover 48 distinct echocardiographic views spanning 14 cardiac anatomical regions. Experimental results show that EchoAgent achieves optimal performance across diverse structure analyses, yielding overall accuracy of up to 80.00%. Importantly, EchoAgent empowers a single system with abilities to learn, observe, operate and reason like an echocardiologist, which holds great promise for reliable Echo interpretation.
- Abstract(参考訳): 心エコー検査(Echo)の信頼性の高い解釈は心機能の評価に不可欠であり、臨床医は視覚的観察(眼)、手動計測(手)、専門知識の学習と推論(ミンド)など、複数の機能を同期的にオーケストレーションするよう要求する。
現在のタスク固有のディープラーニングアプローチとマルチモーダルな大規模言語モデルは、自動セグメンテーションや推論を通じてEcho分析を支援することを約束しているが、それらは制限されたスキル、すなわち目手や目の動きに焦点を絞って、臨床上の信頼性と有用性を制限している。
これらの問題に対処するために、我々はエンドツーエンドのEcho解釈に適したエージェントシステムであるEchoAgentを提案する。
まず,信頼性のあるEchoガイドラインを構造化知識ベースに自動同化できる専門知識駆動型認知エンジンを導入する。
第二に,EchoAgentを目の動きで支援する階層的協調ツールキットを考案し,Echoビデオストリームを自動的に解析し,心臓のビューを識別し,解剖学的セグメンテーションを行い,定量的測定を行う。
第三に、認識されたマルチモーダルな証拠を排他的知識基盤と統合して、説明可能な推論を行うための組織化された推論ハブを構築する。
CAMUS と MIMIC-EchoQA データセットを用いた EchoAgent の評価を行った。
実験の結果、EchoAgentは様々な構造解析にまたがって最適な性能を達成し、全体の精度は80.00%に達することがわかった。
重要なこととして、EchoAgentは、信頼できるEcho解釈を約束するエコー心臓科医のように、学び、観察し、操作し、推論する能力を持つ単一のシステムに権限を与える。
関連論文リスト
- Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos [53.368813255127115]
既存の自己教師型手法は、ECGをシングルビューエコーに整列させることで、表現ミスマッチに悩まされる。
本稿では,心電図表現を多視点エコーで捉えることで,心電図表現を充実させるマルチモーダル自己教師型学習フレームワークであるEcho2ECGを提案する。
臨床的に関係のある2つの課題に対して,Echo2ECGをECG特徴抽出器として評価した。
論文 参考訳(メタデータ) (2026-03-09T15:39:57Z) - Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2026-03-07T09:43:49Z) - Echo-CoPilot: A Multi-View, Multi-Task Agent for Echocardiography Interpretation and Reporting [8.162197738994479]
本稿では,多視点マルチタスクエージェントであるEcho-CoPilotを紹介する。
ReActスタイルのループ内で、エージェントは臨床クエリを分解し、ビュー認識、心臓構造セグメンテーション、測定と疾患予測、およびレポート合成のためのツールを起動する。
公開MIMIC-EchoQAベンチマークでEcho-CoPilotを評価し、50.8%の精度で、汎用的およびバイオメディカルなビデオビジョン言語モデルよりも優れています。
論文 参考訳(メタデータ) (2025-12-06T23:27:54Z) - EchoAgent: Guideline-Centric Reasoning Agent for Echocardiography Measurement and Interpretation [23.197431495208672]
EchoAgentは、心エコービデオ解析のための構造化、解釈可能な自動化を可能にするフレームワークである。
LLM(Large Language Model)コントロールの下で特殊な視覚ツールを編成し、時間的局所化、空間計測、臨床解釈を行う。
時間的ビデオ解析の複雑さが増したにもかかわらず、正確で解釈可能な結果が得られる。
論文 参考訳(メタデータ) (2025-11-17T22:06:12Z) - EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance [79.66329903007869]
本稿では,プローブ誘導のためのモーションアウェアな世界モデリングフレームワークであるEchoWorldを紹介する。
解剖学的な知識と運動によって引き起こされる視覚力学を符号化する。
200以上の定期的なスキャンから100万枚以上の超音波画像で訓練されている。
論文 参考訳(メタデータ) (2025-04-17T16:19:05Z) - EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation [1.0840985826142429]
私たちは、1200万以上のビデオレポートペアでトレーニングされた、マルチビュー、ビューインフォームド、ビデオベースの視覚言語基盤モデルであるEchoPrimeを紹介します。
検索強化された解釈により、EchoPrimeはすべてのエコー心エコービデオから情報を総合的な研究に統合する。
2つの独立した医療システムからのデータセットでは、EchoPrimeは23種類の心臓形態と機能のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-13T03:04:22Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Intelligent Robotic Sonographer: Mutual Information-based Disentangled
Reward Learning from Few Demonstrations [42.731081399649916]
この研究は、インテリジェントなロボットソノグラフィーによって、自律的に標的解剖を発見」し、専門家から学ぶことによって、米国のプローブを関連する2D平面にナビゲートすることを提案する。
専門家による基礎となる高レベルの生理的知識は神経報酬関数によって推測される。
提案した高度なフレームワークは、生き生きとしたヒトの頸動脈データだけでなく、さまざまな幻影や見えない幻影を強く扱うことができる。
論文 参考訳(メタデータ) (2023-07-07T16:30:50Z) - Generalized Organ Segmentation by Imitating One-shot Reasoning using
Anatomical Correlation [55.1248480381153]
そこで我々は,アノテーション付きオルガンクラスから一般化されたオルガン概念を学習し,その概念を未知のクラスに転送するOrganNetを提案する。
そこで,OrganNetは臓器形態の幅広い変化に効果的に抵抗でき,一発分節タスクで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。