論文の概要: EchoAgent: Guideline-Centric Reasoning Agent for Echocardiography Measurement and Interpretation
- arxiv url: http://arxiv.org/abs/2511.13948v1
- Date: Mon, 17 Nov 2025 22:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.823422
- Title: EchoAgent: Guideline-Centric Reasoning Agent for Echocardiography Measurement and Interpretation
- Title(参考訳): EchoAgent : 心エコー計測・解釈のためのガイドライン中心推論剤
- Authors: Matin Daghyani, Lyuyang Wang, Nima Hashemi, Bassant Medhat, Baraa Abdelsamad, Eros Rojas Velez, XiaoXiao Li, Michael Y. C. Tsang, Christina Luong, Teresa S. M. Tsang, Purang Abolmaesumi,
- Abstract要約: EchoAgentは、心エコービデオ解析のための構造化、解釈可能な自動化を可能にするフレームワークである。
LLM(Large Language Model)コントロールの下で特殊な視覚ツールを編成し、時間的局所化、空間計測、臨床解釈を行う。
時間的ビデオ解析の複雑さが増したにもかかわらず、正確で解釈可能な結果が得られる。
- 参考スコア(独自算出の注目度): 23.197431495208672
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Purpose: Echocardiographic interpretation requires video-level reasoning and guideline-based measurement analysis, which current deep learning models for cardiac ultrasound do not support. We present EchoAgent, a framework that enables structured, interpretable automation for this domain. Methods: EchoAgent orchestrates specialized vision tools under Large Language Model (LLM) control to perform temporal localization, spatial measurement, and clinical interpretation. A key contribution is a measurement-feasibility prediction model that determines whether anatomical structures are reliably measurable in each frame, enabling autonomous tool selection. We curated a benchmark of diverse, clinically validated video-query pairs for evaluation. Results: EchoAgent achieves accurate, interpretable results despite added complexity of spatiotemporal video analysis. Outputs are grounded in visual evidence and clinical guidelines, supporting transparency and traceability. Conclusion: This work demonstrates the feasibility of agentic, guideline-aligned reasoning for echocardiographic video analysis, enabled by task-specific tools and full video-level automation. EchoAgent sets a new direction for trustworthy AI in cardiac ultrasound.
- Abstract(参考訳): 目的: 心エコー法では, 現在の心エコー深部学習モデルではサポートされない, ビデオレベルの推論とガイドラインに基づく測定分析が必要である。
本稿では、このドメインの構造化、解釈可能な自動化を可能にするフレームワークであるEchoAgentを紹介する。
方法: EchoAgentは、時間的局所化、空間計測、臨床解釈を行うために、Large Language Model (LLM)制御下で特殊な視覚ツールを編成する。
重要な貢献は、解剖学的構造が各フレームで確実に測定可能であるかどうかを判断し、自律的なツール選択を可能にする計測可能性予測モデルである。
評価のために,多種多様で臨床的に検証されたビデオクエリーペアのベンチマークを作成した。
結果:EchoAgentは時空間ビデオ解析の複雑さが増したにもかかわらず、正確で解釈可能な結果を得る。
アウトプットは視覚的エビデンスと臨床ガイドラインに基づいており、透明性とトレーサビリティをサポートする。
結論:本研究は,タスク固有のツールとフルビデオレベルの自動化によって実現された心エコー画像解析のためのエージェント的,ガイドラインに沿った推論の実現可能性を示す。
EchoAgentは、心臓超音波における信頼できるAIの新しい方向性を定めている。
関連論文リスト
- MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - Intelligent Healthcare Imaging Platform: A VLM-Based Framework for Automated Medical Image Analysis and Clinical Report Generation [0.0]
本稿では,視覚言語モデル(VLM)を活用した医用画像解析のためのインテリジェントマルチモーダルフレームワークを提案する。
このフレームワークはGoogle Gemini 2.5 Flashを統合し、腫瘍を自動的に検出し、CT、MRI、X線、超音波などの複数の画像モダリティで臨床報告を生成する。
論文 参考訳(メタデータ) (2025-09-16T23:15:44Z) - Automated Clinical Problem Detection from SOAP Notes using a Collaborative Multi-Agent LLM Architecture [8.072932739333309]
我々は,このギャップに対処するために,臨床相談チームをモデル化する共同マルチエージェントシステム(MAS)を導入する。
このシステムは、SOAPノートの主観的(S)および目的的(O)セクションのみを分析することによって、臨床上の問題を特定する。
マネージャエージェントは、階層的で反復的な議論に従事し、合意に達するために、動的に割り当てられた専門家エージェントのチームを編成する。
論文 参考訳(メタデータ) (2025-08-29T17:31:24Z) - AURA: A Multi-Modal Medical Agent for Understanding, Reasoning & Annotation [0.8397730500554048]
AURAは、医用画像の包括的分析、説明、評価のために特別に設計された最初の視覚的言語説明性エージェントである。
AURAは、より透明性があり、適応可能で、臨床的に整合したAIシステムに向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2025-07-22T18:24:18Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - Acoustic to Articulatory Inversion of Speech; Data Driven Approaches, Challenges, Applications, and Future Scope [0.0]
本稿では,音声のAAI(Auance-to-Articulatory Inversion)の異なる応用に適用したデータ駆動型アプローチについて述べる。
論文 参考訳(メタデータ) (2025-04-17T19:38:50Z) - EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance [79.66329903007869]
本稿では,プローブ誘導のためのモーションアウェアな世界モデリングフレームワークであるEchoWorldを紹介する。
解剖学的な知識と運動によって引き起こされる視覚力学を符号化する。
200以上の定期的なスキャンから100万枚以上の超音波画像で訓練されている。
論文 参考訳(メタデータ) (2025-04-17T16:19:05Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。