論文の概要: EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning
- arxiv url: http://arxiv.org/abs/2508.07292v1
- Date: Sun, 10 Aug 2025 11:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.792076
- Title: EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning
- Title(参考訳): EndoAgent: インテリジェントな内視鏡視-決定推論のための記憶誘導反射剤
- Authors: Yi Tang, Kaini Wang, Yang Chen, Guangquan Zhou,
- Abstract要約: EndoAgentは、視覚から決定への内視鏡分析のためのメモリ誘導剤である。
反復推論と適応的なツールの選択とコラボレーションを統合する。
一般的なマルチモーダルモデルと医療用マルチモーダルモデルの両方を一貫して上回っている。
- 参考スコア(独自算出の注目度): 6.96058549084651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing general artificial intelligence (AI) systems to support endoscopic image diagnosis is an emerging research priority. Existing methods based on large-scale pretraining often lack unified coordination across tasks and struggle to handle the multi-step processes required in complex clinical workflows. While AI agents have shown promise in flexible instruction parsing and tool integration across domains, their potential in endoscopy remains underexplored. To address this gap, we propose EndoAgent, the first memory-guided agent for vision-to-decision endoscopic analysis that integrates iterative reasoning with adaptive tool selection and collaboration. Built on a dual-memory design, it enables sophisticated decision-making by ensuring logical coherence through short-term action tracking and progressively enhancing reasoning acuity through long-term experiential learning. To support diverse clinical tasks, EndoAgent integrates a suite of expert-designed tools within a unified reasoning loop. We further introduce EndoAgentBench, a benchmark of 5,709 visual question-answer pairs that assess visual understanding and language generation capabilities in realistic scenarios. Extensive experiments show that EndoAgent consistently outperforms both general and medical multimodal models, exhibiting its strong flexibility and reasoning capabilities.
- Abstract(参考訳): 内視鏡画像診断を支援する汎用人工知能(AI)システムの開発が最優先課題である。
大規模な事前訓練に基づく既存の手法は、複雑な臨床ワークフローに必要な多段階プロセスを扱うのに苦労し、タスク間の統一的な調整を欠いていることが多い。
AIエージェントは、ドメイン間のフレキシブルな命令解析とツール統合の可能性を示してきたが、内視鏡におけるその可能性はまだ探索されていない。
このギャップに対処するため、我々は、反復推論と適応ツールの選択と協調を統合した視覚-決定型内視鏡分析のための最初のメモリ誘導エージェントであるEndoAgentを提案する。
デュアルメモリ設計に基づいて構築され、短期的な行動追跡を通じて論理的コヒーレンスを確保し、長期にわたる経験的学習を通じて推論の精度を漸進的に向上することにより、洗練された意思決定を可能にする。
多様な臨床タスクをサポートするために、EndoAgentは専門家が設計した一連のツールを統一された推論ループに統合する。
さらに、現実シナリオにおける視覚的理解と言語生成能力を評価する5,709組の視覚的質問応答ペアのベンチマークであるEndoAgentBenchを紹介する。
広範囲にわたる実験により、EndoAgentは一般的なマルチモーダルモデルと医療用マルチモーダルモデルの両方を一貫して上回り、その柔軟性と推論能力を示した。
関連論文リスト
- MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - Incentivizing Tool-augmented Thinking with Images for Medical Image Analysis [35.90026194642237]
Ophiuchusは汎用的なツール拡張フレームワークで、MLLMを装備し、追加の視覚的証拠が必要かどうかを判断する。
われわれのアプローチは、ツール統合推論を通じて「イメージで考える」ことができる医療AIエージェントへの道を照らしている。
論文 参考訳(メタデータ) (2025-12-16T07:37:23Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making [49.048767633316764]
KAMACは知識駆動のAdaptive Multi-Agent Collaborationフレームワークである。
エージェントは進化する診断コンテキストに基づいて、専門家チームを動的に形成および拡張することができる。
2つの実世界の医療ベンチマーク実験により、KAMACはシングルエージェント法と高度なマルチエージェント法の両方を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-18T14:33:36Z) - CardAIc-Agents: A Multimodal Framework with Hierarchical Adaptation for Cardiac Care Support [37.20545002349272]
CardAIc-Agentsは、AIモデルを外部ツールで拡張し、多様な心臓タスクを適応的にサポートするフレームワークである。
カルディアックRAGのエージェントは、心の知識から一般的な計画を作成し、チーフエージェントはこれらの計画を自律的に実行し、決定を下すためのツールを統合した。
3つのデータセットを対象とした実験では、主流のVision-Language Models (VLM)、最先端のエージェントシステム、微調整されたVLMと比較して、CardAIc-Agentsの有効性が示された。
論文 参考訳(メタデータ) (2025-08-18T16:17:12Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。
本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文 参考訳(メタデータ) (2025-04-07T21:01:25Z) - MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow [14.478357882578234]
現代医学では、臨床診断は主にテキストおよび視覚データの包括的分析に依存している。
大規模視覚言語モデル(VLM)およびエージェントベース手法の最近の進歩は、医学的診断に大きな可能性を秘めている。
現代医学における診断原理に従う新しいエージェント推論パラダイムであるMedAgent-Proを提案する。
論文 参考訳(メタデータ) (2025-03-21T14:04:18Z) - SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence [16.584722724845182]
手術インテリジェンスにおける視覚-言語モデルの統合は、幻覚、ドメイン知識のギャップ、タスク相互依存性の限定的な理解によって妨げられている。
本稿では,CoT駆動型マルチエージェントフレームワークであるSurgRAWについて紹介する。
論文 参考訳(メタデータ) (2025-03-13T11:23:13Z) - Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。
我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文 参考訳(メタデータ) (2024-11-16T18:19:53Z) - DrugAgent: Multi-Agent Large Language Model-Based Reasoning for Drug-Target Interaction Prediction [8.98329812378801]
DrugAgentは、薬物と薬物の相互作用を予測するためのマルチエージェントシステムである。
複数の専門的な視点と透明な推論を組み合わせる。
我々のアプローチは、予測毎に詳細な人間解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2024-08-23T21:24:59Z) - Scaling Large Language Model-based Multi-Agent Collaboration [72.8998796426346]
近年の大規模言語モデル駆動型自律エージェントのブレークスルーにより、複数エージェントのコラボレーションが集団的推論を通じて各個人を上回ることが判明している。
本研究は、協調剤の連続的な添加が同様の利益をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。