論文の概要: OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation
- arxiv url: http://arxiv.org/abs/2603.00462v1
- Date: Sat, 28 Feb 2026 04:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.205903
- Title: OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation
- Title(参考訳): OPGAgent : 歯科用パノラマX線解析剤
- Authors: Zhaolin Yu, Litao Yang, Ben Babicka, Ming Hu, Jing Hao, Anthony Huang, James Huang, Yueming Jin, Jiasong Wu, Zongyuan Ge,
- Abstract要約: 専門的なツールを編成するエージェントシステムは、汎用性と正確性の両方への道筋を提供する。
OPGAgentは、コンセンサス機構を備えた特殊な知覚モジュールをコーディネートする。
OPG-Benchは、実際の臨床報告から派生した(ロケーション、フィールド、バリュー)トリプルに基づく構造化レポートプロトコルである。
- 参考スコア(独自算出の注目度): 27.72846821556715
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Orthopantomograms (OPGs) are the standard panoramic radiograph in dentistry, used for full-arch screening across multiple diagnostic tasks. While Vision Language Models (VLMs) now allow multi-task OPG analysis through natural language, they underperform task-specific models on most individual tasks. Agentic systems that orchestrate specialized tools offer a path to both versatility and accuracy, this approach remains unexplored in the field of dental imaging. To address this gap, we propose OPGAgent, a multi-tool agentic system for auditable OPG interpretation. OPGAgent coordinates specialized perception modules with a consensus mechanism through three components: (1) a Hierarchical Evidence Gathering module that decomposes OPG analysis into global, quadrant, and tooth-level phases with dynamically invoking tools, (2) a Specialized Toolbox encapsulating spatial, detection, utility, and expert zoos, and (3) a Consensus Subagent that resolves conflicts through anatomical constraints. We further propose OPG-Bench, a structured-report protocol based on (Location, Field, Value) triples derived from real clinical reports, which enables a comprehensive review of findings and hallucinations, extending beyond the limitations of VQA indicators. On our OPG-Bench and the public MMOral-OPG benchmark, OPGAgent outperforms current dental VLMs and medical agent frameworks across both structured-report and VQA evaluation. Code will be released upon acceptance.
- Abstract(参考訳): Orthopantomograms (OPGs) は歯科における標準的なパノラマ線写真であり、複数の診断タスクにわたるフルアーチ検診に使用される。
Vision Language Models (VLM) は、自然言語によるマルチタスクOPG分析を可能にするが、ほとんどのタスクにおいてタスク固有のモデルよりも性能が低い。
特殊なツールを編成するエージェントシステムは、汎用性と精度の両方の道筋を提供するが、このアプローチは歯科画像学の分野では未解明のままである。
このギャップに対処するために,OPGAgentを提案する。
OPGAgent は,(1) OPG 分析をグローバル,4次,歯面レベルに分解する階層的エビデンス・ギャザリングモジュール,(2) 空間,検出,有用性,および専門家動物園をカプセル化した特別ツールボックス,(3) 解剖学的制約を通じてコンセンサス・サブエージェントの3つの構成要素を通じて,コンセンサス・モジュールとコンセンサス・メカニズムを協調する。
さらに,実際の臨床報告から得られた(位置,フィールド,バリュー)トリプルに基づく構造化レポートプロトコルであるOPG-Benchを提案し,VQA指標の限界を超えて,発見と幻覚の包括的レビューを可能にする。
OPG-Bench と MMOral-OPG のベンチマークでは,OPGAgent は構造報告およびVQA 評価の両面で,現在の歯科用 VLM および医療エージェントの枠組みより優れていた。
コードは受理時にリリースされる。
関連論文リスト
- TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - UMind-VL: A Generalist Ultrasound Vision-Language Model for Unified Grounded Perception and Comprehensive Interpretation [11.608721320550108]
UMind-VLは、複雑な臨床推論とピクセルレベルの構造的理解を相乗化するために設計された統一基盤モデルである。
UMind-DSは16の解剖学的領域にわたる120万の超音波画像テキストペアからなる大規模マルチモーダルデータセットである。
論文 参考訳(メタデータ) (2025-11-27T09:33:00Z) - ProPL: Universal Semi-Supervised Ultrasound Image Segmentation via Prompt-Guided Pseudo-Labeling [33.483622052319824]
ラベル付きデータとラベルなしデータの両方を活用することで,複数の臓器やセグメンテーションタスクを処理できるフレームワークであるProPLを提案する。
ProPLのコアとなるのは、共有ビジョンエンコーダとプロンプト誘導デュアルデコーダを組み合わせて、フレキシブルなタスク適応を可能にすることだ。
大規模な実験により、ProPLは様々なメトリクスで最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-11-19T03:01:41Z) - CXRAgent: Director-Orchestrated Multi-Stage Reasoning for Chest X-Ray Interpretation [62.0150409256153]
我々は、CXR解釈のためのディレクター調整型多段階エージェントであるCXRAgentを提案する。
エージェントは、Evidence-driven Validatorによって正規化され検証された出力を持つ一連のCXR分析ツールを戦略的にオーケストレーションする。
様々なCXR解釈タスクの実験は、CXRAgentが強いパフォーマンスを示し、視覚的証拠を提供し、異なる複雑さの臨床的タスクにうまく一般化していることを示している。
論文 参考訳(メタデータ) (2025-10-24T10:31:30Z) - GROK: From Quantitative Biomarkers to Qualitative Diagnosis via a Grounded MLLM with Knowledge-Guided Instruction [8.715998861815683]
GROKは、カラー・ファンドス写真、光コヒーレンス・トモグラフィー、テキストを処理し、臨床レベルの眼疾患と全身疾患の診断を提供する、接地型多モード大言語モデルである。
GROKは3つのコアモジュールから構成されており、知識ガイドインストラクション生成、CLIP-Style OCT-Biomarker Alignment、Supervised Instruction Fine-Tuningの3つで構成されている。
実験の結果、GROKは報告品質と詳細な臨床指標の両方で 7B と 32B のベースラインを上回り、OpenAI o3 を上回ります。
論文 参考訳(メタデータ) (2025-10-05T16:46:29Z) - DuPLUS: Dual-Prompt Vision-Language Framework for Universal Medical Image Segmentation and Prognosis [5.494301428436596]
効率的なマルチモーダル医療画像解析のためのディープラーニングフレームワークであるDuPLUSを紹介する。
DuPLUSは、階層的セマンティックプロンプトを利用して分析タスクのきめ細かい制御を行う新しい視覚言語フレームワークを導入した。
セグメンテーションのために、DuPLUSは、30以上の臓器と腫瘍タイプを含む10の異なる医療データセットである3つの画像モダリティを一般化することができる。
論文 参考訳(メタデータ) (2025-10-03T20:01:00Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。