論文の概要: OralAgent: Integrating Reasoning, Tools, and Knowledge for Interactive Dental Image Analysis
- arxiv url: http://arxiv.org/abs/2605.27378v1
- Date: Thu, 09 Apr 2026 06:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.505341
- Title: OralAgent: Integrating Reasoning, Tools, and Knowledge for Interactive Dental Image Analysis
- Title(参考訳): OralAgent:インタラクティブな歯科画像解析のための推論・ツール・知識の統合
- Authors: Jing Hao, Siyuan Dai, Yongxin Zhang, Yuci Liang, Jiamin Wu, Jiahao Bao, Yuxuan Fan, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Ming Hu, Liang Zhan, James Kit Hon Tsoi, Linlin Shen, Junjun He, Kuo Feng Hung,
- Abstract要約: OralAgentは,マルチモーダル推論,ツールベースの意思決定,知識に基づく検索を統一する最初の歯科用AIエージェントである。
22の視覚分析ツールと368の古典的歯科用教科書を統合し、自律的推論、計画、ツールの使用、知識検索、多段階ワークフロー実行を可能にしている。
- 参考スコア(独自算出の注目度): 53.581112172626234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dental image analysis plays a pivotal role in supporting accurate diagnosis and treatment planning in oral healthcare. Although recent advances have produced dental AI models for specific tasks and individual imaging modalities, their isolated designs limit practical use in real-world clinical workflows. In this paper, we present OralAgent, the first dental-specialized AI agent that unifies multimodal reasoning, tool-based decision-making, and knowledge-grounded retrieval within an end-to-end automated framework. It integrates 22 visual analysis tools and 368 widely-used classical dental textbooks, enabling autonomous reasoning, planning, tool use, knowledge retrieval, and multi-step workflow execution. Furthermore, we introduce OralCorpus, a large-scale, high-quality bilingual textual resource containing 134.8M tokens curated for dental retrieval-augmented generation (RAG). To evaluate models' multidisciplinary dental knowledge, we construct OralQA-ZH, a Chinese multiple-choice question benchmark consisting of 798 items across eleven oral subspecialties. Extensive experiments demonstrate that OralAgent achieves state-of-the-art performance on the MMOral-Uni, MMOral-OPG, and OralQA-ZH benchmarks, highlighting its effectiveness, interpretability, and adaptability in real-world clinical settings. The code and models are publicly available at https://github.com/isjinghao/OralAgent.
- Abstract(参考訳): 歯科画像解析は、口腔医療における正確な診断と治療計画を支援する上で重要な役割を担っている。
最近の進歩では、特定のタスクや個々の画像モダリティのための歯科用AIモデルが作成されているが、それらの独立した設計は、実際の臨床ワークフローにおける実践的使用を制限する。
本稿では,マルチモーダル推論,ツールベースの意思決定,知識ベース検索をエンドツーエンドの自動化フレームワーク内で統合する最初の歯科用AIエージェントであるOralAgentを紹介する。
22の視覚分析ツールと368の古典的歯科用教科書を統合し、自律的推論、計画、ツールの使用、知識検索、多段階ワークフロー実行を可能にしている。
さらに,歯科用検索拡張世代 (RAG) 用の134.8Mトークンを含む大規模かつ高品質なバイリンガルテキストリソースであるOralCorpusを紹介する。
モデルの多学際的歯科知識を評価するために,11の口腔亜種にわたる798項目からなる中国語の多学期質問ベンチマークOralQA-ZHを構築した。
大規模な実験により、OralAgentはMMOral-Uni、MMOral-OPG、OralQA-ZHベンチマークで最先端のパフォーマンスを達成し、実際の臨床環境での有効性、解釈可能性、適応性を強調している。
コードとモデルはhttps://github.com/isjinghao/OralAgent.comで公開されている。
関連論文リスト
- Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models [0.30650083373343306]
口腔疾患は世界中で約35億人に影響を及ぼすが、歯科医療における大規模AIモデルの臨床的ポテンシャルはいまだによく分かっていない。
言語生成モデル、識別的視覚基盤モデル、歯科固有のモデルである。
汎用モデルと歯科固有のモデルが相補的な役割を果たす。
論文 参考訳(メタデータ) (2026-06-01T21:39:27Z) - DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry [28.389946455559713]
現在のマルチモーダル大言語モデル(MLLM)は、細粒度の歯の視覚的詳細を捉えるのに苦労している。
高品質なドメイン知識注入と強化学習により開発された歯科用MLLMである歯科用GPTについて述べる。
論文 参考訳(メタデータ) (2025-12-12T13:42:57Z) - OralGPT-Omni: A Versatile Dental Multimodal Large Language Model [44.919874082284686]
オラルGPT-オムニ (OralGPT-Omni) は, 各種歯科画像モダリティおよび臨床タスクを包括的に分析するための最初の歯科用特殊化MLLMである。
歯科医師の診断的推論を的確に把握するために,臨床に基礎をおくチェーン・オブ・ソート・データセットであるTRACE-CoTを構築した。
MMOral-Uniは歯科画像解析のための最初の統一型マルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2025-11-27T03:21:20Z) - Towards Generalist Intelligence in Dentistry: Vision Foundation Models for Oral and Maxillofacial Radiology [22.124686092997717]
DentVFMは歯科医療用に設計された視覚基礎モデル(VFM)の最初のファミリーである。
幅広い歯科応用のためのタスク非依存の視覚表現を生成する。
それは印象的な一般知性を示し、多様な歯科作業に対する堅牢な一般化を実証している。
論文 参考訳(メタデータ) (2025-10-16T10:24:23Z) - DentVLM: A Multimodal Vision-Language Model for Comprehensive Dental Diagnosis and Enhanced Clinical Practice [71.62725911420627]
本稿では,専門レベルの口腔疾患診断のために設計された視覚言語モデルであるDentVLMを紹介する。
このモデルは、36の診断タスクで7つの2D経口画像モダリティを解釈できる。
若年者歯科医師13名(36名中21名)の診断成績を上回り,12名中12名(36名中12名)の診断成績を上回りました。
論文 参考訳(メタデータ) (2025-09-27T14:47:37Z) - Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。
我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文 参考訳(メタデータ) (2024-11-16T18:19:53Z) - STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond [68.47402386668846]
本研究では,テキストアセスメントをステップワイド推論プロセスとしてモデル化するために,Structured Reasoning In Critical Text Assessment (STRICTA)を導入する。
STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する。
約40人のバイオメディカル専門家が20以上の論文について4000以上の推論ステップのデータセットにSTRICTAを適用した。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。