論文の概要: Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos
- arxiv url: http://arxiv.org/abs/2603.25645v1
- Date: Thu, 26 Mar 2026 16:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.390827
- Title: Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos
- Title(参考訳): Colon-Bench: フルプロジェクチュア大腸内視鏡ビデオにおけるスケーラブルデンス病変アノテーションのためのエージェントワークフロー
- Authors: Abdullah Hamdi, Changchun Yang, Xin Gao,
- Abstract要約: Colon-Benchは、時間的提案、バウンディングボックス追跡、AI駆動の視覚的確認、ヒューマン・イン・ザ・ループ・レビューをシームレスに統合する、新しいAIパイプラインである。
対象範囲はビデオ528本, 病変14種類(ポリープ, 潰瘍, 出血を含む), 境界ボックス300, セグメンテーションマスク213,000本, 臨床記述133,000語であった。
- 参考スコア(独自算出の注目度): 16.49364638586462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .
- Abstract(参考訳): 大腸内視鏡による早期検診は大腸がん予防に重要であるが、この領域のための堅牢なAIシステムの開発は、濃密に注釈付けされた長いシーケンスのビデオデータセットの欠如によって妨げられている。
既存のデータセットは主に単一クラスポリプの検出に重点を置いており、現代のマルチモーダル大言語モデル(MLLM)を評価するのに必要な、豊富な空間的、時間的、言語的アノテーションが欠如している。
この重要なギャップに対処するために、新しい多段階エージェントワークフローによって生成されるColon-Benchを紹介します。
私たちのパイプラインは、時間的提案、バウンディングボックスのトラッキング、AI駆動による視覚的確認、および人間によるループレビューをシームレスに統合して、フルプロデューサビデオの注釈付けを可能にします。
528の動画、14の病変(ポリープ、潰瘍、出血を含む)、300,000以上の境界箱、213,000のセグメンテーションマスク、133,000の臨床的記述を含む、検証済みのベンチマークは前例がない。
我々はColor-Benchを用いて、病変分類、OV-VOS(Open-Vocabulary Video Object Segmentation)、VQA(Video Visual Question Answering)を厳格に評価する。
MLLMの結果,SAM-3と比較すると,医療領域では驚くほど高い局在性を示した。
最後に、MLLMの一般的なVQAエラーを分析し、新しい「コロンスキル」プロンプト戦略を導入し、ほとんどのMLLMにおいてゼロショットMLLMのパフォーマンスを最大9.7%向上させる。
データセットとコードはhttps://abdullahamdi.com/colon-bench.orgで公開されている。
関連論文リスト
- Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - Unifying Segment Anything in Microscopy with Multimodal Large Language Model [12.40922797263136]
我々は、顕微鏡クローズドメインデータの学習にMLLMを用いて、uLLSAMと呼ばれる顕微鏡内のセグメンテーションをガイドすることを提案する。
SAMがグローバルなVLKプロンプトを受信すると、その性能は大幅に向上するが、境界輪郭知覚には欠点がある。
本手法は,9つのドメイン内顕微鏡データセットに対して,Diceの7.71%,SAの12.10%の性能向上を実現し,最先端の性能を実現している。
論文 参考訳(メタデータ) (2025-05-16T00:55:56Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Semantic Parsing of Colonoscopy Videos with Multi-Label Temporal
Networks [2.788533099191487]
大腸内視鏡画像の自動解析法を提案する。
この手法は、教師なしおよび教師なしのレシエーションで訓練された、新しいDL多ラベル時間分割モデルを使用する。
そこで本研究では,300本以上の注記式大腸内視鏡検査装置を用いて,各部位の相対的重要性について検討した。
論文 参考訳(メタデータ) (2023-06-12T08:46:02Z) - Colonoscopy Polyp Detection: Domain Adaptation From Medical Report
Images to Real-time Videos [76.37907640271806]
大腸内視鏡画像と実時間映像の領域間ギャップに対処する画像-ビデオ結合型ポリープ検出ネットワーク(Ivy-Net)を提案する。
収集したデータセットの実験は、Ivy-Netが大腸内視鏡ビデオで最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-12-31T10:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。