論文の概要: ACM Multimedia Grand Challenge on ENT Endoscopy Analysis
- arxiv url: http://arxiv.org/abs/2508.04801v1
- Date: Wed, 06 Aug 2025 18:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.639361
- Title: ACM Multimedia Grand Challenge on ENT Endoscopy Analysis
- Title(参考訳): ENT内視鏡解析におけるACMマルチメディア・グランドチャレンジ
- Authors: Trong-Thuan Nguyen, Viet-Tham Huynh, Thao Thi Phuong Dao, Ha Nguyen Thi, Tien To Vu Thuy, Uyen Hanh Tran, Tam V. Nguyen, Thanh Dinh Le, Minh-Triet Tran,
- Abstract要約: 本稿では,細粒度の解剖学的分類と画像間画像検索,およびバイリンガル監視下でのテキスト間画像検索を統合したENTRepを紹介する。
このデータセットは、解剖学的領域と正常または異常な状態にラベル付けされた専門家注釈付き画像と、二重言語記述を伴う。
- 参考スコア(独自算出の注目度): 9.343316855950263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated analysis of endoscopic imagery is a critical yet underdeveloped component of ENT (ear, nose, and throat) care, hindered by variability in devices and operators, subtle and localized findings, and fine-grained distinctions such as laterality and vocal-fold state. In addition to classification, clinicians require reliable retrieval of similar cases, both visually and through concise textual descriptions. These capabilities are rarely supported by existing public benchmarks. To this end, we introduce ENTRep, the ACM Multimedia 2025 Grand Challenge on ENT endoscopy analysis, which integrates fine-grained anatomical classification with image-to-image and text-to-image retrieval under bilingual (Vietnamese and English) clinical supervision. Specifically, the dataset comprises expert-annotated images, labeled for anatomical region and normal or abnormal status, and accompanied by dual-language narrative descriptions. In addition, we define three benchmark tasks, standardize the submission protocol, and evaluate performance on public and private test splits using server-side scoring. Moreover, we report results from the top-performing teams and provide an insight discussion.
- Abstract(参考訳): 内視鏡画像の自動解析は、デバイスやオペレーターの変動、微妙で局所的な発見、ラテラルや声帯状態などの微細な区別によって妨げられる、ENT(ear, nose, and throat)ケアの重要で未発達の要素である。
分類の他に、臨床医は視覚的および簡潔なテキスト記述を通して、類似した症例を確実に検索する必要がある。
これらの機能は、既存の公開ベンチマークでサポートされることはめったにない。
この目的のために,ACM Multimedia 2025 Grand Challenge on ENT endoscopy analysis を導入し,微細な解剖学的分類と画像・画像検索,およびバイリンガル(ベトナム語・英語)臨床監督下でのテキスト・画像検索を統合した。
具体的には、専門家による注釈付き画像からなり、解剖学的領域と正常または異常な状態にラベル付けされ、二重言語記述を伴う。
さらに,3つのベンチマークタスクを定義し,提案プロトコルを標準化し,サーバ側スコアリングを用いて公開テストとプライベートテストのスプリットのパフォーマンスを評価する。
さらに、トップパフォーマンスチームの結果を報告し、洞察力のある議論を提供します。
関連論文リスト
- PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging [6.411386758550256]
PRS-Medは、視覚言語モデルとセグメンテーション機能を統合し、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。
MMRSデータセットは、医療画像における位置推論データの欠如に対処するために、多様な空間的な質問応答ペアを提供する。
論文 参考訳(メタデータ) (2025-05-17T06:42:28Z) - Anatomy-Aware Conditional Image-Text Retrieval [29.872292146073207]
Image-Text Retrieval (ITR) は、関連する患者を自動的に検索することで、医療、臨床医、放射線科医に広く応用されている。
我々は,同じ解剖領域で類似の症例を検索することを目的とした解剖学的位置決定画像検索フレームワークを提案する。
提案したRRA-VLは,位相グラウンドタスクにおける最先端のローカライズ性能を実現する。
論文 参考訳(メタデータ) (2025-03-10T15:36:49Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - Text-Promptable Propagation for Referring Medical Image Sequence Segmentation [20.724643106195852]
Ref-MISSは、自然言語の記述に基づいて、医学画像の配列に解剖学的構造を分割することを目的としている。
既存の2Dおよび3Dセグメンテーションモデルは、医用画像のシーケンスを通して興味のあるオブジェクトを明示的に追跡するのに苦労する。
医用画像のシーケンスセグメンテーションを参照するためのモデルとして,テキスト・プロンプタブル・プロパゲーション(TPP)を提案する。
論文 参考訳(メタデータ) (2025-02-16T12:13:11Z) - Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images [30.673958586581904]
フリーフォームなテキストプロンプトを処理する新しい医用画像セグメンテーションモデルであるFLanSを紹介する。
FLanSは、7つの公開データセットから100万以上の医療画像の大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2024-10-02T16:34:32Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。