論文の概要: MA-COIR: Leveraging Semantic Search Index and Generative Models for Ontology-Driven Biomedical Concept Recognition
- arxiv url: http://arxiv.org/abs/2505.12964v1
- Date: Mon, 19 May 2025 11:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.545476
- Title: MA-COIR: Leveraging Semantic Search Index and Generative Models for Ontology-Driven Biomedical Concept Recognition
- Title(参考訳): MA-COIR:オントロジー駆動型生体医学概念認識のためのセマンティック検索指標と生成モデル
- Authors: Shanshan Liu, Noriki Nishida, Rumana Ferdous Munne, Narumi Tokunaga, Yuki Yamagata, Kouji Kozaki, Yuji Matsumoto,
- Abstract要約: 我々は,概念認識を索引付け認識タスクとして再構成するフレームワークであるMA-COIRを紹介する。
セマンティック検索インデックス(ssID)を概念に割り当てることで、MA-COIRはオントロジーエントリの曖昧さを解消し、認識効率を高める。
本研究は,MA-COIRが言及レベルのアノテーションを必要とせず,明示的概念と暗黙的概念の両方を認識する上での有効性を強調した。
- 参考スコア(独自算出の注目度): 8.635416307171035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing biomedical concepts in the text is vital for ontology refinement, knowledge graph construction, and concept relationship discovery. However, traditional concept recognition methods, relying on explicit mention identification, often fail to capture complex concepts not explicitly stated in the text. To overcome this limitation, we introduce MA-COIR, a framework that reformulates concept recognition as an indexing-recognition task. By assigning semantic search indexes (ssIDs) to concepts, MA-COIR resolves ambiguities in ontology entries and enhances recognition efficiency. Using a pretrained BART-based model fine-tuned on small datasets, our approach reduces computational requirements to facilitate adoption by domain experts. Furthermore, we incorporate large language models (LLMs)-generated queries and synthetic data to improve recognition in low-resource settings. Experimental results on three scenarios (CDR, HPO, and HOIP) highlight the effectiveness of MA-COIR in recognizing both explicit and implicit concepts without the need for mention-level annotations during inference, advancing ontology-driven concept recognition in biomedical domain applications. Our code and constructed data are available at https://github.com/sl-633/macoir-master.
- Abstract(参考訳): 生物医学的な概念をテキストで認識することは、オントロジーの洗練、知識グラフの構築、概念関係の発見に不可欠である。
しかし、明示的な言及の識別に依存する伝統的な概念認識法は、しばしばテキストに明記されていない複雑な概念を捉えるのに失敗する。
この制限を克服するために,概念認識を索引付け認識タスクとして再構成するMA-COIRを導入する。
セマンティック検索インデックス(ssID)を概念に割り当てることで、MA-COIRはオントロジーエントリの曖昧さを解消し、認識効率を高める。
提案手法は,BARTをベースとした小データセットを微調整したモデルを用いて,計算要求を低減し,ドメインの専門家による採用を促進する。
さらに,低リソース環境下での認識を改善するために,大規模言語モデル(LLM)生成クエリと合成データを組み込んだ。
3つのシナリオ (CDR, HPO, HOIP) の実験結果から, 推論中の言及レベルのアノテーションを必要とせずに, 明示的および暗黙的な概念を認識できるMA-COIRの有効性, 生体医学領域アプリケーションにおけるオントロジー駆動概念認識の進歩が示された。
私たちのコードと構築されたデータはhttps://github.com/sl-633/macoir-master.comで公開されています。
関連論文リスト
- On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、限られたデータから一般化された知識を学習することにより、目に見えない領域の認識と推論を目的としている。
本稿では,ZSIRの最近の進歩を徹底的に研究し,今後の発展の基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-08-09T05:49:21Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。
CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。
ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-27T18:15:40Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Ontology Enrichment from Texts: A Biomedical Dataset for Concept
Discovery and Placement [22.074094839360413]
新しい概念のメンションはテキストに定期的に現れ、収穫とそれらを知識ベースに配置するために自動化されたアプローチを必要とする。
既存のデータセットは3つの問題に悩まされており、(i)新しい概念が事前に発見され、KB外の参照発見をサポートできないことを前提にしている。
我々は,最近のLarge Language Modelベースの手法である発見と概念配置について,アウト・オブ・KBを参照するためのデータセットを用いて評価を行う。
論文 参考訳(メタデータ) (2023-06-26T13:54:47Z) - HiPrompt: Few-Shot Biomedical Knowledge Fusion via Hierarchy-Oriented
Prompting [33.1455954220194]
HiPromptは、監督効率の良い知識融合フレームワークである。
階層指向のプロンプトを通じて、大規模言語モデルの数発の推論能力を引き出す。
収集したKG-Hi-BKFベンチマークデータセットの実験的結果は、HiPromptの有効性を示している。
論文 参考訳(メタデータ) (2023-04-12T16:54:26Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。