論文の概要: MA-COIR: Leveraging Semantic Search Index and Generative Models for Ontology-Driven Biomedical Concept Recognition
- arxiv url: http://arxiv.org/abs/2505.12964v1
- Date: Mon, 19 May 2025 11:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.545476
- Title: MA-COIR: Leveraging Semantic Search Index and Generative Models for Ontology-Driven Biomedical Concept Recognition
- Title(参考訳): MA-COIR:オントロジー駆動型生体医学概念認識のためのセマンティック検索指標と生成モデル
- Authors: Shanshan Liu, Noriki Nishida, Rumana Ferdous Munne, Narumi Tokunaga, Yuki Yamagata, Kouji Kozaki, Yuji Matsumoto,
- Abstract要約: 我々は,概念認識を索引付け認識タスクとして再構成するフレームワークであるMA-COIRを紹介する。
セマンティック検索インデックス(ssID)を概念に割り当てることで、MA-COIRはオントロジーエントリの曖昧さを解消し、認識効率を高める。
本研究は,MA-COIRが言及レベルのアノテーションを必要とせず,明示的概念と暗黙的概念の両方を認識する上での有効性を強調した。
- 参考スコア(独自算出の注目度): 8.635416307171035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing biomedical concepts in the text is vital for ontology refinement, knowledge graph construction, and concept relationship discovery. However, traditional concept recognition methods, relying on explicit mention identification, often fail to capture complex concepts not explicitly stated in the text. To overcome this limitation, we introduce MA-COIR, a framework that reformulates concept recognition as an indexing-recognition task. By assigning semantic search indexes (ssIDs) to concepts, MA-COIR resolves ambiguities in ontology entries and enhances recognition efficiency. Using a pretrained BART-based model fine-tuned on small datasets, our approach reduces computational requirements to facilitate adoption by domain experts. Furthermore, we incorporate large language models (LLMs)-generated queries and synthetic data to improve recognition in low-resource settings. Experimental results on three scenarios (CDR, HPO, and HOIP) highlight the effectiveness of MA-COIR in recognizing both explicit and implicit concepts without the need for mention-level annotations during inference, advancing ontology-driven concept recognition in biomedical domain applications. Our code and constructed data are available at https://github.com/sl-633/macoir-master.
- Abstract(参考訳): 生物医学的な概念をテキストで認識することは、オントロジーの洗練、知識グラフの構築、概念関係の発見に不可欠である。
しかし、明示的な言及の識別に依存する伝統的な概念認識法は、しばしばテキストに明記されていない複雑な概念を捉えるのに失敗する。
この制限を克服するために,概念認識を索引付け認識タスクとして再構成するMA-COIRを導入する。
セマンティック検索インデックス(ssID)を概念に割り当てることで、MA-COIRはオントロジーエントリの曖昧さを解消し、認識効率を高める。
提案手法は,BARTをベースとした小データセットを微調整したモデルを用いて,計算要求を低減し,ドメインの専門家による採用を促進する。
さらに,低リソース環境下での認識を改善するために,大規模言語モデル(LLM)生成クエリと合成データを組み込んだ。
3つのシナリオ (CDR, HPO, HOIP) の実験結果から, 推論中の言及レベルのアノテーションを必要とせずに, 明示的および暗黙的な概念を認識できるMA-COIRの有効性, 生体医学領域アプリケーションにおけるオントロジー駆動概念認識の進歩が示された。
私たちのコードと構築されたデータはhttps://github.com/sl-633/macoir-master.comで公開されています。
関連論文リスト
- OntologyRAG: Better and Faster Biomedical Code Mapping with Retrieval-Augmented Generation (RAG) Leveraging Ontology Knowledge Graphs and Large Language Models [1.2941187430993801]
In-context-learning representations のための検索拡張生成(RAG)法である OntologyRAG を開発した。
我々のソリューションはLLMを知識グラフとマッピングして質問を処理します。
私たちのソリューションでは、標準プロセスで知識グラフを更新することで、オントロジーの更新を反映できるため、LMを再トレーニングする必要はありません。
論文 参考訳(メタデータ) (2025-02-26T09:56:10Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、限られたデータから一般化された知識を学習することにより、目に見えない領域の認識と推論を目的としている。
本稿では,ZSIRの最近の進歩を徹底的に研究し,今後の発展の基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-08-09T05:49:21Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - Towards Ontology-Enhanced Representation Learning for Large Language Models [0.18416014644193066]
本稿では,知識を参照オントロジーで注入することで,埋め込み言語モデル(埋め込み言語モデル)の関心を高める新しい手法を提案する。
言語情報(概念同義語と記述)と構造情報(is-a関係)は、包括的な概念定義の集合をコンパイルするために使用される。
これらの概念定義は、対照的な学習フレームワークを使用して、ターゲットの埋め込み-LLMを微調整するために使用される。
論文 参考訳(メタデータ) (2024-05-30T23:01:10Z) - Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。
CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。
ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-27T18:15:40Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Ontology Enrichment from Texts: A Biomedical Dataset for Concept
Discovery and Placement [22.074094839360413]
新しい概念のメンションはテキストに定期的に現れ、収穫とそれらを知識ベースに配置するために自動化されたアプローチを必要とする。
既存のデータセットは3つの問題に悩まされており、(i)新しい概念が事前に発見され、KB外の参照発見をサポートできないことを前提にしている。
我々は,最近のLarge Language Modelベースの手法である発見と概念配置について,アウト・オブ・KBを参照するためのデータセットを用いて評価を行う。
論文 参考訳(メタデータ) (2023-06-26T13:54:47Z) - HiPrompt: Few-Shot Biomedical Knowledge Fusion via Hierarchy-Oriented
Prompting [33.1455954220194]
HiPromptは、監督効率の良い知識融合フレームワークである。
階層指向のプロンプトを通じて、大規模言語モデルの数発の推論能力を引き出す。
収集したKG-Hi-BKFベンチマークデータセットの実験的結果は、HiPromptの有効性を示している。
論文 参考訳(メタデータ) (2023-04-12T16:54:26Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。