論文の概要: Explaining Black-box Models for Biomedical Text Classification
- arxiv url: http://arxiv.org/abs/2012.10928v1
- Date: Sun, 20 Dec 2020 13:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:43:48.601986
- Title: Explaining Black-box Models for Biomedical Text Classification
- Title(参考訳): バイオメディカルテキスト分類のためのブラックボックスモデル
- Authors: Milad Moradi, Matthias Samwald
- Abstract要約: 本稿ではバイオメディカル・コンセンサス・アイテムセット(biocie)という新しい方法を提案する。
BioCIEはブラックボックスの決定空間を小さなサブスペースに識別し、入力テキストと異なるサブスペース内のクラスラベル間の意味的関係を抽出する。
ブラックボックスの生物医学的テキスト分類モデルが、入力テキストとクラスラベルを意味的に関連づける方法を説明するのに有効である。
- 参考スコア(独自算出の注目度): 7.064032374579076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel method named Biomedical Confident Itemsets
Explanation (BioCIE), aiming at post-hoc explanation of black-box machine
learning models for biomedical text classification. Using sources of domain
knowledge and a confident itemset mining method, BioCIE discretizes the
decision space of a black-box into smaller subspaces and extracts semantic
relationships between the input text and class labels in different subspaces.
Confident itemsets discover how biomedical concepts are related to class labels
in the black-box's decision space. BioCIE uses the itemsets to approximate the
black-box's behavior for individual predictions. Optimizing fidelity,
interpretability, and coverage measures, BioCIE produces class-wise
explanations that represent decision boundaries of the black-box. Results of
evaluations on various biomedical text classification tasks and black-box
models demonstrated that BioCIE can outperform perturbation-based and decision
set methods in terms of producing concise, accurate, and interpretable
explanations. BioCIE improved the fidelity of instance-wise and class-wise
explanations by 11.6% and 7.5%, respectively. It also improved the
interpretability of explanations by 8%. BioCIE can be effectively used to
explain how a black-box biomedical text classification model semantically
relates input texts to class labels. The source code and supplementary material
are available at https://github.com/mmoradi-iut/BioCIE.
- Abstract(参考訳): 本稿では,バイオメディカルテキスト分類のためのブラックボックス機械学習モデルのポストホックな説明を目的とした,バイオメディカル信頼項目記述法(BioCIE)を提案する。
ドメイン知識のソースと自信のあるアイテムセットマイニング手法を用いて、biocieはブラックボックスの決定空間を小さなサブスペースに分類し、入力テキストと異なるサブスペースのクラスラベル間の意味関係を抽出する。
自信のある項目セットは、ブラックボックスの決定空間におけるクラスラベルとバイオメディカル概念がどのように関連しているかを発見する。
BioCIEは個々の予測のためにブラックボックスの振る舞いを近似するためにアイテムセットを使用する。
BioCIEは、忠実度、解釈可能性、カバレッジ対策を最適化し、ブラックボックスの決定境界を表すクラスワイドな説明を生成する。
各種バイオメディカルテキスト分類タスクとブラックボックスモデルによる評価の結果,BioCIEは,簡潔で正確かつ解釈可能な説明を提示する上で,摂動と意思決定の手法より優れていることが示された。
BioCIEは、インスタンスワイドとクラスワイドの説明の忠実度をそれぞれ11.6%と7.5%改善した。
また、説明の解釈性も8%向上した。
biocieは、ブラックボックスの生物医学的テキスト分類モデルが入力テキストとクラスラベルを意味的に関連付ける方法について説明するのに効果的に使うことができる。
ソースコードと補足資料はhttps://github.com/mmoradi-iut/BioCIEで入手できる。
関連論文リスト
- Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文 参考訳(メタデータ) (2024-02-27T12:43:09Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BioT5: Enriching Cross-modal Integration in Biology with Chemical
Knowledge and Natural Language Associations [54.97423244799579]
$mathbfBioT5$は、化学知識と自然言語の関連性によって生物学のクロスモーダルな統合を強化する事前学習フレームワークである。
$mathbfBioT5$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。
論文 参考訳(メタデータ) (2023-10-11T07:57:08Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - BioLORD: Learning Ontological Representations from Definitions (for
Biomedical Concepts and their Textual Descriptions) [17.981285086380147]
BioLORDは、臨床文章や生物医学的概念に意味のある表現を創造するための新しい事前学習戦略である。
生物医学的名称は必ずしも自己説明的ではないため、しばしば非意味的な表現をもたらす。
BioLORDは、その概念表現を定義を用いて基礎づけ、マルチリレーショナルな知識グラフから派生した短い記述によってこの問題を克服している。
論文 参考訳(メタデータ) (2022-10-21T11:43:59Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Automatic Biomedical Term Clustering by Learning Fine-grained Term
Representations [0.8154691566915505]
最先端の用語埋め込みは、事前訓練された言語モデルを利用して用語をエンコードし、知識グラフからの同義語と関係知識を使用して、対照的な学習を導く。
これらの埋め込みは、バイオメディカルな用語クラスタリングの失敗につながる小さなテキストの違いに敏感ではない。
この問題を軽減するため,動的ハード・ポジティと負のサンプルを提供することにより,プレトレーニング項埋め込みにおけるサンプリング戦略を調整した。
我々は提案手法をCODER++と命名し,新たにリリースされたBIOSというバイオメディカル知識グラフのバイオメディカル概念のクラスタリングに適用した。
論文 参考訳(メタデータ) (2022-04-01T12:30:58Z) - Transformers and the representation of biomedical background knowledge [0.0]
BioBERTとBioMegatronは、一般公開されたバイオメディカルコーパスに基づいて、バイオメディカルドメイン向けに適合したトランスフォーマーモデルである。
これらのモデルにおける生物学的知識の符号化と表現について検討する。
これらのモデルが生物の知識をコード化していることを示すが、そのいくつかは特定のタスクの微調整で失われている。
論文 参考訳(メタデータ) (2022-02-04T23:24:18Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Explaining black-box text classifiers for disease-treatment information
extraction [12.323983512532651]
ポストホックな説明法はブラックボックスAIモデルの振る舞いを近似することができる。
医療概念とセマンティクスを説明プロセスに組み込むことで,インプットとアウトプットのセマンティクスの関係を見出す。
論文 参考訳(メタデータ) (2020-10-21T09:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。