論文の概要: Taec: a Manually annotated text dataset for trait and phenotype
extraction and entity linking in wheat breeding literature
- arxiv url: http://arxiv.org/abs/2401.07447v1
- Date: Mon, 15 Jan 2024 03:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:07:37.250787
- Title: Taec: a Manually annotated text dataset for trait and phenotype
extraction and entity linking in wheat breeding literature
- Title(参考訳): taec:コムギ育種文献における形質・表現型抽出とエンティティリンクのための手動アノテーション付きテキストデータセット
- Authors: Claire N\'edellec, Clara Sauvion, Robert Bossy, Mariya Borovikova,
Louise Del\'eger
- Abstract要約: 小麦品種は形質や表現型が多様であり、より短くより効率的な育種プログラムには遺伝的多様性が不可欠である。
Triticum aestivum trait Corpusは小麦の形質と表現型のための新しい金の標準である。
特徴、表現型、種名に完全に注釈付けされた540の参照からなり、ウィート海峡とフェノタイプオントロジー(英語版)および国立バイオテクノロジー情報センターの種分類学を用いて命名された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Wheat varieties show a large diversity of traits and phenotypes. Linking them
to genetic variability is essential for shorter and more efficient wheat
breeding programs. Newly desirable wheat variety traits include disease
resistance to reduce pesticide use, adaptation to climate change, resistance to
heat and drought stresses, or low gluten content of grains. Wheat breeding
experiments are documented by a large body of scientific literature and
observational data obtained in-field and under controlled conditions. The
cross-referencing of complementary information from the literature and
observational data is essential to the study of the genotype-phenotype
relationship and to the improvement of wheat selection. The scientific
literature on genetic marker-assisted selection describes much information
about the genotype-phenotype relationship. However, the variety of expressions
used to refer to traits and phenotype values in scientific articles is a hinder
to finding information and cross-referencing it. When trained adequately by
annotated examples, recent text mining methods perform highly in named entity
recognition and linking in the scientific domain. While several corpora contain
annotations of human and animal phenotypes, currently, no corpus is available
for training and evaluating named entity recognition and entity-linking methods
in plant phenotype literature. The Triticum aestivum trait Corpus is a new gold
standard for traits and phenotypes of wheat. It consists of 540 PubMed
references fully annotated for trait, phenotype, and species named entities
using the Wheat Trait and Phenotype Ontology and the species taxonomy of the
National Center for Biotechnology Information. A study of the performance of
tools trained on the Triticum aestivum trait Corpus shows that the corpus is
suitable for the training and evaluation of named entity recognition and
linking.
- Abstract(参考訳): 小麦品種は多種多様な形質と表現型を示す。
遺伝子変異と結びつけることは、より短く、より効率的な小麦の育種計画に不可欠である。
新たに望ましい小麦品種の特徴には、農薬の使用を減らすための病原性抵抗性、気候変動への適応性、熱と干ばつに対する抵抗性、穀物のグルテン含量低下がある。
小麦の繁殖実験は、野外および制御条件下で得られた大量の科学文献と観測データによって記録される。
遺伝型・表現型関係の研究とコムギの選抜の改善には,文献および観察データからの補完情報の相互参照が不可欠である。
遺伝的マーカー支援選択に関する科学文献は、遺伝子型と表現型の関係に関する多くの情報を記述する。
しかし、科学論文における特徴や表現型の値を表すために使われる表現の多様性は、情報を見つけ、それを相互参照する障害となる。
注釈付き例によって適切に訓練された場合、最近のテキストマイニング手法は、名前付きエンティティ認識と科学領域のリンクにおいて高い性能を発揮する。
いくつかのコーパスにはヒトおよび動物性表現型のアノテーションが含まれているが、現在、植物性表現型文学において名前付き実体認識と実体結合法を訓練し評価するためのコーパスは存在しない。
Triticum aestivum trait Corpusは小麦の形質と表現型のための新しい金の標準である。
コムギ形質と表現型オントロジーと国立バイオテクノロジー情報センターの種分類を用いた、形質、表現型、種名に完全に注釈が付された540種のpubmedの参考文献からなる。
triticum aestivum traitコーパスでトレーニングされたツールのパフォーマンスに関する研究は、コーパスが名前付きエンティティ認識とリンクのトレーニングと評価に適していることを示している。
関連論文リスト
- Artificial Immune System of Secure Face Recognition Against Adversarial Attacks [67.31542713498627]
昆虫生産には 最大限の可能性を実現するために 最適化が必要です
これは選択的育種による興味のある形質の改善が目的である。
このレビューは、様々な分野の知識と、動物の繁殖、定量的遺伝学、進化生物学、昆虫学のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-06-26T07:50:58Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - TEPI: Taxonomy-aware Embedding and Pseudo-Imaging for Scarcely-labeled
Zero-shot Genome Classification [0.0]
種の遺伝コードまたはゲノムは、貴重な進化的、生物学的、系統学的情報をコードする。
従来のバイオインフォマティクスツールは顕著な進歩を遂げているが、スケーラビリティに欠け、計算コストも高い。
TEPI, 分類認識型埋め込み, Pseudo-Imaging を用いたゼロショット学習によりこの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:16:28Z) - Genetic prediction of quantitative traits: a machine learner's guide
focused on height [0.0]
本稿では,機械学習コミュニティにおけるアートモデルの現状と関連する微妙さについて概観する。
heightを連続評価された表現型の例として使用し、ベンチマークデータセット、共同創設者、機能選択、一般的なメトリクスを紹介します。
論文 参考訳(メタデータ) (2023-10-06T05:43:50Z) - Applying BioBERT to Extract Germline Gene-Disease Associations for Building a Knowledge Graph from the Biomedical Literature [0.0]
本稿では,ジェムリン遺伝子と疾患を結合する知識グラフ構築手法SimpleGermKGを提案する。
遺伝子および疾患の抽出には、バイオメディカルコーパス上でトレーニング済みのBERTモデルであるBioBERTを用いる。
記事,遺伝子,疾患間の意味的関連性について,部分的関係性アプローチを実装した。
知識グラフには297の遺伝子、130の疾患、46,747のトリプルが含まれている。
論文 参考訳(メタデータ) (2023-09-11T18:05:12Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Few-Shot Meta Learning for Recognizing Facial Phenotypes of Genetic
Disorders [55.41644538483948]
分類の自動化と類似性検索は、医師が可能な限り早期に遺伝状態の診断を行うための意思決定を支援する。
従来の研究は分類問題としてこの問題に対処し、深層学習法を用いてきた。
本研究では,健常人の大規模なコーパスで訓練した顔認識モデルを用いて,顔の表情認識に移行した。
論文 参考訳(メタデータ) (2022-10-23T11:52:57Z) - SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features
Learning from a Language Model [3.0643865202019698]
本稿では、ゲノムのアクセス可能な領域を特定するためのSemanticCAPという新しいソリューションを提案する。
遺伝子配列のコンテキストをモデル化する遺伝子モデルを導入し、遺伝子配列の効果的な表現を提供する。
公開ベンチマークによる他のシステムと比較すると,我々のモデルは性能が向上することが判明した。
論文 参考訳(メタデータ) (2022-04-05T11:47:58Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z) - A Cross-Level Information Transmission Network for Predicting Phenotype
from New Genotype: Application to Cancer Precision Medicine [37.442717660492384]
本稿では,CLEIT(Cross-Level Information Transmission Network)フレームワークを提案する。
ドメイン適応にインスパイアされたCLEITは、まずハイレベルドメインの潜在表現を学び、その後、接地木埋め込みとして利用する。
体細胞突然変異による抗がん剤感受性の予測におけるCLEITの有効性と性能の向上を示す。
論文 参考訳(メタデータ) (2020-10-09T22:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。