論文の概要: An Embarrassingly Simple Approach to Enhance Transformer Performance in Genomic Selection for Crop Breeding
- arxiv url: http://arxiv.org/abs/2405.09585v3
- Date: Mon, 24 Jun 2024 09:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 00:53:00.468873
- Title: An Embarrassingly Simple Approach to Enhance Transformer Performance in Genomic Selection for Crop Breeding
- Title(参考訳): 作物育種におけるゲノム選択におけるトランスフォーマー性能向上のための恥ずかしい簡単なアプローチ
- Authors: Renqi Chen, Wenwei Han, Haohao Zhang, Haoyang Su, Zhefan Wang, Xiaolei Liu, Hao Jiang, Wanli Ouyang, Nanqing Dong,
- Abstract要約: ゲノム選択(GS)は、食糧生産の増強と世界的な飢餓危機への対処において重要な役割を担っている。
最近の傾向は、ディープラーニングによってマーカー間の非線形関係を捉えることである。
シーケンス全体のエンドツーエンドのトレーニングを可能にする,シンプルで効果的なTransformerベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.468190598384425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Genomic selection (GS), as a critical crop breeding strategy, plays a key role in enhancing food production and addressing the global hunger crisis. The predominant approaches in GS currently revolve around employing statistical methods for prediction. However, statistical methods often come with two main limitations: strong statistical priors and linear assumptions. A recent trend is to capture the non-linear relationships between markers by deep learning. However, as crop datasets are commonly long sequences with limited samples, the robustness of deep learning models, especially Transformers, remains a challenge. In this work, to unleash the unexplored potential of attention mechanism for the task of interest, we propose a simple yet effective Transformer-based framework that enables end-to-end training of the whole sequence. Via experiments on rice3k and wheat3k datasets, we show that, with simple tricks such as k-mer tokenization and random masking, Transformer can achieve overall superior performance against seminal methods on GS tasks of interest.
- Abstract(参考訳): 遺伝的選抜(GS)は、重要な作物育成戦略として、食糧生産の増強と世界の飢餓危機への対処に重要な役割を果たしている。
現在、GSの主要なアプローチは、予測に統計手法を採用することである。
しかし、統計手法には強い統計的前提と線形仮定の2つの主要な制限がある。
最近のトレンドは、ディープラーニングによってマーカー間の非線形関係を捉えることである。
しかし、作物のデータセットは通常、限られたサンプルを持つ長いシーケンスであるため、ディープラーニングモデル、特にトランスフォーマーの堅牢性は依然として課題である。
本研究では,興味ある課題に対する未探索の注意機構の可能性を解き放つために,シーケンス全体のエンドツーエンドトレーニングを可能にする,シンプルで効果的なトランスフォーマーベースのフレームワークを提案する。
水稲3kと小麦3kのデータセットを実験した結果,k-merのトークン化やランダムマスキングといった簡単な手法によって,TransformerはGSタスクのセミナルメソッドに対して,全体的な優れたパフォーマンスを達成できることが判明した。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization [78.61621802973262]
トレーニング済み重量を効率的に更新するための直交微調整法を提案する。
クロスレギュラー化戦略はゼロショットの一般化の観点から安定性を維持するためにも用いられる。
提案手法は,タスク固有の知識を表現するために,事前学習した重み空間を明示的に操るものであることを実証するために,広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Enhanced Gene Selection in Single-Cell Genomics: Pre-Filtering Synergy and Reinforced Optimization [16.491060073775884]
単一セルゲノミクスにおけるクラスタリングタスクに適用可能な反復的遺伝子パネル選択戦略を提案する。
本手法は、他の遺伝子選択アルゴリズムの結果を統合し、重要な予備的境界を提供する。
強化学習(RL)における探索プロセスの性質と,その連続最適化能力を取り入れた。
論文 参考訳(メタデータ) (2024-06-11T16:21:33Z) - Challenging Gradient Boosted Decision Trees with Tabular Transformers for Fraud Detection at Booking.com [1.6702285371066043]
自己監視学習(SSL)によって強化されたトランスフォーマーベースのニューラルネットワークは、さまざまなドメインで前例のないパフォーマンスを示している。
本稿では,電子商取引における典型的な課題である不正検出において,表型変換器を用いたGBDTに挑戦することを目的とする。
我々の手法はトランスフォーマーの能力を利用して、SSLを使ってすべての利用可能なデータを使って転送可能な表現を学習する。
提案手法は、平均精度(AP)スコアのかなりのマージンで、調整されたGBDTよりも優れている。
論文 参考訳(メタデータ) (2024-05-22T14:38:48Z) - A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。
提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。
適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文 参考訳(メタデータ) (2023-12-12T19:23:54Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Drug Discovery under Covariate Shift with Domain-Informed Prior
Distributions over Functions [30.305418761024143]
実世界の薬物発見タスクは、しばしばラベル付きデータの不足とかなりの範囲のデータによって特徴づけられる。
我々は、データ生成プロセスの明示的な事前知識を事前分布にエンコードする原理的な方法を提案する。
我々は,Q-SAVIを組み込んで,事前知識のような化学空間をモデリングプロセスに組み込むことで,相当な精度と校正が可能であることを実証した。
論文 参考訳(メタデータ) (2023-07-14T05:01:10Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Unleashing the Power of Graph Data Augmentation on Covariate
Distribution Shift [50.98086766507025]
本稿では,AIA(Adversarial Invariant Augmentation)という,シンプルで効率の良いデータ拡張戦略を提案する。
AIAは、拡張プロセス中に元の安定した特徴を同時に保存しながら、新しい環境をエクスポーレーションし、生成することを目的としている。
論文 参考訳(メタデータ) (2022-11-05T07:55:55Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Meta Transition Adaptation for Robust Deep Learning with Noisy Labels [61.8970957519509]
本研究では,新しいメタ遷移学習戦略を提案する。
具体的には、クリーンなラベル付きメタデータの小さなセットのサウンドガイダンスにより、ノイズ遷移行列と分類器パラメータを相互に改善することができる。
本手法は, 従来技術よりも頑健な性能で, 遷移行列をより正確に抽出することができる。
論文 参考訳(メタデータ) (2020-06-10T07:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。