論文の概要: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
- arxiv url: http://arxiv.org/abs/2510.12617v1
- Date: Tue, 14 Oct 2025 15:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.365292
- Title: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
- Title(参考訳): 同じモデル、より良いパフォーマンス:シャッフルがDNA言語モデルベンチマークに及ぼす影響
- Authors: Davide Greco, Konrad Rawlik,
- Abstract要約: 大規模言語モデルは、複雑な生物学的配列をデコードする可能性から、ゲノム学でますます人気がある。
DNA LMの評価は、ゲノムのドメイン固有の課題と機械学習の方法論を交差させる複雑なタスクであることを示す。
ストレージの前にデータを事前シャッフルすることで、効率を保ちながらハードウェア依存をなくすという簡単な解決策を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.
- Abstract(参考訳): 大規模言語モデルは、複雑な生物学的配列をデコードする可能性から、ゲノム学でますます人気がある。
したがって、研究者はDNA言語モデル(DNA LM)の機能を評価するために標準化されたベンチマークを必要とする。
しかし、DNA LMの評価はゲノムのドメイン固有の課題と機械学習の方法論とを交わす複雑なタスクであり、一見小さな実装の詳細がベンチマークの有効性を著しく損なう可能性がある。
BEND(Benchmarking DNA Language Models)では、ハードウェア依存のハイパーパラメータ -- データロードワーカーの数とバッファサイズ -- が、同じモデルに対して最大4%のパフォーマンスの急激なバリエーションを生み出します。
この問題は、ドメイン固有のデータ特性と相互作用するデータのシャッフルが不十分であることに起因している。
3つのDNA言語モデル(HyenaDNA、DNABERT-2、ResNet-LM)を用いた実験は、これらのアーティファクトが絶対性能と相対モデルランキングの両方に影響を与えることを示している。
ストレージの前にデータを事前シャッフルすることで、効率を保ちながらハードウェア依存をなくすという簡単な解決策を提案する。
この研究は、標準のMLプラクティスがドメイン固有のデータ特性と予期せず相互作用する方法を強調し、特定のドメインにおけるベンチマーク設計により大きな意味を持つ。
関連論文リスト
- ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。