論文の概要: Genome-Bench: A Scientific Reasoning Benchmark from Real-World Expert Discussions
- arxiv url: http://arxiv.org/abs/2505.19501v1
- Date: Mon, 26 May 2025 04:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.169315
- Title: Genome-Bench: A Scientific Reasoning Benchmark from Real-World Expert Discussions
- Title(参考訳): Genome-Bench: 現実のエキスパートの議論から得られた科学的推論ベンチマーク
- Authors: Ming Yin, Yuanhao Qu, Dyllan Liu, Ling Yang, Le Cong, Mengdi Wang,
- Abstract要約: textitGenome-Benchはゲノム工学に関する10年以上にわたる科学フォーラムの議論から作られた新しいベンチマークだ。
我々のパイプラインは生のインタラクションを、3000以上の高品質な質問応答ペアによってサポートされた強化学習フレンドリな多重選択質問形式に変換する。
- 参考スコア(独自算出の注目度): 42.98891219912345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this short report, we present an automated pipeline tailored for the genomics domain and introduce \textit{Genome-Bench}, a new benchmark constructed from over a decade of scientific forum discussions on genome engineering. Our pipeline transforms raw interactions into a reinforcement learning friendly multiple-choice questions format, supported by 3000+ high quality question answer pairs spanning foundational biology, experimental troubleshooting, tool usage, and beyond. To our knowledge, this is the first end-to-end pipeline for teaching LLMs to reason from scientific discussions, with promising potential for generalization across scientific domains beyond biology.
- Abstract(参考訳): 本稿では,ゲノム領域に適した自動パイプラインを提案し,ゲノム工学に関する10年以上にわたる科学フォーラムの議論から構築された新しいベンチマークである「textit{Genome-Bench}」を紹介する。
私たちのパイプラインは、生のインタラクションを、基礎生物学、実験的なトラブルシューティング、ツールの使用などにわたる3000以上の高品質な質問応答ペアによってサポートされた、強化学習フレンドリなマルチチョイス質問形式に変換します。
我々の知る限り、このパイプラインはLLMに科学的な議論から理にかなっている最初のエンドツーエンドのパイプラインであり、生物学以外の科学分野にまたがる一般化の可能性を秘めている。
関連論文リスト
- Beyond path selection: Better LLMs for Scientific Information Extraction with MimicSFT and Relevance and Rule-induced(R$^2$)GRPO [17.61466802557524]
RLVR(Reinforcement Learning with Verifiable Rewards)を用いた強化学習で訓練されたLarge Language Models (LLM)は、数学タスクの推論能力を改善することなく推論経路を洗練する。
我々は、SFTとRLVRの両方が、SciIEに基づく簡単な方法で推論経路を洗練し、推論能力を向上させることができると論じている。
論文 参考訳(メタデータ) (2025-05-28T07:47:46Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Towards Artificial Intelligence Research Assistant for Expert-Involved Learning [64.7438151207189]
大規模言語モデル (LLMs) と大規模多モードモデル (LMMs) は科学研究における変革的ツールとして登場している。
textbfExpert-involved textbfLearning (ARIEL)のためのtextbfARtificial textbfIntelligence Research Assistantを提案する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - Large Language Models for Zero-shot Inference of Causal Structures in Biology [4.650342334505084]
本稿では,生物学における因果関係のゼロショット推論のための大規模言語モデル(LLM)を評価する枠組みを提案する。
実世界の介入データを用いて, LLMから得られた因果関係を系統的に評価した。
以上の結果から, 比較的小さなLLMでも生物学的システムにおける因果構造の意義を捉えることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-03-06T11:43:30Z) - Biological Sequence with Language Model Prompting: A Survey [14.270959261105968]
大きな言語モデル(LLM)は、さまざまなドメインにまたがる課題に対処するための強力なツールとして登場した。
本稿では, LLMを用いたプロンプトベース手法の生物学的配列への応用を系統的に検討する。
論文 参考訳(メタデータ) (2025-03-06T06:28:36Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。
我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。
我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文 参考訳(メタデータ) (2025-02-21T05:35:20Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - A Review on the Applications of Transformer-based language models for Nucleotide Sequence Analysis [0.8049701904919515]
本稿では, ヌクレオチド配列の文脈における近年のトランスフォーマーモデルの発展について紹介する。
このレビューは、トランスフォーマーベースの言語モデルからヌクレオチド配列への様々な応用を理解する上で、科学コミュニティの助けになると考えています。
論文 参考訳(メタデータ) (2024-12-10T05:33:09Z) - Multimodal large language model for wheat breeding: a new exploration of smart breeding [13.849056190321189]
繁殖の多分野的な性質は、知識採掘に技術的障壁と効率性の課題をもたらした。
本研究では、教師付き微調整(SFT)、検索強化生成(RAG)、人間フィードバック(RLHF)技術による強化学習を用いて、クロスドメイン知識をMLLMに注入した。
WBLMは、表現型推定、環境ストレスアセスメント、ターゲット胚細胞スクリーニング、栽培技術推奨、種価照会タスクのための専門的な意思決定支援回答を生成することができる。
論文 参考訳(メタデータ) (2024-11-20T04:47:42Z) - Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [20.648157071328807]
大規模言語モデル(LLM)は、既存の知識を分析することによって、新しい研究の方向性を特定することができる。
LLMは幻覚を発生させる傾向がある。
我々は,知識グラフから外部構造的知識を統合することで,LLM仮説の生成を促進するシステムKG-CoIを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:50:00Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - To Transformers and Beyond: Large Language Models for the Genome [2.799755865110429]
本稿では,大言語モデル (LLM) の変換的役割について述べる。
従来の畳み込みニューラルネットワークとリカレントニューラルネットワークの基礎の上に構築され、トランスフォーマーの長所と短所の両方を探求する。
我々は、現在の研究動向に基づいて、トランスフォーマーアーキテクチャを超えてゲノムモデリングの未来を考察する。
論文 参考訳(メタデータ) (2023-11-13T02:13:58Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - ScienceWorld: Is your Agent Smarter than a 5th Grader? [12.066880938687154]
本稿では,エージェントの科学的推論能力をテストするための新しいベンチマーク,ScienceWorldを提案する。
現在の最先端モデルは、新しい文脈で学んだ科学概念を推論したり説明できない。
論文 参考訳(メタデータ) (2022-03-14T22:52:34Z) - SciFive: a text-to-text transformer model for biomedical literature [0.9482369543628087]
本稿では,大規模なバイオメディカルコーパスで事前学習したドメイン固有T5モデルであるSciFiveを紹介する。
本研究は,より困難なテキスト生成タスクの探索と,本領域における新しい手法の開発を支援する。
論文 参考訳(メタデータ) (2021-05-28T06:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。