論文の概要: Towards grounded autonomous research: an end-to-end LLM mini research loop on published computational physics
- arxiv url: http://arxiv.org/abs/2604.12198v1
- Date: Tue, 14 Apr 2026 02:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.195851
- Title: Towards grounded autonomous research: an end-to-end LLM mini research loop on published computational physics
- Title(参考訳): 基礎となる自律研究に向けて--計算物理学の終端から終端へのLLMミニ研究ループ
- Authors: Haonan Huang,
- Abstract要約: 最近の自律型LLMエージェントは、機械学習研究のエンドツーエンドの自動化を実証している。
エージェントが論文を読み、それを再生し、批判し、拡張するミニリサーチループである。
このループは、スケールと深さの2つの相補的な条件でテストします。
- 参考スコア(独自算出の注目度): 3.7193230342956056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent autonomous LLM agents have demonstrated end-to-end automation of machine-learning research. Real-world physical science is intrinsically harder, requiring deep reasoning bounded by physical truth and, because real systems are too complex to study in isolation, almost always built on existing literature. We focus on the smallest meaningful unit of such research, a mini research loop in which an agent reads a paper, reproduces it, critiques it, and extends it. We test this loop in two complementary regimes: scale and depth. At scale, across 111 open-access computational physics papers, an agent autonomously runs the read-plan-compute-compare loop and, without being asked to critique, raises substantive concerns on ~42% of papers - 97.7% of which require execution to surface. In depth, for one Nature Communications paper on multiscale simulation of a 2D-material MOSFET, the agent runs new calculations missing from the original and produces, unsupervised, a publishable Comment -- composed, figured, typeset, and PDF-iterated -- that revises the paper's headline conclusion.
- Abstract(参考訳): 最近の自律型LLMエージェントは、機械学習研究のエンドツーエンドの自動化を実証している。
現実世界の物理科学は本質的に困難であり、物理的真実に縛られた深い推論を必要とする。
エージェントが論文を読み、それを再生し、批判し、拡張するミニリサーチループである。
このループは、スケールと深さの2つの相補的な条件でテストします。
大規模では、111のオープンアクセス計算物理学論文にまたがって、エージェントが自動で読み取り-計画-計算-計算ループを実行し、批判されることなく、約42%の論文に対して実質的な懸念を提起する。
詳しくは、2D素材MOSFETのマルチスケールシミュレーションに関するNature Communicationsの論文の1つに、エージェントはオリジナルから欠落した新しい計算を実行し、教師なしの、出版可能なコメント -- 作成、抽出、タイプセット、PDF-iterated -- を実行し、論文の見出しの結論を改訂する。
関連論文リスト
- An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。
近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。
本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文 参考訳(メタデータ) (2025-12-22T15:03:57Z) - Seismology modeling agent: A smart assistant for geophysical researchers [14.28965530601497]
本稿では,Large Language Models (LLM) を利用したインテリジェントな対話型ワークフローを提案する。
SPECFEMのための最初のモデルコンテキストプロトコル(MCP)サーバスイートを紹介する。
このフレームワークは、完全な自動実行とHuman-in-the-loopコラボレーションの両方をサポートする。
論文 参考訳(メタデータ) (2025-12-16T14:18:26Z) - Does GenAI Rewrite How We Write? An Empirical Study on Two-Million Preprints [15.070885964897734]
生成型大規模言語モデル(LLM)は、原稿の書き方を変えることによって、さらなる破壊をもたらす可能性がある。
本稿は、2016年から2025年(115ヶ月)にかけての2100万件以上のプレプリントを4つの主要なリポジトリで大規模に分析することで、このギャップを解消する。
以上の結果から,LSMは提出サイクルと修正サイクルを加速し,言語的複雑性が緩やかに増加し,AI関連トピックが不均等に拡大したことが明らかとなった。
論文 参考訳(メタデータ) (2025-10-18T01:37:40Z) - Leveraging LLMs for Semi-Automatic Corpus Filtration in Systematic Literature Reviews [5.911820207772152]
本稿では,複数の大規模言語モデル(LLM)を活用し,記述的プロンプトに基づいて論文を分類し,共同で決定するパイプラインを提案する。
プロセス全体は、オープンソースのビジュアルアナリティクスWebインターフェースであるLLMSurverを介して、人間によって管理され、インタラクティブに制御されます。
その結果、パイプラインは、単一アノテータよりもエラー率を低くしながら、手作業を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-10-13T13:48:29Z) - LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation [66.09346158850308]
文献レビュープロセスをエミュレートする多エージェント協調ワークフローLiRA(Literature Review Agents)を提案する。
LiRAは、コンテンツアウトライン、サブセクションの執筆、編集、レビュー、コヒーシブで包括的なレビュー記事の作成に特殊エージェントを使用している。
実世界のシナリオにおいて文書検索を用いてLiRAを評価し,そのロバスト性を評価する。
論文 参考訳(メタデータ) (2025-10-01T12:14:28Z) - Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark [49.42250115889234]
本研究では,研究レベルの推論タスクにおいて,大規模言語モデル(LLM)をテストするために設計された最初のベンチマークを示す。
CritPtは71の複合研究課題からなる。
現在最先端のLCMは、孤立したチェックポイントを早期に保証しているが、完全な研究スケールの課題を確実に解決できるには程遠い。
論文 参考訳(メタデータ) (2025-09-30T17:34:03Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - Autonomous LLM-driven research from data to human-verifiable research papers [0.0]
完全なステップワイズプロセスを通じてインタラクションをガイドする自動化プラットフォームを構築しています。
注釈付きデータのみを提供するモードでは、データペーパーは仮説を立て、計画を立て、分析コードを書き、解釈し、結果を生成し、解釈した。
我々は、トレーサビリティ、透明性、妥当性を高めながら、AIによる科学的発見の加速の可能性を示す。
論文 参考訳(メタデータ) (2024-04-24T23:15:49Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - System for systematic literature review using multiple AI agents: Concept and an empirical evaluation [3.453564255183234]
体系的文献レビュー(SLR)は証拠に基づく研究の基礎である。
本稿では,SLRの完全自動化を目的とした新しいマルチAIエージェントシステムを提案する。
包括性と精度を維持しつつ,従来のSLRに必要な時間と労力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。