論文の概要: AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy
- arxiv url: http://arxiv.org/abs/2505.20538v1
- Date: Mon, 26 May 2025 21:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.303281
- Title: AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy
- Title(参考訳): AstroVisBench:天文学における科学計算と可視化のためのコードベンチマーク
- Authors: Sebastian Antony Joseph, Syed Murtaza Husain, Stella S. R. Offner, Stéphanie Juneau, Paul Torrey, Adam S. Bolton, Juan P. Farias, Niall Gaffney, Greg Durrett, Junyi Jessy Li,
- Abstract要約: AstroVisBenchは天文学領域における科学計算と可視化の両方のための最初のベンチマークである。
本稿では,最先端言語モデルの評価を行い,天文学研究に有用なアシスタントとして携わる能力に大きなギャップがあることを示す。
- 参考スコア(独自算出の注目度): 59.32718342798908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are being explored for applications in scientific research, including their capabilities to synthesize literature, answer research questions, generate research ideas, and even conduct computational experiments. Ultimately, our goal is for these to help scientists derive novel scientific insights. In many areas of science, such insights often arise from processing and visualizing data to understand its patterns. However, evaluating whether an LLM-mediated scientific workflow produces outputs conveying the correct scientific insights is challenging to evaluate and has not been addressed in past work. We introduce AstroVisBench, the first benchmark for both scientific computing and visualization in the astronomy domain. AstroVisBench judges a language model's ability to both (1) create astronomy-specific workflows to process and analyze data and (2) visualize the results of these workflows through complex plots. Our evaluation of visualizations uses a novel LLM-as-a-judge workflow, which is validated against annotation by five professional astronomers. Using AstroVisBench we present an evaluation of state-of-the-art language models, showing a significant gap in their ability to engage in astronomy research as useful assistants. This evaluation provides a strong end-to-end evaluation for AI scientists that offers a path forward for the development of visualization-based workflows, which are central to a broad range of domains from physics to biology.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文学の合成、研究課題への回答、研究アイデアの生成、計算実験の実行など、科学研究の応用のために研究されている。
最終的に私たちのゴールは、科学者が新たな科学的洞察を導き出すのを助けることです。
科学の多くの分野において、そのような洞察は、そのパターンを理解するためにデータの処理と視覚化から生じることが多い。
しかし、LCMを介する科学的ワークフローが正しい科学的洞察を伝達するアウトプットを生成するかどうかを評価することは困難であり、過去の研究では解決されていない。
AstroVisBenchは天文学領域における科学計算と可視化の両方のための最初のベンチマークである。
AstroVisBenchは、(1)天文学特有のワークフローを作成してデータを処理し分析し、(2)複雑なプロットを通してこれらのワークフローの結果を視覚化する言語モデルの能力を判断する。
可視化技術の評価には,5人の専門天文学者による注釈に反する新たなLCM-as-a-judgeワークフローが用いられている。
AstroVisBenchを用いて、最先端の言語モデルの評価を行い、天文学研究に有用なアシスタントとして携わる能力に、大きなギャップがあることを示します。
この評価は、物理学から生物学まで幅広い領域の中心をなす可視化ベースのワークフローの開発に向けた道筋を提供する、AI科学者にとって、強力なエンドツーエンド評価を提供する。
関連論文リスト
- ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - pathfinder: A Semantic Framework for Literature Review and Knowledge Discovery in Astronomy [2.6952253149772996]
Pathfinderは天文学における文献のレビューと知識発見を可能にする機械学習フレームワークである。
我々のフレームワークは、LLMベースの合成と高度な検索技術を組み合わせて、意味文脈による天文学文献の検索を行う。
時間に基づく重み付けスキームと引用に基づく重み付けスキームを通じて、jargon、名前付きエンティティ、時間的側面の複雑さに対処する。
論文 参考訳(メタデータ) (2024-08-02T20:05:24Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Assessing Exoplanet Habitability through Data-driven Approaches: A
Comprehensive Literature Review [0.0]
レビューは、太陽系外惑星研究における新たなトレンドと進歩を照らすことを目的としている。
太陽系外惑星の検出、分類、可視化の相互作用に焦点を当てる。
太陽系外惑星研究で使用される機械学習アプローチの幅広いスペクトルを記述する。
論文 参考訳(メタデータ) (2023-05-18T17:18:15Z) - Workflow Provenance in the Lifecycle of Scientific Machine Learning [1.6118907823528272]
我々は、科学MLのライフサイクルをサポートするために、ワークフロー技術を活用して全体像を構築する。
i)データ分析のライフサイクルと分類の特徴づけ、(ii)W3C PROVに準拠したデータ表現と参照システムアーキテクチャを用いて、この視点を構築するための設計原則、(iii)393ノードと946GPUを持つHPCクラスタを用いて、石油・ガスのケースでの評価から学んだ教訓に貢献する。
論文 参考訳(メタデータ) (2020-09-30T13:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。