論文の概要: InteractScience: Programmatic and Visually-Grounded Evaluation of Interactive Scientific Demonstration Code Generation
- arxiv url: http://arxiv.org/abs/2510.09724v1
- Date: Fri, 10 Oct 2025 07:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.591897
- Title: InteractScience: Programmatic and Visually-Grounded Evaluation of Interactive Scientific Demonstration Code Generation
- Title(参考訳): InteractScience:対話型科学実証コード生成のプログラム的および視覚的評価
- Authors: Qiaosheng Chen, Yang Liu, Lei Li, Kai Chen, Qipeng Guo, Gong Cheng, Fei Yuan,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語命令から完全なアプリケーションを生成する能力がますます高まっている。
科学的デモンストレーションを生成するには、正確な科学的知識と対話的なフロントエンドコードを実装する能力を組み合わせるモデルが必要である。
InactScienceは、5つの科学領域にまたがって慎重に設計された質問のかなりのセットからなるベンチマークである。
- 参考スコア(独自算出の注目度): 47.17929896747628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly capable of generating complete applications from natural language instructions, creating new opportunities in science and education. In these domains, interactive scientific demonstrations are particularly valuable for explaining concepts, supporting new teaching methods, and presenting research findings. Generating such demonstrations requires models to combine accurate scientific knowledge with the ability to implement interactive front-end code that behaves correctly and responds to user actions. This capability goes beyond the scope of existing benchmarks, which typically evaluate either knowledge question answering without grounding in code or static web code generation without scientific interactivity. To evaluate this integrated ability, we design a hybrid framework that combines programmatic functional testing to rigorously verify interaction logic with visually-grounded qualitative testing to assess rendered outputs against reference snapshots. Building on this framework, we present InteractScience, a benchmark consisting of a substantial set of carefully designed questions across five scientific domains, each paired with unit tests, reference snapshots, and checklists. We evaluate 30 leading open- and closed-source LLMs and report results that highlight ongoing weaknesses in integrating domain knowledge with interactive front-end coding. Our work positions InteractScience as the first benchmark to automatically measure this combined capability with realistic interactive operations, providing a foundation for advancing reliable and educationally useful scientific demonstration code generation. All code and data are publicly available at https://github.com/open-compass/InteractScience.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語命令から完全なアプリケーションを生成する能力が増し、科学と教育の新しい機会を生み出している。
これらの領域において、インタラクティブな科学的デモンストレーションは、特に概念の説明、新しい指導方法のサポート、研究成果の提示に有用である。
このようなデモンストレーションを生成するには、正確な科学的知識と、正しく動作しユーザアクションに応答するインタラクティブなフロントエンドコードを実装する能力を組み合わせる必要がある。
この機能は既存のベンチマークの範囲を超えており、典型的には、コードの根拠のない知識質問応答と、科学的相互作用のない静的なWebコード生成のいずれかを評価する。
この統合能力を評価するために,プログラム的機能テストを組み合わせたハイブリッドフレームワークを設計し,対話ロジックと視覚的定性的テストとを厳密に検証し,基準スナップショットに対する出力の評価を行う。
このフレームワーク上に構築されたInteractScienceは、5つの科学領域にまたがって慎重に設計された質問からなるベンチマークであり、それぞれが単体テスト、参照スナップショット、チェックリストと組み合わせられている。
我々は、30のオープンソースおよびクローズドソースのLCMを評価し、ドメイン知識と対話型フロントエンドコーディングの統合において、継続的な弱点を浮き彫りにした結果を報告する。
われわれの研究は、InteractScienceを、この組み合わせ能力とリアルな対話的操作を自動測定する最初のベンチマークとして位置づけ、信頼性と教育的に有用な科学的実証コード生成の基盤を提供する。
すべてのコードとデータはhttps://github.com/open-compass/InteractScienceで公開されている。
関連論文リスト
- Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - Data Science Principles for Interpretable and Explainable AI [0.7581664835990121]
解釈可能でインタラクティブな機械学習は、複雑なモデルをより透明で制御しやすいものにすることを目的としている。
本論は, この分野における文献の発達から重要な原則を合成するものである。
論文 参考訳(メタデータ) (2024-05-17T05:32:27Z) - The Future of Scientific Publishing: Automated Article Generation [0.0]
本研究では,Python コードからの学術論文の自動生成を目的とした,大規模言語モデル(LLM)プロンプトを活用した新しいソフトウェアツールを提案する。
Pythonは基本的な概念実証として機能するが、基盤となる方法論とフレームワークは、さまざまなGitHubリポジトリにまたがる適応性を示している。
この開発は高度な言語モデルエージェントに頼らずに達成され、一貫性と総合的な学術的コンテンツの自動生成において高い忠実性を確保した。
論文 参考訳(メタデータ) (2024-04-11T16:47:02Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Automated Creation and Human-assisted Curation of Computable Scientific
Models from Code and Text [2.3746609573239756]
ドメインエキスパートは、コードに詳しくなければ、科学的モデルの実装を完全に理解することはできない。
我々は,科学モデルの自動作成と人手によるキュレーションのためのシステムを開発した。
本研究では,NASAのハイパーソニック・エアロダイナミックス(Hypersonic Aerodynamics)のウェブサイトから得られたコードと関連テキストのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-01-28T17:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。