論文の概要: EnvTrace: Simulation-Based Semantic Evaluation of LLM Code via Execution Trace Alignment -- Demonstrated at Synchrotron Beamlines
- arxiv url: http://arxiv.org/abs/2511.09964v1
- Date: Fri, 14 Nov 2025 01:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.607214
- Title: EnvTrace: Simulation-Based Semantic Evaluation of LLM Code via Execution Trace Alignment -- Demonstrated at Synchrotron Beamlines
- Title(参考訳): EnvTrace: 実行トレースアライメントによるLLMコードのシミュレーションに基づくセマンティック評価 -- 放射光ビームラインでの実証
- Authors: Noah van der Vleuten, Anthony Flores, Shray Mathur, Max Rakitin, Thomas Hopkins, Kevin G. Yager, Esther H. R. Tsai,
- Abstract要約: EnvTraceは、セマンティックコード等価性を評価するために実行トレースを評価するシミュレーションベースの手法である。
計器制御符号の評価を容易にするために、ビームライン制御論理デジタルツインを用いて実証する。
- 参考スコア(独自算出の注目度): 0.19309412407089965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating large language models (LLMs) for instrument control requires methods that go beyond standard, stateless algorithmic benchmarks, since the behavior of physical systems cannot be fully captured by unit tests alone. Here we introduce EnvTrace, a simulation-based method that evaluates execution traces to assess semantic code equivalence. EnvTrace is demonstrated with a beamline control-logic digital twin to facilitate the evaluation of instrument control code, with the digital twin itself also enabling the pre-execution validation of live experiments. Over 30 LLMs were evaluated using trace alignment to generate a multi-faceted score for functional correctness across key behavioral dimensions, showing that many top-tier models can approach human-level performance in rapid control-code generation. This is a first step toward a broader vision where LLMs and digital twins work symbiotically: LLMs providing intuitive control and agentic orchestration, and digital twins offering safe and high-fidelity environments, paving the way towards autonomous embodied AI.
- Abstract(参考訳): 機器制御のための大規模言語モデル (LLM) の評価には、物理システムの振る舞いを単体テストだけで完全に把握できないため、標準でステートレスなアルゴリズムベンチマークを超える方法が必要である。
本稿では,セマンティックコード等価性を評価するために,実行トレースを評価するシミュレーションベースの手法であるEnvTraceを紹介する。
EnvTraceは、電子楽器制御コードの評価を容易にするために、ビームライン制御論理式デジタルツインで実証されており、デジタルツイン自体がライブ実験の事前実行を可能にする。
30以上のLSMをトレースアライメントを用いて評価し、キーとなる行動次元における機能的正しさの多面的スコアを生成し、多くのトップ層モデルが高速制御コード生成において人間レベルのパフォーマンスにアプローチ可能であることを示した。
LLMは直感的な制御とエージェントオーケストレーションを提供し、デジタルツインは安全で高忠実な環境を提供し、自律的なエンボディAIへの道を歩む。
関連論文リスト
- InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Controlling Multimodal LLMs via Reward-guided Decoding [17.5544679985101]
マルチモーダル大言語モデル (MLLM) の適応性について, 制御復号化による検討を行った。
本手法では,視覚的接地のための報酬モデルを構築し,MLLMの復号プロセスのガイドに使用する。
本手法を標準対象幻覚ベンチマークで評価し,MLLMの推論に対する制御性について検討した。
論文 参考訳(メタデータ) (2025-08-15T17:29:06Z) - Bench2ADVLM: A Closed-Loop Benchmark for Vision-language Models in Autonomous Driving [28.224158941451087]
VLM(Vision-Language Models)は、自律運転(AD)において有望なパラダイムとして登場した。
VLMベースのADシステム(ADVLM)の現在の性能評価プロトコルは、静的入力を伴うオープンループ設定に限られている。
シミュレーションと物理プラットフォーム間のリアルタイム・インタラクティブなADVLM評価のための階層型クローズドループ評価フレームワークであるBench2ADVLMを紹介した。
論文 参考訳(メタデータ) (2025-08-04T03:43:23Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins [8.244444633880603]
シムベンチ(SimBench)は、学生大言語モデル(S-LLM)のデジタルツイン(DT)生成能力を評価するためのベンチマークである。
S-LLMのコレクションを与えられたこのベンチマークは、高品質なDTを生成する能力に基づいて、S-LLMのランク付けを可能にする。
論文 参考訳(メタデータ) (2024-08-21T20:52:32Z) - Aligning Large Language Models with Representation Editing: A Control Perspective [38.71496554018039]
人間の目的に合わせて微調整された大規模言語モデル(LLM)は、現実世界のアプリケーションには不可欠である。
プロンプトやガイドデコードといったテスト時のアライメント技術は、基礎となるモデルを変更しない。
表現編集によるLLMの整合性を提案する。
論文 参考訳(メタデータ) (2024-06-10T01:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。