論文の概要: Talk Freely, Execute Strictly: Schema-Gated Agentic AI for Flexible and Reproducible Scientific Workflows
- arxiv url: http://arxiv.org/abs/2603.06394v1
- Date: Fri, 06 Mar 2026 15:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.097737
- Title: Talk Freely, Execute Strictly: Schema-Gated Agentic AI for Flexible and Reproducible Scientific Workflows
- Title(参考訳): 柔軟で再現可能な科学ワークフローのためのスキーマ付きエージェントAI
- Authors: Joel Strickland, Arjun Vijeta, Chris Moores, Oliwia Bodek, Bogdan Nenchev, Thomas Whitehead, Charles Phillips, Karl Tassenberg, Gareth Conduit, Ben Pellegrini,
- Abstract要約: 大規模言語モデル(LLM)は、研究者の平易な言語目標を実行可能計算に変換するが、科学的な要求決定論、証明、ガバナンスに変換することができる。
我々は、スキーマゲートオーケストレーションを解決原則として提案するので、完全なアクション(ステップ間の依存関係を含む)がマシンチェック可能な仕様に対して検証されない限り、何も実行されない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) can now translate a researcher's plain-language goal into executable computation, yet scientific workflows demand determinism, provenance, and governance that are difficult to guarantee when an LLM decides what runs. Semi-structured interviews with 18 experts across 10 industrial R&D stakeholders surface 2 competing requirements--deterministic, constrained execution and conversational flexibility without workflow rigidity--together with boundary properties (human-in-the-loop control and transparency) that any resolution must satisfy. We propose schema-gated orchestration as the resolving principle: the schema becomes a mandatory execution boundary at the composed-workflow level, so that nothing runs unless the complete action--including cross-step dependencies--validates against a machine-checkable specification. We operationalize the 2 requirements as execution determinism (ED) and conversational flexibility (CF), and use these axes to review 20 systems spanning 5 architectural groups along a validation-scope spectrum. Scores are assigned via a multi-model protocol--15 independent sessions across 3 LLM families--yielding substantial-to-near-perfect inter-model agreement (Krippendorff a=0.80 for ED and a=0.98 for CF), demonstrating that multi-model LLM scoring can serve as a reusable alternative to human expert panels for architectural assessment. The resulting landscape reveals an empirical Pareto front--no reviewed system achieves both high flexibility and high determinism--but a convergence zone emerges between the generative and workflow-centric extremes. We argue that a schema-gated architecture, separating conversational from execution authority, is positioned to decouple this trade-off, and distill 3 operational principles--clarification-before-execution, constrained plan-act orchestration, and tool-to-workflow-level gating--to guide adoption.
- Abstract(参考訳): 大規模言語モデル(LLM)は、研究者の平易な目標を実行可能な計算に変換するが、科学的なワークフローでは、LCMが実行を決定した時に保証が難しい決定論、証明、ガバナンスを必要とする。
10の産業R&D利害関係者を対象とした18人の専門家による半構造化されたインタビューは、2つの競合する要件(決定論的、制約付き実行、ワークフローの剛性なしでの会話の柔軟性)を表面化する。
スキーマは合成ワークフローレベルで必須の実行バウンダリとなり、完全なアクション(ステップ間の依存関係を含む)がマシンチェック可能な仕様に対して検証されない限り、何も実行されない。
2つの要件を実行決定論(ED)と会話柔軟性(CF)として運用し、これらの軸を用いて5つのアーキテクチャグループにまたがる20のシステムを検証・スコープスペクトルに沿ってレビューする。
スコアはマルチモデルプロトコルによって割り当てられる - 3つのLLMファミリーにまたがる15の独立したセッション - Krippendorff a=0.80 (ED) と a=0.98 (CF) は、アーキテクチャ評価のための人間の専門家パネルの再利用可能な代替品として機能することを実証している。
その結果、経験的なParetoフロントレビューシステムは、高い柔軟性と高い決定性の両方を達成するが、生成とワークフロー中心の極端の間に収束ゾーンが出現する。
スキーマゲートアーキテクチャは、会話と実行権限を分離し、このトレードオフを分離し、3つの運用原則、すなわち、明確化前実行、制約付き計画実行オーケストレーション、ツール・ツー・ワークフローレベルのゲーティング-を抽出して、導入をガイドする位置にある、と我々は主張する。
関連論文リスト
- Doc2AHP: Inferring Structured Multi-Criteria Decision Models via Semantic Trees with LLMs [7.026862437055361]
AHPの原理を導いた新しい構造推論フレームワークDoc2AHPを提案する。
重み付けの数値的整合性を確保するために,多エージェント重み付け機構と適応整合性最適化戦略を導入する。
実験の結果,Doc2AHPは非熟練ユーザに対して,スクラッチから高品質な意思決定モデルを構築する権限を与えるだけでなく,論理的完全性とダウンストリームタスク精度の両方において,直接生成ベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2026-01-23T06:20:23Z) - Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering [0.27195102129094995]
AIコーディングエージェントに対する現在のアプローチは、大規模言語モデルとエージェント自体の境界を曖昧にしている。
本稿では, LLM が環境環境の構成要素として扱われるように制御境界を設定することを提案する。
論文 参考訳(メタデータ) (2025-12-18T15:28:21Z) - DeepRule: An Integrated Framework for Automated Business Rule Generation via Deep Predictive Modeling and Hybrid Search Optimization [12.68443002994035]
DeepRuleは小売アソシエーションと価格最適化におけるビジネスルールの自動生成のための統合フレームワークである。
我々は,大規模言語モデル(LLM)を用いたハイブリッド知識融合エンジンを設計し,非構造化テキストの深い意味解析を行う。
実店舗環境において,運用可能性を確保しつつ,系統的B2Cベースラインよりも高い利益率を達成するための枠組みを検証した。
論文 参考訳(メタデータ) (2025-12-03T09:40:33Z) - Experts are all you need: A Composable Framework for Large Language Model Inference [8.747592414164687]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて最先端の精度を達成した。
MoEは、パラメータや"専門家"のサブセットのみを活性化することによって、モデルキャパシティを計算から切り離すことで、このボトルネックを克服する。
論文 参考訳(メタデータ) (2025-11-28T08:00:16Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning [50.45036742963495]
我々は,先進的な具体的推論とタスクプランニングを可能にする,多元的多元的プランナーであるOmniEVAを紹介する。
Task-Adaptive 3D Groundingメカニズムは、様々な実施タスクに対してコンテキスト対応の3Dグラウンドを可能にする。
Embodiment-Aware Reasoningフレームワークは、タスクの目標と実施制約を推論ループに組み込む。
論文 参考訳(メタデータ) (2025-09-11T10:32:22Z) - LLM4CMO: Large Language Model-aided Algorithm Design for Constrained Multiobjective Optimization [54.35609820607923]
大規模言語モデル(LLM)は、アルゴリズム設計を支援する新しい機会を提供する。
LLM4CMOは,2つの人口構成をもつ2段階のフレームワークをベースとした新しいCMOEAである。
LLMは複雑な進化最適化アルゴリズムの開発において効率的な共同設計者として機能する。
論文 参考訳(メタデータ) (2025-08-16T02:00:57Z) - Blueprint First, Model Second: A Framework for Deterministic LLM Workflow [3.9886771197662925]
我々は、"Blueprint First, Model Second"哲学に基づいた新しいパラダイムであるSource Code Agentフレームワークを紹介します。
私たちのフレームワークは、ワークフローロジックを生成モデルから切り離します。
我々の研究は、厳格な手続き論理に支配されるアプリケーションに自律エージェントを検証し、信頼性の高い配置を可能にする。
論文 参考訳(メタデータ) (2025-08-01T03:10:00Z) - RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。
CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。