論文の概要: Verifying Memoryless Sequential Decision-making of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.06756v1
- Date: Wed, 08 Oct 2025 08:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.365171
- Title: Verifying Memoryless Sequential Decision-making of Large Language Models
- Title(参考訳): 大規模言語モデルのメモリレスシーケンス決定の検証
- Authors: Dennis Gross, Helge Spieker, Arnaud Gotlieb,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づく政策を逐次意思決定タスクにおいて厳密かつ自動検証するツールを提案する。
逐次意思決定タスクを表すマルコフ決定プロセス(MDP)、LCMポリシー、およびPCTL式として表現される安全要件を考慮し、本手法はMDPの到達可能な部分のみを段階的に構成する。
結果の形式モデルがStormでチェックされ、ポリシーが指定された安全資産を満たすかどうかが決定される。
- 参考スコア(独自算出の注目度): 4.570003973862485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a tool for rigorous and automated verification of large language model (LLM)- based policies in memoryless sequential decision-making tasks. Given a Markov decision process (MDP) representing the sequential decision-making task, an LLM policy, and a safety requirement expressed as a PCTL formula, our approach incrementally constructs only the reachable portion of the MDP guided by the LLM's chosen actions. Each state is encoded as a natural language prompt, the LLM's response is parsed into an action, and reachable successor states by the policy are expanded. The resulting formal model is checked with Storm to determine whether the policy satisfies the specified safety property. In experiments on standard grid world benchmarks, we show that open source LLMs accessed via Ollama can be verified when deterministically seeded, but generally underperform deep reinforcement learning baselines. Our tool natively integrates with Ollama and supports PRISM-specified tasks, enabling continuous benchmarking in user-specified sequential decision-making tasks and laying a practical foundation for formally verifying increasingly capable LLMs.
- Abstract(参考訳): メモリレスシーケンシャル意思決定タスクにおいて,大規模言語モデル(LLM)に基づくポリシーを厳格かつ自動検証するツールを提案する。
逐次意思決定タスクを表すマルコフ決定プロセス(MDP)、LCMポリシー、およびPCTL公式として表される安全要件を考慮し、本手法はLLMが選択した行動によって導かれるMDPの到達可能な部分のみを段階的に構成する。
各状態は自然言語プロンプトとして符号化され、LCMの応答はアクションに解析され、ポリシーによって到達可能な後続状態が拡張される。
結果の形式モデルがStormでチェックされ、ポリシーが指定された安全資産を満たすかどうかが決定される。
標準グリッドワールドベンチマークの実験では,Ollama経由でアクセスされるオープンソースのLLMが決定的にシードされる際には検証可能であるが,一般には深層強化学習ベースラインが不十分であることを示す。
本ツールはOllamaとネイティブに統合され,PRISM指定タスクをサポートする。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Embodied CoT Distillation From LLM To Off-the-shelf Agents [6.318203525449058]
DeDerは、大規模言語モデル(LLM)から具体的推論能力を分解し、蒸留するためのフレームワークである。
ALFREDベンチマークによる我々の実験は、DeDerが先進的な言語計画と蒸留アプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-12-16T07:18:02Z) - RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。
これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。
認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - RoCar: A Relationship Network-based Evaluation Method for Large Language Models [20.954826722195847]
大規模言語モデル(LLM)の機能をどのように合理的に評価するかは、まだ解決すべき課題である。
本稿では,定義された基本スキーマを用いてタスクグラフをランダムに構築するRoCar法を提案する。
テスト対象のLSMが直接評価タスクを学習していないことを保証し,評価手法の公平性を保証することが可能である。
論文 参考訳(メタデータ) (2023-07-29T14:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。