論文の概要: LLM Driven Processes to Foster Explainable AI
- arxiv url: http://arxiv.org/abs/2511.07086v1
- Date: Mon, 10 Nov 2025 13:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.268769
- Title: LLM Driven Processes to Foster Explainable AI
- Title(参考訳): 説明可能なAIを育成するLLM駆動プロセス
- Authors: Marcel Pehlke, Marc Jansen,
- Abstract要約: オーディエンス可能なアーティファクトへの推論を外部化する,モジュール型で説明可能なLCMエージェントパイプラインを提案する。
このシステムは3つのフレームワークをインスタンス化する: VesterのSensitivity Model(要素セット、署名されたインパクトマトリックス、システム的役割、フィードバックループ)、正規形式ゲーム(戦略、ペイオフマトリックス、平衡)、シーケンシャルゲーム(ロールコンディショニングされたエージェント、ツリー構築、後方誘導)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a modular, explainable LLM-agent pipeline for decision support that externalizes reasoning into auditable artifacts. The system instantiates three frameworks: Vester's Sensitivity Model (factor set, signed impact matrix, systemic roles, feedback loops); normal-form games (strategies, payoff matrix, equilibria); and sequential games (role-conditioned agents, tree construction, backward induction), with swappable modules at every step. LLM components (default: GPT-5) are paired with deterministic analyzers for equilibria and matrix-based role classification, yielding traceable intermediates rather than opaque outputs. In a real-world logistics case (100 runs), mean factor alignment with a human baseline was 55.5\% over 26 factors and 62.9\% on the transport-core subset; role agreement over matches was 57\%. An LLM judge using an eight-criterion rubric (max 100) scored runs on par with a reconstructed human baseline. Configurable LLM pipelines can thus mimic expert workflows with transparent, inspectable steps.
- Abstract(参考訳): オーディエンス可能なアーティファクトへの推論を外部化する,モジュール型で説明可能なLCMエージェントパイプラインを提案する。
このシステムは3つのフレームワークをインスタンス化する: VesterのSensitivity Model(要素セット、署名されたインパクトマトリックス、システム的役割、フィードバックループ)、正規形式ゲーム(戦略、ペイオフマトリックス、平衡)、シーケンシャルゲーム(ロールコンディショニングされたエージェント、ツリー構築、後方誘導)。
LLM成分(デフォルト: GPT-5)は平衡と行列に基づく役割分類のための決定論的解析器と組み合わせられ、不透明な出力ではなくトレーサブル中間体を生成する。
実世界のロジスティクス(100ラン)の場合、平均的因子のアライメントは26の因子に対して55.5\%、トランスポートコアサブセットでは62.9\%であり、試合における役割合意は57\%であった。
8基準のルーブリック(max 100)を用いたLCM審査員は、再構築された人間のベースラインと同等に走行する。
構成可能なLLMパイプラインは、透過的で検査可能なステップで専門家ワークフローを模倣することができる。
関連論文リスト
- Learning Hierarchical Procedural Memory for LLM Agents through Bayesian Selection and Contrastive Refinement [23.31711942240935]
本稿では,外部階層型手続き型メモリにおいて,すべての適応を実行しながら,凍結した大言語モデルを維持することにより,推論を学習から切り離すフレームワークMACLAを提案する。
MACLAは、トラジェクトリーから再利用可能な手順を抽出し、ベイジアン後部を通して信頼性を追跡し、期待される実用性スコアリングを通じてアクションを選択し、成功と失敗を対比して手順を洗練する。
4つのベンチマーク(ALFWorld、WebShop、TravelPlanner、InterCode)でMACLAの平均パフォーマンスは78.1%で、すべてのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-22T01:56:28Z) - LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation [0.7933039558471408]
我々は,複雑な解析的および数学的推論タスクに,文脈的理解が不要であることに対処する。
既存のベンチマークデータセットは、動的な環境、変数、不均一な制約でそのような問題の複雑さに対処できない。
NL4RAは、LP、ILP、MILPとして定式化された50のリソース割り当て最適化問題からなるキュレートデータセットである。
次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-11-13T23:19:43Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Guided Reasoning in LLM-Driven Penetration Testing Using Structured Attack Trees [1.2397617816774036]
サイバーセキュリティの侵入テストのための既存のLarge Language Models (LLMs) は自己誘導推論に依存している。
我々は,MITRE ATT&CK Matrix から構築された決定論的タスクツリーを組み込んだ LLM エージェントの侵入試験のためのガイド付き推論パイプラインを提案する。
Llama-3-8B, Gemini-1.5, GPT-4を用いてLLMを71.8%, 72.8%, 78.6%のサブタスクに誘導した。
論文 参考訳(メタデータ) (2025-09-09T17:19:33Z) - LLMSR@XLLM25: An Empirical Study of LLM for Structural Reasoning [6.700515856842664]
We present Team asdfo123's submit to the LLMSR@XLLM25 shared task。
我々は、粒度、制御性、解釈可能な推論プロセスを生成する上で、大きな言語モデルを評価する。
提案手法は, マクロF1スコアを, より複雑で資源消費の少ないパイプラインと同等に達成し, 総合5位にランク付けする。
論文 参考訳(メタデータ) (2025-05-18T09:46:30Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Position: Scaling LLM Agents Requires Asymptotic Analysis with LLM Primitives [8.713076928533846]
難しい問題をサブプロブレムに分解することで、解き易く、より効率的に解決できる。
本稿は,LLMプリミティブを用いた解析が,そのようなシステムの効率性について考慮する必要があることを論じる。
論文 参考訳(メタデータ) (2025-02-04T20:47:43Z) - Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。
自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-12-31T17:46:51Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。