論文の概要: Separating Diagnosis from Control: Auditable Policy Adaptation in Agent-Based Simulations with LLM-Based Diagnostics
- arxiv url: http://arxiv.org/abs/2603.22904v1
- Date: Tue, 24 Mar 2026 07:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.367279
- Title: Separating Diagnosis from Control: Auditable Policy Adaptation in Agent-Based Simulations with LLM-Based Diagnostics
- Title(参考訳): 制御からの分離診断: LLMを用いたエージェント・ベース・シミュレーションにおける評価可能なポリシー適応
- Authors: Shaoxin Zhong, Yuchen Su, Michael Witbrock,
- Abstract要約: 高齢者の孤独を緩和するには、適応性と監査性の両方を達成するための政策介入が必要である。
本研究は,両特性を同時に達成するために,診断を制御から分離する3層フレームワークを提案する。
その結果、明示的な制御規則は、完全な監査性を維持しながら、エンドツーエンドのLCMアプローチを11.7%上回る結果となった。
- 参考スコア(独自算出の注目度): 10.25117941762109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mitigating elderly loneliness requires policy interventions that achieve both adaptability and auditability. Existing methods struggle to reconcile these objectives: traditional agent-based models suffer from static rigidity, while direct large language model (LLM) controllers lack essential traceability. This work proposes a three-layer framework that separates diagnosis from control to achieve both properties simultaneously. LLMs operate strictly as diagnostic instruments that assess population state and generate structured risk evaluations, while deterministic formulas with explicit bounds translate these assessments into traceable parameter updates. This separation ensures that every policy decision can be attributed to inspectable rules while maintaining adaptive response to emergent needs. We validate the framework through systematic ablation across five experimental conditions in elderly care simulation. Results demonstrate that explicit control rules outperform end-to-end black-box LLM approaches by 11.7\% while preserving full auditability, confirming that transparency need not compromise adaptive performance.
- Abstract(参考訳): 高齢者の孤独を緩和するには、適応性と監査性の両方を達成するための政策介入が必要である。
従来のエージェントベースのモデルは静的な剛性に悩まされ、直接的な大規模言語モデル(LLM)コントローラは必須のトレーサビリティを欠いている。
本研究は,両特性を同時に達成するために,診断を制御から分離する3層フレームワークを提案する。
LLMは、人口状態を評価し、構造化されたリスク評価を生成する診断機器として厳密に機能し、明示的な境界を持つ決定論的公式は、これらの評価をトレース可能なパラメータ更新に変換する。
この分離により、すべてのポリシー決定が検査可能なルールに起因できると同時に、緊急ニーズに対する適応的な応答を維持することができる。
介護シミュレーションにおける5つの実験条件にまたがる組織的アブレーションによる枠組みの検証を行った。
その結果、明示的な制御規則は、完全な監査性を維持しながら、エンドツーエンドのLCMアプローチよりも 11.7 % 向上し、透明性が適応的なパフォーマンスを損なう必要はないことを確認した。
関連論文リスト
- LHAW: Controllable Underspecification for Long-Horizon Tasks [8.46227536869596]
LHAW(Long-Horizon Augmenteds)は、モジュール型でデータセットに依存しない合成パイプラインである。
あいまいさのLLM予測に依存するアプローチとは異なり、LHAWは経験的エージェント試行を通じて変種を検証し、観察された終端状態のばらつきに基づいて結果クリティカル、発散、良性として分類する。
TheAgentCompany、SWE-Bench Pro、MCP-Atlasから285のタスク変種をリリースし、現在のエージェントが不明瞭な設定に対して不特定性を検知し、推論し、解決する方法を測定した。
論文 参考訳(メタデータ) (2026-02-11T04:49:50Z) - Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory [6.880198682732575]
項目応答理論(IRT)に基づくLCM-as-a-Judgeの信頼性評価のための2段階診断フレームワークを提案する。
本フレームワークはIRTのグレード・レスポンシブ・モデル(GRM)を採用し,(1)素早い変動下での計測行動の安定性として定義された本質的な一貫性,(2)人間のアライメント,人間の品質評価との対応,という2つの相補的な次元に沿って信頼性を定式化する。
論文 参考訳(メタデータ) (2026-01-31T05:24:08Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。
我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文 参考訳(メタデータ) (2024-06-25T08:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。