論文の概要: The STAR-XAI Protocol: A Framework for Inducing and Verifying Agency, Reasoning, and Reliability in AI Agents
- arxiv url: http://arxiv.org/abs/2509.17978v2
- Date: Fri, 26 Sep 2025 17:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.700512
- Title: The STAR-XAI Protocol: A Framework for Inducing and Verifying Agency, Reasoning, and Reliability in AI Agents
- Title(参考訳): STAR-XAIプロトコル:AIエージェントにおけるエージェンシーの誘導と検証、推論、信頼性のためのフレームワーク
- Authors: Antoni Guasch, Maria Isabel Valdez,
- Abstract要約: 大きな推論モデルの「ブラックボックス」の性質は、信頼性と透明性の限界を示す。
本稿では,信頼性の高いAIエージェントをトレーニングし,運用するための新たな運用方法論であるSTAR-XAIプロトコルを紹介する。
我々の方法は、明示的で進化する象徴的ルールブックによって支配される構造化ソクラテス的対話として、人間とAIの相互作用を再編成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "black box" nature of Large Reasoning Models (LRMs) presents critical limitations in reliability and transparency, fueling the debate around the "illusion of thinking" and the challenge of state hallucinations in agentic systems. In response, we introduce The STAR-XAI Protocol (Socratic, Transparent, Agentic, Reasoning - for eXplainable Artificial Intelligence), a novel operational methodology for training and operating verifiably reliable AI agents. Our method reframes the human-AI interaction as a structured Socratic dialogue governed by an explicit, evolving symbolic rulebook (the Consciousness Transfer Package - CTP) and a suite of integrity protocols, including a state-locking Checksum that eradicates internal state corruption. Through an exhaustive case study in the complex strategic game "Caps i Caps," we demonstrate that this "Clear Box" framework transforms an opaque LRM into a disciplined strategist. The agent not only exhibits the emergence of complex tactics, such as long-term planning, but also achieves ante-hoc transparency by justifying its intentions before acting. Crucially, it demonstrates Second-Order Agency by identifying and correcting flaws in its own supervisor-approved plans, leading to empirically-proven, 100% reliable state tracking and achieving "zero hallucinations by design." The STAR-XAI Protocol thus offers a practical pathway toward building AI agents that are not just high-performing but intrinsically auditable, trustworthy, and reliable.
- Abstract(参考訳): 大規模推論モデル(LRM)の「ブラックボックス」の性質は、信頼性と透明性の重大な限界を示し、「思考のイリュージョン」とエージェントシステムにおける国家幻覚の課題に関する議論を刺激している。
これに対し、我々は、信頼性の高いAIエージェントのトレーニングと運用のための新しい運用方法論であるSTAR-XAIプロトコル(Socratic, Transparent, Agentic, Reasoning - for eXplainable Artificial Intelligence)を導入する。
提案手法は,人間とAIの対話を,明示的で進化する象徴的ルールブック(意識伝達パッケージ - CTP)と,内部状態の腐敗を根絶する状態ロックチェックサムを含む一連の整合性プロトコルによって支配される構造化ソクラティック対話として再構成する。
複雑な戦略ゲーム"Caps i Caps"における徹底的なケーススタディを通じて、この"Clear Box"フレームワークが不透明なLEMを規律あるストラテジストに変換することを示した。
エージェントは、長期計画のような複雑な戦術の出現を示すだけでなく、行動する前にその意図を正当化することによって、アンテホックな透明性を達成する。
重要なことに、第2次機関は、独自の監督承認計画の欠陥を特定し、修正することで、実証的に証明され、100%信頼性のある状態追跡を行い、「設計によるゼロ幻覚」を達成する。
したがってSTAR-XAIプロトコルは、ハイパフォーマンスなだけでなく、本質的に監査可能で、信頼性があり、信頼性の高いAIエージェントを構築するための実践的な道筋を提供する。
関連論文リスト
- Operational Agency: A Permeable Legal Fiction for Tracing Culpability in AI Systems [0.31061678033205636]
本条では、後述の枠組み及び運用機関グラフ(OAG)として構成された、通用可能な法的フィクションについて紹介する。
OAはAIの観測可能な運用特性を評価する。
OAGは、これらの特徴を因果グラフに埋め込んで、開発者、ファインタウンタ、デプロイ者、ユーザ間の計算可能性を追跡し、評価することで、その分析を運用する。
論文 参考訳(メタデータ) (2026-02-20T01:49:03Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - SoK: Trust-Authorization Mismatch in LLM Agent Interactions [16.633676842555044]
大規模言語モデル(LLM)は、外の世界と対話できる自律エージェントへと急速に進化している。
本稿ではエージェント・インタラクション・セキュリティのための統一型フォーマルレンズを提供する。
本稿では,信頼と権限のギャップに着目した新たなリスク分析モデルを提案する。
論文 参考訳(メタデータ) (2025-12-07T16:41:02Z) - ATA: A Neuro-Symbolic Approach to Implement Autonomous and Trustworthy Agents [0.9740025522928777]
大きな言語モデル(LLM)は印象的な機能を示していますが、高レベルのドメインへのデプロイメントは、信頼性に固有の制限によって妨げられています。
我々は、自律的信頼できるエージェント(ATA)と呼ばれる一般的なニューロシンボリックアプローチを導入する。
論文 参考訳(メタデータ) (2025-10-18T07:35:54Z) - Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives [2.7295959384567356]
Co-Investigator AIは、SAR(Suspicious Activity Reports)の作成に最適化されたエージェントフレームワークであり、従来の方法よりも大幅に高速で精度が高い。
我々は、SARの草案作成を効率化し、物語を規制上の期待と一致させ、コンプライアンスチームが高次の分析作業に集中できるようにする能力を示します。
論文 参考訳(メタデータ) (2025-09-10T08:16:04Z) - The Collaboration Paradox: Why Generative AI Requires Both Strategic Intelligence and Operational Stability in Supply Chain Management [0.0]
経済環境における自律的、AI駆動エージェントの台頭は、その突発的な戦略行動に関する批判的な疑問を提起する。
本稿では,複数エケロン系サプライチェーンの協調的文脈におけるこれらのダイナミクスについて検討する。
私たちの中心的な発見は、"コラボレーションパラドックス"(colaboration paradox)です。これは、理論上優れた協調AIエージェントが非AIベースラインよりもさらにパフォーマンスが劣る、新しい、破滅的な障害モードです。
論文 参考訳(メタデータ) (2025-08-19T15:31:23Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - A Novel Zero-Trust Identity Framework for Agentic AI: Decentralized Authentication and Fine-Grained Access Control [7.228060525494563]
本稿では,Agentic AI IAMフレームワークの提案について述べる。
リッチで検証可能なエージェント識別子(ID)に基づく包括的フレームワークを提案する。
また、Zero-Knowledge Proofs(ZKPs)によって、プライバシ保護属性の開示と検証可能なポリシーコンプライアンスを実現する方法について検討する。
論文 参考訳(メタデータ) (2025-05-25T20:21:55Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。