Fugu-MT 論文翻訳(概要): Agentic Problem Frames: A Systematic Approach to Engineering Reliable Domain Agents

論文の概要: Agentic Problem Frames: A Systematic Approach to Engineering Reliable Domain Agents

arxiv url: http://arxiv.org/abs/2602.19065v1
Date: Sun, 22 Feb 2026 06:32:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.4666
Title: Agentic Problem Frames: A Systematic Approach to Engineering Reliable Domain Agents
Title（参考訳）: エージェント問題フレーム: 工学的信頼性のあるドメインエージェントへの体系的アプローチ
Authors: Chanjin Park,
Abstract要約: 大きな言語モデル(LLM)は、自律的なエージェントへと進化していますが、現在の"フレームワークレス"な開発は、あいまいな自然言語に基づいています。本研究では,内部モデルインテリジェンスからエージェントと環境間の構造的相互作用に焦点を移すシステム工学フレームワークであるエージェント問題フレーム(APF)を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are evolving into autonomous agents, yet current "frameless" development--relying on ambiguous natural language without engineering blueprints--leads to critical risks such as scope creep and open-loop failures. To ensure industrial-grade reliability, this study proposes Agentic Problem Frames (APF), a systematic engineering framework that shifts focus from internal model intelligence to the structured interaction between the agent and its environment. The APF establishes a dynamic specification paradigm where intent is concretized at runtime through domain knowledge injection. At its core, the Act-Verify-Refine (AVR) loop functions as a closed-loop control system that transforms execution results into verified knowledge assets, driving system behavior toward asymptotic convergence to mission requirements (R). To operationalize this, this study introduces the Agentic Job Description (AJD), a formal specification tool that defines jurisdictional boundaries, operational contexts, and epistemic evaluation criteria. The efficacy of this framework is validated through two contrasting case studies: a delegated proxy model for business travel and an autonomous supervisor model for industrial equipment management. By applying AJD-based specification and APF modeling to these scenarios, the analysis demonstrates how operational scenarios are systematically controlled within defined boundaries. These cases provide a conceptual proof that agent reliability stems not from a model's internal reasoning alone, but from the rigorous engineering structures that anchor stochastic AI within deterministic business processes, thereby enabling the development of verifiable and dependable domain agents.
Abstract（参考訳）: 大きな言語モデル(LLM)は、自律的なエージェントへと進化していますが、現在の"フレームワークレス"な開発は、エンジニアリングの青写真のない曖昧な自然言語に基づいています。産業レベルの信頼性を確保するため,内部モデルインテリジェンスからエージェントと環境間の構造的相互作用に焦点を移すシステム工学フレームワークであるエージェント問題フレーム(APF)を提案する。 APFは動的仕様パラダイムを確立し、ドメイン・ナレッジ・インジェクションを通じてインテントを実行時に拡張します。 Act-Verify-Refine(AVR)ループは、実行結果を検証済みの知識資産に変換するクローズドループ制御システムとして機能し、ミッション要求(R)への漸近的な収束に向けてシステムの振る舞いを駆動する。そこで本研究では, 領域境界, 運用状況, てんかん評価基準を規定する形式仕様ツールであるAJD(Agenic Job Description)を導入する。この枠組みの有効性は、ビジネス旅行の委譲されたプロキシモデルと産業機器管理の自律的なスーパーバイザーモデルという2つの対照的なケーススタディを通じて検証される。これらのシナリオにAJDベースの仕様とAPFモデリングを適用することで、分析は、定義された境界内で運用シナリオが体系的に制御される方法を示す。これらのケースは、エージェントの信頼性はモデルの内部的推論だけでなく、決定論的ビジネスプロセス内で確率的AIを固定する厳密なエンジニアリング構造に由来するものであり、検証可能で信頼性の高いドメインエージェントの開発を可能にする、という概念的な証明を提供する。

関連論文リスト

Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System [26.405948122941467]
本稿では、最適化を自律的な発見プロセスとして再編成するフレームワークであるGEARSを紹介する。 GEARSは、アルゴリズム信号と深いランク付けコンテキストを相乗化することにより、優れた、ほぼパレート効率のポリシーを一貫して識別する。
論文参考訳（メタデータ） (2026-02-20T22:24:01Z)
The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文参考訳（メタデータ） (2026-01-21T15:22:21Z)
Institutional AI: A Governance Framework for Distributional AGI Safety [1.3763052684269788]
AIモデルのコア特性から生じる3つの構造的問題を同定する。ソリューションはInstitutional AIであり、AIエージェント集団の効果的なガバナンスの問題としてアライメントを扱うシステムレベルのアプローチである。
論文参考訳（メタデータ） (2026-01-15T17:08:26Z)
Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。 LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文参考訳（メタデータ） (2026-01-12T21:31:38Z)
Assured Autonomy: How Operations Research Powers and Orchestrates Generative AI Systems [18.881800772626427]
生成モデルは、実現可能性、分散シフトに対する堅牢性、ストレステストを提供するメカニズムと組み合わせない限り、運用領域で脆弱である可能性がある、と我々は主張する。我々は,運用研究に根ざした自律性確保のための概念的枠組みを開発する。これらの要素は、安全クリティカルで信頼性に敏感な運用領域における自律性を保証するための研究アジェンダを定義する。
論文参考訳（メタデータ） (2025-12-30T04:24:06Z)
AgentGuard: Runtime Verification of AI Agents [1.14219428942199]
AgentGuardは、エージェントAIシステムの実行時検証のためのフレームワークである。動的確率保証(Dynamic Probabilistic Assurance)と呼ばれる新しいパラダイムを通じて、継続的な量的保証を提供する。
論文参考訳（メタデータ） (2025-09-28T13:08:50Z)
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文参考訳（メタデータ） (2025-09-02T17:46:26Z)
Formalizing Operational Design Domains with the Pkl Language [0.4349640169711269]
人間の直接監督なしに操作できる自動化機能の展開は、より高いレベルの自動化を求めるドメインの安全性評価を変更した。説得力のある安全性を主張するためには、開発者は、意図した文脈で操作した場合、関数が不合理なリスクを伴わないという証拠によって支持される、徹底的な正当化の議論を提示する必要がある。本稿では,Pkl言語におけるオペレーショナルデザインドメイン仕様(ODD)の形式化について述べる。
論文参考訳（メタデータ） (2025-09-02T11:41:27Z)
A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [53.37728204835912]
既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
論文参考訳（メタデータ） (2025-08-10T16:07:32Z)
AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。