論文の概要: Self-Reflective APIs: Structure Beats Verbosity for AI Agent Recovery
- arxiv url: http://arxiv.org/abs/2606.05037v1
- Date: Wed, 03 Jun 2026 16:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.877517
- Title: Self-Reflective APIs: Structure Beats Verbosity for AI Agent Recovery
- Title(参考訳): 自己表現型API:AIエージェントの回復のための構造が好奇心に勝る
- Authors: Arquimedes Canedo, Grama Chethan,
- Abstract要約: Self-reflective APIは、バリデーション失敗時に、マシン可読リカバリ_feedback.[]ペイロードを返す。
リーク監査されたパイロットでは、構造化された提案は、通常の英語診断に対するタスク補完率を+36.7$--$40.0$pp引き上げる。
再利用可能なCIインフラストラクチャとして、audit_prompt_leakage.pyを出荷しています。
- 参考スコア(独自算出の注目度): 0.7399145439266902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When an AI agent calls an API and hits a validation error, it needs more than what went wrong -- it needs what to do next. A self-reflective API returns, on validation failure, a machine-readable recovery\_feedback.suggestions[] payload sufficient for the agent to repair the request and retry without external reasoning. On a leak-audited pilot ($N{=}30$ per cell, 3 LLMs, 10 adversarial tasks), structured suggestions lift task-completion rate by $+36.7$--$40.0$pp over plain-English diagnoses on Anthropic models (Fisher's exact $p \le 0.0022$), at $1.8$--$2.2\times$ better per-success token efficiency. The lift is not significant on gpt-4o-mini ($p{=}0.435$); a second-domain replication on a billing API confirms the pattern. The comparison only holds after auditing two undocumented classes of answer leakage in LLM benchmarks. We shipaudit\_prompt\_leakage.py as reusable CI infrastructure. Code and data: https://github.com/arquicanedo/self-reflective-apis.
- Abstract(参考訳): AIエージェントがAPIを呼び出してバリデーションエラーを発生させると、何がうまくいかなかったかという以上に、次に何をすべきかが求められます。
self-reflective APIは、バリデーションの失敗時に、マシン可読リカバリ\_feedback.suggestions[]ペイロードを返す。
リーク監査されたパイロット (N{=}30$ per cell, 3 LLMs, 10 adversarial task) では、構造化提案により、アングロピックモデルの平文診断に対する$+36.7$--$40.0$pp(フィッシャーの正確な$p \le 0.0022$)は$1.8$--$2.2\times$より優れたトークン効率が提供される。
リフトはgpt-4o-mini(p{=}0.435$)では重要ではない。
比較は、LLMベンチマークで2つの未文書の回答リークのクラスを監査した後にのみ行われる。
再利用可能なCIインフラストラクチャとして、audit\_prompt\_leakage.pyを出荷しています。
コードとデータ:https://github.com/arquicanedo/self-reflective-apis。
関連論文リスト
- The Security Budget of Code LLMs: An Information-Theoretic Capacity-Security Bound [0.0]
本稿では,機能容量$Cap=rmI(c*;c_)$と摂動保持$$Sec=rmI(c_;tilde c_)$のコードLLMに対する情報理論トレードオフについて検討する。
for $pto c_$ with perturbed prompt $tilde p$, we prove $Cap+Secle rmH(c*)+rmI(p;tilde p)$。
論文 参考訳(メタデータ) (2026-06-02T08:22:14Z) - Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing [51.56484100374058]
プロダクションLLMアプリケーションは、いくつかの防衛ファミリを積み重ねる -- 拒絶フレーズフィルタ、トークンバッジコントロール、モデル許容度リスト、レート制限、ツール登録認証 -- が、BASベンチマークでは、単一の集計カバレッジ番号を報告している。
21エージェントベースラインスキャナに4つのLLM-Top-10対応エージェントを追加し、4つの合成LDMエンドポイントの格子をターゲットとした。
論文 参考訳(メタデータ) (2026-06-01T19:39:25Z) - LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis [7.571129923187892]
CIの障害ログは大きい(中央5k行、このコーパスで最大200k)し、ノイズがあります。
デバッグしようとするコーディングエージェントは、上流ツールに依存して、ログを管理可能なコンテキストに還元する。
11のコンテキスト推論ツールを比較するベンチマークであるLogDx-CIを紹介します。
論文 参考訳(メタデータ) (2026-05-26T06:34:47Z) - Peak-Then-Collapse and the Four Interface Channels of Knowledge-Graph Tool Use [1.0971997884861282]
我々は、Qwen2.5-7B-Instructの標準RLVRツール使用レシピであるGRPOを、意図的に最小限の知識グラフツールAPIでテストする。
自己検証可能な検索報酬の下で、ポリシーのツールによる回答率は、250ステップで3.8%から9.6%に上昇し、50ステップのウィンドウで0%に崩壊する。
論文 参考訳(メタデータ) (2026-05-25T17:05:35Z) - ClaimFlow: Tracing the Evolution of Scientific Claims in NLP [67.23189226608389]
NLP文献のクレーム中心のビューである$texttClaimFlow$を紹介します。
新しいタスク $-$$textitClaim Relation Classification$$-$を定義する。
我々の分析によると、63.5$%の請求は決して再利用されない。
論文 参考訳(メタデータ) (2026-03-17T02:43:36Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。