論文の概要: Failure-Centered Runtime Evaluation for Deployed Trilingual Public-Space Agents
- arxiv url: http://arxiv.org/abs/2604.23990v1
- Date: Mon, 27 Apr 2026 03:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.714257
- Title: Failure-Centered Runtime Evaluation for Deployed Trilingual Public-Space Agents
- Title(参考訳): 3言語対応型パブリックスペースエージェントのフェールセンター実行時評価
- Authors: M. Meng,
- Abstract要約: 本稿では,三言語公開空間エージェントのための実行時評価フレームワークであるPSA-Evalを提案する。
PSA-Evalは,従来のチェーン質問->回答->スコア->質問の終了->バッチ->実行->障害事例->修復->回帰バッチを拡張した。
我々は、国際金融機関のロビーに配備された実際の三言語デジタルフロントデスクシステムについて、パイロット研究を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents PSA-Eval, a failure-centered runtime evaluation framework for deployed trilingual public-space agents. The central claim is that, when the evaluation object shifts from a static input-output mapping to a runtime system, the basic unit of analysis should shift from score to failure. PSA-Eval extends the conventional chain Question -> Answer -> Score -> End into Question -> Batch -> Run -> Score -> Failure Case -> Repair -> Regression Batch, making failures traceable, reviewable, repairable, and regression-testable. The framework uses trilingual equivalent inputs as controlled probes for observing group-level cross-language policy drift. We conduct a pilot study on a real trilingual digital front-desk system deployed in the lobby of an international financial institution. The pilot uses a simplified single-foundation-model setting (MA = MB), so the observed drift should not be interpreted as an A/B foundation-model difference. The study contains 81 samples organized into 27 trilingual equivalent question groups. Although the system achieves an average score of 23.15/24, 14 groups show non-zero cross-language score drift, 5 groups show drift of at least 3 points, and the maximum drift reaches 9 points. These results provide initial evidence that failure-centered runtime evaluation can expose structured deployment signals hidden by aggregate scoring.
- Abstract(参考訳): 本稿では,3言語対応のパブリックスペースエージェントをデプロイするための,障害中心のランタイム評価フレームワークであるPSA-Evalを提案する。
中心的な主張は、評価対象が静的な入出力マッピングからランタイムシステムに移行するとき、分析の基本単位がスコアから失敗へシフトすべきである、ということである。
PSA-Evalは従来のチェーン質問 -> Answer -> Score -> End into Question -> Batch -> Run -> Failure Case -> repair -> Regression Batchを拡張し、障害をトレース可能、レビュー可能、修正可能、回帰テスト可能にします。
このフレームワークは、グループレベルのクロスランゲージポリシードリフトを観察するための制御プローブとして、三言語等価入力を使用する。
我々は、国際金融機関のロビーに配備された実際の三言語デジタルフロントデスクシステムについて、パイロット研究を行う。
パイロットは単純化された単一境界モデル設定(MA = MB)を使用するため、観測されたドリフトはA/B基礎モデルの違いとして解釈するべきではない。
この研究は、27の三言語等価質問群に分類された81のサンプルを含む。
このシステムは平均スコア23.15/24を達成するが、14のグループはノンゼロ言語スコアドリフトを示し、5のグループは少なくとも3ポイントのドリフトを示し、最大ドリフトは9ポイントに達する。
これらの結果は、障害中心のランタイム評価がアグリゲーションスコアによって隠された構造化されたデプロイメント信号を公開することができるという最初の証拠を提供する。
関連論文リスト
- Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis [0.0]
ソフトウェア脆弱性分析のための言語横断的な脆弱性ライフサイクルフレームワークを構築します。
89.84-92.02%の言語内検出精度,74.43-80.12%のゼロショット言語F1。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
論文 参考訳(メタデータ) (2026-04-12T20:22:23Z) - STaR-DRO: Stateful Tsallis Reweighting for Group-Robust Structured Prediction [0.20165644958637055]
制御可能な推論と堅牢な微調整のための2部フレームワークを提案する。
まず、フォーマットのドリフト、ラベルの曖昧さ、エビデンス幻覚、メタデータ条件の混乱に対処するためのタスクに依存しないプロンプト戦略を導入する。
第2に,グループ不均一性のステートフルなロバスト最適化手法STaR-DROを導入する。
論文 参考訳(メタデータ) (2026-04-09T21:58:42Z) - Evaluating Self-Correcting Vision Agents Through Quantitative and Qualitative Metrics [0.0]
Vision-Language Agents (VLA) は複雑な視覚タスクを実行可能なツールベースの計画に分解することができる。
最近のベンチマークでは反復的自己補正の評価が始まっているが、その量的制限と支配的な推論ボトルネックはいまだに不十分である。
論文 参考訳(メタデータ) (2026-01-14T15:17:11Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness [61.45587642780908]
画像テキスト基礎モデルのパラメータ効率向上のための3段階のアプローチを提案する。
本手法は, マイノリティ標本同定とロバストトレーニングアルゴリズムの2つの重要な要素を改良する。
我々の理論分析は,PPAが少数群の識別を向上し,バランスの取れたグループエラーを最小限に抑えるためにベイズが最適であることを示している。
論文 参考訳(メタデータ) (2025-03-12T15:46:12Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Mitigating Bias in Text Classification via Prompt-Based Text Transformation [0.2864713389096699]
テキストの書き直しをChatGPTに促すことが、意味を保ちながら人口統計信号を減少させるかどうかを検討する。
その結果, テキスト分類におけるバイアス軽減のための実践的, 一般化可能な手法として, プロンプトベースの書き直しが提案されている。
論文 参考訳(メタデータ) (2023-05-09T13:10:23Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。