論文の概要: FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents
- arxiv url: http://arxiv.org/abs/2605.27333v1
- Date: Tue, 26 May 2026 17:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.572215
- Title: FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents
- Title(参考訳): FinHarness: LLMエージェントのためのインラインライフサイクルセーフティハーネス
- Authors: Haoxuan Jia, Yang Liu, Bin Chong, Yingguang Yang, Yancheng Chen, Jiayu Liang, Qian Li, Hanning Lu, Kefu Xu, Hao Zheng, Chongyang Zhang, Hao Peng, Philip S. Yu,
- Abstract要約: FinHarnessはファイナンスエージェントを3つのコンポーネントでエンドツーエンドにラップする。
火災危険因子は元被疑者証拠として入力されたエージェントに再注入され、エージェントは拒否、再計画、承認を行うことができる。
- 参考スコア(独自算出の注目度): 45.708389696454304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finance LLM agents must simultaneously block prompt-induced unauthorized actions and approve legitimate multi-step business workflows. However, boundary filters often miss irreversible mid-trajectory tool calls, while post-hoc LLM judges perform auditing only after termination -- too late for intervention and at a computational cost that scales linearly with trace length. We present FinHarness, an inline safety harness that wraps a finance agent end-to-end with three components: a Query Monitor that fuses single-turn intent with cross-turn drift, a Tool Monitor that evaluates each prospective tool call, and a Cascade module that integrates per-step risk and adaptively routes verification between a lightweight and an advanced-tier LLM judge. Fired risk factors are re-injected into the agent input as ex-ante evidence, enabling the agent to refuse, re-plan, or approve on its own. On FinVault, routed FinHarness cuts ASR from 38.3% to 15.0% while largely preserving benign approval ($41.1\% \to 39.3\%$), and uses $4.7\times$ fewer advanced-judge calls than an always-advanced ablation.
- Abstract(参考訳): ファイナンス LLM エージェントは、プロンプトによって引き起こされる不正なアクションを同時にブロックし、正当なマルチステップビジネスワークフローを承認する必要があります。
しかし、境界フィルタはしばしば不可逆的な中軌道ツールコールを見逃しがちであるが、ポストホックLLMの審査員は、介入が遅すぎたり、トレース長と線形にスケールする計算コストで、終了後のみ監査を行う。
ファイナンスエージェントをエンドツーエンドにラップするインラインセーフティハーネスであるFinHarnessは、クロスターンドリフトと単一ターンインテントを融合するクエリモニター、各予測ツールコールを評価するツールモニター、および、ステップ毎のリスクを統合し、軽量と上級のLCM裁判官間の検証を適応的にルーティングするカスケードモジュールである。
火災危険因子は元被疑者証拠として入力されたエージェントに再注入され、エージェントは拒否、再計画、承認を行うことができる。
FinVault では、ルート化された FinHarness は ASR を 38.3% から 15.0% に削減し、良心的な承認(41.1\% \to 39.3\%$)を保ち、常に先行するアブレーションよりも4.7\times$ より少ないアドバンスト・ジャッジ・コールを使用する。
関連論文リスト
- The Alpha Illusion: Reported Alpha from LLM Trading Agents Should Not Be Treated as Deployment Evidence [23.772113719172896]
エンド・ツー・エンドのLLMトレーディングエージェントからのシャープ比率の報告は、配備証拠として扱われてはならない。
レポートの堅牢性はトレーダブルな確率ではなく、物語の推論は数値的な実行ではない。
論文 参考訳(メタデータ) (2026-05-16T09:14:35Z) - Auditing Agent Harness Safety [81.22315979618612]
LLMエージェントは、ツールをディスパッチし、リソースを割り当て、特別なコンポーネント間でメッセージをルーティングする実行ハーネスの中でますます動作します。
ほとんどの安全ベンチマークは最終出力または終端状態のみをスコアするが、多くの違反は終端ではなく、軌道の途中で発生する。
HarnessAuditは、境界コンプライアンス、実行の忠実さ、システムの安定性など、完全な実行軌跡を監査するフレームワークである。
論文 参考訳(メタデータ) (2026-05-14T02:14:28Z) - On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment [54.30690671490447]
既存の安全アライメント信号は、主に応答レベルまたは政治外である。
FATEは、検証済みの失敗を専門家のデモンストレーションなしで修復管理に変換する。
FATEは攻撃成功率を33.5%、有害なコンプライアンスを82.6%削減し、外的軌道安全診断を6.5%改善する。
論文 参考訳(メタデータ) (2026-05-12T09:56:28Z) - AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems [30.172832661173928]
LLMベースのマルチエージェントシステムは、長距離タスクにますますデプロイされている。
単一の決定的なエラーは、しばしば下流のエージェントやカスケードによって軌道レベルの障害として受け入れられる。
我々は,この問題をオンライン監査として再編成するフレームワークであるAgentForesightを紹介した。
論文 参考訳(メタデータ) (2026-05-09T05:55:19Z) - TACT: Mitigating Overthinking and Overacting in Coding Agents via Activation Steering [70.99933391739154]
我々は、エージェントが既に持っている情報に対して繰り返し理由付けを行う2つの障害モードと、最近の観察を統合したり、新たな証拠を取得することなくツールコールを発行する2つの障害モードに焦点を当てる。
本稿では,活性化ステアリングによるTACT (Think-Act via activation Steering) を導入し,動作不良として現れる前に残留流中のエージェントの漂流を検知・緩和する。
具体的には、軌道のステップを過度に考え、過剰に実行し、あるいは校正し、隠れた状態が2つの *drift 軸* に沿って線形に分離できることを発見し、それぞれの障害モードに向かって校正された振る舞いを指示する。
論文 参考訳(メタデータ) (2026-05-07T10:24:27Z) - Physics-Grounded Multi-Agent Architecture for Traceable, Risk-Aware Human-AI Decision Support in Manufacturing [1.2090375982772545]
自由形航空宇宙部品の高精度CNC加工には, 検査, シミュレーション, プロセス知識による補償が必要である。
本稿では,マルチエージェント・ナレッジ・アナリティクス(Maka)を提案する。
MAKAは、人間の承認のために推奨される前に、物理的な妥当性、安全性の限界、完全性を強制する。
論文 参考訳(メタデータ) (2026-05-05T17:24:53Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。