論文の概要: Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents
- arxiv url: http://arxiv.org/abs/2601.15322v1
- Date: Sat, 17 Jan 2026 19:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.349829
- Title: Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents
- Title(参考訳): リプレイヤブル・ファイナンシャル・エージェント:ツール・ユース・LLMエージェントのための決定主義的信頼保証のハーネス
- Authors: Raffi Khatchadourian,
- Abstract要約: LLMエージェントは、規制監査のリプレイに苦労する: トランザクションフラグ付き決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。
本稿では,金融サービスに展開するツール利用エージェントにおけるトラジェクティブ決定性およびエビデンス条件の忠実度を測定するためのフレームワークであるDFAHを紹介する。
- 参考スコア(独自算出の注目度): 0.7699235580548228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents struggle with regulatory audit replay: when asked to reproduce a flagged transaction decision with identical inputs, most deployments fail to return consistent results. This paper introduces the Determinism-Faithfulness Assurance Harness (DFAH), a framework for measuring trajectory determinism and evidence-conditioned faithfulness in tool-using agents deployed in financial services. Across 74 configurations (12 models, 4 providers, 8-24 runs each at T=0.0) in non-agentic baseline experiments, 7-20B parameter models achieved 100% determinism, while 120B+ models required 3.7x larger validation samples to achieve equivalent statistical reliability. Agentic tool-use introduces additional variance (see Tables 4-7). Contrary to the assumed reliability-capability trade-off, a positive Pearson correlation emerged (r = 0.45, p < 0.01, n = 51 at T=0.0) between determinism and faithfulness; models producing consistent outputs also tended to be more evidence-aligned. Three financial benchmarks are provided (compliance triage, portfolio constraints, DataOps exceptions; 50 cases each) along with an open-source stress-test harness. In these benchmarks and under DFAH evaluation settings, Tier 1 models with schema-first architectures achieved determinism levels consistent with audit replay requirements.
- Abstract(参考訳): LLMエージェントは、規制監査のリプレイに苦労する: フラグ付きトランザクション決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。
本稿では,金融サービスに展開するツール利用エージェントにおける軌道決定主義と証拠条件の忠実度を測定するための枠組みであるDFAHについて紹介する。
74の構成(12モデル、4プロバイダー、8-24はT=0.0でそれぞれ実行されている)の他、7-20Bパラメータモデルは100%決定性を達成し、120B+モデルは同等の統計的信頼性を達成するために3.7倍の検証サンプルを必要とした。
Agentic Tool-useは、追加の分散を導入する(表4-7参照)。
信頼性と信頼性のトレードオフと対照的に、決定論と忠実性の間に正のピアソン相関(r = 0.45, p < 0.01, n = 51 at T=0.0)が出現した。
3つの金融ベンチマーク(コンプライアンストリアージ、ポートフォリオ制約、DataOps例外、それぞれ50ケース)とオープンソースのストレステストハーネスが提供されている。
これらのベンチマークとDFAH評価設定では、スキーマファーストアーキテクチャを持つティア1モデルは、監査再生要求と整合した決定論的レベルを達成した。
関連論文リスト
- Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions [50.1404916337174]
大規模言語モデル(LLM)における母国語の確率的サンプリングの大規模,統計的に活用された最初の監査について述べる。
バッチ生成は, ほぼ完全に崩壊する一方, 中央値のパスレートが13%であり, 統計的妥当性はわずかであることがわかった。
現在のLCMには機能的な内部サンプルが欠如しており、統計的保証を必要とするアプリケーションに外部ツールを使う必要があると結論付けている。
論文 参考訳(メタデータ) (2026-01-08T22:33:12Z) - ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions [0.32928123659012326]
ツールを使用するLLMエージェントの既存のベンチマークでは、主に単一実行の成功率を報告し、運用に必要な信頼性特性を見逃している。
エージェントの信頼性を3次元にわたって評価するベンチマークである textbfReliabilityBench を紹介する。
我々は2つのモデル(Gemini 2.0 Flash, GPT-4o)と2つのエージェントアーキテクチャ(ReAct, Reflexion)を1,280回にわたって4つのドメイン(スケジューリング、旅行、カスタマーサポート、eコマース)で評価した。
論文 参考訳(メタデータ) (2026-01-03T13:41:33Z) - CIFE: Code Instruction-Following Evaluation [3.941243815951084]
我々は1,000のPythonタスクのベンチマークを導入し、それぞれが13のカテゴリにまたがる平均7つの開発者指定制約とペアリングした。
補完的付着度を用いて14個のオープンソース・クローズド・ソース・モデルを評価し,C2Aスコア(C2A Score)を提案する。
その結果、部分的満足度と厳密な満足度の間には実質的なギャップがみられ、強いモデルは90%以上の部分的密着性を達成する一方、厳密な密着性は39-66%に留まった。
論文 参考訳(メタデータ) (2025-12-19T09:43:20Z) - Interpretable Hypothesis-Driven Trading:A Rigorous Walk-Forward Validation Framework for Market Microstructure Signals [0.0]
我々は,アルゴリズム取引のためのウォークフォワード・バリデーション・フレームワークを開発した。
我々の手法は、解釈可能な仮説駆動信号生成と強化学習と厳密なサンプル外テストを組み合わせる。
このフレームワークは厳密な情報セットの規律を強制し、34の独立したテスト期間にわたるロールウインドウ検証を採用し、自然言語の仮説による完全な解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-12-15T02:20:42Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - LLM Output Drift: Cross-Provider Validation & Mitigation for Financial Workflows [0.5798758080057375]
非決定論的出力(アウトプットドリフト)は監査性と信頼を損なう。
規制された金融業務に関する5つのモデルアーキテクチャ間のドリフトを定量化する。
この発見は、より大きなモデルがプロダクションデプロイメントに普遍的に優れているという従来の仮定に挑戦する。
論文 参考訳(メタデータ) (2025-11-10T19:54:00Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。