論文の概要: LLM Output Drift: Cross-Provider Validation & Mitigation for Financial Workflows
- arxiv url: http://arxiv.org/abs/2511.07585v1
- Date: Wed, 12 Nov 2025 01:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.39305
- Title: LLM Output Drift: Cross-Provider Validation & Mitigation for Financial Workflows
- Title(参考訳): LLMのアウトプット削減: クロスプロバイダによるファイナンシャルワークフローの検証と緩和
- Authors: Raffi Khatchadourian, Rolando Franco,
- Abstract要約: 非決定論的出力(アウトプットドリフト)は監査性と信頼を損なう。
規制された金融業務に関する5つのモデルアーキテクチャ間のドリフトを定量化する。
この発見は、より大きなモデルがプロダクションデプロイメントに普遍的に優れているという従来の仮定に挑戦する。
- 参考スコア(独自算出の注目度): 0.5798758080057375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial institutions deploy Large Language Models (LLMs) for reconciliations, regulatory reporting, and client communications, but nondeterministic outputs (output drift) undermine auditability and trust. We quantify drift across five model architectures (7B-120B parameters) on regulated financial tasks, revealing a stark inverse relationship: smaller models (Granite-3-8B, Qwen2.5-7B) achieve 100% output consistency at T=0.0, while GPT-OSS-120B exhibits only 12.5% consistency (95% CI: 3.5-36.0%) regardless of configuration (p<0.0001, Fisher's exact test). This finding challenges conventional assumptions that larger models are universally superior for production deployment. Our contributions include: (i) a finance-calibrated deterministic test harness combining greedy decoding (T=0.0), fixed seeds, and SEC 10-K structure-aware retrieval ordering; (ii) task-specific invariant checking for RAG, JSON, and SQL outputs using finance-calibrated materiality thresholds (plus or minus 5%) and SEC citation validation; (iii) a three-tier model classification system enabling risk-appropriate deployment decisions; and (iv) an audit-ready attestation system with dual-provider validation. We evaluated five models (Qwen2.5-7B via Ollama, Granite-3-8B via IBM watsonx.ai, Llama-3.3-70B, Mistral-Medium-2505, and GPT-OSS-120B) across three regulated financial tasks. Across 480 runs (n=16 per condition), structured tasks (SQL) remain stable even at T=0.2, while RAG tasks show drift (25-75%), revealing task-dependent sensitivity. Cross-provider validation confirms deterministic behavior transfers between local and cloud deployments. We map our framework to Financial Stability Board (FSB), Bank for International Settlements (BIS), and Commodity Futures Trading Commission (CFTC) requirements, demonstrating practical pathways for compliance-ready AI deployments.
- Abstract(参考訳): 金融機関は和解、規制報告、クライアント通信のために大規模言語モデル(LLM)を配備するが、非決定論的アウトプット(アウトプットドリフト)は監査性と信頼を損なう。
より小さなモデル(Granite-3-8B, Qwen2.5-7B)はT=0.0で100%出力整合性を達成し、GPT-OSS-120Bは構成によらずわずか12.5%(95% CI: 3.5-36.0%)の整合性を示す(P<0.0001, Fisherの正確なテスト)。
この発見は、より大きなモデルがプロダクションデプロイメントに普遍的に優れているという従来の仮定に挑戦する。
コントリビューションには以下のものがある。
一 グリーディ復号(T=0.0)、固定種及びSEC10-K構造対応検索命令を組み合わせた金融校正決定試験方法
(ii)金融キャリブレーションされた物質性閾値(プラス5%又はマイナス5%)とSECの引用検証を用いたRAG、JSON、SQL出力のタスク固有の不変チェック
三 リスク適切な配置決定が可能な三層モデル分類システム
(四)デュアルプロジェクタ検証による監査可読検査システム。
OllamaによるQwen2.5-7B、IBM watsonx.aiによるGranite-3-8B、Mistral-Medium-2505、GPT-OSS-120Bの5つのモデルを評価した。
480回の実行(n=16条件)、構造化タスク(SQL)はT=0.2でも安定であり、RAGタスクはドリフト(25-75%)を示し、タスク依存感度を示す。
クロスプロファイラ検証は、ローカルデプロイメントとクラウドデプロイメント間の決定論的振る舞い転送を確認する。
我々は、我々の枠組みを金融安定委員会(FSB)、国際決済銀行(BIS)、商品先物取引委員会(CFTC)の要求にマッピングし、コンプライアンス対応のAI展開のための実践的な経路を示す。
関連論文リスト
- You only need 4 extra tokens: Synergistic Test-time Adaptation for LLMs [50.54173262572369]
大規模言語モデル (LLM) は、金融、医療、農業などの専門分野にますます導入されている。
本稿では,言語モデルに対するラベルフリーテスト時適応について検討し,追加の監督なしにモデルをオンザフライで適応する推論時フレームワークであるSyTTAについて述べる。
論文 参考訳(メタデータ) (2025-10-11T14:00:39Z) - Type-Compliant Adaptation Cascades: Adapting Programmatic LM Workflows to Data [12.136710894967088]
本稿では,ワークフロー適応を学習型確率型プログラムとして再放送するフレームワークであるType-Compliant Adaptation Cascadesを紹介する。
経験的に、TACは最先端のプロンプト最適化ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-08-25T17:36:21Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Fine-Tuning Vision-Language Models for Markdown Conversion of Financial Tables in Malaysian Audited Financial Reports [0.0]
本稿ではQwen2.5-VL-7Bに基づく微調整視覚言語モデル(VLM)を提案する。
提案手法には,拡大した2,152枚の画像テキストペアをキュレートしたデータセットと,LoRAを用いた教師付き微調整戦略が含まれる。
基準に基づく評価では92.20%の精度と96.53%のTEDSスコアが得られた。
論文 参考訳(メタデータ) (2025-08-04T04:54:00Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models [13.567516575993546]
金融分野における大規模言語モデル(LLM)の推論強化フレームワークであるDianJin-R1を提案する。
我々のアプローチの中心は、CFLUE、FinQA、および独自コンプライアンスコーパス(中国コンプライアンスチェック、CCC)から構築された高品質なデータセットであるDianJin-R1-Dataである。
我々のモデルであるDianJin-R1-7BとDianJin-R1-32Bは、Qwen2.5-7B-InstructとQwen2.5-32B-Instructから、推論ステップと最終回答の両方を生成する構造化形式を用いて微調整される。
論文 参考訳(メタデータ) (2025-04-22T09:01:04Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - KodeXv0.1: A Family of State-of-the-Art Financial Large Language Models [41.94295877935867]
KodeXv0.1は、金融質問応答においてGPT-4を抜いた大規模な言語モデルのファミリーである。
我々は、決算報告や事業報告など、多くの公開財務文書を処理します。
論文 参考訳(メタデータ) (2024-09-13T16:43:08Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。