論文の概要: Structured Debate Improves Corporate Credit Reasoning in Financial AI
- arxiv url: http://arxiv.org/abs/2510.17108v2
- Date: Wed, 05 Nov 2025 19:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 18:08:02.632313
- Title: Structured Debate Improves Corporate Credit Reasoning in Financial AI
- Title(参考訳): 金融AIにおける企業クレジット推論を改善する構造化討論
- Authors: Yoonjin Lee, Munhee Kim, Hanbi Choi, Juhyeon Park, Seungho Lyoo, Woojin Park,
- Abstract要約: 本研究では,非財務的証拠から構造化推論を生成する2つの運用型大規模言語モデル(LLM)を開発し,評価する。
1つ目は、単一パス推論パイプラインを通じて双方向解析を生成する非アドリアル単エージェントシステム(NAS)である。
第2の方法は,10段階の構造的相互作用プロトコルによる対向検証を運用する,議論ベースのマルチエージェントシステム(KPD-MADS)である。
- 参考スコア(独自算出の注目度): 6.013710554725173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in financial AI, the automation of evidence-based reasoning remains unresolved in corporate credit assessment, where qualitative non-financial indicators exert decisive influence on loan repayment outcomes yet resist formalization. Existing approaches focus predominantly on numerical prediction and provide limited support for the interpretive judgments required in professional loan evaluation. This study develops and evaluates two operational large language model (LLM)-based systems designed to generate structured reasoning from non-financial evidence. The first is a non-adversarial single-agent system (NAS) that produces bidirectional analysis through a single-pass reasoning pipeline. The second is a debate-based multi-agent system (KPD-MADS) that operationalizes adversarial verification through a ten-step structured interaction protocol grounded in Karl Popper's critical dialogue framework. Both systems were applied to three real corporate cases and evaluated by experienced credit risk professionals. Compared to manual expert reporting, both systems achieved substantial productivity gains (NAS: 11.55 s per case; KPD-MADS: 91.97 s; human baseline: 1920 s). The KPD-MADS demonstrated superior reasoning quality, receiving higher median ratings in explanatory adequacy (4.0 vs. 3.0), practical applicability (4.0 vs. 3.0), and usability (62.5 vs. 52.5). These findings show that structured multi-agent interaction can enhance reasoning rigor and interpretability in financial AI, advancing scalable and defensible automation in corporate credit assessment.
- Abstract(参考訳): 金融AIの進歩にもかかわらず、企業信用評価において証拠に基づく推論の自動化は未解決のままであり、質的な非金融指標はローン返済の結果に決定的な影響を及ぼすが、形式化には抵抗する。
既存の手法は、主に数値予測に焦点をあて、専門的融資評価に必要な解釈的判断を限定的に支援する。
本研究は,非金融的証拠から構造化推論を生成するために設計された2つの運用型大規模言語モデル(LLM)に基づくシステムを開発し,評価する。
1つ目は、単パス推論パイプラインを通じて双方向解析を生成する非逆単エージェントシステム(NAS)である。
2つ目は、カール・ポッパーのクリティカル・ダイアログ・フレームワークを基盤とした10ステップの構造化相互作用プロトコルにより、敵対的検証を運用する議論ベースのマルチエージェント・システム(KPD-MADS)である。
どちらのシステムも実際の3つのケースに適用され、経験豊富な信用リスク専門家によって評価された。
手動の専門家による報告と比較して、どちらのシステムも大幅な生産性向上を達成した(NAS: 11.55 s、KPD-MADS: 91.97 s、人体ベースライン: 1920 s)。
KPD-MADSは、説明的妥当性(4.0 vs. 3.0)、実用性(4.0 vs. 3.0)、ユーザビリティ(62.5 vs. 52.5)において、より優れた推論品質を示した。
これらの結果は、構造化されたマルチエージェントインタラクションが、財務AIにおける推論厳格さと解釈可能性を高め、企業クレジットアセスメントにおけるスケーラブルで防御可能な自動化を前進させることができることを示している。
関連論文リスト
- How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - The Architecture of Trust: A Framework for AI-Augmented Real Estate Valuation in the Era of Structured Data [0.0]
Uniform Appraisal dataset (UAD) 3.6の必須2026実装は、住宅資産の評価を物語報告から機械可読形式に変換する。
本稿では、コンピュータビジョン、自然言語処理、自律システムにおけるAIの進歩と並行して、この規制シフトを包括的に分析する。
技術的実装と機関的信頼要件に対処するAI付加評価のための3層フレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-04T05:24:25Z) - Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - FinAI-BERT: A Transformer-Based Model for Sentence-Level Detection of AI Disclosures in Financial Reports [6.324803752309524]
本研究では,FinAI-BERTについて紹介する。FinAI-BERTはドメイン適応トランスフォーマーに基づく言語モデルで,文レベルでのAI関連コンテンツを財務テキストに分類する。
このモデルは、米国の銀行の年間報告669件から抽出された1,586文の、手動でキュレートされバランスの取れたデータセットに基づいて微調整された。
論文 参考訳(メタデータ) (2025-06-29T09:33:29Z) - Reasoning or Overthinking: Evaluating Large Language Models on Financial Sentiment Analysis [1.3812010983144802]
我々は,様々な大規模言語モデル (LLM) が経済的文脈における人間ラベルの感情とどのように一致しているかを評価する。
本研究は, モデル設計のプロンプトや本質的設計による推論が, この課題における性能を向上させるものではないことを示唆している。
驚くべきことに、モデルと手法の最も正確かつ人間に整合した組み合わせは、CoT(Chain-of-Thought)を推進しないGPT-4oであった。
論文 参考訳(メタデータ) (2025-06-05T02:47:23Z) - Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models [51.85792055455284]
大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクを実行する能力を大幅に強化している。
システム1推論は計算効率が良いが、最適以下の性能をもたらす。
システム2推論(System 2 reasoning)は、思考の遅さや非効率性、不必要な推論の振る舞いにより、かなりの計算コストを発生させることが多い。
論文 参考訳(メタデータ) (2025-03-31T17:58:07Z) - Debate, Deliberate, Decide (D3): A Cost-Aware Adversarial Framework for Reliable and Interpretable LLM Evaluation [0.0]
本稿では、役割特化エージェント間の構造的議論を組織化する、費用対効果のある多エージェントフレームワークであるDebate, Deliberate, Decide(D3)を紹介する。
我々は,反復的議論の下で信頼性と収束性を特徴付けるスコアギャップの確率論的モデルを開発する。
我々は,人間の判断に対する最先端の合意,匿名化による位置バイアスと冗長性バイアスの低減,そして,適切な費用対精度のフロンティアを示す。
論文 参考訳(メタデータ) (2024-10-07T00:22:07Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。