論文の概要: LLMs for Explainable Business Decision-Making: A Reinforcement Learning Fine-Tuning Approach
- arxiv url: http://arxiv.org/abs/2601.04208v1
- Date: Wed, 10 Dec 2025 04:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.610427
- Title: LLMs for Explainable Business Decision-Making: A Reinforcement Learning Fine-Tuning Approach
- Title(参考訳): LLMs for Explainable Business Decision-Making: A Reinforcement Learning Fine-Tuning Approach
- Authors: Xiang Cheng, Wen Wang, Anindya Ghose,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の説明を生成する機会を提供する。
観客に適切な説明を与える強化学習に基づく微調整フレームワークであるLEXMAを紹介する。
LEXMAは他のLLMベースラインに比べて予測性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 9.942833203981069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence (AI) models increasingly drive high-stakes consumer interactions, yet their decision logic often remains opaque. Prevailing explainable AI techniques rely on post hoc numerical feature attributions, which fail to provide coherent narratives behind model decisions. Large language models (LLMs) present an opportunity to generate natural-language explanations, but three design challenges remain unresolved: explanations must be both decision-correct and faithful to the factors that drive the prediction; they should be able to serve multiple audiences without shifting the underlying decision rule; and they should be trained in a label-efficient way that does not depend on large corpora of human-scored explanations. To address these challenges, we introduce LEXMA (LLM-based EXplanations for Multi-Audience decisions), a reinforcement-learning-based fine-tuning framework that produces narrative-driven, audience-appropriate explanations. LEXMA combines reflection-augmented supervised fine-tuning with two stages of Group Relative Policy Optimization (GRPO). Specifically, it fine-tunes two separate parameter sets to improve decision correctness and satisfy stylistic requirements for different audiences, using reward signals that do not rely on human-annotated explanations. We instantiate LEXMA in the context of mortgage approval decisions. Results demonstrate that LEXMA yields significant improvements in predictive performance compared with other LLM baselines. Moreover, human evaluations show that expert-facing explanations generated by our approach are more risk-focused, and consumer-facing explanations are clearer, more actionable, and more polite. Our study contributes a cost-efficient, systematic LLM fine-tuning approach to enhance explanation quality for business decisions, offering strong potential for scalable deployment of transparent AI systems.
- Abstract(参考訳): 人工知能(AI)モデルは消費者の対話をますます加速させるが、その決定ロジックはしばしば不透明である。
一般的なAIテクニックは、ポストホックな数値的特徴属性に依存しており、モデル決定の背後にある一貫性のある物語を提供していない。
大きな言語モデル(LLM)は、自然言語の説明を生成する機会を提供するが、3つの設計上の課題は未解決のままである: 説明は、予測を駆動する要因に正確かつ忠実でなければならない。
これらの課題に対処するため,LEXMA (LLM-based Explanations for Multi-Audience decision) を導入する。
LEXMAは、リフレクション強化された教師付き微調整と、グループ相対政策最適化(GRPO)の2つの段階を組み合わせる。
具体的には、2つのパラメータセットを微調整し、意思決定の正確性を改善し、異なるオーディエンスに対するスタイリスティックな要求を満たす。
我々は住宅ローン承認決定の文脈でLEXMAをインスタンス化する。
その結果、LEXMAは他のLLMベースラインと比較して予測性能が大幅に向上した。
さらに、人間による評価では、我々のアプローチによって生み出された専門家による説明はリスクを重視しており、消費者による説明はより明確で、より行動可能で、より礼儀正しくなっている。
我々の研究は、ビジネス意思決定における説明品質を高めるために、コスト効率が高く、体系的なLCM微調整アプローチに貢献し、透明なAIシステムのスケーラブルな展開に強力な可能性を秘めている。
関連論文リスト
- ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Are Today's LLMs Ready to Explain Well-Being Concepts? [17.02052397388858]
我々は,2,194の幸福な概念の43,880の説明を含む大規模データセットを構築した。
本稿では,原則誘導型LCM-as-a-judge評価フレームワークを導入する。
我々は,SFT(Supervised Fine-Tuning)とDPO(Direct Preference Optimization)を用いたオープンソースLLMの微調整により,生成した説明の質を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2025-08-06T00:45:02Z) - Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - DecisionFlow: Advancing Large Language Model as Principled Decision Maker [49.088778182807395]
DecisionFlowは、モデルにアクション、属性、制約の構造化された表現を推論するように誘導する、新しい決定モデリングフレームワークである。
プロンプトから直接回答を予測するのではなく、DecisionFlowは意味論的に根拠のある決定空間を構築し、潜在ユーティリティ関数を推論する。
実験の結果,DecisionFlowの精度は,強いプロンプトベースラインよりも最大30%向上した。
論文 参考訳(メタデータ) (2025-05-27T16:23:53Z) - LLMs for Explainable AI: A Comprehensive Survey [0.7373617024876725]
大規模言語モデル(LLM)は、説明可能なAI(XAI)を強化するための有望なアプローチを提供する
LLMは複雑な機械学習出力を理解しやすい物語に変換する。
LLMは洗練されたモデル行動と人間の解釈可能性のギャップを埋めることができる。
論文 参考訳(メタデータ) (2025-03-31T18:19:41Z) - Decision Information Meets Large Language Models: The Future of Explainable Operations Research [8.228707152775964]
本稿では,動作可能で理解可能な説明を重視した包括的フレームワーク,説明可能な操作研究(EOR)を提案する。
EORの中核は決定情報(Decision Information)の概念であり、それは何の分析から生まれ、複雑な制約の影響を評価することに焦点を当てている。
我々は,オペレーション・リサーチにおける説明と分析の有効性を厳格に評価するために,最初の産業ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-02-14T08:25:06Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。