Fugu-MT 論文翻訳(概要): Exploring the Reliability of Self-explanation and its Relationship with Classification in Language Model-driven Financial Analysis

論文の概要: Exploring the Reliability of Self-explanation and its Relationship with Classification in Language Model-driven Financial Analysis

arxiv url: http://arxiv.org/abs/2503.15985v1
Date: Thu, 20 Mar 2025 09:33:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.344254
Title: Exploring the Reliability of Self-explanation and its Relationship with Classification in Language Model-driven Financial Analysis
Title（参考訳）: 言語モデルによる財務分析における自己説明の信頼性の探索と分類との関係
Authors: Han Yuan, Li Zhang, Zheng Ma,
Abstract要約: 言語モデル(LM)は、推論や詳細な財務分析において、非常に多様である。 LMによる自己説明を定量的に評価し,その事実と因果性に着目した。
参考スコア（独自算出の注目度）: 9.841055524057545
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models (LMs) have exhibited exceptional versatility in reasoning and in-depth financial analysis through their proprietary information processing capabilities. Previous research focused on evaluating classification performance while often overlooking explainability or pre-conceived that refined explanation corresponds to higher classification accuracy. Using a public dataset in finance domain, we quantitatively evaluated self-explanations by LMs, focusing on their factuality and causality. We identified the statistically significant relationship between the accuracy of classifications and the factuality or causality of self-explanations. Our study built an empirical foundation for approximating classification confidence through self-explanations and for optimizing classification via proprietary reasoning.
Abstract（参考訳）: 言語モデル(LM)は、独自の情報処理機能を通じて、推論と詳細な財務分析において、非常に多様である。従来の研究では、しばしば説明可能性を見落としながら分類性能の評価に焦点が当てられていた。ファイナンス領域の公開データセットを用いて,LMによる自己説明を定量的に評価し,その事実と因果性に着目した。分類の正確さと自己説明の事実や因果関係の統計的に有意な関係を同定した。本研究は,自己説明による分類信頼性の近似と,独自推論による分類最適化のための実証的基盤を構築した。

関連論文リスト

Interpreting LLMs as Credit Risk Classifiers: Do Their Feature Explanations Align with Classical ML? [4.0057196015831495]
大言語モデル(LLM)は、ゼロショットプロンプトによる分類タスクのための古典的な機械学習モデルの柔軟な代替品として、ますます研究されている。本研究では,ゼロショットLPMに基づく分類器と,現実のローンデフォルト予測タスクにおいて,最先端の勾配ブースティングモデルであるLightGBMとを体系的に比較する。我々は,それらの予測性能を評価し,SHAPを用いて特徴属性を分析し,LLM生成自己説明の信頼性を評価する。
論文参考訳（メタデータ） (2025-10-29T17:05:00Z)
Reliable and Reproducible Demographic Inference for Fairness in Face Analysis [63.46525489354455]
本稿では、従来のエンドツーエンドトレーニングをモジュラートランスファー学習アプローチで置き換える、完全に再現可能なDAIパイプラインを提案する。このパイプラインは、正確性、公正性、そしてアイデンティティ内整合性によって定義される、新たに導入された堅牢性の概念の3つの次元にわたって監査する。以上の結果から,提案手法は特に民族性において,強い基準線を上回り,その特性はより困難であることが示唆された。
論文参考訳（メタデータ） (2025-10-23T12:22:02Z)
Assessing Trustworthiness of AI Training Dataset using Subjective Logic -- A Use Case on Bias [5.919780779766899]
本稿では,AIトレーニングデータセットの信頼性を評価するための最初の公式フレームワークを紹介する。バイアスの信頼性に関するこの枠組みをインスタンス化し,交通標識認識データセットに基づいて実験的に評価する。
論文参考訳（メタデータ） (2025-08-19T13:17:41Z)
FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning [18.68776736676411]
FinEval-KRは、大規模言語モデルの知識と推論能力の定量化のための新しい評価フレームワークである。認知科学に触発されて,様々な認知レベルのタスクを推論する能力を分析する認知スコアを提案する。実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。
論文参考訳（メタデータ） (2025-06-18T06:21:50Z)
Interpretable Credit Default Prediction with Ensemble Learning and SHAP [3.948008559977866]
本研究では、信用デフォルト予測の問題に焦点をあて、機械学習に基づくモデリングフレームワークを構築し、様々な主流分類アルゴリズムの比較実験を行う。その結果、アンサンブル学習法は、特に特徴とデータ不均衡問題の間の複雑な非線形関係を扱う際に、予測性能に明らかな利点があることが示唆された。外部クレジットスコア変数はモデル決定において主要な役割を担い、モデルの解釈可能性と実用的な応用価値を改善するのに役立ちます。
論文参考訳（メタデータ） (2025-05-27T07:23:22Z)
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。既存のファクトチェック評価手法は静的データセットと分類基準に依存している。本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文参考訳（メタデータ） (2025-02-25T07:44:22Z)
Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8274323268621635]
Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。 RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文参考訳（メタデータ） (2024-12-02T10:50:50Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-02-14T15:52:42Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
LaPLACE: Probabilistic Local Model-Agnostic Causal Explanations [1.0370398945228227]
本稿では,機械学習モデルに対する確率論的原因・効果説明を提供するLaPLACE-Explainerを紹介する。 LaPLACE-Explainerコンポーネントはマルコフ毛布の概念を利用して、関連する特徴と非関連する特徴の間の統計的境界を確立する。提案手法は,LIME と SHAP の局所的精度と特徴の整合性の観点から,因果的説明と性能を向上する。
論文参考訳（メタデータ） (2023-10-01T04:09:59Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Logical Satisfiability of Counterfactuals for Faithful Explanations in NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。これは、説明に表される論理述語に基づいて、反実仮説を生成する。そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文参考訳（メタデータ） (2022-05-25T03:40:59Z)
Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文参考訳（メタデータ） (2022-05-11T04:00:44Z)
Through the Data Management Lens: Experimental Analysis and Evaluation of Fair Classification [75.49600684537117]
データ管理研究は、データとアルゴリズムの公平性に関連するトピックに対する存在感と関心が高まっている。我々は,その正しさ,公平性,効率性,スケーラビリティ,安定性よりも,13の公正な分類アプローチと追加の変種を幅広く分析している。我々の分析は、異なるメトリクスとハイレベルなアプローチ特性がパフォーマンスの異なる側面に与える影響に関する新しい洞察を強調します。
論文参考訳（メタデータ） (2021-01-18T22:55:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。