論文の概要: Profit Mirage: Revisiting Information Leakage in LLM-based Financial Agents
- arxiv url: http://arxiv.org/abs/2510.07920v1
- Date: Thu, 09 Oct 2025 08:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.950293
- Title: Profit Mirage: Revisiting Information Leakage in LLM-based Financial Agents
- Title(参考訳): 利益ミラージュ:LLMを基盤とした金融エージェントにおける情報漏洩の再検討
- Authors: Xiangyu Li, Yawen Zeng, Xiaofen Xing, Jin Xu, Xiangmin Xu,
- Abstract要約: LLMベースの金融エージェントは、人間の専門家のように取引できる能力に広く興奮している。
バックテストされたリターンのダズラは、モデルの知識ウィンドウが終了すると蒸発します。
本稿では,LLMをベースとしたエージェントに対して,暗記された結果ではなく因果関係の学習を強制するために,反ファクト的摂動を適用したフレームワークFactFinを紹介する。
- 参考スコア(独自算出の注目度): 40.636918662488505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based financial agents have attracted widespread excitement for their ability to trade like human experts. However, most systems exhibit a "profit mirage": dazzling back-tested returns evaporate once the model's knowledge window ends, because of the inherent information leakage in LLMs. In this paper, we systematically quantify this leakage issue across four dimensions and release FinLake-Bench, a leakage-robust evaluation benchmark. Furthermore, to mitigate this issue, we introduce FactFin, a framework that applies counterfactual perturbations to compel LLM-based agents to learn causal drivers instead of memorized outcomes. FactFin integrates four core components: Strategy Code Generator, Retrieval-Augmented Generation, Monte Carlo Tree Search, and Counterfactual Simulator. Extensive experiments show that our method surpasses all baselines in out-of-sample generalization, delivering superior risk-adjusted performance.
- Abstract(参考訳): LLMベースの金融エージェントは、人間の専門家のように取引できる能力に広く興奮している。
バックテストされたリターンのダズリングは、LLMに固有の情報漏洩のため、モデルの知識ウィンドウが終了すると蒸発する。
本稿では,この漏洩問題を4次元にわたって体系的に定量化し,FinLake-Bench(リーク・ロバスト評価ベンチマーク)をリリースする。
さらに,この問題を軽減するために,LLMをベースとしたエージェントに対して,暗記された結果ではなく因果的ドライバの学習を強制するために,反ファクト的摂動を適用したフレームワークであるFactFinを導入する。
FactFinはStrategy Code Generator, Retrieval-Augmented Generation, Monte Carlo Tree Search, Counterfactual Simulatorの4つのコアコンポーネントを統合している。
大規模な実験により,本手法は全基本ラインを超越し,リスク調整性能が向上した。
関連論文リスト
- Standard Benchmarks Fail - Auditing LLM Agents in Finance Must Prioritize Risk [31.43947127076459]
標準ベンチマークでは、大規模言語モデル(LLM)エージェントが金融面でどれだけうまく機能するかを定めているが、デプロイの安全性についてはほとんど語っていない。
我々は、精度の指標とリターンベースのスコアが、幻覚的な事実、古いデータ、敵の迅速な操作などの脆弱性を見渡すことで、信頼性の錯覚をもたらすと論じている。
論文 参考訳(メタデータ) (2025-02-21T12:56:15Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Enhancing Financial Sentiment Analysis via Retrieval Augmented Large
Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。
本稿では,金融感情分析のためのLLMフレームワークを提案する。
提案手法の精度は15%から48%向上し,F1得点を得た。
論文 参考訳(メタデータ) (2023-10-06T05:40:23Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。