Fugu-MT 論文翻訳(概要): MemGuard-Alpha: Detecting and Filtering Memorization-Contaminated Signals in LLM-Based Financial Forecasting via Membership Inference and Cross-Model Disagreement

論文の概要: MemGuard-Alpha: Detecting and Filtering Memorization-Contaminated Signals in LLM-Based Financial Forecasting via Membership Inference and Cross-Model Disagreement

arxiv url: http://arxiv.org/abs/2603.26797v1
Date: Thu, 26 Mar 2026 00:35:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.622988
Title: MemGuard-Alpha: Detecting and Filtering Memorization-Contaminated Signals in LLM-Based Financial Forecasting via Membership Inference and Cross-Model Disagreement
Title（参考訳）: MemGuard-Alpha:メンバーシップ推論とクロスモデル分解によるLCMに基づく財務予測における記憶制御信号の検出とフィルタリング
Authors: Anisha Roy, Dip Roy,
Abstract要約: 大規模言語モデル (LLM) は、金融アルファ信号を生成するためにますます使われている。証拠は、LLMがトレーニングコーパスから歴史的財務データを記憶し、急激な予測精度を生み出していることを示している。既存の方法では、リアルタイム取引のための実用的なゼロコスト信号レベルフィルタリングが提供されない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly used to generate financial alpha signals, yet growing evidence shows that LLMs memorize historical financial data from their training corpora, producing spurious predictive accuracy that collapses out-of-sample. This memorization-induced look-ahead bias threatens the validity of LLM-based quantitative strategies. Prior remedies -- model retraining and input anonymization -- are either prohibitively expensive or introduce significant information loss. No existing method offers practical, zero-cost signal-level filtering for real-time trading. We introduce MemGuard-Alpha, a post-generation framework comprising two algorithms: (i) the MemGuard Composite Score (MCS), which combines five membership inference attack (MIA) methods with temporal proximity features via logistic regression, achieving Cohen's d = 18.57 for contamination separation (d = 0.39-1.37 using MIA features alone); and (ii) Cross-Model Memorization Disagreement (CMMD), which exploits variation in training cutoff dates across LLMs to separate memorized signals from genuine reasoning. Evaluated across seven LLMs (124M-7B parameters), 50 S&P 100 stocks, 42,800 prompts, and five MIA methods over 5.5 years (2019-2024), CMMD achieves a Sharpe ratio of 4.11 versus 2.76 for unfiltered signals (49% improvement). Clean signals produce 14.48 bps average daily return versus 2.13 bps for tainted signals (7x difference). A striking crossover pattern emerges: in-sample accuracy rises with contamination (40.8% to 52.5%) while out-of-sample accuracy falls (47% to 42%), providing direct evidence that memorization inflates apparent accuracy at the cost of generalization.
Abstract（参考訳）: 大規模言語モデル(LLMs)は、金融アルファ信号を生成するためにますます使われているが、LLMがトレーニングコーパスから歴史的財務データを記憶している証拠が増えている。この記憶によるルックアヘッドバイアスは、LLMに基づく定量的戦略の有効性を脅かす。事前治療 -- モデルリトレーニングとインプット匿名化 -- は、違法にコストがかかるか、重大な情報損失をもたらすかのいずれかです。既存の方法では、リアルタイム取引のための実用的なゼロコスト信号レベルフィルタリングが提供されない。 2つのアルゴリズムからなるポストジェネレーションフレームワークであるMemGuard-Alphaを紹介する。 (i)MemGuard Composite Score(MCS)は、5つのメンバシップ推論攻撃(MIA)手法と、ロジスティック回帰による時間的近接特徴を組み合わせたもので、汚染分離のためのCohen's d = 18.57を達成する(d = 0.39-1.37)。 (II) LLM間のトレーニングカットオフ日数の変化を利用して、暗記信号と真の推論を区別するクロスモデル記憶障害(CMMD)。 7つのLCM(124M-7Bパラメータ)、50のS&P 100株、42,800のプロンプト、5つのMIAメソッド(2019-2024)で評価され、CMMDはシャープ比が4.11対2.76である(49%の改善)。クリーン信号は平均14.48bps、テント信号は2.13bps(差は7倍)である。サンプル内精度は汚染によって上昇し(40.8%から52.5%)、サンプル外精度は47%から42%に低下し、メモリ化が一般化のコストで明らかな精度を膨らませる直接の証拠となる。

関連論文リスト

AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling [12.42698406379544]
AgentHERは、自然言語エージェントトラジェクトリにHindsight Experience原則を適用することで、失われたトレーニング信号を回復する。破棄された障害を高品質のSFT、DPO、ShareGPTトレーニングデータに変換する。 WebArena Replay (Zhou et al., 2024)とToolBench (Qin et al., 2024)では、AgentHERは4つのモデルファミリーで成功のみのSFTを+7.1-11.7ppで改善している。
論文参考訳（メタデータ） (2026-03-22T18:36:58Z)
Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction [0.0]
大型言語モデル (LLM) における幻覚は、一貫性はあるが事実的に不正確であり、文脈的に矛盾する出力である。モデル出力のばらつきを低減するための5つの迅速なエンジニアリング戦略を提示し、比較する。
論文参考訳（メタデータ） (2026-03-08T19:15:13Z)
Reinforcement Unlearning via Group Relative Policy Optimization [20.66330243194323]
PURGE(Policy Unlearning through Relative Group Erasure)は、未学習を検証可能な問題として定式化する新しい手法である。提案手法は,SotA法と比較して目標単位のトークン使用率を最大46倍に削減すると同時に,流速を5.48%向上させる。リアル・ワールド・ナレッジ・アンラーニング(RWKU)ベンチマークでは、PURGEは11%の非ラーニング効果を達成し、元のユーティリティの98%を保存している。
論文参考訳（メタデータ） (2026-01-28T13:07:58Z)
Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts [32.164728234520915]
拡散に基づく大規模言語モデルは、半自己回帰的な専門家の混在を暗黙的に学習する。固定された推論時間スケジュールにコミットすると、この潜伏したアンサンブルの活用に失敗してパフォーマンスが低下することを示す。我々は、異種ブロックスケジュールにまたがってアンサンブルを行う、トレーニング不要な推論手法であるHEXを紹介する。
論文参考訳（メタデータ） (2025-10-06T17:16:41Z)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。 ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文参考訳（メタデータ） (2025-10-02T02:14:33Z)
VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI [15.320553375828045]
VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。 VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
論文参考訳（メタデータ） (2025-08-01T14:22:54Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。