論文の概要: SenseAI: A Human-in-the-Loop Dataset for RLHF-Aligned Financial Sentiment Reasoning
- arxiv url: http://arxiv.org/abs/2604.05135v1
- Date: Mon, 06 Apr 2026 19:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.471498
- Title: SenseAI: A Human-in-the-Loop Dataset for RLHF-Aligned Financial Sentiment Reasoning
- Title(参考訳): SenseAI:RLHF対応型金融感覚推論のためのループ・イン・ザ・ループデータセット
- Authors: Berny Kabalisa,
- Abstract要約: 本稿では,Human-in-the-loop(HITL)検証財務感情データセットであるSenseAIを紹介する。
SenseAIには、推論チェーン、信頼度スコア、人間の修正信号、および現実世界の市場成果が組み込まれている。
データセットは、40の米国上場株式と13の金融データカテゴリに1,439のラベル付きデータポイントで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SenseAI, a human-in-the-loop (HITL) validated financial sentiment dataset designed to capture not only model outputs but the full reasoning process behind them. Unlike existing resources, SenseAI incorporates reasoning chains, confidence scores, human correction signals, and real-world market outcomes, providing a structure aligned with Reinforcement Learning from Human Feedback (RLHF) paradigms. The dataset consists of 1,439 labelled data points across 40 US-listed equities and 13 financial data categories, enabling direct integration into modern LLM fine-tuning pipelines. Through analysis, we identify several systematic patterns in model behavior, including a novel failure mode we term Latent Reasoning Drift, where models introduce information not grounded in the input, as well as consistent confidence miscalibration and forward projection tendencies. These findings suggest that LLM errors in financial reasoning are not random but occur within a predictable and correctable regime, supporting the use of structured HITL data for targeted model improvement. We discuss implications for financial AI systems and highlight opportunities for applying SenseAI in model evaluation and alignment.
- Abstract(参考訳): SenseAIは、モデル出力だけでなく、その背後にある完全な推論プロセスをキャプチャするために設計された、Human-in-the-loop(HITL)検証済みの財務感情データセットである。
既存のリソースとは異なり、SenseAIは推論チェーン、信頼性スコア、人間の修正信号、実世界の市場成果を取り入れ、Reinforcement Learning from Human Feedback(RLHF)パラダイムに沿った構造を提供する。
データセットは、40の米国上場株式に1,439のラベル付きデータポイントと13の金融データカテゴリで構成されており、現代のLLM微調整パイプラインへの直接統合を可能にしている。
解析により、モデル動作の系統的なパターンを同定し、新しい失敗モードであるレイトレント推論ドリフト(Latent Reasoning Drift)をモデルモデルに導入する。
これらの結果から,財務推論におけるLLM誤差はランダムではなく,予測可能かつ修正可能なシステム内で発生し,モデル改善のための構造化HITLデータの利用を支援することが示唆された。
我々は、金融AIシステムへの影響について議論し、モデル評価とアライメントにSenseAIを適用する機会を強調した。
関連論文リスト
- $φ$-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models [58.217707070069885]
本稿では,LMMにおける連続学習のためのFairness Direct Preference Optimization (FaiDPO, $-DPO) フレームワークを提案する。
まず,直接選好最適化(DPO)に基づく新たな連続学習パラダイムを提案する。
大規模な実験とアブレーション研究は、提案された$-DPOが複数のベンチマークでステート・オブ・ザ・アートのパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-02-26T04:14:33Z) - Reliable and Reproducible Demographic Inference for Fairness in Face Analysis [63.46525489354455]
本稿では、従来のエンドツーエンドトレーニングをモジュラートランスファー学習アプローチで置き換える、完全に再現可能なDAIパイプラインを提案する。
このパイプラインは、正確性、公正性、そしてアイデンティティ内整合性によって定義される、新たに導入された堅牢性の概念の3つの次元にわたって監査する。
以上の結果から,提案手法は特に民族性において,強い基準線を上回り,その特性はより困難であることが示唆された。
論文 参考訳(メタデータ) (2025-10-23T12:22:02Z) - Audited Reasoning Refinement: Fine-Tuning Language Models via LLM-Guided Step-Wise Evaluation and Correction [1.41282143488996]
人間の直接監督や高品質なラベルが不足している場合、タスク固有の小さな推論モデルのトレーニングは困難である。
本稿では,Reason-Refine-then-Align (R2tA)を提案する。
論文 参考訳(メタデータ) (2025-09-15T21:47:52Z) - ProteuS: A Generative Approach for Simulating Concept Drift in Financial Markets [44.76567557906836]
適応アルゴリズムの開発と検証における根本的な問題は、現実世界の財務データに基礎的な真理が欠如していることである。
本稿では,事前定義された構造破壊を伴う半合成財務時系列を生成するための新しいフレームワークProteuSを紹介する。
生成されたデータの解析によってタスクの複雑さが確認され、異なる市場状態間の大きな重複が明らかになる。
論文 参考訳(メタデータ) (2025-08-30T21:01:47Z) - MAB Optimizer for Estimating Math Question Difficulty via Inverse CV without NLP [3.9566483499208633]
本研究では,強化学習に基づくマルチアーメッドバンド(MAB)フレームワークであるEducands(APME)のパッシブ対策のアプローチを紹介する。
変動の逆係数をリスク調整計量として活用することにより、モデルは適応的評価のための説明可能でスケーラブルなメカニズムを提供する。
論文 参考訳(メタデータ) (2025-08-26T13:23:31Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Predicting Liquidity-Aware Bond Yields using Causal GANs and Deep Reinforcement Learning with LLM Evaluation [0.0]
我々は4つの主要結合カテゴリ(AAA、BAA、US10Y)の高忠実な合成結合収率データを生成する。
我々は、取引信号、リスク評価、ボラティリティ予測を生成する微調整されたLarge Language Model (LLM) Qwen2.5-7Bを採用している。
強化学習による合成データ生成は、平均絶対誤差が0.103に達し、実世界の債券市場のダイナミクスを複製する効果を実証する。
論文 参考訳(メタデータ) (2025-02-24T09:46:37Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。