論文の概要: Financial Instruction Following Evaluation (FIFE)
- arxiv url: http://arxiv.org/abs/2512.08965v1
- Date: Mon, 01 Dec 2025 00:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.230444
- Title: Financial Instruction Following Evaluation (FIFE)
- Title(参考訳): 金融インストラクション・アセスメント(FIFE)
- Authors: Glenn Matlin, Siddharth, Anirudh JM, Aditya Shukla, Yahya Hassan, Sudheer Chava,
- Abstract要約: 金融分析タスクにおけるLM命令追従能力を評価するために設計された,新しい高精度なベンチマークであるFIFEを紹介する。
FIFEは88個の人為的なプロンプトから構成されており、細かな報酬信号に対してチェーン可能で検証可能な制約を持つ検証システムを採用している。
我々は、金融分野の強化学習の研究を促進するために、オープンソースリソースとしてデータセットとコードを公開します。
- 参考スコア(独自算出の注目度): 4.4409035166872135
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language Models (LMs) struggle with complex, interdependent instructions, particularly in high-stakes domains like finance where precision is critical. We introduce FIFE, a novel, high-difficulty benchmark designed to assess LM instruction-following capabilities for financial analysis tasks. FIFE comprises 88 human-authored prompts and employs a verification system with chainable, verifiable constraints for fine-grained reward signals. We evaluate 53 models (proprietary, open-weight, open-source) in a zero-shot setting. Our key findings reveal a clear performance hierarchy: the top open-weight model (76.1 strict / 79.5 loose) surpasses the leading proprietary system (65.9 strict / 70.5 loose), while the best open-source models lag significantly (45.5 strict / 48.9 loose). However, even top-performing models struggle with FIFE's complex requirements, failing to achieve perfect compliance. We release our dataset and code as an open-source resource to promote research in Reinforcement Learning for the financial domain.
- Abstract(参考訳): 言語モデル(LM)は複雑で相互依存的な指示に苦しむ。
金融分析タスクにおけるLM命令追従能力を評価するために設計された,新しい高精度なベンチマークであるFIFEを紹介する。
FIFEは88個の人為的なプロンプトから構成されており、細かな報酬信号に対してチェーン可能で検証可能な制約を持つ検証システムを採用している。
53モデル(プロプライエタリ,オープンソース,オープンソース)をゼロショット環境で評価する。
上位のオープンウェイトモデル(76.1の厳格/79.5の緩さ)は主要なプロプライエタリシステム(65.9の厳格/70.5の緩さ)を上回り、最高のオープンソースモデルは著しく遅れている(45.5の厳格/48.9の緩さ)。
しかし、最高性能のモデルでさえFIFEの複雑な要求に悩まされ、完全なコンプライアンスを達成できなかった。
我々は、金融分野の強化学習の研究を促進するために、オープンソースリソースとしてデータセットとコードを公開します。
関連論文リスト
- Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - FISHNET: Financial Intelligence from Sub-querying, Harmonizing, Neural-Conditioning, Expert Swarms, and Task Planning [2.616867378362811]
FISHNETはエージェントアーキテクチャであり、98,000件以上の規制申請に対して非常に複雑な分析処理を行う。
FISHNETは、金融インサイト生成において顕著なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-25T17:53:47Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。