論文の概要: Is GPT-OSS All You Need? Benchmarking Large Language Models for Financial Intelligence and the Surprising Efficiency Paradox
- arxiv url: http://arxiv.org/abs/2512.14717v1
- Date: Tue, 09 Dec 2025 06:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.684561
- Title: Is GPT-OSS All You Need? Benchmarking Large Language Models for Financial Intelligence and the Surprising Efficiency Paradox
- Title(参考訳): GPT-OSSは必要か? 金融インテリジェンスのための大規模言語モデルのベンチマークと予想される効率パラドックス
- Authors: Ziqian Bi, Danyang Zhang, Junhao Song, Chiung-Yi Tseng,
- Abstract要約: 本稿では,GPT-OSSモデルファミリーを,10種類の財務NLPタスクにまたがる現代LPMとともに包括的に評価する。
より小さなGPT-OSS-20Bモデルは、計算効率を向上しつつ、同等の精度(65.1%対66.5%)を達成する。
GPT-OSSにおけるアーキテクチャの革新とトレーニング戦略により,より小さなモデルで計算オーバーヘッドを大幅に削減し,競争性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 2.22127956352394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid adoption of large language models in financial services necessitates rigorous evaluation frameworks to assess their performance, efficiency, and practical applicability. This paper conducts a comprehensive evaluation of the GPT-OSS model family alongside contemporary LLMs across ten diverse financial NLP tasks. Through extensive experimentation on 120B and 20B parameter variants of GPT-OSS, we reveal a counterintuitive finding: the smaller GPT-OSS-20B model achieves comparable accuracy (65.1% vs 66.5%) while demonstrating superior computational efficiency with 198.4 Token Efficiency Score and 159.80 tokens per second processing speed [1]. Our evaluation encompasses sentiment analysis, question answering, and entity recognition tasks using real-world financial datasets including Financial PhraseBank, FiQA-SA, and FLARE FINERORD. We introduce novel efficiency metrics that capture the trade-off between model performance and resource utilization, providing critical insights for deployment decisions in production environments. The benchmark reveals that GPT-OSS models consistently outperform larger competitors including Qwen3-235B, challenging the prevailing assumption that model scale directly correlates with task performance [2]. Our findings demonstrate that architectural innovations and training strategies in GPT-OSS enable smaller models to achieve competitive performance with significantly reduced computational overhead, offering a pathway toward sustainable and cost-effective deployment of LLMs in financial applications.
- Abstract(参考訳): 金融サービスにおける大規模言語モデルの急速な採用は、そのパフォーマンス、効率、実用性を評価するための厳格な評価フレームワークを必要とする。
本稿では,GPT-OSSモデルファミリーを,10種類の財務NLPタスクにまたがる現代LPMとともに包括的に評価する。
より小さなGPT-OSS-20Bモデルは、計算効率を198.4Token効率スコアと秒処理速度当たり159.80トークンで向上させながら、同等の精度(65.1%対66.5%)を達成する。
本評価は,Froinal PhraseBank,FiQA-SA,FLARE FINERORDなどの実世界の財務データを用いた感情分析,質問応答,エンティティ認識タスクを含む。
モデル性能と資源利用のトレードオフを捉え,本番環境におけるデプロイメント決定に重要な洞察を与える,新たな効率指標を導入する。
ベンチマークの結果、GPT-OSSモデルはQwen3-235Bなどより大きな競合相手を一貫して上回り、モデルスケールがタスクパフォーマンスと直接相関しているという仮定に挑戦していることがわかった。
GPT-OSSにおけるアーキテクチャの革新とトレーニング戦略により、より小さなモデルで計算オーバーヘッドを大幅に削減し、金融アプリケーションにおけるLCMの持続的で費用対効果の高い展開への道筋を提供することができることを示す。
関連論文リスト
- LAET: A Layer-wise Adaptive Ensemble Tuning Framework for Pretrained Language Models [7.216206616406649]
BloombergGPTやFinMAのような大規模言語モデル(LLM)は、さまざまな財務NLPタスクに対して新しいベンチマークを設定している。
我々は,LLMの最も効果的な層を選択的に微調整する新しい戦略であるLayer-wise Adaptive Ensemble Tuning (LAET)を提案する。
提案手法は,財務NLPタスクにおいて,既存のベンチマークや最先端のLCMよりも優れた結果を示す。
論文 参考訳(メタデータ) (2025-11-14T13:57:46Z) - Evaluating Large Language Models for Financial Reasoning: A CFA-Based Benchmark Study [1.6770212301915661]
本研究は,CFAのレベルI-IIIにおける公式モック試験から得られた1,560件のマルチチョイス質問を用いて,最先端LCMの総合評価を行った最初の事例である。
主設計上の優先事項として,マルチモーダル・計算能力,推論・特殊化・高精度化,軽量な効率最適化といったモデルを比較した。
論文 参考訳(メタデータ) (2025-08-29T06:13:21Z) - Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [45.03594130075282]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - ZiGong 1.0: A Large Language Model for Financial Credit [8.49779245416985]
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクにおいて高い性能を示している。
しかし、金融信用評価の応用における効果は、依然として準最適である。
マルチタスク制御による微調整により強化されたMistralベースのモデルであるZiGongを提案する。
論文 参考訳(メタデータ) (2025-02-22T09:27:56Z) - Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z) - BreakGPT: Leveraging Large Language Models for Predicting Asset Price Surges [55.2480439325792]
本稿では,時系列予測や資産価格の急上昇の予測に特化して,新たな大規模言語モデル(LLM)アーキテクチャであるBreakGPTを紹介する。
我々は、最小限のトレーニングで財務予測を行うための有望なソリューションとしてBreakGPTを紹介し、局所的およびグローバルな時間的依存関係をキャプチャする強力な競合相手として紹介する。
論文 参考訳(メタデータ) (2024-11-09T05:40:32Z) - Sentiment-driven prediction of financial returns: a Bayesian-enhanced
FinBERT approach [1.131316248570352]
本研究では、FinBERT大言語モデルを用いて、ツイートから抽出した感情情報を活用する効果を示す。
この成功は、バックテストトレーディング中に明らかに高い累積利益をもたらす。
論文 参考訳(メタデータ) (2024-03-07T11:56:36Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [48.87381259980254]
我々は、ChatGPTのような大規模言語モデル(LLM)が、直接の金融トレーニングなしでニュースの見出しから株式市場の反応を予測する能力について文書化している。
GPT-4は、認識後カットオフの見出しを使って、最初の市場の反応を捉え、取引不能な初期反応に対して、ポートフォリオの1日当たりのヒット率を約90%達成している。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。