論文の概要: Won: Establishing Best Practices for Korean Financial NLP
- arxiv url: http://arxiv.org/abs/2503.17963v1
- Date: Sun, 23 Mar 2025 06:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:27.901120
- Title: Won: Establishing Best Practices for Korean Financial NLP
- Title(参考訳): ウォン氏:韓国金融NLPのベストプラクティスを確立
- Authors: Guijin Son, Hyunwoo Ko, Haneral Jung, Chami Hwang,
- Abstract要約: 金融に焦点を当てた韓国の大規模言語モデルを評価するための最初のオープン・リーダーボードを提示する。
80kインスタンスのオープンインストラクションデータセットを公開し、トップパフォーマンスモデルで観測された広く使われているトレーニング戦略を要約する。
最後に、これらのベストプラクティスを使って構築された完全にオープンで透明なLLMであるWonを紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this work, we present the first open leaderboard for evaluating Korean large language models focused on finance. Operated for about eight weeks, the leaderboard evaluated 1,119 submissions on a closed benchmark covering five MCQA categories: finance and accounting, stock price prediction, domestic company analysis, financial markets, and financial agent tasks and one open-ended qa task. Building on insights from these evaluations, we release an open instruction dataset of 80k instances and summarize widely used training strategies observed among top-performing models. Finally, we introduce Won, a fully open and transparent LLM built using these best practices. We hope our contributions help advance the development of better and safer financial LLMs for Korean and other languages.
- Abstract(参考訳): 本研究は,韓国の金融に焦点をあてた大規模言語モデルを評価するための,初のオープン・リーダーボードである。
MCQAのファイナンスと会計、株価予測、国内企業分析、金融市場、金融エージェントタスクと1つのオープンエンドqaタスクを含む5つのカテゴリーをカバーするクローズドベンチマークで、約8週間にわたって運用された。
これらの評価から得られた知見に基づいて、80kインスタンスのオープンインストラクションデータセットを公開し、トップパフォーマンスモデルで観測された広く使われているトレーニング戦略を要約する。
最後に、これらのベストプラクティスを使って構築された完全にオープンで透明なLLMであるWonを紹介します。
我々は,韓国語や他の言語に対する,より安全で安全な LLM の開発を促進するために,我々の貢献を期待する。
関連論文リスト
- FLAME: Financial Large-Language Model Assessment and Metrics Evaluation [2.6420673380196824]
本稿では,中国における総合的なLLM評価システムであるFLAMEを紹介する。
FLAME-Cerは14種類の認証ファイナンスをカバーしており、合計で約16,000の慎重に選択された質問がある。
FLAME-Sceは10の主要な金融ビジネスシナリオ、21の二次金融ビジネスシナリオ、100近い第三次金融アプリケーションタスクの包括的な評価セットで構成されている。
論文 参考訳(メタデータ) (2025-01-03T09:17:23Z) - Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。
ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。
Touchstone-GPTをオープンソースとして公開した。
論文 参考訳(メタデータ) (2024-11-09T20:09:11Z) - MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning [42.80085792749683]
本稿では,VQA(Visual Question Answering)ベンチマークであるMME-Financeを提案する。
このベンチマークの特徴は財務と専門知識であり、実際のユーザのニーズを反映したチャートの構築を含む。
また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
論文 参考訳(メタデータ) (2024-11-05T18:59:51Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - Revolutionizing Finance with LLMs: An Overview of Applications and Insights [45.660896719456886]
ChatGPTのような大規模言語モデル(LLM)はかなり進歩しており、様々な分野に適用されている。
これらのモデルは、財務報告の自動生成、市場のトレンド予測、投資家の感情分析、パーソナライズされた財務アドバイスの提供に利用されています。
論文 参考訳(メタデータ) (2024-01-22T01:06:17Z) - CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model [22.127509074325324]
大規模言語モデル(LLM)は金融分野において大きな可能性を証明している。
本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。
論文 参考訳(メタデータ) (2023-11-10T01:12:03Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。