論文の概要: Ebisu: Benchmarking Large Language Models in Japanese Finance
- arxiv url: http://arxiv.org/abs/2602.01479v1
- Date: Sun, 01 Feb 2026 23:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.80862
- Title: Ebisu: Benchmarking Large Language Models in Japanese Finance
- Title(参考訳): Ebisu:日本の金融における大規模言語モデルのベンチマーク
- Authors: Xueqing Peng, Ruoyu Xiang, Fan Zhang, Mingzi Song, Mingyang Jiang, Yan Wang, Lingfei Qian, Taiki Hara, Yuqing Guo, Jimin Huang, Junichi Tsujii, Sophia Ananiadou,
- Abstract要約: 日本の金融は、凝集性、頭部言語構造、混合書記システム、高文脈コミュニケーション規範を組み合わせたものである。
日本語の母国語理解のためのベンチマークであるEbisuを紹介する。
汎用,日本語対応,財務モデルにまたがる多種多様なオープンソースおよびプロプライエタリ LLM の評価を行った。
- 参考スコア(独自算出の注目度): 24.23898517959081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.
- Abstract(参考訳): 日本金融は, 間接的表現と暗黙的なコミットメントに依存した, 凝集性, 頭部言語構造, 混合書記システム, 高文脈コミュニケーション規範を組み合わせることで, LLMにとって大きな課題となっている。
本稿では,言語と文化に根ざした2つの専門家アノテートタスクであるJF-ICRと,プロの公開情報からネストした金融用語の階層的抽出とランキングを評価するJF-TEを紹介する。
汎用,日本語対応,財務モデルにまたがる多種多様なオープンソースおよびプロプライエタリ LLM の評価を行った。
結果は、最先端のシステムでさえ、両方のタスクで苦労していることを示している。
モデルスケールの増加は限定的な改善をもたらすが、言語やドメイン固有の適応はパフォーマンスを確実に改善せず、大きなギャップを未解決のまま残している。
Ebisuは、言語的および文化的基盤を持つ金融NLPの進展に焦点を絞ったベンチマークを提供する。
すべてのデータセットと評価スクリプトが公開されている。
関連論文リスト
- Challenging the Abilities of Large Language Models in Italian: a Community Initiative [63.94242079171895]
The Abilities of LAnguage Models in ITAlian (CALAMITA)は、イタリアにおける大規模共同ベンチマークイニシアチブである。
学術、産業、公共部門から80人以上のコントリビュータを集め、多様なタスクの設計、文書化、評価を行っている。
我々は,4つのオープンウェイトLDMの結果を報告し,能力の体系的強度と弱点を強調した。
論文 参考訳(メタデータ) (2025-12-04T12:50:29Z) - Evaluating Large Language Models for Financial Reasoning: A CFA-Based Benchmark Study [1.6770212301915661]
本研究は,CFAのレベルI-IIIにおける公式モック試験から得られた1,560件のマルチチョイス質問を用いて,最先端LCMの総合評価を行った最初の事例である。
主設計上の優先事項として,マルチモーダル・計算能力,推論・特殊化・高精度化,軽量な効率最適化といったモデルを比較した。
論文 参考訳(メタデータ) (2025-08-29T06:13:21Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset [18.752133381125564]
$texttM$3$FinMeeting$は、財務会議の理解のために設計された、多言語、マルチセクタ、マルチタスクのデータセットである。
まず、英語、中国語、日本語をサポートし、多様な言語文脈における金銭的議論の理解を深める。
第2に、グローバル産業分類基準(GICS)が定める様々な産業分野を包含する。
第3に、要約、質問回答(QA)ペア抽出、質問応答という3つのタスクが含まれており、より現実的で包括的な理解評価を促進する。
論文 参考訳(メタデータ) (2025-06-03T06:41:09Z) - KFinEval-Pilot: A Comprehensive Benchmark Suite for Korean Financial Language Understanding [6.3604109210772934]
KFinEval-Pilotは、韓国の金融ドメインで大規模言語モデル(LLM)を評価するために設計されたベンチマークスイートである。
金融知識、法的推論、金融毒性の3つの重要な領域に1,000以上のキュレートされた質問が含まれている。
論文 参考訳(メタデータ) (2025-04-17T00:12:58Z) - No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks [75.29561463156635]
ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。
多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
論文 参考訳(メタデータ) (2024-03-10T16:22:20Z) - Is ChatGPT a Financial Expert? Evaluating Language Models on Financial
Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。
本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2023-10-19T11:43:15Z) - Removing Non-Stationary Knowledge From Pre-Trained Language Models for
Entity-Level Sentiment Classification in Finance [0.0]
KorFinASCは韓国のアスペクトレベルの感情分類データセットで、12,613人の注釈付きサンプルで構成されている。
我々は「非定常知識」という用語を、以前正しかったが変化しそうな情報を指すために使用し、新しいマスキングパターンである「TGT-Masking」を提示する。
論文 参考訳(メタデータ) (2023-01-09T01:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。