論文の概要: FFN: a Fine-grained Chinese-English Financial Domain Parallel Corpus
- arxiv url: http://arxiv.org/abs/2406.18856v1
- Date: Thu, 27 Jun 2024 02:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:27:31.049740
- Title: FFN: a Fine-grained Chinese-English Financial Domain Parallel Corpus
- Title(参考訳): FFN: 微粒な中英金融ドメイン並列コーパス
- Authors: Yuxin Fu, Shijing Si, Leyi Mai, Xi-ang Li,
- Abstract要約: FFNと呼ばれる詳細な中国語と英語の並列ニュースコーパスを構築した。
データセットは1,013のメインテキストと809のタイトルで構成され、いずれも手作業で修正されている。
比較のために、データセットに基づいてOpenNMTモデルをトレーニングした。
- 参考スコア(独自算出の注目度): 8.948436383923479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have stunningly advanced the field of machine translation, though their effectiveness within the financial domain remains largely underexplored. To probe this issue, we constructed a fine-grained Chinese-English parallel corpus of financial news called FFN. We acquired financial news articles spanning between January 1st, 2014, to December 31, 2023, from mainstream media websites such as CNN, FOX, and China Daily. The dataset consists of 1,013 main text and 809 titles, all of which have been manually corrected. We measured the translation quality of two LLMs -- ChatGPT and ERNIE-bot, utilizing BLEU, TER and chrF scores as the evaluation metrics. For comparison, we also trained an OpenNMT model based on our dataset. We detail problems of LLMs and provide in-depth analysis, intending to stimulate further research and solutions in this largely uncharted territory. Our research underlines the need to optimize LLMs within the specific field of financial translation to ensure accuracy and quality.
- Abstract(参考訳): 大規模言語モデル (LLM) は機械翻訳の分野を驚くほど進歩させてきたが、金融分野におけるその有効性はいまだに未熟である。
この問題を調査するため、我々はFFNと呼ばれる詳細な中国語と英語の並列ニュースコーパスを構築した。
2014年1月1日から2023年12月31日にかけて、CNN、FOX、China Dailyなどの主要メディアサイトから金融ニュース記事を取得しました。
データセットは1,013のメインテキストと809のタイトルで構成され、いずれも手作業で修正されている。
評価指標としてBLEU,TER,chrFの2つのLLM(ChatGPT, ERNIE-bot)の翻訳品質を測定した。
比較のために、データセットに基づいてOpenNMTモデルをトレーニングした。
我々は, LLMの問題点を詳述するとともに, この領域におけるさらなる研究と解決の促進を目的として, 詳細な分析を行う。
我々の研究は、精度と品質を確保するために、金融翻訳の特定の分野におけるLCMを最適化する必要性を浮き彫りにしている。
関連論文リスト
- Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。
ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。
Touchstone-GPTをオープンソースとして公開した。
論文 参考訳(メタデータ) (2024-11-09T20:09:11Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - NumLLM: Numeric-Sensitive Large Language Model for Chinese Finance [15.662858834827444]
FinLLMは、数値変数が質問に関わったとき、財務文書を理解するのに不満足な性能を示す。
中国語金融のための数値感性大言語モデル(NumLLM)を提案する。
ファイナンシャル質問答えベンチマークの実験では、NumLLMが基礎モデルの性能を向上させることが示されている。
論文 参考訳(メタデータ) (2024-05-01T15:17:27Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - Data-Centric Financial Large Language Models [27.464319154543173]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-07T04:53:31Z) - Chinese Fine-Grained Financial Sentiment Analysis with Large Language
Models [4.993565079216378]
そこで我々は,企業早期警戒のための,中国の財務感情分析データセットFinChina SAを提案する。
われわれのデータセットは、現実の財務感情分析タスクの探索を進めるための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2023-06-25T02:24:30Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。