論文の概要: No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks
- arxiv url: http://arxiv.org/abs/2403.06249v3
- Date: Fri, 16 Aug 2024 12:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 20:24:02.584358
- Title: No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks
- Title(参考訳): No Language is an Island: Unification Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks
- Authors: Gang Hu, Ke Qin, Chenhan Yuan, Min Peng, Alejandro Lopez-Lira, Benyou Wang, Sophia Ananiadou, Jimin Huang, Qianqian Xie,
- Abstract要約: ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。
多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
- 参考スコア(独自算出の注目度): 75.29561463156635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the progression of Large Language Models (LLMs) has notably propelled financial analysis, their application has largely been confined to singular language realms, leaving untapped the potential of bilingual Chinese-English capacity. To bridge this chasm, we introduce ICE-PIXIU, seamlessly amalgamating the ICE-INTENT model and ICE-FLARE benchmark for bilingual financial analysis. ICE-PIXIU uniquely integrates a spectrum of Chinese tasks, alongside translated and original English datasets, enriching the breadth and depth of bilingual financial modeling. It provides unrestricted access to diverse model variants, a substantial compilation of diverse cross-lingual and multi-modal instruction data, and an evaluation benchmark with expert annotations, comprising 10 NLP tasks, 20 bilingual specific tasks, totaling 95k datasets. Our thorough evaluation emphasizes the advantages of incorporating these bilingual datasets, especially in translation tasks and utilizing original English data, enhancing both linguistic flexibility and analytical acuity in financial contexts. Notably, ICE-INTENT distinguishes itself by showcasing significant enhancements over conventional LLMs and existing financial LLMs in bilingual milieus, underscoring the profound impact of robust bilingual data on the accuracy and efficacy of financial NLP.
- Abstract(参考訳): LLM(Large Language Models)の進歩は、金融分析を顕著に推進してきたが、その応用は大半が単一言語領域に限られており、中国語と英語のバイリンガルな能力の可能性を解き放ったままである。
このシャームを橋渡しするために,ICE-INTENTモデルとICE-FLAREベンチマークをシームレスに融合したICE-PIXIUを導入する。
ICE-PIXIUは、翻訳および原文の英語データセットとともに、中国語タスクのスペクトルを統合し、バイリンガル・ファイナンシャル・モデリングの幅と深さを豊かにする。
多様なモデルバリアントへの無制限アクセス、多言語およびマルチモーダルの命令データの実質的なコンパイル、および10のNLPタスク、20のバイリンガル固有のタスク、合計95kデータセットを含む専門家アノテーションによる評価ベンチマークを提供する。
我々の徹底的な評価は、これらのバイリンガルデータセットを特に翻訳タスクに導入し、元の英語データを活用するという利点を強調し、金融状況における言語的柔軟性と分析力の両面での強化を図っている。
特にICE-INTENT は,従来の LLM と既存の LLM の両言語ミリースにおける大幅な拡張を図り,ロバストなバイリンガルデータによる財務NLP の正確性と有効性に対する大きな影響を浮き彫りにした。
関連論文リスト
- Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education [3.799331337558008]
大規模言語モデル(LLM)は、教育コンテンツの生成、インストラクターのフィードバックの提供、アセスメントにおける教師の作業量の削減を約束する。
本研究では,多言語大言語モデル(MLLM)がモノリンガル(英語のみ,スペイン語のみ)とバイリンガル(スパングリッシュ)にまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-11-06T23:16:25Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models [16.942897938964638]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-01T15:11:37Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment [4.571088742209442]
91Kの英語-韓国-中国の多言語・マルチモーダルトレーニングデータセットを作成します。
韓国語と英語の両方で優れた性能を示すバイリンガル・マルチモーダル・モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T01:14:47Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。