論文の概要: No Language is an Island: Unifying Chinese and English in Financial
Large Language Models, Instruction Data, and Benchmarks
- arxiv url: http://arxiv.org/abs/2403.06249v1
- Date: Sun, 10 Mar 2024 16:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 06:45:53.477944
- Title: No Language is an Island: Unifying Chinese and English in Financial
Large Language Models, Instruction Data, and Benchmarks
- Title(参考訳): no language is an island: 財務的な大きな言語モデル、指示データ、ベンチマークで中国語と英語を統一する
- Authors: Gang Hu, Ke Qin, Chenhan Yuan, Min Peng, Alejandro Lopez-Lira, Benyou
Wang, Sophia Ananiadou, Wanlong Yu, Jimin Huang, and Qianqian Xie
- Abstract要約: ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。
多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
- 参考スコア(独自算出の注目度): 73.11935193630823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the progression of Large Language Models (LLMs) has notably propelled
financial analysis, their application has largely been confined to singular
language realms, leaving untapped the potential of bilingual Chinese-English
capacity. To bridge this chasm, we introduce ICE-PIXIU, seamlessly amalgamating
the ICE-INTENT model and ICE-FLARE benchmark for bilingual financial analysis.
ICE-PIXIU uniquely integrates a spectrum of Chinese tasks, alongside translated
and original English datasets, enriching the breadth and depth of bilingual
financial modeling. It provides unrestricted access to diverse model variants,
a substantial compilation of diverse cross-lingual and multi-modal instruction
data, and an evaluation benchmark with expert annotations, comprising 10 NLP
tasks, 20 bilingual specific tasks, totaling 1,185k datasets. Our thorough
evaluation emphasizes the advantages of incorporating these bilingual datasets,
especially in translation tasks and utilizing original English data, enhancing
both linguistic flexibility and analytical acuity in financial contexts.
Notably, ICE-INTENT distinguishes itself by showcasing significant enhancements
over conventional LLMs and existing financial LLMs in bilingual milieus,
underscoring the profound impact of robust bilingual data on the accuracy and
efficacy of financial NLP.
- Abstract(参考訳): 大規模言語モデル(llm)の進展は金融分析の推進に大きく寄与したが、その応用は主に単数言語領域に限られており、中国語と中国語の2言語能力の可能性は未解決である。
このシャームを橋渡しするために,ICE-INTENTモデルとICE-FLAREベンチマークをシームレスに融合したICE-PIXIUを導入する。
ICE-PIXIUは、翻訳および原文の英語データセットとともに、中国語タスクのスペクトルを統合し、バイリンガル・ファイナンシャル・モデリングの幅と深さを豊かにする。
多様なモデルバリアントへの無制限アクセス、多言語およびマルチモーダルの命令データの実質的なコンパイル、および10のNLPタスク、20のバイリンガル固有のタスク、合計1,185万のデータセットを含む専門家アノテーションによる評価ベンチマークを提供する。
徹底的な評価は,これらのバイリンガルデータセット,特に翻訳課題とオリジナルの英語データの利用の利点を強調し,金融状況における言語の柔軟性と分析能力の両立を強調する。
特にICE-INTENT は,従来の LLM と既存の LLM の両言語ミリースにおける大幅な機能強化を図り,ロバストなバイリンガルデータによる財務NLP の精度と有効性への影響を浮き彫りにした。
関連論文リスト
- Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education [3.799331337558008]
大規模言語モデル(LLM)は、教育コンテンツの生成、インストラクターのフィードバックの提供、アセスメントにおける教師の作業量の削減を約束する。
本研究では,多言語大言語モデル(MLLM)がモノリンガル(英語のみ,スペイン語のみ)とバイリンガル(スパングリッシュ)にまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-11-06T23:16:25Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models [16.942897938964638]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-01T15:11:37Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment [4.571088742209442]
91Kの英語-韓国-中国の多言語・マルチモーダルトレーニングデータセットを作成します。
韓国語と英語の両方で優れた性能を示すバイリンガル・マルチモーダル・モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T01:14:47Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。