論文の概要: TULIP: Adapting Open-Source Large Language Models for Underrepresented Languages and Specialized Financial Tasks
- arxiv url: http://arxiv.org/abs/2508.16243v1
- Date: Fri, 22 Aug 2025 09:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.336224
- Title: TULIP: Adapting Open-Source Large Language Models for Underrepresented Languages and Specialized Financial Tasks
- Title(参考訳): TULIP: 未表現言語へのオープンソースの大規模言語モデルの適用と財務業務の特化
- Authors: İrem Demirtaş, Burak Payzun, Seçil Arslan,
- Abstract要約: Llama 3.1 8B と Qwen 2.5 7B をドメインおよび言語適応に適用する T モデルを提案する。
5段階の開発パイプラインには、データ収集、継続的な事前トレーニング、ベンチマーク設計、合成データ生成、教師付き微調整が含まれる。
- 参考スコア(独自算出の注目度): 0.19116784879310023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Thanks to the growing popularity of large language models over the years, there is great potential for their applications in finance. Despite the exceptional performance of larger proprietary models, which are presented as black-box solutions through APIs, smaller models that can be hosted on-premise present opportunities for adaptability and privacy. Especially in cases where the management of sensitive information and application of domain knowledge is important, like finance, enhancing the capabilities of smaller models becomes crucial, notably for underrepresented languages. In this work, we introduce TULIP models, which adapt Llama 3.1 8B and Qwen 2.5 7B for domain and language adaptation, focusing on financial Turkish use cases. The five-stage development pipeline involves data collection, continual pre-training (CPT), benchmark design, synthetic data generation and supervised fine-tuning (SFT). The results show that the capabilities of the models can be enhanced to effectively accomplish targeted tasks in this specific domain and language.
- Abstract(参考訳): 長年にわたって大きな言語モデルの人気が高まってきたため、金融分野での彼らの応用には大きな可能性がある。
APIを通じてブラックボックスソリューションとして提示される、大規模なプロプライエタリなモデルの例外的なパフォーマンスにもかかわらず、オンプレミスでホスト可能な小さなモデルは、適応性とプライバシの機会を提供する。
特に、金融など、機密情報の管理やドメイン知識の適用が重要である場合、特に表現不足言語において、より小さなモデルの能力を高めることが重要となる。
本研究では,Llama 3.1 8B と Qwen 2.5 7B をドメインおよび言語適応に適用した TULIP モデルを提案する。
5段階の開発パイプラインには、データ収集、継続事前トレーニング(CPT)、ベンチマーク設計、合成データ生成、教師付き微調整(SFT)が含まれる。
その結果、この特定のドメインと言語におけるターゲットタスクを効果的に達成するために、モデルの能力を拡張できることが判明した。
関連論文リスト
- TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - On the Universality of Deep COntextual Language Models [15.218264849664715]
ELMOやBERTのような深い文脈言語モデル(LM)は、自然言語処理のランドスケープを支配している。
XLM-RやmBERTのような多言語モデルでは、ゼロショットのクロスリンガル転送が期待できる結果となった。
この最初の成功により、訓練済みのモデルはユニバーサル言語モデルとして使用されている。
論文 参考訳(メタデータ) (2021-09-15T08:00:33Z) - Detecting ESG topics using domain-specific language models and data
augmentation approaches [3.3332986505989446]
金融分野における自然言語処理タスクは、適切にラベル付けされたデータのあいまいさのため、依然として困難なままである。
本稿では,これらの問題を緩和するための2つのアプローチについて検討する。
まず、ビジネスおよび財務ニュースから大量のドメイン内データを用いて、さらなる言語モデルの事前学習実験を行う。
次に、モデル微調整のためのデータセットのサイズを増やすために拡張アプローチを適用します。
論文 参考訳(メタデータ) (2020-10-16T11:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。