論文の概要: TULIP: Adapting Open-Source Large Language Models for Underrepresented Languages and Specialized Financial Tasks
- arxiv url: http://arxiv.org/abs/2508.16243v1
- Date: Fri, 22 Aug 2025 09:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.336224
- Title: TULIP: Adapting Open-Source Large Language Models for Underrepresented Languages and Specialized Financial Tasks
- Title(参考訳): TULIP: 未表現言語へのオープンソースの大規模言語モデルの適用と財務業務の特化
- Authors: İrem Demirtaş, Burak Payzun, Seçil Arslan,
- Abstract要約: Llama 3.1 8B と Qwen 2.5 7B をドメインおよび言語適応に適用する T モデルを提案する。
5段階の開発パイプラインには、データ収集、継続的な事前トレーニング、ベンチマーク設計、合成データ生成、教師付き微調整が含まれる。
- 参考スコア(独自算出の注目度): 0.19116784879310023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Thanks to the growing popularity of large language models over the years, there is great potential for their applications in finance. Despite the exceptional performance of larger proprietary models, which are presented as black-box solutions through APIs, smaller models that can be hosted on-premise present opportunities for adaptability and privacy. Especially in cases where the management of sensitive information and application of domain knowledge is important, like finance, enhancing the capabilities of smaller models becomes crucial, notably for underrepresented languages. In this work, we introduce TULIP models, which adapt Llama 3.1 8B and Qwen 2.5 7B for domain and language adaptation, focusing on financial Turkish use cases. The five-stage development pipeline involves data collection, continual pre-training (CPT), benchmark design, synthetic data generation and supervised fine-tuning (SFT). The results show that the capabilities of the models can be enhanced to effectively accomplish targeted tasks in this specific domain and language.
- Abstract(参考訳): 長年にわたって大きな言語モデルの人気が高まってきたため、金融分野での彼らの応用には大きな可能性がある。
APIを通じてブラックボックスソリューションとして提示される、大規模なプロプライエタリなモデルの例外的なパフォーマンスにもかかわらず、オンプレミスでホスト可能な小さなモデルは、適応性とプライバシの機会を提供する。
特に、金融など、機密情報の管理やドメイン知識の適用が重要である場合、特に表現不足言語において、より小さなモデルの能力を高めることが重要となる。
本研究では,Llama 3.1 8B と Qwen 2.5 7B をドメインおよび言語適応に適用した TULIP モデルを提案する。
5段階の開発パイプラインには、データ収集、継続事前トレーニング(CPT)、ベンチマーク設計、合成データ生成、教師付き微調整(SFT)が含まれる。
その結果、この特定のドメインと言語におけるターゲットタスクを効果的に達成するために、モデルの能力を拡張できることが判明した。
関連論文リスト
- Lost in the Pipeline: How Well Do Large Language Models Handle Data Preparation? [0.7291396653006809]
本稿では,データ作成タスクの選択と自動化において,大規模言語モデルがユーザを効果的に支援できるかどうかを検討する。
私たちはこれらのモデルを質の悪いデータセットで促し、データプロファイリングやクリーニングといったタスクを実行する能力を測定しました。
大規模言語モデルの能力を評価するため,ユーザスタディを通じて検証されたカスタムデザインの品質モデルを開発した。
論文 参考訳(メタデータ) (2025-11-17T19:06:22Z) - Scaling Performance of Large Language Model Pretraining [37.17006762664604]
大規模言語モデル(LLM)は、幅広い自然言語処理アプリケーションで最高の性能を示す。
これらのモデルのトレーニングは非常に計算コストのかかる作業である。
Frontier Artificial Intelligence(AI)の研究会社は、ますます大規模なデータセット上で、徐々に大きなモデルを訓練するために、スーパーコンピューティングのインフラに数十億ドルを投資している。
論文 参考訳(メタデータ) (2025-09-05T17:14:58Z) - Learnware of Language Models: Specialized Small Language Models Can Do Big [50.285859986475394]
本稿では,学習用パラダイムを言語モデルに適用するための予備的試みを示す。
我々は,8Bパラメータを持つ特殊SLMの学習装置を約100個構成した学習装置をシミュレートした。
各タスク固有の推論に対して1つの適切な学習ウェアを選択することで、システムは全てのベンチマークでベースSLMよりも優れる。
論文 参考訳(メタデータ) (2025-05-19T17:54:35Z) - LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning [52.22611035186903]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - When Large Language Models Meet Personalization: Perspectives of
Challenges and Opportunities [60.5609416496429]
大規模言語モデルの能力は劇的に改善されている。
このような大きな飛躍的なAI能力は、パーソナライゼーションの実施方法のパターンを変えるだろう。
大規模言語モデルを汎用インターフェースとして活用することにより、パーソナライズシステムはユーザ要求を計画にコンパイルすることができる。
論文 参考訳(メタデータ) (2023-07-31T02:48:56Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - On the Universality of Deep COntextual Language Models [15.218264849664715]
ELMOやBERTのような深い文脈言語モデル(LM)は、自然言語処理のランドスケープを支配している。
XLM-RやmBERTのような多言語モデルでは、ゼロショットのクロスリンガル転送が期待できる結果となった。
この最初の成功により、訓練済みのモデルはユニバーサル言語モデルとして使用されている。
論文 参考訳(メタデータ) (2021-09-15T08:00:33Z) - Detecting ESG topics using domain-specific language models and data
augmentation approaches [3.3332986505989446]
金融分野における自然言語処理タスクは、適切にラベル付けされたデータのあいまいさのため、依然として困難なままである。
本稿では,これらの問題を緩和するための2つのアプローチについて検討する。
まず、ビジネスおよび財務ニュースから大量のドメイン内データを用いて、さらなる言語モデルの事前学習実験を行う。
次に、モデル微調整のためのデータセットのサイズを増やすために拡張アプローチを適用します。
論文 参考訳(メタデータ) (2020-10-16T11:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。