論文の概要: Enhancing Financial Domain Adaptation of Language Models via Model Augmentation
- arxiv url: http://arxiv.org/abs/2411.09249v1
- Date: Thu, 14 Nov 2024 07:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:24.364970
- Title: Enhancing Financial Domain Adaptation of Language Models via Model Augmentation
- Title(参考訳): モデル拡張による言語モデルのファイナンシャルドメイン適応の強化
- Authors: Kota Tanabe, Masanori Hirano, Kazuki Matoya, Kentaro Imajo, Hiroki Sakaji, Itsuki Noda,
- Abstract要約: 本研究は、金融分野への適応における言語モデル(CALM)の構成の有効性を実証する。
我々は,強力な応答機能を有するLCMの財務性能を向上させるためのCALMを開発した。
- 参考スコア(独自算出の注目度): 2.9960693856871545
- License:
- Abstract: The domain adaptation of language models, including large language models (LLMs), has become increasingly important as the use of such models continues to expand. This study demonstrates the effectiveness of Composition to Augment Language Models (CALM) in adapting to the financial domain. CALM is a model to extend the capabilities of existing models by introducing cross-attention between two LLMs with different functions. In our experiments, we developed a CALM to enhance the financial performance of an LLM with strong response capabilities by leveraging a financial-specialized LLM. Notably, the CALM was trained using a financial dataset different from the one used to train the financial-specialized LLM, confirming CALM's ability to adapt to various datasets. The models were evaluated through quantitative Japanese financial benchmarks and qualitative response comparisons, demonstrating that CALM enables superior responses with higher scores than the original models and baselines. Additionally, comparative experiments on connection points revealed that connecting the middle layers of the models is most effective in facilitating adaptation to the financial domain. These findings confirm that CALM is a practical approach for adapting LLMs to the financial domain.
- Abstract(参考訳): 大規模言語モデル(LLM)を含む言語モデルのドメイン適応は、そのようなモデルの使用が拡大し続け、ますます重要になっている。
本研究は、金融分野への適応における言語モデル(CALM)の構成の有効性を実証する。
CALMは、異なる機能を持つ2つのLLM間の相互注意を導入することで、既存のモデルの能力を拡張するモデルである。
本実験では,金融特化LLMを活用して,強力な応答機能を有するLCMの財務性能を向上させるCALMを開発した。
特に、CALMは金融特化LDMのトレーニングに使用されたものと異なる財務データセットを使用して訓練され、CALMが様々なデータセットに適応する能力を確認した。
その結果,CALMが従来のモデルやベースラインよりも高いスコアで優れた応答を実現できることを示した。
さらに、接続点の比較実験により、モデルの中間層を接続することが金融分野への適応を促進するのに最も効果的であることが判明した。
これらの結果から,CALM は LLM を金融分野に適用するための実践的アプローチであることが明らかとなった。
関連論文リスト
- A Comparative Analysis of Instruction Fine-Tuning LLMs for Financial Text Classification [0.8192907805418583]
大きな言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにまたがる印象的な機能を示している。
本研究は,財務テキスト分類作業における指導用微調整の有効性について検討した。
論文 参考訳(メタデータ) (2024-11-04T18:06:36Z) - LLM-KT: A Versatile Framework for Knowledge Transfer from Large Language Models to Collaborative Filtering [0.07793154724386657]
LLM生成機能をシームレスに統合することにより、協調フィルタリング(CF)モデルを強化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、これらの機能を任意のCFモデルの中間層に注入し、モデルが内部の埋め込みを再構築し、活用できるようにする。
私たちのフレームワークは統合と修正を容易にするために構築されており、研究者や開発者がCFモデル機能を拡張するための強力なツールを提供しています。
論文 参考訳(メタデータ) (2024-11-01T13:09:30Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。
我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。
テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T22:50:41Z) - Large Language Model Adaptation for Financial Sentiment Analysis [2.0499240875882]
一般言語モデルは、金融に特化されたタスクでは不足する傾向にある。
1.5B未満のパラメータを持つ2つの基礎モデルは、幅広い戦略を用いて適応されている。
小型LLMは大規模モデルに匹敵する性能を有しつつ,パラメータやデータの観点からも効率がよいことを示す。
論文 参考訳(メタデータ) (2024-01-26T11:04:01Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Enhancing Financial Sentiment Analysis via Retrieval Augmented Large
Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。
本稿では,金融感情分析のためのLLMフレームワークを提案する。
提案手法の精度は15%から48%向上し,F1得点を得た。
論文 参考訳(メタデータ) (2023-10-06T05:40:23Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。