論文の概要: Merging Language and Domain Specific Models: The Impact on Technical Vocabulary Acquisition
- arxiv url: http://arxiv.org/abs/2502.12001v2
- Date: Wed, 12 Mar 2025 02:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:37:30.686796
- Title: Merging Language and Domain Specific Models: The Impact on Technical Vocabulary Acquisition
- Title(参考訳): 言語とドメイン固有モデルの統合が技術的語彙獲得に与える影響
- Authors: Thibault Rousset, Taisei Kakibuchi, Yusuke Sasaki, Yoshihide Nomura,
- Abstract要約: 本稿では,統合言語モデルにおける技術的語彙の統合について検討する。
本実験は, この統合プロセスが, 専門用語処理における対象モデルの習熟度に及ぼす影響を解析した。
この知見は、ドメイン固有の知識を高めるために、異なるモデルマージ手法の有効性についての洞察を与える。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Advancements in Natural Language Processing have enabled specialized language models, but integrating domain-specific knowledge into general-purpose models in multilingual settings remains challenging, particularly for technical vocabulary. This paper investigates the integration of technical vocabulary in merged language models and explores the knowledge transfer mechanisms involved when combining a general-purpose language-specific model with a domain-specific model, focusing on the resulting model's comprehension of technical jargon. Our experiments analyze the impact of this merging process on the target model's proficiency in handling specialized terminology. We present a quantitative evaluation of the performance of the merged model, comparing it with that of the individual constituent models. The findings offer insights into the effectiveness of different model merging methods for enhancing domain-specific knowledge and highlight potential challenges and future directions in leveraging these methods for cross-lingual knowledge transfer in Natural Language Processing.
- Abstract(参考訳): 自然言語処理の進歩により、特殊言語モデルが可能になったが、ドメイン固有の知識を多言語設定における汎用モデルに統合することは、特に技術的語彙において難しいままである。
本稿では,統合言語モデルにおける技術的語彙の統合について検討し,汎用言語固有モデルとドメイン固有モデルを組み合わせる際の知識伝達機構について考察する。
本実験は, この統合プロセスが, 専門用語処理における対象モデルの習熟度に及ぼす影響を解析した。
本稿では,統合モデルの性能を個々の構成モデルと比較し,定量的に評価する。
本研究は,これらの手法を自然言語処理における言語間知識伝達に活用する上での潜在的な課題と今後の方向性を明らかにするために,ドメイン固有知識の向上のための異なるモデルマージ手法の有効性について考察する。
関連論文リスト
- Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Fine-Tune Language Models as Multi-Modal Differential Equation Solvers [14.181842691371935]
本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。
特に,近年の大規模言語モデルの成功からインスピレーションを得て,演算子に関する人間の知識を統合するために「カプセル」の使用を提案する。
論文 参考訳(メタデータ) (2023-08-09T16:44:25Z) - Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2023-06-21T11:24:41Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Testing Pre-trained Language Models' Understanding of Distributivity via
Causal Mediation Analysis [13.07356367140208]
自然言語推論のための新しい診断データセットであるDistNLIを紹介する。
モデルの理解の範囲は、モデルのサイズと語彙のサイズと関連していることがわかった。
論文 参考訳(メタデータ) (2022-09-11T00:33:28Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。