論文の概要: LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts
- arxiv url: http://arxiv.org/abs/2602.14060v1
- Date: Sun, 15 Feb 2026 09:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.63319
- Title: LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts
- Title(参考訳): LM-Lexicon: セマンティックエキスパートの調和による定義モデリングの改善
- Authors: Yang Liu, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li, Lingyong Yan,
- Abstract要約: LM-Lexiconは、データクラスタリング、セマンティックエキスパートラーニング、モデルマージを取り入れた革新的な定義モデリングアプローチである。
我々の研究は、セマンティック集約型アプリケーションのための効率的な言語モデルの開発に関する洞察を提供しながら、定義モデリングを進めていく。
- 参考スコア(独自算出の注目度): 9.056157892858474
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce LM-Lexicon, an innovative definition modeling approach that incorporates data clustering, semantic expert learning, and model merging using a sparse mixture-of-experts architecture. By decomposing the definition modeling task into specialized semantic domains, where small language models are trained as domain experts, LM-Lexicon achieves substantial improvements (+7% BLEU score compared with the prior state-of-the-art model) over existing methods on five widely used benchmarks. Empirically, we demonstrate that 1) the clustering strategy enables fine-grained expert specialization with nearly 10% improvement in definition quality; 2) the semantic-aware domain-level routing mechanism achieves higher expert efficacy (+1%) than conventional token-level routing; and 3) further performance gains can be obtained through test-time compute and semantic expert scaling. Our work advances definition modeling while providing insights into the development of efficient language models for semantic-intensive applications.
- Abstract(参考訳): 我々は、データクラスタリング、セマンティックエキスパートラーニング、およびスパース・オブ・エキスパートアーキテクチャを用いたモデルマージを取り入れた革新的な定義モデリング手法であるLM-Lexiconを紹介する。
定義モデリングタスクを専門のセマンティックドメインに分解することで、小さな言語モデルをドメインエキスパートとして訓練することで、LM-Lexiconは5つの広く使用されているベンチマークで既存のメソッドよりも大幅に改善(BLEUスコア+7%)する。
経験的に、私たちはそれを証明します。
1)クラスタリング戦略は,定義品質を10%近く改善した,きめ細かい専門家の専門化を可能にする。
2) 意味認識型ドメインレベルのルーティング機構は,従来のトークンレベルのルーティングよりも高い専門家効果(+1%)を達成する。
3)テスト時間計算とセマンティックエキスパートスケーリングによってさらなるパフォーマンス向上が得られる。
我々の研究は、セマンティック集約型アプリケーションのための効率的な言語モデルの開発に関する洞察を提供しながら、定義モデリングを進めていく。
関連論文リスト
- ERNIE 5.0 Technical Report [244.36480708815316]
ERNIE 5.0は、テキスト、画像、ビデオ、オーディオをまたいだ統合されたマルチモーダル理解と生成のための統合された自己回帰基盤モデルである。
ERNIE 5.0は、多様なリソース制約下での大規模デプロイメントの実践的な課題に対処するため、新しい弾力性トレーニングパラダイムを採用している。
ERNIE 5.0は、複数のモードで強い、バランスの取れた性能を実現する。
論文 参考訳(メタデータ) (2026-02-04T16:18:15Z) - Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文 参考訳(メタデータ) (2025-10-22T17:41:42Z) - Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。
これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。
我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文 参考訳(メタデータ) (2025-06-16T02:27:25Z) - Unveiling Hidden Collaboration within Mixture-of-Experts in Large Language Models [5.211806751260724]
本稿では,専門家間の協調パターンを明らかにする階層型スパース辞書学習法を提案する。
また、コントリビューション・アウェア・エキスパート・プルーニング(CAEP)アルゴリズムを導入し、低コントリビューション・エキスパートを効果的に育成する。
論文 参考訳(メタデータ) (2025-04-16T04:06:15Z) - Enhancing Domain-Specific Encoder Models with LLM-Generated Data: How to Leverage Ontologies, and How to Do Without Them [9.952432291248954]
限られたデータを持つ領域におけるエンコーダモデルの連続事前学習におけるLLM生成データの利用について検討する。
侵入生物学における埋め込みモデルの性能を評価するためのベンチマークをコンパイルする。
提案手法は,小さなエンコーダモデルのドメイン固有理解を向上させるために,完全自動パイプラインを実現することを実証した。
論文 参考訳(メタデータ) (2025-03-27T21:51:24Z) - A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - AIDE: Agentically Improve Visual Language Model with Domain Experts [39.34183197101934]
AIDE(Agentic Improvement through Domain Experts)は、Visual Language Modelsが自律的に機能を強化することを可能にする新しいフレームワークである。
AIDEは、(1)洗練のためのインスタンスの識別、(2)対象分析のためのドメインエキスパートの関与、(3)既存のデータによるエキスパートアウトプットの合成、(4)強化されたインスタンスをトレーニングパイプラインに統合する4段階のプロセスで運用されている。
論文 参考訳(メタデータ) (2025-02-13T08:05:44Z) - MERLOT: A Distilled LLM-based Mixture-of-Experts Framework for Scalable Encrypted Traffic Classification [19.476061046309052]
本稿では,暗号化されたトラフィック分類に最適化された蒸留大言語モデルのスケーラブルな混合実験(MoE)による改良について述べる。
10のデータセットの実験では、最先端モデルよりも優れた、あるいは競合的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-20T03:01:41Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。