論文の概要: DVAGen: Dynamic Vocabulary Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.17115v1
- Date: Mon, 20 Oct 2025 03:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.292672
- Title: DVAGen: Dynamic Vocabulary Augmented Generation
- Title(参考訳): DVAGen:動的語彙拡張ジェネレーション
- Authors: Wei Du, Nuowei Liu, Jie Wang, Jiahao Kuang, Tao Ji, Xiaoling Wang, Yuanbin Wu,
- Abstract要約: DVAGenは、動的語彙拡張言語モデルのトレーニング、評価、可視化のために設計された、完全にオープンソースで統一されたフレームワークである。
私たちのフレームワークは、カスタマイズを容易にするためにパイプラインをモジュール化し、オープンソースのLLMとシームレスに統合します。
- 参考スコア(独自算出の注目度): 30.433077181096753
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language models trained with a fixed vocabulary struggle to generalize to novel or out-of-vocabulary words, limiting their flexibility in handling diverse token combinations. Existing dynamic vocabulary approaches attempt to address this limitation but face challenges such as fragmented codebases, lack of support for modern LLMs, and limited inference scalability. To overcome these issues, we introduce DVAGen, a fully open-source, unified framework designed for training, evaluation, and visualization of dynamic vocabulary-augmented language models. Our framework modularizes the pipeline for ease of customization, integrates seamlessly with open-source LLMs, and is the first to provide both CLI and WebUI tools for real-time result inspection. We validate the effectiveness of dynamic vocabulary methods on modern LLMs and demonstrate support for batch inference, significantly improving inference throughput.
- Abstract(参考訳): 固定語彙で訓練された言語モデルは、様々なトークンの組み合わせを扱う際の柔軟性を制限し、新規または外来語の一般化に苦しむ。
既存の動的語彙アプローチは、この制限に対処しようとするが、断片化されたコードベース、現代のLLMのサポートの欠如、限られた推論スケーラビリティといった課題に直面している。
これらの問題を解決するために、動的語彙拡張言語モデルのトレーニング、評価、可視化のために設計された、完全にオープンソースで統一されたフレームワークであるDVAGenを紹介した。
私たちのフレームワークは、カスタマイズを容易にするためにパイプラインをモジュール化し、オープンソースのLLMとシームレスに統合します。
本研究では, 動的語彙法の有効性を検証し, バッチ推論のサポートを実証し, 推論スループットを著しく改善した。
関連論文リスト
- Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Scaling LLM Pre-training with Vocabulary Curriculum [0.0]
本稿では,語彙サイズに対して,対数線形スケーリングゲインによる事前学習効率を向上させる手法である語彙カリキュラム学習を導入する。
提案手法は,エントロピー誘導語彙拡張とモデル最適化を交互に行い,多様なトークン化粒度にまたがる変換可能な表現を学習する。
小規模GPTモデルによる実験により,スケーリング効率が向上し,動的トークン化の有効性が向上した。
論文 参考訳(メタデータ) (2025-02-25T07:18:29Z) - Chunk-Distilled Language Modeling [25.238256586953487]
Chunk-Distilled Language Modeling (CD-LM)は、現在の大規模言語モデル(LLM)における2つの課題に対処するテキスト生成のアプローチである。
提案手法は,ディープネットワークベースのLCMと簡単な検索モジュールを組み合わせることで,単一のデコードステップでマルチトークンテキストチャンクを生成する。
論文 参考訳(メタデータ) (2024-12-31T08:32:15Z) - Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? [23.83290627671739]
VocADTは、既存の埋め込みの最適線形結合を学ぶために訓練されたアダプタモジュールを用いた語彙適応の新しい手法である。
ラテン文字言語と高度に断片化された言語は語彙適応の恩恵を最も受ける。
論文 参考訳(メタデータ) (2024-10-12T20:45:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。