論文の概要: Is There a Case for Conversation Optimized Tokenizers in Large Language Models?
- arxiv url: http://arxiv.org/abs/2506.18674v1
- Date: Mon, 23 Jun 2025 14:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.014925
- Title: Is There a Case for Conversation Optimized Tokenizers in Large Language Models?
- Title(参考訳): 大規模言語モデルにおける会話最適化トケナイザの事例
- Authors: Raquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego,
- Abstract要約: 大規模言語モデル(LLM)の計算とエネルギーコストは、増大するモデルサイズによって指数関数的に増大している。
トークン化器はモデルの効率において重要な役割を担い、トレーニングコーパス内のテキストのトークン数を最小化するために慎重に最適化されている。
- 参考スコア(独自算出の注目度): 3.0059120458540383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computational and energy costs of Large Language Models (LLMs) have increased exponentially driven by the growing model sizes and the massive adoption of LLMs by hundreds of millions of users. The unit cost of an LLM is the computation of a token. Therefore, the tokenizer plays an important role in the efficiency of a model, and they are carefully optimized to minimize the number of tokens for the text in their training corpus. One of the most popular applications of LLMs are chatbots that interact with users. A key observation is that, for those chatbots, what is important is the performance of the tokenizer in the user text input and the chatbot responses. Those are most likely different from the text in the training corpus. So, a question that immediately arises is whether there is a potential benefit in optimizing tokenizers for chatbot conversations. In this paper, this idea is explored for different tokenizers by using a publicly available corpus of chatbot conversations to redesign their vocabularies and evaluate their performance in this domain. The results show that conversation-optimized tokenizers consistently reduce the number of tokens in chatbot dialogues, which can lead to meaningful energy savings, in the range of 5% to 10% while having minimal or even slightly positive impact on tokenization efficiency for the original training corpus.
- Abstract(参考訳): 大規模言語モデル(LLM)の計算とエネルギーコストは、モデルサイズの増加と、数億のユーザによるLLMの大規模採用によって指数関数的に増大している。
LLMの単位コストはトークンの計算である。
したがって、トークン化器はモデルの効率において重要な役割を担い、トレーニングコーパス内のテキストのトークン数を最小化するために慎重に最適化されている。
LLMの最も人気のあるアプリケーションの1つは、ユーザと対話するチャットボットである。
重要な観察は、これらのチャットボットにとって重要なのは、ユーザテキスト入力とチャットボット応答におけるトークン化器のパフォーマンスである。
これらは、トレーニングコーパスのテキストとは異なる可能性が高い。
ですから、すぐに起きる疑問は、チャットボットの会話にトークンを最適化するメリットがあるかどうかです。
本稿では、チャットボット会話の公開コーパスを用いて、さまざまなトークン作成者に対して、それらの語彙を再設計し、その領域での性能を評価する。
この結果から,チャットボット対話におけるトークンの数が5%から10%の範囲で一定に減少する一方で,オリジナルトレーニングコーパスのトークン化効率に最小あるいはわずかに影響を及ぼす可能性が示唆された。
関連論文リスト
- LLM should think and action as a human [0.0]
マルチターン会話では、ユーザプロンプト毎に、チャット履歴、思考コンテキスト、アクションコール、メモリ、知識といった要素に基づいて、大きな言語モデルを考える。
実験結果から,大規模言語モデルの推論能力と計画能力が向上し,マルチターン会話における課題が解決された。
論文 参考訳(メタデータ) (2025-02-19T06:58:34Z) - Deep Learning Based Amharic Chatbot for FAQs in Universities [0.0]
本稿では,アムハラ語の質問(FAQ)に頻繁に答えるモデルを提案する。
提案プログラムでは, トークン化, 停止語除去, ステーミングを用いて, アムハラ語入力文の分析と分類を行う。
このモデルはFacebook Messengerに統合され、Herokuサーバに24時間のアクセシビリティとしてデプロイされた。
論文 参考訳(メタデータ) (2024-01-26T18:37:21Z) - Multi-User Chat Assistant (MUCA): a Framework Using LLMs to Facilitate Group Conversations [3.6975712141698445]
Multi-User Chat Assistant (MUCA) は、グループディスカッションに適したLLMベースのフレームワークである。
MUCAは、サブトピックジェネレータ(Sub-topic Generator)、ダイアログアナライザー(Dilog Analyzer)、会話戦略アービタ(Conversational Strategies Arbitrator)の3つの主要なモジュールで構成されている。
MUCAの最適化を容易にするために,LLMに基づくマルチユーザシミュレータ(MUS)を提案する。
論文 参考訳(メタデータ) (2024-01-10T02:22:21Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages [40.37822682459469]
我々は、事前訓練された言語モデルに指示追従と人間の値アライメントを持たせるために、$textitchat vector$という概念を導入する。
連続的な事前訓練されたモデルの重み付けにチャットベクトルを追加するだけで、言語を必要とせずに、チャット機能をモデルに組み込むことができる。
論文 参考訳(メタデータ) (2023-10-07T13:34:21Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。