論文の概要: Is There a Case for Conversation Optimized Tokenizers in Large Language Models?
- arxiv url: http://arxiv.org/abs/2506.18674v1
- Date: Mon, 23 Jun 2025 14:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.014925
- Title: Is There a Case for Conversation Optimized Tokenizers in Large Language Models?
- Title(参考訳): 大規模言語モデルにおける会話最適化トケナイザの事例
- Authors: Raquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego,
- Abstract要約: 大規模言語モデル(LLM)の計算とエネルギーコストは、増大するモデルサイズによって指数関数的に増大している。
トークン化器はモデルの効率において重要な役割を担い、トレーニングコーパス内のテキストのトークン数を最小化するために慎重に最適化されている。
- 参考スコア(独自算出の注目度): 3.0059120458540383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computational and energy costs of Large Language Models (LLMs) have increased exponentially driven by the growing model sizes and the massive adoption of LLMs by hundreds of millions of users. The unit cost of an LLM is the computation of a token. Therefore, the tokenizer plays an important role in the efficiency of a model, and they are carefully optimized to minimize the number of tokens for the text in their training corpus. One of the most popular applications of LLMs are chatbots that interact with users. A key observation is that, for those chatbots, what is important is the performance of the tokenizer in the user text input and the chatbot responses. Those are most likely different from the text in the training corpus. So, a question that immediately arises is whether there is a potential benefit in optimizing tokenizers for chatbot conversations. In this paper, this idea is explored for different tokenizers by using a publicly available corpus of chatbot conversations to redesign their vocabularies and evaluate their performance in this domain. The results show that conversation-optimized tokenizers consistently reduce the number of tokens in chatbot dialogues, which can lead to meaningful energy savings, in the range of 5% to 10% while having minimal or even slightly positive impact on tokenization efficiency for the original training corpus.
- Abstract(参考訳): 大規模言語モデル(LLM)の計算とエネルギーコストは、モデルサイズの増加と、数億のユーザによるLLMの大規模採用によって指数関数的に増大している。
LLMの単位コストはトークンの計算である。
したがって、トークン化器はモデルの効率において重要な役割を担い、トレーニングコーパス内のテキストのトークン数を最小化するために慎重に最適化されている。
LLMの最も人気のあるアプリケーションの1つは、ユーザと対話するチャットボットである。
重要な観察は、これらのチャットボットにとって重要なのは、ユーザテキスト入力とチャットボット応答におけるトークン化器のパフォーマンスである。
これらは、トレーニングコーパスのテキストとは異なる可能性が高い。
ですから、すぐに起きる疑問は、チャットボットの会話にトークンを最適化するメリットがあるかどうかです。
本稿では、チャットボット会話の公開コーパスを用いて、さまざまなトークン作成者に対して、それらの語彙を再設計し、その領域での性能を評価する。
この結果から,チャットボット対話におけるトークンの数が5%から10%の範囲で一定に減少する一方で,オリジナルトレーニングコーパスのトークン化効率に最小あるいはわずかに影響を及ぼす可能性が示唆された。
関連論文リスト
- SuperBPE: Space Travel for Language Models [112.64910939119056]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
最高のトークン化器は2つのタスクタイプによって異なり、事前トークン化器はパフォーマンスに最も大きな影響を与える。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - LLM should think and action as a human [0.0]
マルチターン会話では、ユーザプロンプト毎に、チャット履歴、思考コンテキスト、アクションコール、メモリ、知識といった要素に基づいて、大きな言語モデルを考える。
実験結果から,大規模言語モデルの推論能力と計画能力が向上し,マルチターン会話における課題が解決された。
論文 参考訳(メタデータ) (2025-02-19T06:58:34Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Deep Learning Based Amharic Chatbot for FAQs in Universities [0.0]
本稿では,アムハラ語の質問(FAQ)に頻繁に答えるモデルを提案する。
提案プログラムでは, トークン化, 停止語除去, ステーミングを用いて, アムハラ語入力文の分析と分類を行う。
このモデルはFacebook Messengerに統合され、Herokuサーバに24時間のアクセシビリティとしてデプロイされた。
論文 参考訳(メタデータ) (2024-01-26T18:37:21Z) - Multi-User Chat Assistant (MUCA): a Framework Using LLMs to Facilitate Group Conversations [3.6975712141698445]
Multi-User Chat Assistant (MUCA) は、グループディスカッションに適したLLMベースのフレームワークである。
MUCAは、サブトピックジェネレータ(Sub-topic Generator)、ダイアログアナライザー(Dilog Analyzer)、会話戦略アービタ(Conversational Strategies Arbitrator)の3つの主要なモジュールで構成されている。
MUCAの最適化を容易にするために,LLMに基づくマルチユーザシミュレータ(MUS)を提案する。
論文 参考訳(メタデータ) (2024-01-10T02:22:21Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue [73.69510478736483]
大規模言語モデル(LLM)は、流動的で一貫性があり多様な応答を生成する。
しかし、それらは重要な能力、コミュニケーションスキルを欠いている。
本稿は,内的モノローグによるLLMのコミュニケーション能力向上を目的としている。
実験の結果,提案したCSIM戦略はバックボーンモデルを改善し,ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T16:19:42Z) - Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages [40.37822682459469]
我々は、事前訓練された言語モデルに指示追従と人間の値アライメントを持たせるために、$textitchat vector$という概念を導入する。
連続的な事前訓練されたモデルの重み付けにチャットベクトルを追加するだけで、言語を必要とせずに、チャット機能をモデルに組み込むことができる。
論文 参考訳(メタデータ) (2023-10-07T13:34:21Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Rewarding Chatbots for Real-World Engagement with Millions of Users [1.2583983802175422]
本研究では,ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討する。
提案手法では,ユーザインタラクションから収集した擬似ラベルを用いて報酬モデルのトレーニングを行う。
Chai Researchプラットフォーム上の1万人のデイリーチャットユーザを対象としたA/Bテストは、このアプローチがMCLを最大70%向上させることを示している。
今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。
論文 参考訳(メタデータ) (2023-03-10T18:53:52Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。