論文の概要: BatchGEMBA: Token-Efficient Machine Translation Evaluation with Batched Prompting and Prompt Compression
- arxiv url: http://arxiv.org/abs/2503.02756v1
- Date: Tue, 04 Mar 2025 16:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:53.264791
- Title: BatchGEMBA: Token-Efficient Machine Translation Evaluation with Batched Prompting and Prompt Compression
- Title(参考訳): BatchGEMBA: Batched Prompting と Prompt Compression によるToken-Efficient Machine Translation の評価
- Authors: Daniil Larionov, Steffen Eger,
- Abstract要約: BatchGEMBAMQMは、マシン評価のためのGEMBAMQMメトリックとバッチプロンプトを統合するフレームワークである。
提案手法では,複数の翻訳例をひとつのプロンプトに集約し,単一プロンプトと比較してトークン使用量を2~4倍削減する(バッチサイズに依存する)。
- 参考スコア(独自算出の注目度): 21.23509339665165
- License:
- Abstract: Recent advancements in Large Language Model (LLM)-based Natural Language Generation evaluation have largely focused on single-example prompting, resulting in significant token overhead and computational inefficiencies. In this work, we introduce BatchGEMBA-MQM, a framework that integrates batched prompting with the GEMBA-MQM metric for machine translation evaluation. Our approach aggregates multiple translation examples into a single prompt, reducing token usage by 2-4 times (depending on the batch size) relative to single-example prompting. Furthermore, we propose a batching-aware prompt compression model that achieves an additional token reduction of 13-15% on average while also showing ability to help mitigate batching-induced quality degradation. Evaluations across several LLMs (GPT-4o, GPT-4o-mini, Mistral Small, Phi4, and CommandR7B) and varying batch sizes reveal that while batching generally negatively affects quality (but sometimes not substantially), prompt compression does not degrade further, and in some cases, recovers quality loss. For instance, GPT-4o retains over 90% of its baseline performance at a batch size of 4 when compression is applied, compared to a 44.6% drop without compression. We plan to release our code and trained models at https://github.com/NL2G/batchgemba to support future research in this domain.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく自然言語生成評価の最近の進歩は、主に単一例のプロンプトに焦点を合わせており、トークンのオーバーヘッドと計算効率が著しく低下している。
本稿では,機械翻訳評価のためのGEMBA-MQMメトリックとバッチプロンプトを統合したBatchGEMBA-MQMを提案する。
提案手法では,複数の翻訳例をひとつのプロンプトに集約し,単一プロンプトと比較してトークン使用量を2~4倍削減する(バッチサイズに依存する)。
さらに,バッチ処理による品質劣化を軽減するとともに,平均で13~15%のトークン削減を実現するバッチ処理対応プロンプト圧縮モデルを提案する。
いくつかのLCM(GPT-4o、GPT-4o-mini、Mistral Small、Phi4、CommandR7B)および様々なバッチサイズの評価により、バッチ処理は一般的に品質に悪影響を及ぼすが(時には実質的には影響しない)、即時圧縮は更に劣化せず、場合によっては品質損失を回復する。
例えば、GPT-4oは圧縮を施すと、バッチサイズ4のベースライン性能を90%以上保持するが、圧縮なしで44.6%の低下がある。
この領域における将来の研究をサポートするため、コードとトレーニングされたモデルをhttps://github.com/NL2G/batchgembaでリリースする予定です。
関連論文リスト
- PromptOptMe: Error-Aware Prompt Compression for LLM-based MT Evaluation Metrics [21.23509339665165]
提案手法は,より小型の微調整言語モデルを用いて,評価プロンプトの入力データを圧縮するプロンプト最適化手法である。
評価品質を損なうことなくトークン使用率を2.37倍に削減できることを示す。
論文 参考訳(メタデータ) (2024-12-20T18:08:02Z) - Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。
提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。
Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文 参考訳(メタデータ) (2024-10-17T21:35:49Z) - COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。
本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。
我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文 参考訳(メタデータ) (2024-10-16T02:16:53Z) - BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models [77.0501668780182]
Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
論文 参考訳(メタデータ) (2023-10-02T16:48:47Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Learning to Compress Prompts with Gist Tokens [16.64173373856]
我々は、LMにプロンプトを小さな"gist"トークンセットに圧縮するよう訓練するgistingを提案する。
decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの最大26倍の圧縮を可能にする。
論文 参考訳(メタデータ) (2023-04-17T17:47:37Z) - Sigmoid Loss for Language Image Pre-Training [93.91385557929604]
本稿では,Language-Image Pre-Training (SigLIP) のための単純なペアワイズ・シグモイド・ロスを提案する。
シグモイド損失は画像とテキストのペアのみに作用し、正規化のためにペアの類似点のグローバルなビューを必要としない。
Locked-image Tuningと4つのTPUv4チップの組み合わせで、84.5%のImageNetゼロショット精度を2日間で達成するSigLiTモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-27T15:53:01Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。