Fugu-MT 論文翻訳(概要): PromptOptMe: Error-Aware Prompt Compression for LLM-based MT Evaluation Metrics

論文の概要: PromptOptMe: Error-Aware Prompt Compression for LLM-based MT Evaluation Metrics

arxiv url: http://arxiv.org/abs/2412.16120v1
Date: Fri, 20 Dec 2024 18:08:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:09.053735
Title: PromptOptMe: Error-Aware Prompt Compression for LLM-based MT Evaluation Metrics
Title（参考訳）: PromptOptMe:LLMに基づくMT評価指標に対する誤り認識型Prompt圧縮
Authors: Daniil Larionov, Steffen Eger,
Abstract要約: 提案手法は,より小型の微調整言語モデルを用いて,評価プロンプトの入力データを圧縮するプロンプト最適化手法である。評価品質を損なうことなくトークン使用率を2.37倍に削減できることを示す。
参考スコア（独自算出の注目度）: 21.23509339665165
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Evaluating the quality of machine-generated natural language content is a challenging task in Natural Language Processing (NLP). Recently, large language models (LLMs) like GPT-4 have been employed for this purpose, but they are computationally expensive due to the extensive token usage required by complex evaluation prompts. In this paper, we propose a prompt optimization approach that uses a smaller, fine-tuned language model to compress input data for evaluation prompt, thus reducing token usage and computational cost when using larger LLMs for downstream evaluation. Our method involves a two-stage fine-tuning process: supervised fine-tuning followed by preference optimization to refine the model's outputs based on human preferences. We focus on Machine Translation (MT) evaluation and utilize the GEMBA-MQM metric as a starting point. Our results show a $2.37\times$ reduction in token usage without any loss in evaluation quality. This work makes state-of-the-art LLM-based metrics like GEMBA-MQM more cost-effective and efficient, enhancing their accessibility for broader use.
Abstract（参考訳）: 機械生成自然言語の質を評価することは自然言語処理(NLP)において難しい課題である。近年, GPT-4のような大規模言語モデル (LLM) が採用されているが, 複雑な評価プロンプトが必要とするトークン使用量が多いため, 計算コストが高い。本稿では,より小さく微調整された言語モデルを用いて,評価用入力データを圧縮し,より大規模なLLMを用いて下流評価を行う場合のトークン使用量や計算コストを削減できるプロンプト最適化手法を提案する。提案手法は2段階の微調整プロセスを含む: 教師付き微調整に続いて、人間の選好に基づいてモデルの出力を洗練するための選好最適化を行う。我々は,機械翻訳(MT)の評価に焦点をあて,GEMBA-MQMメートル法を出発点として利用する。以上の結果から,評価品質を損なうことなく,トークン使用率を2.37\times$に下げることができた。この作業により、GEMBA-MQMのような最先端のLCMベースのメトリクスは、コスト効率が良く、効率が良くなり、より広く使用するためのアクセシビリティが向上します。

関連論文リスト

Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation [2.3650193864974978]
大規模言語モデル(LLM)は、自然言語で書かれたプロンプトを入力として取り込むことで推奨タスクを実行することができる。本稿では,他のユーザからの情報を一切使用しない単一ユーザ設定に焦点をあてる。
論文参考訳（メタデータ） (2025-07-17T20:26:00Z)
Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers [15.549112491482818]
大規模言語モデル(LLM)は,情報検索におけるタスクの再分類に応用され,高い性能を実現している。既存の研究では、遅延、フォワードパス数、入力トークン、出力トークンなどのプロキシメトリクスを使用して、LCMベースのリランカの効率を評価する。本稿では,LLM ベースの再ランカを対象とした Etextsuperscript2R-FLOP を提案する。
論文参考訳（メタデータ） (2025-07-08T17:56:28Z)
Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文参考訳（メタデータ） (2025-02-07T17:45:16Z)
TRIM: Token Reduction and Inference Modeling for Cost-Effective Language Generation [1.2979906794584584]
本稿では,より少ない推論コストのモデルを用いて,大規模言語モデルからの短い蒸留出力をフルナラティブに再構成する,計算コストの削減のためのパイプラインを提案する。実験の結果、特に20.58%のトークンを平均で保存し、評価基準を小さくする一般知識領域において有望な結果が得られた。
論文参考訳（メタデータ） (2024-12-10T17:13:35Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文参考訳（メタデータ） (2023-05-23T00:16:48Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。