論文の概要: Translate Smart, not Hard: Cascaded Translation Systems with Quality-Aware Deferral
- arxiv url: http://arxiv.org/abs/2502.12701v1
- Date: Tue, 18 Feb 2025 10:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:22.595720
- Title: Translate Smart, not Hard: Cascaded Translation Systems with Quality-Aware Deferral
- Title(参考訳): スマートな翻訳:品質に配慮した翻訳システム
- Authors: António Farinhas, Nuno M. Guerreiro, Sweta Agrawal, Ricardo Rei, André F. T. Martins,
- Abstract要約: 本稿では,既存の品質推定(QE)メトリクスを推論規則として用いた機械翻訳の簡易かつ効果的な手法を提案する。
また,QEに基づくdeferralでは,カスケードシステムにより,より大規模なモデルの性能に適合し,短時間で呼び出すことが可能であることを示す。
- 参考スコア(独自算出の注目度): 28.382040322550775
- License:
- Abstract: Larger models often outperform smaller ones but come with high computational costs. Cascading offers a potential solution. By default, it uses smaller models and defers only some instances to larger, more powerful models. However, designing effective deferral rules remains a challenge. In this paper, we propose a simple yet effective approach for machine translation, using existing quality estimation (QE) metrics as deferral rules. We show that QE-based deferral allows a cascaded system to match the performance of a larger model while invoking it for a small fraction (30% to 50%) of the examples, significantly reducing computational costs. We validate this approach through both automatic and human evaluation.
- Abstract(参考訳): より大きなモデルは、しばしばより小さなモデルより優れているが、高い計算コストが伴う。
Cascadingは潜在的なソリューションを提供する。
デフォルトでは、より小さなモデルを使用し、より大きくより強力なモデルにいくつかのインスタンスだけをデファーする。
しかし、効果的な遅延ルールの設計は依然として課題である。
本稿では,既存の品質推定(QE)メトリクスを推論規則として用いた機械翻訳の簡易かつ効果的な手法を提案する。
QEに基づくdeferralでは,実例のごく一部(30%から50%)を呼び出しながら,より大きなモデルの性能とカスケードシステムを一致させることで,計算コストを大幅に削減できることが示されている。
我々はこの手法を,自動評価と人的評価の両面から検証する。
関連論文リスト
- Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models [2.867517731896504]
SQFTは、大規模事前学習モデルの低精度スパースパラメータ効率微調整のためのエンドツーエンドソリューションである。
SQFTは資源制約のある環境で効果的なモデル操作を可能にする。
SQFTはまた、異なる数値精度の量子化重みとアダプタを持つという課題にも対処している。
論文 参考訳(メタデータ) (2024-10-01T19:49:35Z) - Agreement-Based Cascading for Efficient Inference [32.914852531806]
Agreement-Based Cascading (ABC) は単純で効果的な適応推論手法である。
ABCは、サイズ/複雑さの増大したモデルのカスケードを構築し、データ依存ルーティングの基盤として、カスケードの各レベルにおけるモデルのアンサンブル間の合意を使用する。
ABCは既存のモデルの代替品として確実に機能し、効率と精度の両面で、最高のシングルモデルを上回ることを示しています。
論文 参考訳(メタデータ) (2024-07-02T15:14:12Z) - Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。
より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:57:39Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z) - Knowledge Distillation for Quality Estimation [79.51452598302934]
QE(Quality Estimation)は、参照翻訳のない機械翻訳の品質を自動的に予測するタスクである。
QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。
提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T12:36:21Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。