論文の概要: Cost-Performance Optimization for Processing Low-Resource Language Tasks
Using Commercial LLMs
- arxiv url: http://arxiv.org/abs/2403.05434v1
- Date: Fri, 8 Mar 2024 16:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:06:56.923241
- Title: Cost-Performance Optimization for Processing Low-Resource Language Tasks
Using Commercial LLMs
- Title(参考訳): 商用LLMを用いた低リソース言語タスクのコストパフォーマンス最適化
- Authors: Arijit Nag, Animesh Mukherjee, Niloy Ganguly, Soumen Chakrabarti
- Abstract要約: 大規模言語モデル(LLM)は、高リソース言語(HRL)に対する印象的なゼロ/ファウショット推論と生成品質を示す。
LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。
我々の目標は、現代のLLMにおけるLRLの処理コストを低減し、予測的および生成的品質が損なわれないようにすることである。
- 参考スコア(独自算出の注目度): 49.64863457267097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit impressive zero/few-shot inference and
generation quality for high-resource languages(HRLs). A few of them have been
trained in low-resource languages (LRLs) and give decent performance. Owing to
the prohibitive costs of training LLMs, they are usually used as a network
service, with the client charged by the count of input and output tokens. The
number of tokens strongly depends on the script and language, as well as the
LLM's sub-word vocabulary. We show that LRLs are at a pricing disadvantage,
because the well-known LLMs produce more tokens for LRLs than HRLs. This is
because most currently popular LLMs are optimized for HRL vocabularies. Our
objective is to level the playing field: reduce the cost of processing LRLs in
contemporary LLMs while ensuring that predictive and generative qualities are
not compromised. As means to reduce the number of tokens processed by the LLM,
we consider code-mixing, translation, and transliteration of LRLs to HRLs. We
perform an extensive study using the IndicXTREME dataset, covering 15 Indian
languages, while using GPT-4 (one of the costliest LLM services released so
far) as a commercial LLM. We observe and analyze interesting patterns involving
token count, cost,and quality across a multitude of languages and tasks. We
show that choosing the best policy to interact with the LLM can reduce cost by
90% while giving better or comparable performance, compared to communicating
with the LLM in the original LRL.
- Abstract(参考訳): 大規模言語モデル(llms)は、高リソース言語(hrls)のゼロ/フェーショット推論と生成品質を示す。
いくつかは低リソース言語(LRL)でトレーニングされ、優れたパフォーマンスを提供している。
LLMのトレーニングの禁止コストのため、通常はネットワークサービスとして使用され、クライアントは入力トークンと出力トークンのカウントによって課金される。
トークンの数は、LLMのサブワード語彙と同様に、スクリプトと言語に強く依存する。
LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。
これは、現在広く使われているLLMがHRL語彙に最適化されているためである。
我々の目標は、現代のLLMにおけるLRLの処理コストを低減し、予測的および生成的品質が損なわれないようにすることである。
LLMによって処理されるトークンの数を減らす手段として、LRLのコード混合、翻訳、HRLへの翻訳を検討する。
インド語15言語をカバーするIndicXTREMEデータセットを用いて広範に研究を行い、商業LLMとしてGPT-4(これまでリリースされた最も高価なLCMサービスの一つ)を用いた。
我々は,多数の言語やタスクにわたるトークン数,コスト,品質といった興味深いパターンを観察し,分析する。
従来のLRLのLLMとの通信と比較して,LLMと対話する最善のポリシーを選択することで,性能が向上する一方,コストを90%削減できることを示す。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Traditional Methods Outperform Generative LLMs at Forecasting Credit Ratings [17.109522466982476]
大規模言語モデル(LLM)は多くの下流タスクでうまく機能することが示されている。
本稿では,企業信用格付け予測におけるLCMの業績について検討する。
論文 参考訳(メタデータ) (2024-07-24T20:30:55Z) - Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher [11.136112399898481]
小規模大規模言語モデル(LLM)は、LLMの監督を効果的に活用して、その生成品質を向上するにはどうすればよいのか?
我々は,初期トークン上でのLLMおよびLLM予測を効果的に集約するアルゴリズムを開発した。
提案手法は,従来の復号法よりも一貫した手法であることを示す。
論文 参考訳(メタデータ) (2024-06-26T01:16:12Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - Comparing LLM prompting with Cross-lingual transfer performance on Indigenous and Low-resource Brazilian Languages [5.473562965178709]
ブラジルの12の低リソース言語(LRL)、アフリカの2つのLRL、そして2つの高リソース言語(HRL)に焦点を当てています。
以上の結果から,LLM は HRL と比較して LRL の音声(POS) ラベル付けに悪影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2024-04-28T19:24:28Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Learning to Generate Better Than Your LLM [16.74454360961681]
強化学習は大規模言語モデルを微調整するための強力なパラダイムとして登場した。
我々は、動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張した。
我々はRLアルゴリズムが教師あり学習よりも高い性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-20T18:19:17Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。