論文の概要: Cost-Performance Optimization for Processing Low-Resource Language Tasks
Using Commercial LLMs
- arxiv url: http://arxiv.org/abs/2403.05434v1
- Date: Fri, 8 Mar 2024 16:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:06:56.923241
- Title: Cost-Performance Optimization for Processing Low-Resource Language Tasks
Using Commercial LLMs
- Title(参考訳): 商用LLMを用いた低リソース言語タスクのコストパフォーマンス最適化
- Authors: Arijit Nag, Animesh Mukherjee, Niloy Ganguly, Soumen Chakrabarti
- Abstract要約: 大規模言語モデル(LLM)は、高リソース言語(HRL)に対する印象的なゼロ/ファウショット推論と生成品質を示す。
LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。
我々の目標は、現代のLLMにおけるLRLの処理コストを低減し、予測的および生成的品質が損なわれないようにすることである。
- 参考スコア(独自算出の注目度): 49.64863457267097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit impressive zero/few-shot inference and
generation quality for high-resource languages(HRLs). A few of them have been
trained in low-resource languages (LRLs) and give decent performance. Owing to
the prohibitive costs of training LLMs, they are usually used as a network
service, with the client charged by the count of input and output tokens. The
number of tokens strongly depends on the script and language, as well as the
LLM's sub-word vocabulary. We show that LRLs are at a pricing disadvantage,
because the well-known LLMs produce more tokens for LRLs than HRLs. This is
because most currently popular LLMs are optimized for HRL vocabularies. Our
objective is to level the playing field: reduce the cost of processing LRLs in
contemporary LLMs while ensuring that predictive and generative qualities are
not compromised. As means to reduce the number of tokens processed by the LLM,
we consider code-mixing, translation, and transliteration of LRLs to HRLs. We
perform an extensive study using the IndicXTREME dataset, covering 15 Indian
languages, while using GPT-4 (one of the costliest LLM services released so
far) as a commercial LLM. We observe and analyze interesting patterns involving
token count, cost,and quality across a multitude of languages and tasks. We
show that choosing the best policy to interact with the LLM can reduce cost by
90% while giving better or comparable performance, compared to communicating
with the LLM in the original LRL.
- Abstract(参考訳): 大規模言語モデル(llms)は、高リソース言語(hrls)のゼロ/フェーショット推論と生成品質を示す。
いくつかは低リソース言語(LRL)でトレーニングされ、優れたパフォーマンスを提供している。
LLMのトレーニングの禁止コストのため、通常はネットワークサービスとして使用され、クライアントは入力トークンと出力トークンのカウントによって課金される。
トークンの数は、LLMのサブワード語彙と同様に、スクリプトと言語に強く依存する。
LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。
これは、現在広く使われているLLMがHRL語彙に最適化されているためである。
我々の目標は、現代のLLMにおけるLRLの処理コストを低減し、予測的および生成的品質が損なわれないようにすることである。
LLMによって処理されるトークンの数を減らす手段として、LRLのコード混合、翻訳、HRLへの翻訳を検討する。
インド語15言語をカバーするIndicXTREMEデータセットを用いて広範に研究を行い、商業LLMとしてGPT-4(これまでリリースされた最も高価なLCMサービスの一つ)を用いた。
我々は,多数の言語やタスクにわたるトークン数,コスト,品質といった興味深いパターンを観察し,分析する。
従来のLRLのLLMとの通信と比較して,LLMと対話する最善のポリシーを選択することで,性能が向上する一方,コストを90%削減できることを示す。
関連論文リスト
- ARL2: Aligning Retrievers for Black-box Large Language Models via
Self-guided Adaptive Relevance Labeling [21.872959514817985]
ARL2は、大規模な言語モデルをラベル付けとして活用するレトリバー学習技術である。
ARL2は適応的な自己学習戦略を用いて、高品質で多様な関連データをキュレートする。
実験はARL2の有効性を示し、NQでは5.4%、MMLUでは4.6%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-02-21T05:41:34Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Prevalence and prevention of large language model use in crowd work [11.554258761785512]
大規模言語モデル (LLM) の使用は, 集団作業者の間で広く普及していることを示す。
目標緩和戦略は, LLM の使用量を大幅に削減するが, 排除はしない。
論文 参考訳(メタデータ) (2023-10-24T09:52:09Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Knowledge Transfer from High-Resource to Low-Resource Programming
Languages for Code LLMs [3.0215424372240265]
本稿では,半合成データを用いた低リソース言語上でのコードLLMの性能向上に有効な手法を提案する。
このアプローチを適用して,Julia,Lua,OCaml,R,Racketの各トレーニング項目を数万個生成する。
論文 参考訳(メタデータ) (2023-08-19T03:19:01Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Learning to Generate Better Than Your LLM [16.74454360961681]
強化学習は大規模言語モデルを微調整するための強力なパラダイムとして登場した。
我々は、動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張した。
我々はRLアルゴリズムが教師あり学習よりも高い性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-20T18:19:17Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language
Models [91.55398541853785]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Multilingual Machine Translation with Large Language Models: Empirical
Results and Analysis [108.37242622164709]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Exploiting Language Relatedness for Low Web-Resource Language Model
Adaptation: An Indic Languages Study [14.34516262614775]
言語族における言語間の関連性は、LRLのコーパス制限を克服するために悪用される可能性があると論じる。
我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。
論文 参考訳(メタデータ) (2021-06-07T20:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。