論文の概要: Large Language Model Cascades with Mixture of Thoughts Representations
for Cost-efficient Reasoning
- arxiv url: http://arxiv.org/abs/2310.03094v3
- Date: Thu, 8 Feb 2024 22:02:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:16:44.634232
- Title: Large Language Model Cascades with Mixture of Thoughts Representations
for Cost-efficient Reasoning
- Title(参考訳): コスト効率向上のための思考表現を混合した大規模言語モデルカスケード
- Authors: Murong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao
- Abstract要約: 大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。
本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。
提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
- 参考スコア(独自算出の注目度): 19.472937476936636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) such as GPT-4 have exhibited remarkable
performance in a variety of tasks, but this strong performance often comes with
the high expense of using paid API services. In this paper, we are motivated to
study building an LLM cascade to save the cost of using LLMs, particularly for
performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline
follows the intuition that simpler questions can be addressed by a weaker but
more affordable LLM, whereas only the challenging questions necessitate the
stronger and more expensive LLM. To realize this decision-making, we consider
the "answer consistency" of the weaker LLM as a signal of the question
difficulty and propose several methods for the answer sampling and consistency
checking, including one leveraging a mixture of two thought representations
(i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six
reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and
stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can
achieve performance comparable to using solely the stronger LLM but require
only 40% of its cost.
- Abstract(参考訳): gpt-4のような大規模言語モデル(llm)は様々なタスクで顕著なパフォーマンスを示しているが、この強力なパフォーマンスはしばしば有料apiサービスの使用に高いコストがかかる。
本稿では,特に推論(数学的,因果的)タスクの実行において,llmを使用するコストを削減するために,llmカスケードの構築を動機付ける。
我々のカスケードパイプラインは、より単純な問題に弱いがより手頃な価格のLSMで対処できるという直感に従っています。
この決定を実現するために,弱いLCMの「問合せ整合性」を質問の難しさの信号とみなし,2つの思考表現(すなわちChain-of-ThoughtとProgram-of-Thought)を混合した回答サンプリングと整合性検査のためのいくつかの手法を提案する。
GPT-3.5-turbo と GPT-4 がそれぞれより弱い LLM である6つの推論ベンチマークデータセットの実験を通して,提案する LLM カスケードは,より強力な LLM に匹敵する性能を達成できるが,コストの 40% しか必要としないことを示す。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination
Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。
SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文 参考訳(メタデータ) (2024-02-20T11:01:39Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for
Themselves [63.33254282051988]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Think-on-Graph: Deep and Responsible Reasoning of Large Language Model
on Knowledge Graph [30.55469220140842]
Think-on-Graph (ToG)は、大規模言語モデル(LLM)における外部知識グラフ(KG)に対する新しいアプローチである。
ToGはKG上でビームサーチを繰り返し実行し、最も有望な推論経路を発見し、最も可能性の高い推論結果を返す。
ToGは、以前のSOTAが追加トレーニングに依存する9つのデータセットのうち6つで、全体的なSOTAを達成する。
論文 参考訳(メタデータ) (2023-07-15T03:31:38Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文 参考訳(メタデータ) (2023-05-18T17:48:03Z) - FrugalGPT: How to Use Large Language Models While Reducing Cost and
Improving Performance [36.94826820536239]
一般的な大言語モデル(LLM)のクエリに関するコストについてレビューする。
LLMの使用に伴う推論コストを削減するために,ユーザが活用できる3つの戦略について論じる。
実験の結果,FrugalGPTは最大98%のコスト削減や,同じコストでGPT-4の精度を4%向上できることがわかった。
論文 参考訳(メタデータ) (2023-05-09T05:11:02Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。