Fugu-MT 論文翻訳(概要): Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning

論文の概要: Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning

arxiv url: http://arxiv.org/abs/2310.03094v3
Date: Thu, 8 Feb 2024 22:02:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 20:16:44.634232
Title: Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning
Title（参考訳）: コスト効率向上のための思考表現を混合した大規模言語モデルカスケード
Authors: Murong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao
Abstract要約: 大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
参考スコア（独自算出の注目度）: 19.472937476936636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) such as GPT-4 have exhibited remarkable performance in a variety of tasks, but this strong performance often comes with the high expense of using paid API services. In this paper, we are motivated to study building an LLM cascade to save the cost of using LLMs, particularly for performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline follows the intuition that simpler questions can be addressed by a weaker but more affordable LLM, whereas only the challenging questions necessitate the stronger and more expensive LLM. To realize this decision-making, we consider the "answer consistency" of the weaker LLM as a signal of the question difficulty and propose several methods for the answer sampling and consistency checking, including one leveraging a mixture of two thought representations (i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can achieve performance comparable to using solely the stronger LLM but require only 40% of its cost.
Abstract（参考訳）: gpt-4のような大規模言語モデル(llm)は様々なタスクで顕著なパフォーマンスを示しているが、この強力なパフォーマンスはしばしば有料apiサービスの使用に高いコストがかかる。本稿では,特に推論(数学的,因果的)タスクの実行において,llmを使用するコストを削減するために,llmカスケードの構築を動機付ける。我々のカスケードパイプラインは、より単純な問題に弱いがより手頃な価格のLSMで対処できるという直感に従っています。この決定を実現するために,弱いLCMの「問合せ整合性」を質問の難しさの信号とみなし,2つの思考表現(すなわちChain-of-ThoughtとProgram-of-Thought)を混合した回答サンプリングと整合性検査のためのいくつかの手法を提案する。 GPT-3.5-turbo と GPT-4 がそれぞれより弱い LLM である6つの推論ベンチマークデータセットの実験を通して,提案する LLM カスケードは,より強力な LLM に匹敵する性能を達成できるが,コストの 40% しか必要としないことを示す。

関連論文リスト

Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference [7.865726406769634]
小型言語モデル(SLM)は劇的なコスト削減を提供するが、精度はかなり遅い。 LLM Shepherdingは,LLMから短いプレフィックス(ヒント)のみを要求するフレームワークで,SLMに提供します。シェパードはルーティングとカスケードの両方を一般化し、オラクルの意思決定において低コストを実現する。
論文参考訳（メタデータ） (2026-01-29T18:52:54Z)
Smaller = Weaker? Benchmarking Robustness of Quantized LLMs in Code Generation [7.262231066394782]
大規模言語モデル(LLM)を圧縮する主流手法として量子化が登場したコード生成タスクにおいて,量子化がLLMのロバスト性に与える影響について,最初の系統的研究を行った。本研究は,LLMの量子化が実精度よりも優れた強靭性を示すことを示すことによって,従来の知恵に挑戦する。
論文参考訳（メタデータ） (2025-06-28T06:32:25Z)
Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning [3.0449420665138485]
大規模言語モデル(LLM)は、特に数学において、公式な推論能力への関心を高めている。そこで本研究では,より弱いLLMからの意見の混合(MoO)を利用して,(相対的に)強いLLM推論を強化するポストトレーニング手法を提案する。その結果,LLMの考え方を取り入れることで,数学的推論が平均5%向上し,推論作業における多様な視点の価値が浮き彫りになることがわかった。
論文参考訳（メタデータ） (2025-02-26T23:22:02Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。 MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。 MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2024-02-19T13:57:55Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph [29.447300472617826]
Think-on-Graph (ToG)は、大規模言語モデル(LLM)における外部知識グラフ(KG)に対する新しいアプローチである。 ToGはKG上でビームサーチを繰り返し実行し、最も有望な推論経路を発見し、最も可能性の高い推論結果を返す。 ToGは、以前のSOTAが追加トレーニングに依存する9つのデータセットのうち6つで、全体的なSOTAを達成する。
論文参考訳（メタデータ） (2023-07-15T03:31:38Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文参考訳（メタデータ） (2023-05-18T17:48:03Z)
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance [36.94826820536239]
一般的な大言語モデル(LLM)のクエリに関するコストについてレビューする。 LLMの使用に伴う推論コストを削減するために,ユーザが活用できる3つの戦略について論じる。実験の結果,FrugalGPTは最大98%のコスト削減や,同じコストでGPT-4の精度を4%向上できることがわかった。
論文参考訳（メタデータ） (2023-05-09T05:11:02Z)
Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。 LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文参考訳（メタデータ） (2023-03-15T12:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。