論文の概要: Doing More with Less -- Implementing Routing Strategies in Large Language Model-Based Systems: An Extended Survey
- arxiv url: http://arxiv.org/abs/2502.00409v2
- Date: Tue, 04 Feb 2025 09:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:44.928933
- Title: Doing More with Less -- Implementing Routing Strategies in Large Language Model-Based Systems: An Extended Survey
- Title(参考訳): より少ないこと - 大規模言語モデルベースシステムにおけるルーティング戦略の実装 - 拡張された調査
- Authors: Clovis Varangot-Reille, Christophe Bouvard, Antoine Gourru, Mathieu Ciancone, Marion Schaeffer, François Jacquenet,
- Abstract要約: LLM(Large Language Models)ベースのシステムは、すべてのユーザクエリに対して単一のLLMに依存している。
彼らはしばしば、異なる事前処理戦略、推論のレベル、あるいは知識を必要とします。
本稿では,LLMシステムにルーティングを統合する上で重要な課題について考察する。
- 参考スコア(独自算出の注目度): 1.430963201405577
- License:
- Abstract: Large Language Models (LLM)-based systems, i.e. interconnected elements that include an LLM as a central component (e.g., conversational agents), are typically monolithic static architectures that rely on a single LLM for all user queries. However, they often require different preprocessing strategies, levels of reasoning, or knowledge. Generalist LLMs (e.g. GPT-4) trained on very large multi-topic corpora can perform well in a variety of tasks. They require significant financial, energy, and hardware resources that may not be justified for basic tasks. This implies potentially investing in unnecessary costs for a given query. To overcome this problem, a routing mechanism routes user queries to the most suitable components, such as smaller LLMs or experts in specific topics. This approach may improve response quality while minimising costs. Routing can be expanded to other components of the conversational agent architecture, such as the selection of optimal embedding strategies. This paper explores key considerations for integrating routing into LLM-based systems, focusing on resource management, cost definition, and strategy selection. Our main contributions include a formalisation of the problem, a novel taxonomy of existing approaches emphasising relevance and resource efficiency, and a comparative analysis of these strategies in relation to industry practices. Finally, we identify critical challenges and directions for future research.
- Abstract(参考訳): LLM(Large Language Models)ベースのシステム、すなわちLLMを中央コンポーネント(例えば会話エージェント)として含む相互接続された要素は、通常、すべてのユーザクエリに単一のLLMに依存するモノリシックな静的アーキテクチャである。
しかし、それらはしばしば異なる事前処理戦略、推論のレベル、または知識を必要とする。
非常に大きなマルチトピックコーパスで訓練されたジェネラリストLSM(e g GPT-4)は、様々なタスクでうまく機能する。
それらは、基本的なタスクでは正当化されない、相当な財政、エネルギー、ハードウェアのリソースを必要とする。
これは、あるクエリに対して不要なコストを投資する可能性があることを意味します。
この問題を克服するために、ルーティングメカニズムは、より小さなLCMや特定のトピックの専門家など、ユーザクエリを最も適したコンポーネントにルーティングする。
このアプローチは、コストを最小化しながら、応答品質を改善する可能性がある。
ルーティングは、最適な埋め込み戦略の選択など、会話エージェントアーキテクチャの他のコンポーネントにも拡張できる。
本稿では、資源管理、コスト定義、戦略選択に焦点をあて、LLMベースのシステムにルーティングを統合する際の重要な考察について述べる。
本研究の主な貢献は、問題の形式化、関連性や資源効率を重視した既存のアプローチの新たな分類、産業プラクティスに関するこれらの戦略の比較分析等である。
最後に,今後の研究における重要な課題と方向性を明らかにする。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - A Survey of Query Optimization in Large Language Models [10.255235456427037]
RAGは、動的に検索し、最新の関連情報を活用することによって、大規模言語モデルの限界を緩和する。
QOは重要な要素として現れ、RAGの検索段階の有効性を決定する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-12-23T13:26:04Z) - Large Language Models for Knowledge-Free Network Management: Feasibility Study and Opportunities [36.70339455624253]
本稿では,大規模言語モデル(LLM)と呼ばれる基礎モデルの力による,知識のない新しいネットワーク管理パラダイムについて述べる。
LLMは、最小限のシステム情報を含む入力プロンプトから重要なコンテキストを理解することができ、完全に新しいタスクであっても顕著な推論性能を提供する。
計算結果は,知識のないLLMが既存の知識ベース最適化アルゴリズムに匹敵する性能を達成できることを検証した。
論文 参考訳(メタデータ) (2024-10-06T07:42:23Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - ReSLLM: Large Language Models are Strong Resource Selectors for
Federated Search [35.44746116088232]
フェデレーション検索は、Retrieval-Augmented Generationパイプラインのコンテキストにおいて、ますます重要になる。
現在のSOTA資源選択手法は特徴に基づく学習手法に依存している。
ゼロショット環境でのフェデレーション検索における資源選択を促進するために,ReSLLMを提案する。
論文 参考訳(メタデータ) (2024-01-31T07:58:54Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。