論文の概要: syftr: Pareto-Optimal Generative AI
- arxiv url: http://arxiv.org/abs/2505.20266v1
- Date: Mon, 26 May 2025 17:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.139581
- Title: syftr: Pareto-Optimal Generative AI
- Title(参考訳): syftr:Pareto-Optimal Generative AI
- Authors: Alexander Conway, Debadeepta Dey, Stefan Hackmann, Matthew Hausknecht, Michael Schmidt, Mark Steadman, Nick Volynets,
- Abstract要約: syftrはエージェントと非エージェントのRAG構成の広い領域で効率的な多目的探索を行うフレームワークである。
Syftrは、最も正確な流れの正確さを保ちながら、平均して9倍のコストで流れを見つける。
- 参考スコア(独自算出の注目度): 40.80352098169579
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) pipelines are central to applying large language models (LLMs) to proprietary or dynamic data. However, building effective RAG flows is complex, requiring careful selection among vector databases, embedding models, text splitters, retrievers, and synthesizing LLMs. The challenge deepens with the rise of agentic paradigms. Modules like verifiers, rewriters, and rerankers-each with intricate hyperparameter dependencies have to be carefully tuned. Balancing tradeoffs between latency, accuracy, and cost becomes increasingly difficult in performance-sensitive applications. We introduce syftr, a framework that performs efficient multi-objective search over a broad space of agentic and non-agentic RAG configurations. Using Bayesian Optimization, syftr discovers Pareto-optimal flows that jointly optimize task accuracy and cost. A novel early-stopping mechanism further improves efficiency by pruning clearly suboptimal candidates. Across multiple RAG benchmarks, syftr finds flows which are on average approximately 9 times cheaper while preserving most of the accuracy of the most accurate flows on the Pareto-frontier. Furthermore, syftr's ability to design and optimize allows integrating new modules, making it even easier and faster to realize high-performing generative AI pipelines.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)パイプラインは、プロプライエタリまたは動的データに大規模言語モデル(LLM)を適用する中心である。
しかし、有効なRAGフローの構築は複雑であり、ベクトルデータベース、埋め込みモデル、テキスト分割器、検索器、LLMの合成など、慎重に選択する必要がある。
この課題はエージェント的パラダイムの台頭によってさらに深まる。
検証器、書き換え器、複雑なハイパーパラメータ依存関係を持つ再実行器のようなモジュールは、慎重に調整する必要がある。
レイテンシ、正確性、コストのトレードオフのバランスをとることは、パフォーマンスに敏感なアプリケーションではますます難しくなっています。
本稿では,エージェントおよび非エージェントRAG構成の広い領域において,効率的な多目的探索を行うフレームワークであるsyftrを紹介する。
Bayesian Optimization を用いて、syftr はタスクの精度とコストを共同で最適化する Pareto-Optimal Flow を発見する。
新規な早期停止機構は、明確な最適候補を抽出することによって効率を向上する。
複数のRAGベンチマークで、syftrは平均して9倍のコストで、Pareto-frontier上の最も正確なフローの精度を保っている。
さらに、syftrの設計と最適化の能力は、新たなモジュールの統合を可能にし、高性能な生成AIパイプラインの実現をより容易かつ迅速にする。
関連論文リスト
- Structuring Multiple Simple Cycle Reservoirs with Particle Swarm Optimization [4.452666723220885]
Reservoir Computing (RC)は、リカレントニューラルネットワーク(RNN)から導かれる時間効率の計算パラダイムである。
本稿では,Echo State Networks (ESNs)を拡張したマルチ・リザーバ・フレームワークであるMultiple Simple Cycle Reservoirs (MSCRs)を紹介する。
粒子群最適化 (PSO) を用いたMSCRの最適化は, 既存の多貯留層モデルよりも優れており, より低次元状態空間での競合予測性能を実現することが実証された。
論文 参考訳(メタデータ) (2025-04-06T12:25:40Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文 参考訳(メタデータ) (2025-01-04T03:26:46Z) - Query Optimization for Parametric Knowledge Refinement in Retrieval-Augmented Large Language Models [26.353428245346166]
Extract-Refine-Retrieve-Read (ERRR)フレームワークは、Retrieval-Augmented Generation (RAG)システムにおける事前検索情報ギャップを埋めるように設計されている。
RAGで使用される従来のクエリ最適化手法とは異なり、ERRRフレームワークはLarge Language Models (LLM) から知識を抽出することから始まる。
論文 参考訳(メタデータ) (2024-11-12T14:12:45Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Low-Rank Representations Meets Deep Unfolding: A Generalized and
Interpretable Network for Hyperspectral Anomaly Detection [41.50904949744355]
現在のハイパースペクトル異常検出(HAD)ベンチマークデータセットは、低解像度、単純なバックグラウンド、検出データの小さなサイズに悩まされている。
これらの要因は、ロバスト性の観点からよく知られた低ランク表現(LRR)モデルの性能も制限する。
我々は、複雑なシナリオにおけるHADアルゴリズムの堅牢性を改善するために、新しいHADベンチマークデータセットであるAIR-HADを構築した。
論文 参考訳(メタデータ) (2024-02-23T14:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。