論文の概要: Archon: An Architecture Search Framework for Inference-Time Techniques
- arxiv url: http://arxiv.org/abs/2409.15254v5
- Date: Thu, 3 Oct 2024 05:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:16:59.288805
- Title: Archon: An Architecture Search Framework for Inference-Time Techniques
- Title(参考訳): Archon: 推論時間技術のためのアーキテクチャ検索フレームワーク
- Authors: Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher Ré, Azalia Mirhoseini,
- Abstract要約: Archonは推論時のテクニックのレイヤを選択し、組み合わせ、積み重ねるためのフレームワークである。
我々は,Archonアーキテクチャを,命令フォロー,推論,コーディングベンチマークの範囲で評価する。
- 参考スコア(独自算出の注目度): 31.655124464284523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time techniques are emerging as highly effective tools to enhance large language model (LLM) capabilities. However, best practices for developing systems that combine these techniques remain underdeveloped due to our limited understanding of the utility of individual inference-time techniques and the interactions between them. Additionally, efficiently and automatically searching the space of model choices, inference-time techniques, and their compositions is challenging due to the large design space. To address these challenges, we introduce Archon, a modular framework for selecting, combining, and stacking layers of inference-time techniques to construct optimized LLM systems for target benchmarks. Rather than relying on a single LLM called once, we leverage a diverse set of LLMs and inference-time techniques, creating LLM systems greater than the sum of their parts. Archon defines an extensible design space, encompassing techniques such as generation ensembling, repeated sampling, ranking, fusion, critiquing, verification, and unit testing. It transforms the problem of building LLM systems into a hyperparameter optimization objective. Given the available LLMs, inference-time techniques, and compute budget, Archon utilizes hyperparameter search techniques to discover optimized architectures for target benchmark(s). We evaluate Archon architectures across a range of instruction-following, reasoning, and coding benchmarks, including MT-Bench, Arena-Hard-Auto, AlpacaEval 2.0, MixEval, MixEval Hard, MATH, and CodeContests. Archon architectures outperform frontier models, such as GPT-4o and Claude 3.5 Sonnet, on these benchmarks, achieving an average accuracy increase of 15.1 percentage points by using all available LLMs. We make our code and datasets available publicly on Github: https://github.com/ScalingIntelligence/Archon.
- Abstract(参考訳): 大規模言語モデル(LLM)機能を強化するために,推論時のテクニックが,非常に効果的なツールとして登場している。
しかし,これらの手法を併用したシステム開発におけるベストプラクティスは,個々の推論時間技術の有用性と相互の相互作用を限定的に理解しているため,未発達のままである。
さらに, モデル選択, 推論時間, およびそれらの構成の空間を, 効率的かつ自動的に探索することは, 大きな設計空間のために困難である。
これらの課題に対処するために、ターゲットベンチマークに最適化されたLLMシステムを構築するために、推論時間技法の層を選択し、組み合わせ、積み重ねるためのモジュラーフレームワークであるArchonを紹介した。
一度に1つのLLMに頼るのではなく、多様なLLMと推論時間技術を活用し、LLMシステムを部品の総和よりも大きくする。
Archonは拡張可能なデザイン空間を定義しており、生成アンサンブル、繰り返しサンプリング、ランキング、融合、クオリティ、検証、単体テストといったテクニックを含んでいる。
LLMシステム構築の問題をハイパーパラメータ最適化の目的に転換する。
利用可能なLLM、推論時間技術、計算予算を考えると、Archonはハイパーパラメータ検索技術を使用して、ターゲットベンチマークのための最適化されたアーキテクチャを探索する。
MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH、CodeContestsなど、さまざまなインストラクションフォロー、推論、コーディングベンチマークのアーコンアーキテクチャを評価した。
GPT-4oやClaude 3.5 Sonnetのようなアーコンアーキテクチャはこれらのベンチマークでフロンティアモデルよりも優れており、利用可能な全てのLLMを使用して平均15.1ポイントの精度向上を実現している。
コードとデータセットをGithubで公開しています。
関連論文リスト
- Improving Parallel Program Performance Through DSL-Driven Code Generation with LLM Optimizers [9.880183350366792]
計算処理をプロセッサにマッピングし、メモリを割り当てることは、並列プログラミングのパフォーマンスを最大化するために重要である。
これらのマッピング決定は、パフォーマンスエンジニアによって作成されたmapperと呼ばれる特殊な低レベルのシステムコードの開発を通じて管理される。
我々は,近年のLLMに基づくマッパー設計の進歩を生かしたアプローチを提案する。
10分以内で、科学的応用における人間の専門家設計を超えるマッパーを最大1.34倍のスピードアップで自動的に発見する。
論文 参考訳(メタデータ) (2024-10-21T04:08:37Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Rome was Not Built in a Single Step: Hierarchical Prompting for LLM-based Chip Design [22.70660876673987]
大言語モデル(LLM)は、ハードウェア記述言語(HDL)生成によるコンピュータハードウェア合成に有効である。
しかし、複雑なタスクを扱う場合のHDL生成にLLMが支援するアプローチは難しかった。
本稿では,効率的なステップワイズ設計手法を実現する階層的プロンプト手法について紹介する。
論文 参考訳(メタデータ) (2024-07-23T21:18:31Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - ArchGym: An Open-Source Gymnasium for Machine Learning Assisted
Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。
我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文 参考訳(メタデータ) (2023-06-15T06:41:23Z) - LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization [4.951599300340954]
大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。
本稿では、LLMの符号化機能を用いて、ニューラルネットワークを定義するコードに意味のあるバリエーションを導入することを提案する。
本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を融合させることで,ニューラルネットワーク探索(NAS)アルゴリズムであるtextttLLMaticを導入する。
論文 参考訳(メタデータ) (2023-06-01T19:33:21Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - Off-Policy Reinforcement Learning for Efficient and Effective GAN
Architecture Search [50.40004966087121]
本稿では,GANアーキテクチャ探索のための強化学習に基づくニューラルアーキテクチャ探索手法を提案する。
鍵となる考え方は、よりスムーズなアーキテクチャサンプリングのためのマルコフ決定プロセス(MDP)として、GANアーキテクチャ探索問題を定式化することである。
我々は,従来の政策によって生成されたサンプルを効率的に活用する,非政治的なGANアーキテクチャ探索アルゴリズムを利用する。
論文 参考訳(メタデータ) (2020-07-17T18:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。