Fugu-MT 論文翻訳(概要): Archon: An Architecture Search Framework for Inference-Time Techniques

論文の概要: Archon: An Architecture Search Framework for Inference-Time Techniques

arxiv url: http://arxiv.org/abs/2409.15254v5
Date: Thu, 3 Oct 2024 05:41:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 20:16:59.288805
Title: Archon: An Architecture Search Framework for Inference-Time Techniques
Title（参考訳）: Archon: 推論時間技術のためのアーキテクチャ検索フレームワーク
Authors: Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher Ré, Azalia Mirhoseini,
Abstract要約: Archonは推論時のテクニックのレイヤを選択し、組み合わせ、積み重ねるためのフレームワークである。我々は,Archonアーキテクチャを,命令フォロー,推論,コーディングベンチマークの範囲で評価する。
参考スコア（独自算出の注目度）: 31.655124464284523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inference-time techniques are emerging as highly effective tools to enhance large language model (LLM) capabilities. However, best practices for developing systems that combine these techniques remain underdeveloped due to our limited understanding of the utility of individual inference-time techniques and the interactions between them. Additionally, efficiently and automatically searching the space of model choices, inference-time techniques, and their compositions is challenging due to the large design space. To address these challenges, we introduce Archon, a modular framework for selecting, combining, and stacking layers of inference-time techniques to construct optimized LLM systems for target benchmarks. Rather than relying on a single LLM called once, we leverage a diverse set of LLMs and inference-time techniques, creating LLM systems greater than the sum of their parts. Archon defines an extensible design space, encompassing techniques such as generation ensembling, repeated sampling, ranking, fusion, critiquing, verification, and unit testing. It transforms the problem of building LLM systems into a hyperparameter optimization objective. Given the available LLMs, inference-time techniques, and compute budget, Archon utilizes hyperparameter search techniques to discover optimized architectures for target benchmark(s). We evaluate Archon architectures across a range of instruction-following, reasoning, and coding benchmarks, including MT-Bench, Arena-Hard-Auto, AlpacaEval 2.0, MixEval, MixEval Hard, MATH, and CodeContests. Archon architectures outperform frontier models, such as GPT-4o and Claude 3.5 Sonnet, on these benchmarks, achieving an average accuracy increase of 15.1 percentage points by using all available LLMs. We make our code and datasets available publicly on Github: https://github.com/ScalingIntelligence/Archon.
Abstract（参考訳）: 大規模言語モデル(LLM)機能を強化するために,推論時のテクニックが,非常に効果的なツールとして登場している。しかし,これらの手法を併用したシステム開発におけるベストプラクティスは,個々の推論時間技術の有用性と相互の相互作用を限定的に理解しているため,未発達のままである。さらに, モデル選択, 推論時間, およびそれらの構成の空間を, 効率的かつ自動的に探索することは, 大きな設計空間のために困難である。これらの課題に対処するために、ターゲットベンチマークに最適化されたLLMシステムを構築するために、推論時間技法の層を選択し、組み合わせ、積み重ねるためのモジュラーフレームワークであるArchonを紹介した。一度に1つのLLMに頼るのではなく、多様なLLMと推論時間技術を活用し、LLMシステムを部品の総和よりも大きくする。 Archonは拡張可能なデザイン空間を定義しており、生成アンサンブル、繰り返しサンプリング、ランキング、融合、クオリティ、検証、単体テストといったテクニックを含んでいる。 LLMシステム構築の問題をハイパーパラメータ最適化の目的に転換する。利用可能なLLM、推論時間技術、計算予算を考えると、Archonはハイパーパラメータ検索技術を使用して、ターゲットベンチマークのための最適化されたアーキテクチャを探索する。 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH、CodeContestsなど、さまざまなインストラクションフォロー、推論、コーディングベンチマークのアーコンアーキテクチャを評価した。 GPT-4oやClaude 3.5 Sonnetのようなアーコンアーキテクチャはこれらのベンチマークでフロンティアモデルよりも優れており、利用可能な全てのLLMを使用して平均15.1ポイントの精度向上を実現している。コードとデータセットをGithubで公開しています。

関連論文リスト

DesignX: Human-Competitive Algorithm Designer for Black-Box Optimization [11.467054529894497]
我々は,与えられたブラックボックス最適化問題に対して,数秒以内に効果的な特定性を生成する,最初の自動アルゴリズム設計フレームワークであるDesignXを提案する。数十年にわたる研究から収集された数百のアルゴリズムコンポーネントを取り入れた、包括的なモジュラーアルゴリズム空間が最初に構築された。注目すべきは、自律的な学習の日々を通じて、DesignXで生成されたメタトレーニングが、人間の作ったデザインを上回っていることだ。
論文参考訳（メタデータ） (2025-05-23T13:16:01Z)
ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文参考訳（メタデータ） (2025-03-24T13:11:22Z)
SEKI: Self-Evolution and Knowledge Inspiration based Neural Architecture Search via Large Language Models [11.670056503731905]
本稿では,新しい大規模言語モデル (LLM) に基づくニューラルアーキテクチャ探索 (NAS) 手法であるSEKIを紹介する。現代のLLMにおけるチェーン・オブ・シント(CoT)パラダイムにインスパイアされたセキは、自己進化と知識蒸留という2つの重要な段階で動作している。
論文参考訳（メタデータ） (2025-02-27T09:17:49Z)
AIRCHITECT v2: Learning the Hardware Accelerator Design Space through Unified Representations [3.6231171463908938]
設計空間探索は、カスタムハードウェアアーキテクチャの実現において重要な役割を果たす。最近のAIrchitect v1は、DSEの限界を検索時間分類問題に対処する最初の試みである。
論文参考訳（メタデータ） (2025-01-17T04:57:42Z)
A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文参考訳（メタデータ） (2024-12-18T14:11:15Z)
Improving Parallel Program Performance Through DSL-Driven Code Generation with LLM Optimizers [9.880183350366792]
計算処理をプロセッサにマッピングし、メモリを割り当てることは、並列プログラミングのパフォーマンスを最大化するために重要である。これらのマッピング決定は、パフォーマンスエンジニアによって作成されたmapperと呼ばれる特殊な低レベルのシステムコードの開発を通じて管理される。我々は,近年のLLMに基づくマッパー設計の進歩を生かしたアプローチを提案する。 10分以内で、科学的応用における人間の専門家設計を超えるマッパーを最大1.34倍のスピードアップで自動的に発見する。
論文参考訳（メタデータ） (2024-10-21T04:08:37Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Rome was Not Built in a Single Step: Hierarchical Prompting for LLM-based Chip Design [22.70660876673987]
大言語モデル(LLM)は、ハードウェア記述言語(HDL)生成によるコンピュータハードウェア合成に有効である。しかし、複雑なタスクを扱う場合のHDL生成にLLMが支援するアプローチは難しかった。本稿では,効率的なステップワイズ設計手法を実現する階層的プロンプト手法について紹介する。
論文参考訳（メタデータ） (2024-07-23T21:18:31Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。 LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文参考訳（メタデータ） (2024-06-03T18:00:50Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
ArchGym: An Open-Source Gymnasium for Machine Learning Assisted Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文参考訳（メタデータ） (2023-06-15T06:41:23Z)
LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization [4.951599300340954]
大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。本稿では、LLMの符号化機能を用いて、ニューラルネットワークを定義するコードに意味のあるバリエーションを導入することを提案する。本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を融合させることで,ニューラルネットワーク探索(NAS)アルゴリズムであるtextttLLMaticを導入する。
論文参考訳（メタデータ） (2023-06-01T19:33:21Z)
POPNASv3: a Pareto-Optimal Neural Architecture Search Solution for Image and Time Series Classification [8.190723030003804]
本稿では、異なるハードウェア環境と複数の分類タスクを対象とした逐次モデルベースNASアルゴリズムの第3版について述べる。提案手法は,異なるタスクに適応するフレキシブルな構造とデータ処理パイプラインを維持しながら,大規模な検索空間内で競合するアーキテクチャを見つけることができる。画像と時系列の分類データセットで実施された実験は、POPNASv3が多種多様な演算子を探索し、異なるシナリオで提供されるデータの種類に適した最適なアーキテクチャに収束できることを示す。
論文参考訳（メタデータ） (2022-12-13T17:14:14Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Pareto-aware Neural Architecture Generation for Diverse Computational Budgets [94.27982238384847]
既存の手法は、しばしば各目標予算に対して独立したアーキテクチャ探索プロセスを実行する。提案するニューラルアーキテクチャジェネレータ(PNAG)は,任意の予算に対して,推論によって最適なアーキテクチャを動的に生成する。このような共同探索アルゴリズムは、全体の検索コストを大幅に削減するだけでなく、結果も改善する。
論文参考訳（メタデータ） (2022-10-14T08:30:59Z)
FreeREA: Training-Free Evolution-based Architecture Search [17.202375422110553]
FreeREAは、トレーニングなしメトリクスの最適化組み合わせを利用してアーキテクチャをランク付けする、独自のセルベースの進化NASアルゴリズムである。本実験はNAS-Bench-101とNATS-Benchの共通ベンチマークを用いて,フリーレアがモデル自動設計のための高速で効率的かつ効果的な探索手法であることを実証した。
論文参考訳（メタデータ） (2022-06-17T11:16:28Z)
iDARTS: Differentiable Architecture Search with Stochastic Implicit Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。暗黙の関数定理に基づいてDARTSの過次計算に取り組む。提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文参考訳（メタデータ） (2021-06-21T00:44:11Z)
Pareto-Frontier-aware Neural Architecture Generation for Diverse Budgets [93.79297053429447]
既存の手法は、しばしばそれぞれの目標予算を独立したアーキテクチャで検索する。モデル推論のみで任意の予算で効率的なアーキテクチャを自動生成する汎用アーキテクチャ生成器を提案する。 3つのプラットフォーム(モバイル、CPU、GPUなど)における広範な実験は、提案手法が既存のNAS法よりも優れていることを示している。
論文参考訳（メタデータ） (2021-02-27T13:59:17Z)
Off-Policy Reinforcement Learning for Efficient and Effective GAN Architecture Search [50.40004966087121]
本稿では,GANアーキテクチャ探索のための強化学習に基づくニューラルアーキテクチャ探索手法を提案する。鍵となる考え方は、よりスムーズなアーキテクチャサンプリングのためのマルコフ決定プロセス(MDP)として、GANアーキテクチャ探索問題を定式化することである。我々は,従来の政策によって生成されたサンプルを効率的に活用する,非政治的なGANアーキテクチャ探索アルゴリズムを利用する。
論文参考訳（メタデータ） (2020-07-17T18:29:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。