論文の概要: Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design
- arxiv url: http://arxiv.org/abs/2407.16831v1
- Date: Tue, 23 Jul 2024 20:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:32:29.542445
- Title: Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design
- Title(参考訳): Networks of Networks:複合AIシステム設計に適用された複雑度クラス原則
- Authors: Jared Quincy Davis, Boris Hanin, Lingjiao Chen, Peter Bailis, Ion Stoica, Matei Zaharia,
- Abstract要約: 多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
- 参考スコア(独自算出の注目度): 63.24275274981911
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As practitioners seek to surpass the current reliability and quality frontier of monolithic models, Compound AI Systems consisting of many language model inference calls are increasingly employed. In this work, we construct systems, which we call Networks of Networks (NoNs) organized around the distinction between generating a proposed answer and verifying its correctness, a fundamental concept in complexity theory that we show empirically extends to Language Models (LMs). We introduce a verifier-based judge NoN with K generators, an instantiation of "best-of-K" or "judge-based" compound AI systems. Through experiments on synthetic tasks such as prime factorization, and core benchmarks such as the MMLU, we demonstrate notable performance gains. For instance, in factoring products of two 3-digit primes, a simple NoN improves accuracy from 3.7\% to 36.6\%. On MMLU, a verifier-based judge construction with only 3 generators boosts accuracy over individual GPT-4-Turbo calls by 2.8\%. Our analysis reveals that these gains are most pronounced in domains where verification is notably easier than generation--a characterization which we believe subsumes many reasoning and procedural knowledge tasks, but doesn't often hold for factual and declarative knowledge-based settings. For mathematical and formal logic reasoning-based subjects of MMLU, we observe a 5-8\% or higher gain, whilst no gain on others such as geography and religion. We provide key takeaways for ML practitioners, including the importance of considering verification complexity, the impact of witness format on verifiability, and a simple test to determine the potential benefit of this NoN approach for a given problem distribution. This work aims to inform future research and practice in the design of compound AI systems.
- Abstract(参考訳): 実践者がモノリシックモデルの現在の信頼性と品質のフロンティアを超えようとしている中、多くの言語モデル推論コールで構成される複合AIシステムはますます採用されている。
本研究では,提案する回答の生成と正当性検証を区別したネットワークネットワーク(NoN)と呼ばれるシステムを構築する。これは,言語モデル(LM)に実証的に拡張した複雑性理論の基本概念である。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
素因数分解などの合成タスクの実験やMMLUのようなコアベンチマークを通じて、顕著な性能向上を示す。
例えば、2つの3桁素数の分解生成物では、単純なNoNは精度を3.7\%から36.6\%に改善する。
MMLUでは、3つのジェネレータしか持たない検証器ベースの裁判官構成により、個々のGPT-4-Turbo呼び出しの精度が2.8 %向上する。
我々の分析によると、これらの成果は、検証が生成よりも顕著に容易な領域において最も顕著であることがわかった。
MMLUの数学的および形式的論理的推論に基づく主題に対しては,地理や宗教など他の分野の利得を伴わず,5-8\%以上の利得を観測する。
我々は、検証の複雑さを考慮することの重要性、証人フォーマットが検証可能性に与える影響、与えられた問題分布に対するこのNoNアプローチの潜在的メリットを決定するための簡単なテストなど、ML実践者にとって重要なポイントを提供する。
この研究は、複合AIシステムの設計における将来の研究と実践を知らせることを目的としている。
関連論文リスト
- AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning [38.736190591684]
AtomRは、新しい異種知識推論フレームワークである。
複雑な問題を3つの原子知識演算子の組み合わせに分解する。
AtomRは3つの単一ソースと2つのマルチソース推論ベンチマークで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-11-25T15:35:51Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - SMLE: Safe Machine Learning via Embedded Overapproximation [4.129133569151574]
本研究は,デザイナ・ちょうせん特性を満たすことが保証される識別可能なMLモデルを訓練する作業について考察する。
現代のニューラルモデルにおけるコンプライアンスの厳格な検証と実施という計算複雑性のため、これは非常に難しい。
1)保守的なセマンティクスによる効率的な検証を可能にする汎用的,シンプルなアーキテクチャ。
回帰における線形不等式によって定義される特性と、多重ラベル分類における相互排他的クラスに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-09-30T17:19:57Z) - Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks [13.829525575305206]
本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークについて紹介する。
RaCは質問の修正と対照的な分析を取り入れることでLLMの理解と批判的思考能力を高める。
本稿では,RaC微調整のためのデータセットを効率的に構築するために,高品質な質問応答対を生成するためのGPT支援データマイニング法を開発した。
論文 参考訳(メタデータ) (2024-09-21T16:04:43Z) - Visual Agents as Fast and Slow Thinkers [88.6691504568041]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。