論文の概要: Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design
- arxiv url: http://arxiv.org/abs/2407.16831v1
- Date: Tue, 23 Jul 2024 20:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:32:29.542445
- Title: Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design
- Title(参考訳): Networks of Networks:複合AIシステム設計に適用された複雑度クラス原則
- Authors: Jared Quincy Davis, Boris Hanin, Lingjiao Chen, Peter Bailis, Ion Stoica, Matei Zaharia,
- Abstract要約: 多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
- 参考スコア(独自算出の注目度): 63.24275274981911
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As practitioners seek to surpass the current reliability and quality frontier of monolithic models, Compound AI Systems consisting of many language model inference calls are increasingly employed. In this work, we construct systems, which we call Networks of Networks (NoNs) organized around the distinction between generating a proposed answer and verifying its correctness, a fundamental concept in complexity theory that we show empirically extends to Language Models (LMs). We introduce a verifier-based judge NoN with K generators, an instantiation of "best-of-K" or "judge-based" compound AI systems. Through experiments on synthetic tasks such as prime factorization, and core benchmarks such as the MMLU, we demonstrate notable performance gains. For instance, in factoring products of two 3-digit primes, a simple NoN improves accuracy from 3.7\% to 36.6\%. On MMLU, a verifier-based judge construction with only 3 generators boosts accuracy over individual GPT-4-Turbo calls by 2.8\%. Our analysis reveals that these gains are most pronounced in domains where verification is notably easier than generation--a characterization which we believe subsumes many reasoning and procedural knowledge tasks, but doesn't often hold for factual and declarative knowledge-based settings. For mathematical and formal logic reasoning-based subjects of MMLU, we observe a 5-8\% or higher gain, whilst no gain on others such as geography and religion. We provide key takeaways for ML practitioners, including the importance of considering verification complexity, the impact of witness format on verifiability, and a simple test to determine the potential benefit of this NoN approach for a given problem distribution. This work aims to inform future research and practice in the design of compound AI systems.
- Abstract(参考訳): 実践者がモノリシックモデルの現在の信頼性と品質のフロンティアを超えようとしている中、多くの言語モデル推論コールで構成される複合AIシステムはますます採用されている。
本研究では,提案する回答の生成と正当性検証を区別したネットワークネットワーク(NoN)と呼ばれるシステムを構築する。これは,言語モデル(LM)に実証的に拡張した複雑性理論の基本概念である。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
素因数分解などの合成タスクの実験やMMLUのようなコアベンチマークを通じて、顕著な性能向上を示す。
例えば、2つの3桁素数の分解生成物では、単純なNoNは精度を3.7\%から36.6\%に改善する。
MMLUでは、3つのジェネレータしか持たない検証器ベースの裁判官構成により、個々のGPT-4-Turbo呼び出しの精度が2.8 %向上する。
我々の分析によると、これらの成果は、検証が生成よりも顕著に容易な領域において最も顕著であることがわかった。
MMLUの数学的および形式的論理的推論に基づく主題に対しては,地理や宗教など他の分野の利得を伴わず,5-8\%以上の利得を観測する。
我々は、検証の複雑さを考慮することの重要性、証人フォーマットが検証可能性に与える影響、与えられた問題分布に対するこのNoNアプローチの潜在的メリットを決定するための簡単なテストなど、ML実践者にとって重要なポイントを提供する。
この研究は、複合AIシステムの設計における将来の研究と実践を知らせることを目的としている。
関連論文リスト
- General Purpose Verification for Chain of Thought Prompting [16.381123651223763]
大規模言語モデル(LLM)の推論能力を改善する方法について検討する。
我々は、モデルが推論中に従うべき3つの一般的な原則を提案する。
これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-30T21:15:17Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z) - AI without networks [0.0]
我々は、生成モデリングを取り入れたAIのためのネットワークフリーフレームワークを開発する。
我々は、この枠組みを、民族学、制御理論、数学の3つの異なる分野の例で示す。
また、生成AIによる倫理的法的課題に対処するために、この枠組みに基づいて容易に計算された信用割当手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T05:50:02Z) - Evidential Turing Processes [11.021440340896786]
我々は、明らかなディープラーニング、ニューラルプロセス、ニューラルチューリングマシンのオリジナルの組み合わせを紹介する。
本稿では,3つの画像分類ベンチマークと2つのニューラルネットアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-06-02T15:09:20Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。