Fugu-MT 論文翻訳(概要): Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design

論文の概要: Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design

arxiv url: http://arxiv.org/abs/2407.16831v1
Date: Tue, 23 Jul 2024 20:40:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 15:32:29.542445
Title: Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design
Title（参考訳）: Networks of Networks:複合AIシステム設計に適用された複雑度クラス原則
Authors: Jared Quincy Davis, Boris Hanin, Lingjiao Chen, Peter Bailis, Ion Stoica, Matei Zaharia,
Abstract要約: 多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
参考スコア（独自算出の注目度）: 63.24275274981911
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As practitioners seek to surpass the current reliability and quality frontier of monolithic models, Compound AI Systems consisting of many language model inference calls are increasingly employed. In this work, we construct systems, which we call Networks of Networks (NoNs) organized around the distinction between generating a proposed answer and verifying its correctness, a fundamental concept in complexity theory that we show empirically extends to Language Models (LMs). We introduce a verifier-based judge NoN with K generators, an instantiation of "best-of-K" or "judge-based" compound AI systems. Through experiments on synthetic tasks such as prime factorization, and core benchmarks such as the MMLU, we demonstrate notable performance gains. For instance, in factoring products of two 3-digit primes, a simple NoN improves accuracy from 3.7\% to 36.6\%. On MMLU, a verifier-based judge construction with only 3 generators boosts accuracy over individual GPT-4-Turbo calls by 2.8\%. Our analysis reveals that these gains are most pronounced in domains where verification is notably easier than generation--a characterization which we believe subsumes many reasoning and procedural knowledge tasks, but doesn't often hold for factual and declarative knowledge-based settings. For mathematical and formal logic reasoning-based subjects of MMLU, we observe a 5-8\% or higher gain, whilst no gain on others such as geography and religion. We provide key takeaways for ML practitioners, including the importance of considering verification complexity, the impact of witness format on verifiability, and a simple test to determine the potential benefit of this NoN approach for a given problem distribution. This work aims to inform future research and practice in the design of compound AI systems.
Abstract（参考訳）: 実践者がモノリシックモデルの現在の信頼性と品質のフロンティアを超えようとしている中、多くの言語モデル推論コールで構成される複合AIシステムはますます採用されている。本研究では,提案する回答の生成と正当性検証を区別したネットワークネットワーク(NoN)と呼ばれるシステムを構築する。これは,言語モデル(LM)に実証的に拡張した複雑性理論の基本概念である。我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。素因数分解などの合成タスクの実験やMMLUのようなコアベンチマークを通じて、顕著な性能向上を示す。例えば、2つの3桁素数の分解生成物では、単純なNoNは精度を3.7\%から36.6\%に改善する。 MMLUでは、3つのジェネレータしか持たない検証器ベースの裁判官構成により、個々のGPT-4-Turbo呼び出しの精度が2.8 %向上する。我々の分析によると、これらの成果は、検証が生成よりも顕著に容易な領域において最も顕著であることがわかった。 MMLUの数学的および形式的論理的推論に基づく主題に対しては,地理や宗教など他の分野の利得を伴わず,5-8\%以上の利得を観測する。我々は、検証の複雑さを考慮することの重要性、証人フォーマットが検証可能性に与える影響、与えられた問題分布に対するこのNoNアプローチの潜在的メリットを決定するための簡単なテストなど、ML実践者にとって重要なポイントを提供する。この研究は、複合AIシステムの設計における将来の研究と実践を知らせることを目的としている。

関連論文リスト

TorchLean: Formalizing Neural Networks in Lean [71.68907600404513]
本稿では,学習モデルを一級数学的対象として扱うフレームワークであるTorchLeanを紹介する。我々はTorchLeanのエンドツーエンドを、証明された堅牢性、PINNの物理インフォームド残差、Lyapunovスタイルのニューラルコントローラ検証で検証する。
論文参考訳（メタデータ） (2026-02-26T05:11:44Z)
BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文参考訳（メタデータ） (2025-11-26T06:39:19Z)
Learning Compact Representations of LLM Abilities via Item Response Theory [35.74367665390977]
大規模言語モデル(LLM)のコンパクト表現の学習方法について検討する。この問題は、与えられたモデルが特定のクエリに正しく答える確率を推定するものである。これらのパラメータを共同で学習するために、モデルとクエリレベルの埋め込みを結合するMixture-of-Experts(MoE)ネットワークを導入する。
論文参考訳（メタデータ） (2025-10-01T12:55:34Z)
Variation in Verification: Understanding Verification Dynamics in Large Language Models [43.829778623942275]
本稿では、連鎖推論を生成して検証を行い、次いで二項判定を行う生成検証器について検討する。実験の結果,有効性に関する3つの重要な知見が得られた。
論文参考訳（メタデータ） (2025-09-22T16:36:56Z)
MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-08-13T19:14:48Z)
A Hashgraph-Inspired Consensus Mechanism for Reliable Multi-Model Reasoning [0.0]
大規模言語モデル(LLM)からの一貫性のない出力と幻覚は、信頼できるAIシステムにとって大きな障害となる。本稿では,分散台帳技術に触発された新たなコンセンサス機構を提案する。
論文参考訳（メタデータ） (2025-05-06T14:05:12Z)
MOS: Towards Effective Smart Contract Vulnerability Detection through Mixture-of-Experts Tuning of Large Language Models [16.16186929130931]
スマートコントラクトの脆弱性は、ブロックチェーンシステムに重大なセキュリティリスクをもたらす。本稿では,大規模言語モデルのミックス・オブ・エキスパート・チューニング(MOE-Tuning)に基づくスマートコントラクト脆弱性検出フレームワークを提案する。実験の結果、MOSはF1のスコアが6.32%、精度が4.80%の平均的な改善で既存の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-04-16T16:33:53Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning [38.736190591684]
AtomRは、新しい異種知識推論フレームワークである。複雑な問題を3つの原子知識演算子の組み合わせに分解する。 AtomRは3つの単一ソースと2つのマルチソース推論ベンチマークで最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2024-11-25T15:35:51Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
SMLE: Safe Machine Learning via Embedded Overapproximation [4.129133569151574]
本研究は,デザイナ・ちょうせん特性を満たすことが保証される識別可能なMLモデルを訓練する作業について考察する。現代のニューラルモデルにおけるコンプライアンスの厳格な検証と実施という計算複雑性のため、これは非常に難しい。 1)保守的なセマンティクスによる効率的な検証を可能にする汎用的,シンプルなアーキテクチャ。回帰における線形不等式によって定義される特性と、多重ラベル分類における相互排他的クラスに対するアプローチを評価する。
論文参考訳（メタデータ） (2024-09-30T17:19:57Z)
Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks [13.829525575305206]
本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークについて紹介する。 RaCは質問の修正と対照的な分析を取り入れることでLLMの理解と批判的思考能力を高める。本稿では,RaC微調整のためのデータセットを効率的に構築するために,高品質な質問応答対を生成するためのGPT支援データマイニング法を開発した。
論文参考訳（メタデータ） (2024-09-21T16:04:43Z)
Visual Agents as Fast and Slow Thinkers [88.6691504568041]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文参考訳（メタデータ） (2024-08-16T17:44:02Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文参考訳（メタデータ） (2024-02-06T04:14:09Z)
Great Truths are Always Simple: A Rather Simple Knowledge Encoder for Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文参考訳（メタデータ） (2022-05-04T01:27:36Z)
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文参考訳（メタデータ） (2022-04-12T09:36:10Z)
A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。 HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文参考訳（メタデータ） (2021-03-02T01:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。