論文の概要: Analytica: Soft Propositional Reasoning for Robust and Scalable LLM-Driven Analysis
- arxiv url: http://arxiv.org/abs/2604.23072v1
- Date: Fri, 24 Apr 2026 23:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.138548
- Title: Analytica: Soft Propositional Reasoning for Robust and Scalable LLM-Driven Analysis
- Title(参考訳): 解析:ロバストでスケーラブルなLLM駆動分析のためのソフトな命題推論
- Authors: Junyan Cheng, Kyle Richardson, Peter Chin,
- Abstract要約: Analyticaは、Soft Propositional Reasoning(SPR)の原理に基づく新しい大規模言語モデル(LLM)エージェントアーキテクチャである。
バイアスを低減するために、まずサブプロポジションのツリーに問題が発生し、データ駆動分析のための新しいJupyter Notebookエージェントを含むツール付きLLMグライダーエージェントが採用され、事実の検証とスコアリングに役立ちます。
我々の理論的および実証的な結果は、Analyticaが様々なベースモデルに対して平均15.84%の精度を向上し、71.06%の精度を達成していることを示している。
- 参考スコア(独自算出の注目度): 14.518790584034761
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language model (LLM) agents are increasingly tasked with complex real-world analysis (e.g., in financial forecasting, scientific discovery), yet their reasoning suffers from stochastic instability and lacks a verifiable, compositional structure. To address this, we introduce Analytica, a novel agent architecture built on the principle of Soft Propositional Reasoning (SPR). SPR reframes complex analysis as a structured process of estimating the soft truth values of different outcome propositions, allowing us to formally model and minimize the estimation error in terms of its bias and variance. Analytica operationalizes this through a parallel, divide-and-conquer framework that systematically reduces both sources of error. To reduce bias, problems are first decomposed into a tree of subpropositions, and tool-equipped LLM grounder agents are employed, including a novel Jupyter Notebook agent for data-driven analysis, that help to validate and score facts. To reduce variance, Analytica recursively synthesizes these grounded leaves using robust linear models that average out stochastic noise with superior efficiency, scalability, and enable interactive "what-if" scenario analysis. Our theoretical and empirical results on economic, financial, and political forecasting tasks show that Analytica improves 15.84% accuracy on average over diverse base models, achieving 71.06% accuracy with the lowest variance of 6.02% when working with a Deep Research grounder. Our Jupyter Notebook grounder shows strong cost-effectiveness that achieves a close 70.11% accuracy with 90.35% less cost and 52.85% less time. Analytica also exhibits highly noise-resilient and stable performance growth as the analysis depth increases, with a near-linear time complexity, as well as good adaptivity to open-weight LLMs and scientific domains.
- Abstract(参考訳): 大規模言語モデル (LLM) エージェントは、より複雑な実世界の分析(例えば、財務予測、科学的発見)を扱うようになったが、それらの推論は確率的不安定さに悩まされ、検証可能な構成構造が欠如している。
そこで本研究では,Soft Propositional Reasoning (SPR) の原理に基づく新しいエージェントアーキテクチャであるAnalyticaを紹介する。
SPRは、複雑な分析を、異なる結果命題のソフトな真理値を推定する構造化プロセスとして再編成し、そのバイアスと分散の点から推定誤差を形式的にモデル化し、最小化することができる。
Analyticaは、両方のエラーソースを体系的に削減する並列で分割・参照のフレームワークを通じてこれを運用する。
バイアスを低減するために、まず問題をサブプロポジションのツリーに分解し、データ駆動分析のための新しいJupyter Notebookエージェントを含むツール付きLLMグライダーエージェントが採用され、事実の検証とスコアリングに役立ちます。
分散を低減するため、Analyticaは、確率的ノイズを平均化し、効率性、スケーラビリティを向上し、インタラクティブな"What-if"シナリオ分析を可能にする頑健な線形モデルを用いて、これらの接地葉を再帰的に合成する。
経済・財政・政治予測タスクに関する理論的・実証的な結果から、Analyticaは様々なベースモデルに対して平均15.84%の精度を向上し、Deep Researchのグラウンドで作業する場合の6.02%の最小分散で71.06%の精度を達成している。
われわれのJupyter Notebookグラウンドは高いコスト効率を示し、精度は70.11%近く、コストは90.35%、時間を52.85%削減した。
アナリカは、分析深度が増加するにつれて高いノイズ耐性と安定した性能向上を示し、ほぼ直線的な時間複雑性を持ち、オープンウェイトLLMや科学領域への適応性も良好である。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - scBench: Evaluating AI Agents on Single-Cell RNA-seq Analysis [6.518767416778027]
scBenchは、scRNA-seqデータセットに由来する394の検証可能な問題のベンチマークである。
8つのフロンティアモデルのベンチマークデータによると、精度は29~53%で、強力なモデルタスクとモデルプラットフォーム相互作用がある。
論文 参考訳(メタデータ) (2026-02-09T03:20:31Z) - Uncertainty-Aware Collaborative System of Large and Small Models for Multimodal Sentiment Analysis [17.98292973608615]
マルチモーダル感情分析のための強力なMLLMと軽量なベースラインモデルを編成する新しい不確実性認識協調システム(U-ACS)を提案する。
提案手法は,スタンドアロンのMLLMに比べて計算資源のごく一部しか必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T16:01:58Z) - A Large Language Model-Empowered Agent for Reliable and Robust Structural Analysis [14.754785659805869]
大規模言語モデル(LLM)は、様々なオープンドメインタスクにまたがる顕著な能力を示してきたが、土木工学のような専門分野への応用は、いまだに未解明のままである。
本稿では, ビーム構造解析におけるLCMの信頼性とロバスト性を評価することによって, このギャップを埋める。
実験の結果, エージェントはベンチマークデータセット上で99.0%を超える精度を達成し, 多様な条件で信頼性と堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-27T04:16:53Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z) - Empowering Meta-Analysis: Leveraging Large Language Models for Scientific Synthesis [7.059964549363294]
本研究では,大規模言語モデル(LLM)を用いた科学文献におけるメタアナリシスの自動化について検討する。
ビッグデータ処理と構造化データ抽出の課題に対処するため,LLMを広範囲の科学的データセットに微調整する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-16T20:18:57Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。