論文の概要: CABENCH: Benchmarking Composable AI for Solving Complex Tasks through Composing Ready-to-Use Models
- arxiv url: http://arxiv.org/abs/2508.02427v1
- Date: Mon, 04 Aug 2025 13:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.730526
- Title: CABENCH: Benchmarking Composable AI for Solving Complex Tasks through Composing Ready-to-Use Models
- Title(参考訳): CABENCH: レディ・ツー・ユース・モデルの構築を通じて複雑なタスクを解決するためのコンポジション可能なAIのベンチマーク
- Authors: Tung-Thuy Pham, Duy-Quan Luong, Minh-Quan Duong, Trung-Hieu Nguyen, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo,
- Abstract要約: Composable AIは、複雑なAIタスクに取り組むためのスケーラブルで効果的なパラダイムを提供する。
我々は,70のリアルな構成可能なAIタスクからなる最初の公開ベンチマークであるCABENCHを紹介する。
また,構成可能なAIソリューションのエンドツーエンド評価を可能にする評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.372827470241613
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Composable AI offers a scalable and effective paradigm for tackling complex AI tasks by decomposing them into sub-tasks and solving each sub-task using ready-to-use well-trained models. However, systematically evaluating methods under this setting remains largely unexplored. In this paper, we introduce CABENCH, the first public benchmark comprising 70 realistic composable AI tasks, along with a curated pool of 700 models across multiple modalities and domains. We also propose an evaluation framework to enable end-to-end assessment of composable AI solutions. To establish initial baselines, we provide human-designed reference solutions and compare their performance with two LLM-based approaches. Our results illustrate the promise of composable AI in addressing complex real-world problems while highlighting the need for methods that can fully unlock its potential by automatically generating effective execution pipelines.
- Abstract(参考訳): Composable AIは、複雑なAIタスクをサブタスクに分解し、準備が整ったモデルを使用して各サブタスクを解決することによって、スケーラブルで効果的なパラダイムを提供する。
しかし、この条件下での手法の体系的評価はほとんど未検討のままである。
本稿では,70のリアルな構成可能なAIタスクと,複数のモダリティとドメインにわたる700モデルのキュレートされたプールからなる,最初の公開ベンチマークであるCABENCHを紹介する。
また,構成可能なAIソリューションのエンドツーエンド評価を可能にする評価フレームワークを提案する。
最初のベースラインを確立するために、人間設計の参照ソリューションを提供し、その性能を2つのLLMベースのアプローチと比較する。
我々の結果は、複雑な現実世界の問題に対処し、効率的な実行パイプラインを自動生成することで、その可能性を完全に解き放つ方法の必要性を強調しながら、構成可能なAIが実現可能であることを示す。
関連論文リスト
- OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Scalable, Symbiotic, AI and Non-AI Agent Based Parallel Discrete Event Simulations [0.0]
本稿では,複数のAIエージェントと非AIエージェントを組み合わせた並列離散イベントシミュレーション(PDES)手法を提案する。
我々は、4つの異なるドメインから4つの問題を解き、その結果をAIモデルだけで比較することで、我々のアプローチを評価する。
その結果,バニラモデルの精度が23%未満であるため,アプローチ全体の精度は68%であった。
論文 参考訳(メタデータ) (2025-05-28T17:50:01Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - AI Benchmarks and Datasets for LLM Evaluation [0.46960837342692324]
EU AI Actは、2024年3月13日に欧州議会が提出したEUAIActを引用し、AIシステムの開発、配備、使用に関するEU全体の最初の包括的な要件を定めている。
AIシステムによって引き起こされる技術的課題に効果的に対処するために、この方法論を実用的なベンチマークで強化する必要性を強調している。
私たちは、AIベンチマークの収集と分類を目的とした、AI Safety Bulgariaイニシアチブ(citeAI_Safety_Bulgaria)の一部として、プロジェクトをローンチした。
論文 参考訳(メタデータ) (2024-12-02T00:38:57Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Scalable AI Safety via Doubly-Efficient Debate [37.25328923531058]
強力な能力を持つ事前訓練されたAIシステムの出現は、AI安全性に対する重要な課題を提起している。
当初のフレームワークは、正直な戦略がAIシステムを指数関数的なステップでシミュレートできるという仮定に基づいていた。
新しいプロトコルを設計することで、これらの課題に対処する方法を示す。
論文 参考訳(メタデータ) (2023-11-23T17:46:30Z) - SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。
数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:56:40Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Exploring Viable Algorithmic Options for Learning from Demonstration
(LfD): A Parameterized Complexity Approach [0.0]
本稿では,パラメータ化複雑性解析を用いて,アルゴリズムの選択肢を体系的に探索する方法を示す。
環境、実演、ポリシーに対する多くの(しばしば同時に)制限に対して、我々の問題は、一般的にも、あるいは相対的に、効率的に解決できないことを示す。
論文 参考訳(メタデータ) (2022-05-10T15:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。