論文の概要: Reasoning Capacity in Multi-Agent Systems: Limitations, Challenges and
Human-Centered Solutions
- arxiv url: http://arxiv.org/abs/2402.01108v1
- Date: Fri, 2 Feb 2024 02:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:02:08.322374
- Title: Reasoning Capacity in Multi-Agent Systems: Limitations, Challenges and
Human-Centered Solutions
- Title(参考訳): マルチエージェントシステムにおける推論能力:限界,課題,ヒューマンセンタードソリューション
- Authors: Pouya Pezeshkpour, Eser Kandogan, Nikita Bhutani, Sajjadur Rahman, Tom
Mitchell, Estevam Hruschka
- Abstract要約: 推論能力の形式的定義を提示し,システムの各コンポーネント内の制限を識別する上で,その有用性を示す。
そして、これらの制限が、人間のフィードバックを使って推論の欠点を緩和する自己反射的プロセスによってどのように対処できるかについて議論する。
- 参考スコア(独自算出の注目度): 14.398238217358116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remarkable performance of large language models (LLMs) in a variety of tasks
brings forth many opportunities as well as challenges of utilizing them in
production settings. Towards practical adoption of LLMs, multi-agent systems
hold great promise to augment, integrate, and orchestrate LLMs in the larger
context of enterprise platforms that use existing proprietary data and models
to tackle complex real-world tasks. Despite the tremendous success of these
systems, current approaches rely on narrow, single-focus objectives for
optimization and evaluation, often overlooking potential constraints in
real-world scenarios, including restricted budgets, resources and time.
Furthermore, interpreting, analyzing, and debugging these systems requires
different components to be evaluated in relation to one another. This demand is
currently not feasible with existing methodologies. In this postion paper, we
introduce the concept of reasoning capacity as a unifying criterion to enable
integration of constraints during optimization and establish connections among
different components within the system, which also enable a more holistic and
comprehensive approach to evaluation. We present a formal definition of
reasoning capacity and illustrate its utility in identifying limitations within
each component of the system. We then argue how these limitations can be
addressed with a self-reflective process wherein human-feedback is used to
alleviate shortcomings in reasoning and enhance overall consistency of the
system.
- Abstract(参考訳): 様々なタスクにおける大きな言語モデル(llm)のパフォーマンスは、多くの機会をもたらし、本番環境でそれらを活用することの難しさをもたらします。
LLMの実践的な採用に向けて、マルチエージェントシステムは、複雑な現実世界のタスクに対処するために既存のプロプライエタリなデータとモデルを使用するエンタープライズプラットフォームにおいて、LLMを拡張、統合、およびオーケストレーションするという大きな約束を持っています。
これらのシステムの成功にもかかわらず、現在のアプローチは最適化と評価のために狭く単焦点の目標に依存しており、予算、リソース、時間制限を含む現実世界のシナリオにおける潜在的な制約をしばしば見落としている。
さらに、これらのシステムの解釈、解析、デバッグには、異なるコンポーネントを相互に評価する必要がある。
この要求は、既存の方法論では実現できない。
本稿では,最適化中の制約の統合を可能にするための統一的基準として推論能力の概念を導入し,システム内のさまざまなコンポーネント間の接続を確立することにより,より包括的かつ包括的な評価手法を実現する。
推論能力の形式的定義を提示し,システムの各コンポーネントの制約を特定する上での有用性を示す。
次に、これらの制限が、人間のフィードバックが推論の欠点を緩和し、システムの全体的な一貫性を高めるために使用される自己回帰的なプロセスにどのように対処できるかについて議論する。
関連論文リスト
- Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Optimal Decision Making Through Scenario Simulations Using Large Language Models [0.0]
大規模言語モデル(LLM)は、複雑な問題へのアプローチと解決の方法を変えました。
本稿では,この能力ギャップを橋渡しする革新的な手法を提案する。
LLMがユーザから複数のオプションとそれぞれのパラメータをリクエストできるようにすることで、動的フレームワークを導入しています。
この関数は提供された選択肢を分析し、潜在的な結果をシミュレートし、最も有利な解を決定するように設計されている。
論文 参考訳(メタデータ) (2024-07-09T01:23:09Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - LLM-enhanced Reranking in Recommender Systems [49.969932092129305]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。
そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。
カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文 参考訳(メタデータ) (2024-06-18T09:29:18Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Beyond LLMs: Advancing the Landscape of Complex Reasoning [0.35813349058229593]
EC AIプラットフォームは、制約満足度と最適化問題を解決するために、ニューロシンボリックアプローチを採用している。
システムは正確で高性能な論理推論エンジンを採用している。
システムは、自然言語と簡潔な言語でアプリケーションロジックを指定する開発者をサポートする。
論文 参考訳(メタデータ) (2024-02-12T21:14:45Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - Large Process Models: Business Process Management in the Age of
Generative AI [4.249492423406116]
大規模プロセスモデル(LPM)は、大規模言語モデルの相関力と、知識ベースシステムの分析精度と信頼性と、自動推論アプローチを組み合わせる。
LPMは、企業に対して、コンテキスト固有の(適切な)プロセスやその他のビジネスモデル、分析的なディープダイブ、改善のレコメンデーションを受け取ることを可能にする。
論文 参考訳(メタデータ) (2023-09-02T10:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。