論文の概要: Reasoning Capacity in Multi-Agent Systems: Limitations, Challenges and
Human-Centered Solutions
- arxiv url: http://arxiv.org/abs/2402.01108v1
- Date: Fri, 2 Feb 2024 02:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:02:08.322374
- Title: Reasoning Capacity in Multi-Agent Systems: Limitations, Challenges and
Human-Centered Solutions
- Title(参考訳): マルチエージェントシステムにおける推論能力:限界,課題,ヒューマンセンタードソリューション
- Authors: Pouya Pezeshkpour, Eser Kandogan, Nikita Bhutani, Sajjadur Rahman, Tom
Mitchell, Estevam Hruschka
- Abstract要約: 推論能力の形式的定義を提示し,システムの各コンポーネント内の制限を識別する上で,その有用性を示す。
そして、これらの制限が、人間のフィードバックを使って推論の欠点を緩和する自己反射的プロセスによってどのように対処できるかについて議論する。
- 参考スコア(独自算出の注目度): 14.398238217358116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remarkable performance of large language models (LLMs) in a variety of tasks
brings forth many opportunities as well as challenges of utilizing them in
production settings. Towards practical adoption of LLMs, multi-agent systems
hold great promise to augment, integrate, and orchestrate LLMs in the larger
context of enterprise platforms that use existing proprietary data and models
to tackle complex real-world tasks. Despite the tremendous success of these
systems, current approaches rely on narrow, single-focus objectives for
optimization and evaluation, often overlooking potential constraints in
real-world scenarios, including restricted budgets, resources and time.
Furthermore, interpreting, analyzing, and debugging these systems requires
different components to be evaluated in relation to one another. This demand is
currently not feasible with existing methodologies. In this postion paper, we
introduce the concept of reasoning capacity as a unifying criterion to enable
integration of constraints during optimization and establish connections among
different components within the system, which also enable a more holistic and
comprehensive approach to evaluation. We present a formal definition of
reasoning capacity and illustrate its utility in identifying limitations within
each component of the system. We then argue how these limitations can be
addressed with a self-reflective process wherein human-feedback is used to
alleviate shortcomings in reasoning and enhance overall consistency of the
system.
- Abstract(参考訳): 様々なタスクにおける大きな言語モデル(llm)のパフォーマンスは、多くの機会をもたらし、本番環境でそれらを活用することの難しさをもたらします。
LLMの実践的な採用に向けて、マルチエージェントシステムは、複雑な現実世界のタスクに対処するために既存のプロプライエタリなデータとモデルを使用するエンタープライズプラットフォームにおいて、LLMを拡張、統合、およびオーケストレーションするという大きな約束を持っています。
これらのシステムの成功にもかかわらず、現在のアプローチは最適化と評価のために狭く単焦点の目標に依存しており、予算、リソース、時間制限を含む現実世界のシナリオにおける潜在的な制約をしばしば見落としている。
さらに、これらのシステムの解釈、解析、デバッグには、異なるコンポーネントを相互に評価する必要がある。
この要求は、既存の方法論では実現できない。
本稿では,最適化中の制約の統合を可能にするための統一的基準として推論能力の概念を導入し,システム内のさまざまなコンポーネント間の接続を確立することにより,より包括的かつ包括的な評価手法を実現する。
推論能力の形式的定義を提示し,システムの各コンポーネントの制約を特定する上での有用性を示す。
次に、これらの制限が、人間のフィードバックが推論の欠点を緩和し、システムの全体的な一貫性を高めるために使用される自己回帰的なプロセスにどのように対処できるかについて議論する。
関連論文リスト
- Beyond LLMs: Advancing the Landscape of Complex Reasoning [0.35813349058229593]
EC AIプラットフォームは、制約満足度と最適化問題を解決するために、ニューロシンボリックアプローチを採用している。
システムは正確で高性能な論理推論エンジンを採用している。
システムは、自然言語と簡潔な言語でアプリケーションロジックを指定する開発者をサポートする。
論文 参考訳(メタデータ) (2024-02-12T21:14:45Z) - A Unified Framework for Probabilistic Verification of AI Systems via
Weighted Model Integration [13.275592130089953]
AIシステムの確率形式検証(PFV)はその初期段階にある。
Weighted Model Integration (WMI)に基づくAIシステムのPFV統合フレームワークを提案する。
この削減により、幅広い機械学習モデルに対して、公正性、ロバスト性、モノトニック性など、多くの興味のある性質の検証が可能になる。
論文 参考訳(メタデータ) (2024-02-07T14:24:04Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - Building Guardrails for Large Language Models [20.71365278201298]
LLMの入力や出力をフィルタリングするガードレールは、コアセーフガード技術として登場した。
このポジションペーパーでは、現在のオープンソースソリューション(Llama Guard, Nvidia NeMo, Guardrails AI)を詳しく調べ、より完全なソリューションを構築するための課題と道筋について論じる。
論文 参考訳(メタデータ) (2024-02-02T16:35:00Z) - Rethinking and Benchmarking Predict-then-Optimize Paradigm for
Combinatorial Optimization Problems [62.25108152764568]
多くのWebアプリケーションは、エネルギーコストを考慮したスケジューリング、Web広告の予算配分、ソーシャルネットワークでのグラフマッチングなど、最適化問題の解決に頼っている。
統一システムにおける予測と意思決定の性能について考察する。
我々は、現在のアプローチを包括的に分類し、既存の実験シナリオを統合する。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model
Collaboration [88.3753421239906]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Large Process Models: Business Process Management in the Age of
Generative AI [4.249492423406116]
大規模プロセスモデル(LPM)は、大規模言語モデルの相関力と、知識ベースシステムの分析精度と信頼性と、自動推論アプローチを組み合わせる。
LPMは、企業に対して、コンテキスト固有の(適切な)プロセスやその他のビジネスモデル、分析的なディープダイブ、改善のレコメンデーションを受け取ることを可能にする。
論文 参考訳(メタデータ) (2023-09-02T10:32:53Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Causal Fairness Analysis [68.12191782657437]
意思決定設定における公平性の問題を理解し、モデル化し、潜在的に解決するためのフレームワークを導入します。
我々のアプローチの主な洞察は、観測データに存在する格差の定量化と、基礎となる、しばしば観測されていない、因果的なメカニズムの収集を結びつけることである。
本研究は,文献中の異なる基準間の関係を整理し,説明するための最初の体系的試みであるフェアネスマップにおいて,本研究の成果を左右するものである。
論文 参考訳(メタデータ) (2022-07-23T01:06:34Z) - Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。
提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-06-17T02:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。