Fugu-MT 論文翻訳(概要): Reasoning Capacity in Multi-Agent Systems: Limitations, Challenges and Human-Centered Solutions

論文の概要: Reasoning Capacity in Multi-Agent Systems: Limitations, Challenges and Human-Centered Solutions

arxiv url: http://arxiv.org/abs/2402.01108v1
Date: Fri, 2 Feb 2024 02:53:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 17:02:08.322374
Title: Reasoning Capacity in Multi-Agent Systems: Limitations, Challenges and Human-Centered Solutions
Title（参考訳）: マルチエージェントシステムにおける推論能力:限界,課題,ヒューマンセンタードソリューション
Authors: Pouya Pezeshkpour, Eser Kandogan, Nikita Bhutani, Sajjadur Rahman, Tom Mitchell, Estevam Hruschka
Abstract要約: 推論能力の形式的定義を提示し,システムの各コンポーネント内の制限を識別する上で,その有用性を示す。そして、これらの制限が、人間のフィードバックを使って推論の欠点を緩和する自己反射的プロセスによってどのように対処できるかについて議論する。
参考スコア（独自算出の注目度）: 14.398238217358116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Remarkable performance of large language models (LLMs) in a variety of tasks brings forth many opportunities as well as challenges of utilizing them in production settings. Towards practical adoption of LLMs, multi-agent systems hold great promise to augment, integrate, and orchestrate LLMs in the larger context of enterprise platforms that use existing proprietary data and models to tackle complex real-world tasks. Despite the tremendous success of these systems, current approaches rely on narrow, single-focus objectives for optimization and evaluation, often overlooking potential constraints in real-world scenarios, including restricted budgets, resources and time. Furthermore, interpreting, analyzing, and debugging these systems requires different components to be evaluated in relation to one another. This demand is currently not feasible with existing methodologies. In this postion paper, we introduce the concept of reasoning capacity as a unifying criterion to enable integration of constraints during optimization and establish connections among different components within the system, which also enable a more holistic and comprehensive approach to evaluation. We present a formal definition of reasoning capacity and illustrate its utility in identifying limitations within each component of the system. We then argue how these limitations can be addressed with a self-reflective process wherein human-feedback is used to alleviate shortcomings in reasoning and enhance overall consistency of the system.
Abstract（参考訳）: 様々なタスクにおける大きな言語モデル(llm)のパフォーマンスは、多くの機会をもたらし、本番環境でそれらを活用することの難しさをもたらします。 LLMの実践的な採用に向けて、マルチエージェントシステムは、複雑な現実世界のタスクに対処するために既存のプロプライエタリなデータとモデルを使用するエンタープライズプラットフォームにおいて、LLMを拡張、統合、およびオーケストレーションするという大きな約束を持っています。これらのシステムの成功にもかかわらず、現在のアプローチは最適化と評価のために狭く単焦点の目標に依存しており、予算、リソース、時間制限を含む現実世界のシナリオにおける潜在的な制約をしばしば見落としている。さらに、これらのシステムの解釈、解析、デバッグには、異なるコンポーネントを相互に評価する必要がある。この要求は、既存の方法論では実現できない。本稿では,最適化中の制約の統合を可能にするための統一的基準として推論能力の概念を導入し,システム内のさまざまなコンポーネント間の接続を確立することにより,より包括的かつ包括的な評価手法を実現する。推論能力の形式的定義を提示し,システムの各コンポーネントの制約を特定する上での有用性を示す。次に、これらの制限が、人間のフィードバックが推論の欠点を緩和し、システムの全体的な一貫性を高めるために使用される自己回帰的なプロセスにどのように対処できるかについて議論する。

関連論文リスト

A Comprehensive Review on Harnessing Large Language Models to Overcome Recommender System Challenges [5.436611859202691]
大規模言語モデル(LLM)は、レコメンデータシステムにおいて重要な課題に取り組むために利用することができる。 LLMはパーソナライズ、セマンティックアライメント、解釈可能性を高める。 LLMはゼロショットと少数ショットの推論を可能にし、コールドスタートとロングテールのシナリオでシステムが効果的に動作できるようにする。
論文参考訳（メタデータ） (2025-07-17T06:03:57Z)
EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文参考訳（メタデータ） (2025-05-06T05:32:46Z)
A Call for New Recipes to Enhance Spatial Reasoning in MLLMs [85.67171333213301]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。近年の研究では、空間的推論能力の限界が明らかにされている。この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文参考訳（メタデータ） (2025-04-21T11:48:39Z)
Towards Agentic Recommender Systems in the Era of Multimodal Large Language Models [75.4890331763196]
大規模言語モデル(LLM)の最近のブレークスルーは、エージェントAIシステムの出現につながっている。 LLMベースのAgentic RS(LLM-ARS)は、よりインタラクティブで、コンテキストを認識し、プロアクティブなレコメンデーションを提供する。
論文参考訳（メタデータ） (2025-03-20T22:37:15Z)
VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning [8.867818326729367]
本稿では,ニューロシンボリック推論の新しい枠組みであるVERUS-LMを紹介する。 VERUS-LMは汎用的なプロンプト機構を採用し、クエリからドメイン知識を明確に分離する。提案手法は,LLMを著しく上回る,新しいデータセットの多種多様な推論に成功していることを示す。
論文参考訳（メタデータ） (2025-01-24T14:45:21Z)
Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文参考訳（メタデータ） (2024-10-19T17:27:38Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
Optimal Decision Making Through Scenario Simulations Using Large Language Models [0.0]
大規模言語モデル(LLM)は、複雑な問題へのアプローチと解決の方法を変えました。本稿では,この能力ギャップを橋渡しする革新的な手法を提案する。 LLMがユーザから複数のオプションとそれぞれのパラメータをリクエストできるようにすることで、動的フレームワークを導入しています。この関数は提供された選択肢を分析し、潜在的な結果をシミュレートし、最も有利な解を決定するように設計されている。
論文参考訳（メタデータ） (2024-07-09T01:23:09Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
LLM-enhanced Reranking in Recommender Systems [49.969932092129305]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文参考訳（メタデータ） (2024-06-18T09:29:18Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
Beyond LLMs: Advancing the Landscape of Complex Reasoning [0.35813349058229593]
EC AIプラットフォームは、制約満足度と最適化問題を解決するために、ニューロシンボリックアプローチを採用している。システムは正確で高性能な論理推論エンジンを採用している。システムは、自然言語と簡潔な言語でアプリケーションロジックを指定する開発者をサポートする。
論文参考訳（メタデータ） (2024-02-12T21:14:45Z)
Solution-oriented Agent-based Models Generation with Verifier-assisted Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。 SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文参考訳（メタデータ） (2024-02-04T07:59:06Z)
Large Process Models: Business Process Management in the Age of Generative AI [4.249492423406116]
大規模プロセスモデル(LPM)は、大規模言語モデルの相関力と、知識ベースシステムの分析精度と信頼性と、自動推論アプローチを組み合わせる。 LPMは、企業に対して、コンテキスト固有の(適切な)プロセスやその他のビジネスモデル、分析的なディープダイブ、改善のレコメンデーションを受け取ることを可能にする。
論文参考訳（メタデータ） (2023-09-02T10:32:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。