論文の概要: MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
- arxiv url: http://arxiv.org/abs/2503.16905v1
- Date: Fri, 21 Mar 2025 07:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:13.817853
- Title: MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
- Title(参考訳): MAPS:マルチモーダル科学問題解決のためのビッグセブンパーソナリティとソクラティックガイダンスに基づくマルチエージェントフレームワーク
- Authors: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu,
- Abstract要約: ビッグセブンパーソナリティとソクラティックガイダンス(MAPS)に基づくマルチエージェントフレームワークを提案する。
本稿では,各エージェントが問題解決プロセスの特定の段階に焦点を当てた,プログレッシブな4エージェント問題解決戦略を提案する。
第2号では、ソクラテス質問に触発された批判的エージェントを導入し、批判的思考を促し、自律学習を刺激する。
- 参考スコア(独自算出の注目度): 42.531342106718746
- License:
- Abstract: Multimodal scientific problems (MSPs) involve complex issues that require the integration of multiple modalities, such as text and diagrams, presenting a significant challenge in artificial intelligence. While progress has been made in addressing traditional scientific problems, MSPs still face two primary issues: the challenge of multi-modal comprehensive reasoning in scientific problem-solving and the lack of reflective and rethinking capabilities. To address these issues, we introduce a Multi-Agent framework based on the Big Seven Personality and Socratic guidance (MAPS). This framework employs seven distinct agents that leverage feedback mechanisms and the Socratic method to guide the resolution of MSPs. To tackle the first issue, we propose a progressive four-agent solving strategy, where each agent focuses on a specific stage of the problem-solving process. For the second issue, we introduce a Critic agent, inspired by Socratic questioning, which prompts critical thinking and stimulates autonomous learning. We conduct extensive experiments on the EMMA, Olympiad, and MathVista datasets, achieving promising results that outperform the current SOTA model by 15.84% across all tasks. Meanwhile, the additional analytical experiments also verify the model's progress as well as generalization ability.
- Abstract(参考訳): マルチモーダル科学問題(MSP)は、テキストやダイアグラムなどの複数のモダリティの統合を必要とする複雑な問題であり、人工知能において重要な課題である。
従来の科学的問題に対処するための進歩はあったが、MSPは科学的な問題解決におけるマルチモーダル包括的推論の課題と、リフレクティブと再考能力の欠如の2つの主要な問題に直面している。
これらの課題に対処するため,我々は,MAPS(Big Seven Personality and Socratic Guide)に基づくマルチエージェントフレームワークを導入する。
このフレームワークは、フィードバックメカニズムとソクラテス法を活用する7つの異なるエージェントを用いて、MSPの解像度を導出する。
最初の課題に取り組むために,各エージェントが問題解決プロセスの特定の段階に焦点を当てた,プログレッシブな4エージェント問題解決戦略を提案する。
第2号では、ソクラテス質問に触発された批判的エージェントを導入し、批判的思考を促し、自律学習を刺激する。
我々はEMMA、Olympiad、MathVistaのデータセットに関する広範な実験を行い、現在のSOTAモデルよりも15.84%向上する有望な結果を達成した。
一方、追加の分析実験では、モデルの進歩と一般化能力も検証されている。
関連論文リスト
- Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges [25.82535441866882]
本調査は,マルチモーダル大言語モデル(MLLM)の時代における数学的推論の包括的解析である。
2021年以降に出版された200以上の研究を概観し,Math-LLMの最先端の展開について検討する。
特に、マルチモーダルな数学的推論パイプラインと(M)LLMと関連する方法論について検討する。
論文 参考訳(メタデータ) (2024-12-16T16:21:41Z) - Multi-Agent Large Language Models for Conversational Task-Solving [0.0]
対話型タスク解決における新たな主人公として,マルチエージェントシステムが誕生する。
複雑さの異なるタスク間で、マルチエージェントの議論がどのように機能するかは、いまだ不明である。
2022年から2024年までの20のマルチエージェント研究の分類について提案する。
論文 参考訳(メタデータ) (2024-10-30T11:38:13Z) - Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。
本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T07:12:06Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning [3.651416979200174]
MMCTAgentは、複雑な視覚的推論タスクにおける現在のMLLM固有の制限に対処するために設計された、新しい批判的思考エージェントフレームワークである。
人間の認知プロセスや批判的思考にインスパイアされたMCCTAgentは、複数のモーダル情報を反復的に分析し、クエリを分解し、戦略を計画し、その推論を動的に進化させる。
論文 参考訳(メタデータ) (2024-05-28T16:55:41Z) - CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving [9.446546965008249]
協調型マルチエージェント・マルチレゾニングパス(CoMM)プロンプトフレームワークを提案する。
具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。
2つの大学レベルの科学問題に対する提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-04-26T23:29:12Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。