Fugu-MT 論文翻訳(概要): MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

論文の概要: MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

arxiv url: http://arxiv.org/abs/2503.16905v1
Date: Fri, 21 Mar 2025 07:13:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.320374
Title: MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
Title（参考訳）: MAPS:マルチモーダル科学問題解決のためのビッグセブンパーソナリティとソクラティックガイダンスに基づくマルチエージェントフレームワーク
Authors: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu,
Abstract要約: ビッグセブンパーソナリティとソクラティックガイダンス(MAPS)に基づくマルチエージェントフレームワークを提案する。本稿では,各エージェントが問題解決プロセスの特定の段階に焦点を当てた,プログレッシブな4エージェント問題解決戦略を提案する。第2号では、ソクラテス質問に触発された批判的エージェントを導入し、批判的思考を促し、自律学習を刺激する。
参考スコア（独自算出の注目度）: 42.531342106718746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal scientific problems (MSPs) involve complex issues that require the integration of multiple modalities, such as text and diagrams, presenting a significant challenge in artificial intelligence. While progress has been made in addressing traditional scientific problems, MSPs still face two primary issues: the challenge of multi-modal comprehensive reasoning in scientific problem-solving and the lack of reflective and rethinking capabilities. To address these issues, we introduce a Multi-Agent framework based on the Big Seven Personality and Socratic guidance (MAPS). This framework employs seven distinct agents that leverage feedback mechanisms and the Socratic method to guide the resolution of MSPs. To tackle the first issue, we propose a progressive four-agent solving strategy, where each agent focuses on a specific stage of the problem-solving process. For the second issue, we introduce a Critic agent, inspired by Socratic questioning, which prompts critical thinking and stimulates autonomous learning. We conduct extensive experiments on the EMMA, Olympiad, and MathVista datasets, achieving promising results that outperform the current SOTA model by 15.84% across all tasks. Meanwhile, the additional analytical experiments also verify the model's progress as well as generalization ability.
Abstract（参考訳）: マルチモーダル科学問題(MSP)は、テキストやダイアグラムなどの複数のモダリティの統合を必要とする複雑な問題であり、人工知能において重要な課題である。従来の科学的問題に対処するための進歩はあったが、MSPは科学的な問題解決におけるマルチモーダル包括的推論の課題と、リフレクティブと再考能力の欠如の2つの主要な問題に直面している。これらの課題に対処するため,我々は,MAPS(Big Seven Personality and Socratic Guide)に基づくマルチエージェントフレームワークを導入する。このフレームワークは、フィードバックメカニズムとソクラテス法を活用する7つの異なるエージェントを用いて、MSPの解像度を導出する。最初の課題に取り組むために,各エージェントが問題解決プロセスの特定の段階に焦点を当てた,プログレッシブな4エージェント問題解決戦略を提案する。第2号では、ソクラテス質問に触発された批判的エージェントを導入し、批判的思考を促し、自律学習を刺激する。我々はEMMA、Olympiad、MathVistaのデータセットに関する広範な実験を行い、現在のSOTAモデルよりも15.84%向上する有望な結果を達成した。一方、追加の分析実験では、モデルの進歩と一般化能力も検証されている。

関連論文リスト

Literature Review Of Multi-Agent Debate For Problem-Solving [0.0]
マルチエージェント大規模言語モデル(MA-LLM)は、複雑なタスクに対処するために複数の対話型言語エージェントを活用する、急速に成長する研究分野である。本稿では,エージェントプロファイル,コミュニケーション構造,意思決定プロセスに関する最新の研究を概説する。
論文参考訳（メタデータ） (2025-05-29T13:57:00Z)
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文参考訳（メタデータ） (2025-05-08T03:35:23Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
我々は、150以上のタスクにまたがる5つの人気のあるマルチエージェントシステム(MAS)フレームワークを分析し、6つの専門家のアノテータを含む。そこで本研究では,14種類の障害モードを特定し,様々なMASフレームワークに適用可能な包括的分類法を提案する。これらのきめ細かい障害モードは、(i)仕様とシステム設計の失敗、(ii)エージェント間のミスアライメント、(iii)タスク検証と終了の3つのカテゴリに分けられます。
論文参考訳（メタデータ） (2025-03-17T19:04:38Z)
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [88.3926867343734]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文参考訳（メタデータ） (2025-03-16T18:39:13Z)
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges [25.82535441866882]
本調査は,マルチモーダル大言語モデル(MLLM)の時代における数学的推論の包括的解析である。 2021年以降に出版された200以上の研究を概観し,Math-LLMの最先端の展開について検討する。特に、マルチモーダルな数学的推論パイプラインと(M)LLMと関連する方法論について検討する。
論文参考訳（メタデータ） (2024-12-16T16:21:41Z)
Multi-Agent Large Language Models for Conversational Task-Solving [0.0]
対話型タスク解決における新たな主人公として,マルチエージェントシステムが誕生する。複雑さの異なるタスク間で、マルチエージェントの議論がどのように機能するかは、いまだ不明である。 2022年から2024年までの20のマルチエージェント研究の分類について提案する。
論文参考訳（メタデータ） (2024-10-30T11:38:13Z)
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T07:12:06Z)
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文参考訳（メタデータ） (2024-06-18T16:20:53Z)
MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning [3.651416979200174]
MMCTAgentは、複雑な視覚的推論タスクにおける現在のMLLM固有の制限に対処するために設計された、新しい批判的思考エージェントフレームワークである。人間の認知プロセスや批判的思考にインスパイアされたMCCTAgentは、複数のモーダル情報を反復的に分析し、クエリを分解し、戦略を計画し、その推論を動的に進化させる。
論文参考訳（メタデータ） (2024-05-28T16:55:41Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文参考訳（メタデータ） (2023-12-08T06:22:12Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。