論文の概要: MALLM: Multi-Agent Large Language Models Framework
- arxiv url: http://arxiv.org/abs/2509.11656v2
- Date: Mon, 22 Sep 2025 08:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.621001
- Title: MALLM: Multi-Agent Large Language Models Framework
- Title(参考訳): MALLM: マルチエージェントな大規模言語モデルフレームワーク
- Authors: Jonas Becker, Lars Benedikt Kaesberg, Niklas Bauer, Jan Philip Wahle, Terry Ruas, Bela Gipp,
- Abstract要約: マルチエージェントディベート(MAD)は、テストタイムの計算をスケールし、専門知識を活用することで、集合的インテリジェンスを強化する能力を示した。
我々は,MADコンポーネントの体系的解析を可能にするオープンソースフレームワークであるMALLMを紹介する。
- 参考スコア(独自算出の注目度): 11.142842314744586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent debate (MAD) has demonstrated the ability to augment collective intelligence by scaling test-time compute and leveraging expertise. Current frameworks for multi-agent debate are often designed towards tool use, lack integrated evaluation, or provide limited configurability of agent personas, response generators, discussion paradigms, and decision protocols. We introduce MALLM (Multi-Agent Large Language Models), an open-source framework that enables systematic analysis of MAD components. MALLM offers more than 144 unique configurations of MAD, including (1) agent personas (e.g., Expert, Personality), (2) response generators (e.g., Critical, Reasoning), (3) discussion paradigms (e.g., Memory, Relay), and (4) decision protocols (e.g., Voting, Consensus). MALLM uses simple configuration files to define a debate. Furthermore, MALLM can load any textual Hugging Face dataset (e.g., MMLU-Pro, WinoGrande) and provides an evaluation pipeline for easy comparison of MAD configurations. MALLM enables researchers to systematically configure, run, and evaluate debates for their problems, facilitating the understanding of the components and their interplay.
- Abstract(参考訳): マルチエージェントディベート(MAD)は、テストタイムの計算をスケールし、専門知識を活用することで、集合的インテリジェンスを強化する能力を示した。
現在のマルチエージェントの議論のためのフレームワークは、ツールの使用、統合された評価の欠如、エージェントのペルソナ、応答ジェネレータ、議論のパラダイム、決定プロトコルの設定性に制限があるように設計されている。
MALLM(Multi-Agent Large Language Models)は,MADコンポーネントの体系的解析を可能にするオープンソースフレームワークである。
MALLMは、(1)エージェントペルソナ(eg, Expert, Personality)、(2)応答ジェネレータ(eg, critical, Reasoning)、(3)議論パラダイム(eg, Memory, Relay)、(4)決定プロトコル(eg, Voting, Consensus)を含む144以上のMADのユニークな構成を提供する。
MALLMは単純な設定ファイルを使って議論を定義する。
さらに、MALLMは任意のテキストHugging Faceデータセット(例えば、MMLU-Pro、WinoGrande)をロードし、MAD構成を簡単に比較するための評価パイプラインを提供する。
MALLMは、研究者が問題に対する議論を体系的に構成し、実行し、評価し、コンポーネントとその相互作用の理解を容易にすることを可能にする。
関連論文リスト
- UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark [72.37370242707432]
本稿では,Unified Any-to-Any Interleaved MultimodalデータセットであるUniMベンチマークを紹介する。
UniMには30ドメインにわたる31Kの高品質インスタンスと7つの代表モダリティが含まれている。
セマンティック・コヒーレンス(Semantic Correctness & Generation Quality)、応答構造整合性(Re Response Structure Integrity)、インターリーブド・コヒーレンス(Interleaved Coherence)という3次元のモデルを評価する。
論文 参考訳(メタデータ) (2026-03-05T11:45:16Z) - Tool-MAD: A Multi-Agent Debate Framework for Fact Verification with Diverse Tool Augmentation and Adaptive Retrieval [10.62333858188658]
マルチエージェント・ディベート(MAD)システムは,複数のLLMエージェントが対話を行えるようにすることで,解答精度を向上させることを目的としている。
既存のMADフレームワークは主に内部知識や静的文書に依存しており、幻覚に弱い。
エージェントを別個の外部ツールに割り当てることで,事実検証を強化する多エージェント討論フレームワークであるTool-MADを提案する。
論文 参考訳(メタデータ) (2026-01-08T09:07:41Z) - M3MAD-Bench: Are Multi-Agent Debates Really Effective Across Domains and Modalities? [37.902089112579]
マルチエージェント討論(MAD)は、回答の品質を改善し、複雑な推論をサポートするため、構造化された議論を通じて複数のエージェントを編成する。
既存のMADの研究は、断片化と矛盾した設定下で評価が行われ、公正な比較を妨げるという2つの基本的な限界に悩まされている。
M3MAD-Benchは、マルチドメインタスク、マルチモーダルインプット、マルチ次元メトリクスにわたるMADメソッド評価のための統一ベンチマークである。
論文 参考訳(メタデータ) (2026-01-06T09:33:48Z) - AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。
本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。
我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文 参考訳(メタデータ) (2025-12-18T07:01:47Z) - DART: Leveraging Multi-Agent Disagreement for Tool Recruitment in Multimodal Reasoning [84.25936790759484]
DARTは、複数の議論する視覚エージェント間の不一致を利用して、有用な視覚ツールを識別するマルチエージェントフレームワークである。
これらのツールは、新しい情報を導入することで実りの多いマルチエージェントの議論を可能にする。
Dartは、M3D医療データセットを1.3%改善して、応用ドメインの新しいツールに順応する。
論文 参考訳(メタデータ) (2025-12-08T03:33:38Z) - Unleashing Diverse Thinking Modes in LLMs through Multi-Agent Collaboration [5.19759149737193]
本稿では,複数思考モード(DiMo)のための多エージェント協調フレームワークを提案する。
4つの特殊言語モデル(LLM)間の構造化された議論をシミュレートすることで、性能と解釈可能性の両方を向上させる。
6つのベンチマークと統一されたオープンソース設定の下では、DiMoは広く使用されているシングルモデルと議論ベースラインよりも精度を向上し、数学で最大の利益を上げている。
論文 参考訳(メタデータ) (2025-10-18T21:22:36Z) - MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。
我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文 参考訳(メタデータ) (2025-10-07T06:27:42Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - RAMA: Retrieval-Augmented Multi-Agent Framework for Misinformation Detection in Multimodal Fact-Checking [15.160356035522609]
RAMAは、マルチメディアの誤情報を検証するために設計された新しい検索拡張マルチエージェントフレームワークである。
RAMAには,(1)マルチモーダルクレームを正確なWeb検索クエリに変換する戦略的クエリの定式化,(2)多様な権威ソースからの相互検証証拠の集約,(3)マルチエージェントアンサンブルアーキテクチャの3つの革新が含まれている。
論文 参考訳(メタデータ) (2025-07-12T07:46:51Z) - AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis [0.0]
本稿では,A2AとMPPを自己実装した新しいモジュール型マルチプロトコールMASフレームワークであるAgentMasterの試験的検討を行う。
このシステムは、先行技術知識のない自然言語インタラクションをサポートし、情報検索、質問応答、画像解析を含むタスクに対するマルチモーダルクエリに応答する。
全体として、提案するフレームワークは、MASを利用したドメイン固有、協調的、スケーラブルな対話型AIの可能性に寄与する。
論文 参考訳(メタデータ) (2025-07-08T03:34:26Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.52017994491893]
MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。
本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。
5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
論文 参考訳(メタデータ) (2025-03-18T06:57:21Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - MAD-Sherlock: Multi-Agent Debate for Visual Misinformation Detection [36.12673167913763]
文外誤情報検出のためのマルチエージェント討論システムMAD-Sherlockを紹介する。
MAD-Sherlockは、オンラインで見られる多様で矛盾する会話を反映して、マルチエージェントの議論として検出する。
我々のフレームワークはドメインと時間に依存しず、微調整は必要ありませんが、詳細な説明で最先端の精度を実現しています。
論文 参考訳(メタデータ) (2024-10-26T10:34:22Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。