論文の概要: Mixture-of-Minds: Multi-Agent Reinforcement Learning for Table Understanding
- arxiv url: http://arxiv.org/abs/2510.20176v1
- Date: Thu, 23 Oct 2025 03:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.235291
- Title: Mixture-of-Minds: Multi-Agent Reinforcement Learning for Table Understanding
- Title(参考訳): ミキチャー・オブ・ミンド:表理解のためのマルチエージェント強化学習
- Authors: Yuhang Zhou, Mingrui Zhang, Ke Li, Mingyi Wang, Qiao Liu, Qifei wang, Jiayi Liu, Fei Liu, Serena Li, Weiwi Li, Mingze Gao, Abhishek Kumar, Xiangjun Fan, Zhuokai Zhao, Lizhu Zhang,
- Abstract要約: テーブル推論を,計画,コーディング,回答の3つの専門的な役割に分解するマルチエージェントフレームワークを提案する。
我々は、Mixture-of-MindsがTableBenchで62.13%、OpenAI-o4-mini-highを上回り、かなりの利益をもたらすことを示した。
- 参考スコア(独自算出の注目度): 31.454374361958397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and reasoning over tables is a critical capability for many real-world applications. Large language models (LLMs) have shown promise on this task, but current approaches remain limited. Fine-tuning based methods strengthen language reasoning; yet they are prone to arithmetic errors and hallucination. In contrast, tool-based methods enable precise table manipulation but rely on rigid schemas and lack semantic understanding. These complementary drawbacks highlight the need for approaches that integrate robust reasoning with reliable table processing. In this work, we propose Mixture-of-Minds, a multi-agent framework that decomposes table reasoning into three specialized roles: planning, coding, and answering. This design enables each agent to focus on a specific aspect of the task while leveraging code execution for precise table manipulation. Building on this workflow, we introduce a self-improvement training framework that employs Monte Carlo Tree Search (MCTS) rollouts to generate pseudo-gold trajectories and optimize agents with reinforcement learning (RL). Extensive experiments show that Mixture-of-Minds delivers substantial gains, reaching 62.13% on TableBench and surpassing OpenAI-o4-mini-high. These results demonstrate the promise of combining structured multi-agent workflows with RL to advance table understanding.
- Abstract(参考訳): テーブルに対する理解と推論は多くの現実世界のアプリケーションにとって重要な能力である。
大規模言語モデル(LLM)は、このタスクに将来性を示しているが、現在のアプローチは限定的である。
微調整に基づく手法は言語推論を強化するが、算術誤差や幻覚の傾向が強い。
対照的に、ツールベースの手法は正確なテーブル操作を可能にするが、厳密なスキーマに依存し、意味的な理解が欠如している。
これらの相補的な欠点は、堅牢な推論と信頼性のあるテーブル処理を統合するアプローチの必要性を強調している。
本研究では,テーブル推論を3つの専門的な役割 – 計画,コーディング,回答 – に分解するマルチエージェントフレームワークであるMixture-of-Mindsを提案する。
この設計により、各エージェントは、正確なテーブル操作にコード実行を活用しながら、タスクの特定の側面に集中することができる。
このワークフローに基づいて、モンテカルロ木探索(MCTS)のロールアウトを利用した自己改善トレーニングフレームワークを導入し、擬似ゴールド軌道を生成し、強化学習(RL)を用いたエージェントを最適化する。
大規模な実験の結果、Mixture-of-MindsはTableBenchで62.13%、OpenAI-o4-mini-highを上回った。
これらの結果から,構造化マルチエージェントワークフローとRLを組み合わせたテーブル理解の実現が期待できることを示す。
関連論文リスト
- Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。
これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文 参考訳(メタデータ) (2025-09-08T02:00:31Z) - TableZoomer: A Collaborative Agent Framework for Large-scale Table Question Answering [26.00027389659854]
TableZoomerは、テーブル質問応答(TQA)タスクのためのプログラミングベースのエージェントフレームワークである。
2)列選択とエンティティリンクを通じてサブテーブルスキーマを動的に生成するクエリ対応テーブルズーム機構,(3)クエリを実行可能なコードに変換するプログラム・オブ・ソート(PoT)戦略により,数値幻覚を緩和する。
論文 参考訳(メタデータ) (2025-09-01T09:53:01Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - MATATA: Weakly Supervised End-to-End MAthematical Tool-Augmented Reasoning for Tabular Applications [0.9831489366502302]
この研究は、マルチステップ推論言語エージェントを訓練するための、新しい教師付きエンドツーエンドアプローチであるMATATAを導入している。
MATATAは3.8B/8BのSLMを強化するために各エージェントにアノテーションのないパラダイムを提供する。
実験により,MATATAはオープンソースSLMに基づく推論手法のうち,FinQAおよびTAT-QAの最先端化を実現していることが示された。
論文 参考訳(メタデータ) (2024-11-28T05:12:17Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。