Fugu-MT 論文翻訳(概要): Efficient Multi-Agent Collaboration with Tool Use for Online Planning in Complex Table Question Answering

論文の概要: Efficient Multi-Agent Collaboration with Tool Use for Online Planning in Complex Table Question Answering

arxiv url: http://arxiv.org/abs/2412.20145v1
Date: Sat, 28 Dec 2024 13:13:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.490563
Title: Efficient Multi-Agent Collaboration with Tool Use for Online Planning in Complex Table Question Answering
Title（参考訳）: 複合表質問応答におけるオンラインプランニングツールを用いた多言語連携の効率化
Authors: Wei Zhou, Mohsen Mesgar, Annemarie Friedrich, Heike Adel,
Abstract要約: 複雑なテーブル質問応答(TQA)は、複数のステップや複数カテゴリの推論のような複雑な推論を必要とする質問に答えることを目的としている。以前のアプローチでは、クローズドソースの大規模言語モデル(LLM)か、微調整のオープンウェイトLLMを利用することで、顕著な性能を示した。クローズドソースモデルや微調整を必要としないフレームワークであるMulti-Agent Collaboration with Tool Use (MACT)を提案する。
参考スコア（独自算出の注目度）: 16.790216473975146
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Complex table question answering (TQA) aims to answer questions that require complex reasoning, such as multi-step or multi-category reasoning, over data represented in tabular form. Previous approaches demonstrated notable performance by leveraging either closed-source large language models (LLMs) or fine-tuned open-weight LLMs. However, fine-tuning LLMs requires high-quality training data, which is costly to obtain, and utilizing closed-source LLMs poses accessibility challenges and leads to reproducibility issues. In this paper, we propose Multi-Agent Collaboration with Tool use (MACT), a framework that requires neither closed-source models nor fine-tuning. In MACT, a planning agent and a coding agent that also make use of tools collaborate to answer questions. Our experiments on four TQA benchmarks show that MACT outperforms previous SoTA systems on three out of four benchmarks and that it performs comparably to the larger and more expensive closed-source model GPT-4 on two benchmarks, even when using only open-weight models without any fine-tuning. We conduct extensive analyses to prove the effectiveness of MACT's multi-agent collaboration in TQA.
Abstract（参考訳）: 複雑なテーブル質問応答(TQA)は、表形式で表されるデータに対して、多段階や複数カテゴリの推論のような複雑な推論を必要とする質問に答えることを目的としている。以前のアプローチでは、クローズドソースの大規模言語モデル(LLM)か、微調整のオープンウェイトLLMを利用することで、顕著な性能を示した。しかし、微調整 LLM は高品質なトレーニングデータを必要とするため、入手にコストがかかり、クローズドソース LLM を利用することでアクセシビリティの課題が発生し、再現性の問題を引き起こす。本稿では、クローズドソースモデルや微調整を必要としないフレームワークであるMulti-Agent Collaboration with Tool Use (MACT)を提案する。 MACTでは、ツールを利用する計画エージェントとコーディングエージェントが協力して質問に答える。 4つのTQAベンチマーク実験の結果、MACTは4つのベンチマークのうち3つで従来のSoTAシステムより優れており、2つのベンチマークでより大きく高価なクローズドソースモデルであるGPT-4と互換性があることがわかった。我々は、TQAにおけるMACTのマルチエージェントコラボレーションの有効性を証明するために、広範囲な分析を行う。

関連論文リスト

MATA: Multi-Agent Framework for Reliable and Flexible Table Question Answering [6.7895562627088735]
マルチエージェントのテーブルQAフレームワークであるMATAを導入し、複数の補完的推論パスと、小さな言語モデルで構築されたツールセットを紹介する。 MATAは、与えられたテーブルと質問に対する多様な推論スタイルを通じて候補回答を生成し、その後、最適な回答を洗練または選択する。高価なLarge Language Modelsエージェントコールを最小限に抑え、全体的な効率を向上させるために設計されたアルゴリズムが組み込まれている。
論文参考訳（メタデータ） (2026-02-10T10:43:02Z)
Accurate Table Question Answering with Accessible LLMs [78.91480799683346]
データベースのテーブルTと自然言語の質問Qが与えられたとき、テーブル質問応答(TQA)タスクは、Tの内容に基づいてQに正確な回答を返すことを目的としている。最近の最先端のソリューションは、大きな言語モデル(LLM)を活用して高品質な回答を得る。本稿では,デスクトップやラップトップ上で動作可能な小型でオープンなLLMを用いたTQAに焦点を当てる。
論文参考訳（メタデータ） (2026-01-06T16:07:25Z)
MSCoRe: A Benchmark for Multi-Stage Collaborative Reasoning in LLM Agents [7.339769470891067]
MSCoReは、自動車、医薬品、エレクトロニクス、エネルギー分野のシナリオにまたがる126696ドメイン固有のQAインスタンスからなる新しいベンチマークである。商用モデルはすべてのタスクやシナリオで最高に機能するが、ROUGEのスコアの顕著な差は、単純なタスクと複雑なタスクの間にある。 MSCoReは、LLMエージェントの多段階推論を評価し改善するための、コミュニティにとって価値のある新しいリソースを提供する。
論文参考訳（メタデータ） (2025-09-22T11:36:16Z)
Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文参考訳（メタデータ） (2025-06-06T23:13:08Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension [8.489816179329832]
TQA-Benchは,大規模言語モデル(LLM)の複雑なQAタスクをリレーショナルデータ上で処理する能力を評価するために設計された,新しいマルチテーブルQAベンチマークである。我々のベンチマークでは、現実世界のパブリックデータセットから得られた多様なリレーショナルデータベースインスタンスを組み込んでいます。我々は、70億から700億のパラメータにまたがる、オープンソースとクローズドソースの両方のLLMを体系的に評価する。
論文参考訳（メタデータ） (2024-11-29T06:48:13Z)
MATATA: A weakly-supervised MAthematical Tool-Assisted reasoning for Tabular Applications [0.9831489366502302]
MATATAは、推論、計画、ツール使用を通じてデータ問題に対してLLMエージェントを訓練するコスト効率のよい方法である。 3.8B/8B SLM(Small Language Models)は、特にローカルホスティングとセンシティブなビジネスコンテキストに向いている。実験により、MATATAはオープンソースモデルに基づく推論フレームワークのうち、FinQAとTAT-QAで最先端のパフォーマンスに達することが示された。
論文参考訳（メタデータ） (2024-11-28T05:12:17Z)
Enhancing Financial Question Answering with a Multi-Agent Reflection Framework [0.0]
本稿では,各質問に対する推論ステップと最終回答を反映した批判エージェントを組み込んだマルチエージェントフレームワークを提案する。以上の結果から,このフレームワークはシングルエージェント推論に比べて性能が著しく向上することが示された。我々のフレームワークはLLaMA3.1-405B や GPT-4o-mini のようなより大きな単一エージェント LLM に匹敵する性能を持つ。
論文参考訳（メタデータ） (2024-10-29T04:58:07Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文参考訳（メタデータ） (2023-10-12T16:06:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。