Fugu-MT 論文翻訳(概要): MATATA: Weakly Supervised End-to-End MAthematical Tool-Augmented Reasoning for Tabular Applications

論文の概要: MATATA: Weakly Supervised End-to-End MAthematical Tool-Augmented Reasoning for Tabular Applications

arxiv url: http://arxiv.org/abs/2411.18915v4
Date: Mon, 05 May 2025 23:58:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 14:45:09.122304
Title: MATATA: Weakly Supervised End-to-End MAthematical Tool-Augmented Reasoning for Tabular Applications
Title（参考訳）: MATATA: エンド・ツー・エンドの機械的ツール強化推論
Authors: Vishnou Vinayagame, Gregory Senay, Luis Martí,
Abstract要約: この研究は、マルチステップ推論言語エージェントを訓練するための、新しい教師付きエンドツーエンドアプローチであるMATATAを導入している。 MATATAは3.8B/8BのSLMを強化するために各エージェントにアノテーションのないパラダイムを提供する。実験により,MATATAはオープンソースSLMに基づく推論手法のうち,FinQAおよびTAT-QAの最先端化を実現していることが示された。
参考スコア（独自算出の注目度）: 0.9831489366502302
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Business documents often contain substantial tabular and textual information with numerical values, requiring mathematical reasoning for effective document understanding. While Small Language Models (SLMs) still struggle at this task, tool-augmented multi-step agents perform better, at the cost of relying on closed-source or larger models, external data, or extensive prompt-engineering. This work introduces MATATA, a novel weakly supervised end-to-end approach to train multi-step reasoning language agents for document tabular applications. MATATA presents an annotation-free paradigm for each agent to enhance 3.8B/8B SLMs. During its two-stage training, MATATA uses the final outcome of the multi-step reasoning chain as weak supervision. This approach avoids having to individually supervise each intermediate agent in the reasoning chain. By employing an adaptive planner and shared tools across different datasets, MATATA shows robust performance. Experiments demonstrate that MATATA achieves state-of-the-art on FinQA, and on TAT-QA among reasoning methods based on open-source SLMs. Although being SLM-based, MATATA closely matches GPT-4-based frameworks on TabMWP. This novel weakly supervised approach enables training an end-to-end multi-step reasoning agent without intermediate supervision, supporting future developments of cost-effective powerful agentic systems.
Abstract（参考訳）: ビジネス文書は、しばしば、有効な文書理解のために数学的推論を必要とする、数値を持つ実質的な表やテキストの情報を含んでいる。小型言語モデル(SLM)は依然としてこのタスクに苦戦しているが、ツール強化されたマルチステップエージェントは、クローズドソースまたはより大きなモデル、外部データ、広範囲なプロンプトエンジニアリングに依存するコストで、パフォーマンスが向上している。本研究は、文書表アプリケーションのための多段階推論言語エージェントを訓練するための、新しい教師付きエンドツーエンドアプローチであるMATATAを紹介する。 MATATAは3.8B/8BのSLMを強化するために各エージェントにアノテーションのないパラダイムを提供する。 2段階のトレーニングでは、MATATAはマルチステップ推論チェーンの最終結果を弱い監督力として使用している。このアプローチは、推論チェーン内の各中間エージェントを個別に監督する必要がない。適応的なプランナーと、さまざまなデータセット間で共有するツールを使用することで、MATATAは堅牢なパフォーマンスを示している。実験により,MATATAはオープンソースSLMに基づく推論手法のうち,FinQAおよびTAT-QAの最先端化を実現していることが示された。 SLMベースのMATATAは、TabMWP上のGPT-4ベースのフレームワークと密接にマッチしている。この手法により、中間的監督なしにエンドツーエンドの多段階推論エージェントを訓練し、コスト効率の高い強力なエージェントシステムの今後の発展を支援することができる。

関連論文リスト

MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。 MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2026-02-22T01:39:16Z)
MATA: Multi-Agent Framework for Reliable and Flexible Table Question Answering [6.7895562627088735]
マルチエージェントのテーブルQAフレームワークであるMATAを導入し、複数の補完的推論パスと、小さな言語モデルで構築されたツールセットを紹介する。 MATAは、与えられたテーブルと質問に対する多様な推論スタイルを通じて候補回答を生成し、その後、最適な回答を洗練または選択する。高価なLarge Language Modelsエージェントコールを最小限に抑え、全体的な効率を向上させるために設計されたアルゴリズムが組み込まれている。
論文参考訳（メタデータ） (2026-02-10T10:43:02Z)
Mixture-of-Minds: Multi-Agent Reinforcement Learning for Table Understanding [32.583090212983805]
テーブル推論を,計画,コーディング,回答の3つの専門的な役割に分解するマルチエージェントフレームワークを提案する。我々は、Mixture-of-MindsがTableBenchで62.13%、OpenAI-o4-mini-highを上回り、かなりの利益をもたらすことを示した。
論文参考訳（メタデータ） (2025-10-23T03:51:17Z)
Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文参考訳（メタデータ） (2025-10-06T10:44:04Z)
TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文参考訳（メタデータ） (2025-09-08T02:00:31Z)
TalentMine: LLM-Based Extraction and Question-Answering from Multimodal Talent Tables [5.365164774382722]
本稿では,抽出したテーブルを意味豊かな表現に変換する新しいフレームワークであるTalentMineを紹介する。 TalentMineは、標準のAWS Textract抽出の0%に対して、クエリ応答タスクの100%の精度を実現している。比較分析の結果,Claude v3 Haikuモデルが人材管理アプリケーションに最適なパフォーマンスを実現することが明らかとなった。
論文参考訳（メタデータ） (2025-06-22T22:17:42Z)
Layered Chain-of-Thought Prompting for Multi-Agent LLM Systems: A Comprehensive Approach to Explainable Large Language Models [0.0]
提案するLayered Chain-of-Thought (Layered-CoT) Promptingは,推論プロセスを複数の層に体系的に分割する新しいフレームワークである。医療トリアージ、財務リスク評価、アジャイルエンジニアリングの3つのシナリオを紹介し、透明性、正確性、ユーザエンゲージメントの観点から、Layered-CoTがバニラCoTをどのように上回っているかを示します。
論文参考訳（メタデータ） (2025-01-29T13:21:09Z)
Efficient Multi-Agent Collaboration with Tool Use for Online Planning in Complex Table Question Answering [16.790216473975146]
複雑なテーブル質問応答(TQA)は、複数のステップや複数カテゴリの推論のような複雑な推論を必要とする質問に答えることを目的としている。以前のアプローチでは、クローズドソースの大規模言語モデル(LLM)か、微調整のオープンウェイトLLMを利用することで、顕著な性能を示した。クローズドソースモデルや微調整を必要としないフレームワークであるMulti-Agent Collaboration with Tool Use (MACT)を提案する。
論文参考訳（メタデータ） (2024-12-28T13:13:33Z)
Benchmarking Large Language Models for Math Reasoning Tasks [12.91916443702145]
我々は、4つの強力な基礎モデル上の5つの広く使われている数学的データセットの数学的問題解決のための、最先端の文脈内学習アルゴリズムを7つ比較した。以上の結果から, GPT-4o や LLaMA 3-70B のような大規模基盤モデルでは, 具体的なプロンプト戦略とは独立に数学的推論を解くことが可能であることが示唆された。将来の研究で追加モデルの統合をサポートするために、ベンチマークコードをオープンソースにしています。
論文参考訳（メタデータ） (2024-08-20T13:34:17Z)
Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。 KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文参考訳（メタデータ） (2024-06-20T13:07:38Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。 FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文参考訳（メタデータ） (2024-04-15T06:26:08Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision [12.023661884821554]
本稿では,大規模言語モデルから小型言語モデルへの数学的知識の伝達を徹底的に行う,革新的な2段階のフレームワークを提案する。提案手法は,探索型'確率方程式'ペアにおける意味理解機能を完全に活用する。 Math23KとWeak12Kデータセットでは、既存の小さなモデルメソッドと比較して大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-03-21T13:29:54Z)
Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文参考訳（メタデータ） (2024-02-28T16:35:52Z)
Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文参考訳（メタデータ） (2024-02-26T16:11:03Z)
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。半構造化文書に適した新しいプロンプト技術を導入する。
論文参考訳（メタデータ） (2024-02-17T05:10:18Z)
Equipping Language Models with Tool Use Capability for Tabular Data Analysis in Finance [10.859392781606623]
大規模言語モデル(LLM)は、様々な推論能力を示しているが、エラーの伝播や幻覚といった課題に直面している。これらの制限を緩和する外部ツールによる言語モデル拡張の可能性を探る。教師付き微調整をLLaMA-2 13B Chatモデルに適用し,「タスクルータ」と「タスクソルバ」の両方として機能させる。
論文参考訳（メタデータ） (2024-01-27T07:08:37Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文参考訳（メタデータ） (2023-05-23T17:51:52Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Multi-Agent Reinforcement Learning is a Sequence Modeling Problem [33.679936867612525]
マルチエージェントトランス (MAT) という新しいアーキテクチャを導入する。 MATは協調型マルチエージェント強化学習(MARL)をSM問題にキャストする。 MATの中心はエンコーダ・デコーダアーキテクチャであり、共同ポリシー探索問題を逐次決定プロセスに変換する。
論文参考訳（メタデータ） (2022-05-30T09:39:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。