論文の概要: PanelTR: Zero-Shot Table Reasoning Framework Through Multi-Agent Scientific Discussion
- arxiv url: http://arxiv.org/abs/2508.06110v1
- Date: Fri, 08 Aug 2025 08:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.137607
- Title: PanelTR: Zero-Shot Table Reasoning Framework Through Multi-Agent Scientific Discussion
- Title(参考訳): PanelTR:マルチエージェント科学討論によるゼロショットテーブル推論フレームワーク
- Authors: Yiran Rex Ma,
- Abstract要約: 構造化された科学的アプローチによる頑健なテーブル推論のためのフレームワークであるPanelTRを紹介する。
パネルTRのワークフローでは、エージェント科学者が個別の調査を行い、自己レビューを行い、ピアレビューの議論に参加する。
実験の結果、パネルTRはバニラLLMと競合する完全教師付きモデルより優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table reasoning, including tabular QA and fact verification, often depends on annotated data or complex data augmentation, limiting flexibility and generalization. LLMs, despite their versatility, often underperform compared to simple supervised models. To approach these issues, we introduce PanelTR, a framework utilizing LLM agent scientists for robust table reasoning through a structured scientific approach. PanelTR's workflow involves agent scientists conducting individual investigations, engaging in self-review, and participating in collaborative peer-review discussions. This process, driven by five scientist personas, enables semantic-level transfer without relying on data augmentation or parametric optimization. Experiments across four benchmarks show that PanelTR outperforms vanilla LLMs and rivals fully supervised models, all while remaining independent of training data. Our findings indicate that structured scientific methodology can effectively handle complex tasks beyond table reasoning with flexible semantic understanding in a zero-shot context.
- Abstract(参考訳): 表のQAや事実検証を含むテーブル推論は、しばしば注釈付きデータや複雑なデータ拡張、柔軟性と一般化の制限に依存する。
LLMは汎用性にも拘わらず、単純な教師付きモデルに比べて性能が劣ることが多い。
これらの問題に対処するために、構造化された科学的アプローチによる堅牢なテーブル推論のために、LLMエージェント科学者を利用したフレームワークであるPanelTRを紹介した。
パネルTRのワークフローには、エージェント科学者が個別の調査を行い、自己レビューを行い、共同でピアレビューの議論に参加する。
このプロセスは、5人の科学者ペルソナによって駆動され、データ拡張やパラメトリック最適化に頼ることなくセマンティックレベルの転送を可能にする。
4つのベンチマークでの実験では、PanelTRは訓練データとは無関係ながら、バニラLSMやライバルの完全な教師付きモデルよりも優れていた。
この結果から,構造化された科学的手法は,ゼロショット文脈におけるフレキシブルな意味理解によって,表推論以外の複雑なタスクを効果的に処理できることが示唆された。
関連論文リスト
- TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models [30.26407735827857]
表構造データによる推論は、大規模言語モデル(LLM)に重大な課題をもたらす
本稿では,表理解能力と表推論能力の両方を測定する総合的な表推論進化ベンチマークTReBを提案する。
我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
論文 参考訳(メタデータ) (2025-06-23T09:02:04Z) - Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-06T14:52:19Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - MATATA: Weakly Supervised End-to-End MAthematical Tool-Augmented Reasoning for Tabular Applications [0.9831489366502302]
この研究は、マルチステップ推論言語エージェントを訓練するための、新しい教師付きエンドツーエンドアプローチであるMATATAを導入している。
MATATAは3.8B/8BのSLMを強化するために各エージェントにアノテーションのないパラダイムを提供する。
実験により,MATATAはオープンソースSLMに基づく推論手法のうち,FinQAおよびTAT-QAの最先端化を実現していることが示された。
論文 参考訳(メタデータ) (2024-11-28T05:12:17Z) - Fine-Tuning Language Models on Multiple Datasets for Citation Intention Classification [17.03832781104098]
引用意図分類(Citation intention Classification, CIC)は、意図によって引用を分類するツールである。
以前の研究では、事前訓練された言語モデル(PLM)がCICベンチマークで最先端のパフォーマンスを達成できることが示されている。
複数の補助的CICデータセットとともに、一次関心のデータセット上でPLMを微調整するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:45:02Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。