論文の概要: Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning
- arxiv url: http://arxiv.org/abs/2502.11799v1
- Date: Mon, 17 Feb 2025 13:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:55.458462
- Title: Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning
- Title(参考訳): Table-Critic: テーブル推論における協調的批判とリファインメントのためのマルチエージェントフレームワーク
- Authors: Peiying Yu, Guoxin Chen, Jingjing Wang,
- Abstract要約: Table-Criticは、協調的な批判と推論プロセスの反復的な洗練を促進する、新しいマルチエージェントフレームワークである。
枠組みは, エラー識別審査員, 包括的批判批判者, プロセス改善の精錬者, パターン蒸留のキュレーターの4つの特殊エージェントから構成される。
計算効率と解分解率の低下を保ちながら、テーブル・クライトは精度と誤差補正率に優れることを示した。
- 参考スコア(独自算出の注目度): 3.721438719967748
- License:
- Abstract: Despite the remarkable capabilities of large language models (LLMs) in various reasoning tasks, they still struggle with table reasoning tasks, particularly in maintaining consistency throughout multi-step reasoning processes. While existing approaches have explored various decomposition strategies, they often lack effective mechanisms to identify and correct errors in intermediate reasoning steps, leading to cascading error propagation. To address these issues, we propose Table-Critic, a novel multi-agent framework that facilitates collaborative criticism and iterative refinement of the reasoning process until convergence to correct solutions. Our framework consists of four specialized agents: a Judge for error identification, a Critic for comprehensive critiques, a Refiner for process improvement, and a Curator for pattern distillation. To effectively deal with diverse and unpredictable error types, we introduce a self-evolving template tree that systematically accumulates critique knowledge through experience-driven learning and guides future reflections. Extensive experiments have demonstrated that Table-Critic achieves substantial improvements over existing methods, achieving superior accuracy and error correction rates while maintaining computational efficiency and lower solution degradation rate.
- Abstract(参考訳): 様々な推論タスクにおける大きな言語モデル(LLM)の顕著な能力にもかかわらず、テーブル推論タスク、特に多段階推論プロセス全体の一貫性維持に苦慮している。
既存の手法では様々な分解戦略が検討されているが、中間的推論ステップでエラーを特定し修正する効果的なメカニズムが欠如しており、カスケードエラーの伝播につながっている。
このような問題に対処するため,我々は,協調的な批判や推論プロセスの反復的改善を促進する新しいマルチエージェントフレームワークであるTable-Criticを提案する。
枠組みは, エラー識別審査員, 包括的批判批判者, プロセス改善の精錬者, パターン蒸留のキュレーターの4つの特殊エージェントから構成される。
多様な予測不可能なエラータイプを効果的に処理するために,経験駆動学習を通じて批判的知識を体系的に蓄積し,将来のリフレクションを導く自己進化テンプレートツリーを導入する。
計算効率と解分解率の低下を維持しつつ, 精度と誤差補正率を向上し, 既存の方法よりも大幅に向上することを示した。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction [9.44858963874474]
CoT(Chain-of-Thought)により、LLM(Large Language Models)の複雑な推論能力が向上する。
我々は,これらの課題に対処するために,自己整合性とマルチエージェントの議論システムを用いたCoTリレーラを提案する。
様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - A Closer Look at the Intervention Procedure of Concept Bottleneck Models [18.222350428973343]
概念ボトルネックモデル(コンセプションボトルネックモデル、CBM)は、その高レベルな概念に基づいて与えられた入力のターゲット応答を予測する、解釈可能なニューラルネットワークモデルのクラスである。
CBMは、ドメインの専門家が予測された概念に介入し、テスト時に間違いを修正できるので、最後にもっと正確なタスク予測ができる。
本研究では,介入効果を向上させるために介入概念を選択する様々な方法を開発し,異なる状況下でどのように進化するかを詳細に分析する。
論文 参考訳(メタデータ) (2023-02-28T02:37:24Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。