論文の概要: Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning
- arxiv url: http://arxiv.org/abs/2502.11799v1
- Date: Mon, 17 Feb 2025 13:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:55.458462
- Title: Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning
- Title(参考訳): Table-Critic: テーブル推論における協調的批判とリファインメントのためのマルチエージェントフレームワーク
- Authors: Peiying Yu, Guoxin Chen, Jingjing Wang,
- Abstract要約: Table-Criticは、協調的な批判と推論プロセスの反復的な洗練を促進する、新しいマルチエージェントフレームワークである。
枠組みは, エラー識別審査員, 包括的批判批判者, プロセス改善の精錬者, パターン蒸留のキュレーターの4つの特殊エージェントから構成される。
計算効率と解分解率の低下を保ちながら、テーブル・クライトは精度と誤差補正率に優れることを示した。
- 参考スコア(独自算出の注目度): 3.721438719967748
- License:
- Abstract: Despite the remarkable capabilities of large language models (LLMs) in various reasoning tasks, they still struggle with table reasoning tasks, particularly in maintaining consistency throughout multi-step reasoning processes. While existing approaches have explored various decomposition strategies, they often lack effective mechanisms to identify and correct errors in intermediate reasoning steps, leading to cascading error propagation. To address these issues, we propose Table-Critic, a novel multi-agent framework that facilitates collaborative criticism and iterative refinement of the reasoning process until convergence to correct solutions. Our framework consists of four specialized agents: a Judge for error identification, a Critic for comprehensive critiques, a Refiner for process improvement, and a Curator for pattern distillation. To effectively deal with diverse and unpredictable error types, we introduce a self-evolving template tree that systematically accumulates critique knowledge through experience-driven learning and guides future reflections. Extensive experiments have demonstrated that Table-Critic achieves substantial improvements over existing methods, achieving superior accuracy and error correction rates while maintaining computational efficiency and lower solution degradation rate.
- Abstract(参考訳): 様々な推論タスクにおける大きな言語モデル(LLM)の顕著な能力にもかかわらず、テーブル推論タスク、特に多段階推論プロセス全体の一貫性維持に苦慮している。
既存の手法では様々な分解戦略が検討されているが、中間的推論ステップでエラーを特定し修正する効果的なメカニズムが欠如しており、カスケードエラーの伝播につながっている。
このような問題に対処するため,我々は,協調的な批判や推論プロセスの反復的改善を促進する新しいマルチエージェントフレームワークであるTable-Criticを提案する。
枠組みは, エラー識別審査員, 包括的批判批判者, プロセス改善の精錬者, パターン蒸留のキュレーターの4つの特殊エージェントから構成される。
多様な予測不可能なエラータイプを効果的に処理するために,経験駆動学習を通じて批判的知識を体系的に蓄積し,将来のリフレクションを導く自己進化テンプレートツリーを導入する。
計算効率と解分解率の低下を維持しつつ, 精度と誤差補正率を向上し, 既存の方法よりも大幅に向上することを示した。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Framework for Progressive Knowledge Fusion in Large Language Models Through Structured Conceptual Redundancy Analysis [0.0]
大規模モデルにおける潜在知識の組織化は、重なり合う表現に対処し、文脈的精度を最適化する際、ユニークな課題を生じさせる。
高度なクラスタリング技術と動的しきい値設定により,これらの冗長性を再構築するフレームワークが提案された。
評価の結果、メモリ効率が向上し、推論時間が短縮され、解釈可能性を高める潜在知識クラスタのアライメントが向上した。
論文 参考訳(メタデータ) (2025-01-23T11:34:04Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction [9.44858963874474]
CoT(Chain-of-Thought)により、LLM(Large Language Models)の複雑な推論能力が向上する。
我々は,これらの課題に対処するために,自己整合性とマルチエージェントの議論システムを用いたCoTリレーラを提案する。
様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。