論文の概要: Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation
- arxiv url: http://arxiv.org/abs/2504.16408v1
- Date: Wed, 23 Apr 2025 04:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.995879
- Title: Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation
- Title(参考訳): 品質ガイド蒸留による構造的マルチエージェント推論の強化
- Authors: Jiahao Yuan, Xingzhe Sun, Xing Yu, Jingwen Wang, Dehui Du, Zhiqing Cui, Zixiang Di,
- Abstract要約: 我々は、XLLM@ACL2025 Shared Task-IIIにおける第3位の勝利のアプローチであるLess is Moreを提示する。
我々のアプローチは、わずか24のラベル付き例からの構造化推論に焦点を当てている。
全てのモジュールはメタラマ-3-8B-インストラクトからLoRA+を統一した構成で微調整される。
- 参考スコア(独自算出の注目度): 6.920352059545929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The XLLM@ACL2025 Shared Task-III formulates a low-resource structural reasoning task that challenges LLMs to generate interpretable, step-by-step rationales with minimal labeled data. We present Less is More, the third-place winning approach in the XLLM@ACL2025 Shared Task-III, which focuses on structured reasoning from only 24 labeled examples. Our approach leverages a multi-agent framework with reverse-prompt induction, retrieval-augmented reasoning synthesis via GPT-4o, and dual-stage reward-guided filtering to distill high-quality supervision across three subtasks: question parsing, CoT parsing, and step-level verification. All modules are fine-tuned from Meta-Llama-3-8B-Instruct under a unified LoRA+ setup. By combining structure validation with reward filtering across few-shot and zero-shot prompts, our pipeline consistently improves structure reasoning quality. These results underscore the value of controllable data distillation in enhancing structured inference under low-resource constraints. Our code is available at https://github.com/Jiahao-Yuan/Less-is-More.
- Abstract(参考訳): XLLM@ACL2025 Shared Task-IIIは低リソース構造推論タスクを定式化し、LLMに最小ラベル付きデータで解釈可能なステップバイステップ論理を生成するよう挑戦する。
以下は、XLLM@ACL2025 Shared Task-IIIにおける3位獲得のアプローチであるLess is Moreを紹介します。
提案手法では, 逆プロンプト誘導, GPT-4oによる検索強化推論合成, 2段階報酬誘導フィルタを用いて, 質問解析, CoT解析, ステップレベルの検証を行う。
全てのモジュールはメタラマ-3-8B-インストラクトからLoRA+を統一した構成で微調整される。
構造検証と、少数ショットおよびゼロショットプロンプト間の報酬フィルタリングを組み合わせることで、パイプラインは構造推論の品質を継続的に改善する。
これらの結果は,低リソース制約下での構造化推論の強化において,制御可能なデータ蒸留の価値を裏付けるものである。
私たちのコードはhttps://github.com/Jiahao-Yuan/Less-is-More.comで公開されています。
関連論文リスト
- U-NIAH: Unified RAG and LLM Evaluation for Long Context Needle-In-A-Haystack [9.760456105567078]
本稿では,Large Language Models(LLM)とRetrieval-Augmented Generation(RAG)を体系的に比較する統一フレームワークであるU-NIAHを紹介する。
本フレームワークでは,複数のニードル,長いニードル,ニードルの設定を,異なる検索設定とともに組み込んでいる。
以上の結果から,RAGはロスト・イン・ザ・ミドル効果を緩和し,ロバスト性を向上させることにより,より小さなLCMを著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-01T05:05:24Z) - Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions? [33.18076221854853]
複雑な命令を単一制約に分割し,適切なツールを作成するためのフレームワークを提案する。
次に、厳密なチェックとテキストガイダンスを提供するツールを使用して応答を検証する。
改良効率を最大化するために,改良レポジトリが改良を成功させる動的数発プロンプトを提案する。
論文 参考訳(メタデータ) (2024-10-16T04:01:55Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [60.55556283848063]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Leveraging Large Language Models for Structure Learning in Prompted Weak
Supervision [24.866270447991752]
私たちのStructure Refining Moduleは、ベンチマークタスクで最大12.7ポイント、PromptedWSパイプラインを改善しています。
また、包括的アブレーション実験と分析により、効率と性能のトレードオフについても検討する。
論文 参考訳(メタデータ) (2024-02-02T19:45:39Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。