論文の概要: Multi-Agent Dialectical Refinement for Enhanced Argument Classification
- arxiv url: http://arxiv.org/abs/2603.27451v1
- Date: Sun, 29 Mar 2026 00:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.965939
- Title: Multi-Agent Dialectical Refinement for Enhanced Argument Classification
- Title(参考訳): マルチエージェント・ディレクティカル・リファインメントによるArgument 分類の強化
- Authors: Jakub Bąba, Jarosław A. Chudziak,
- Abstract要約: 分類の不確実性を解決するために弁証的改善を利用したMAD-ACC(Multi-Agent Debate for Argument Component Classification)を導入する。
UKP Students Essays corpus の評価では、MAD-ACC が Macro F1 スコア85.7% を達成し、シングルエージェント推論ベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Argument Mining (AM) is a foundational technology for automated writing evaluation, yet traditional supervised approaches rely heavily on expensive, domain-specific fine-tuning. While Large Language Models (LLMs) offer a training-free alternative, they often struggle with structural ambiguity, failing to distinguish between similar components like Claims and Premises. Furthermore, single-agent self-correction mechanisms often suffer from sycophancy, where the model reinforces its own initial errors rather than critically evaluating them. We introduce MAD-ACC (Multi-Agent Debate for Argument Component Classification), a framework that leverages dialectical refinement to resolve classification uncertainty. MAD-ACC utilizes a Proponent-Opponent-Judge model where agents defend conflicting interpretations of ambiguous text, exposing logical nuances that single-agent models miss. Evaluation on the UKP Student Essays corpus demonstrates that MAD-ACC achieves a Macro F1 score of 85.7%, significantly outperforming single-agent reasoning baselines, without requiring domain-specific training. Additionally, unlike "black-box" classifiers, MAD-ACC's dialectical approach offers a transparent and explainable alternative by generating human-readable debate transcripts that explain the reasoning behind decisions.
- Abstract(参考訳): Argument Mining (AM)は自動筆記評価のための基礎技術であるが、従来の教師付きアプローチは高価なドメイン固有の微調整に大きく依存している。
LLM(Large Language Models)は、トレーニング不要の代替手段を提供するが、しばしば構造的曖昧さに悩まされ、CrimsやPremisesのような同様のコンポーネントを区別することができない。
さらに、単一エージェントの自己補正機構は、しばしば梅毒に悩まされ、モデルがそれらを批判的に評価するのではなく、自身の初期エラーを補強する。
分類の不確実性を解決するために弁証的改善を利用したMAD-ACC(Multi-Agent Debate for Argument Component Classification)を導入する。
MAD-ACCはProponent-Opponent-Judgeモデルを使用し、エージェントは曖昧なテキストの矛盾する解釈を擁護し、単一エージェントモデルが見逃す論理的ニュアンスを明らかにする。
UKP 学生評価コーパスの評価では、MAD-ACC は Macro F1 スコア85.7% を達成し、ドメイン固有のトレーニングを必要とせず、シングルエージェント推論ベースラインを著しく上回っている。
さらに、「ブラックボックス」分類器とは異なり、MAD-ACCの弁証法は、意思決定の背後にある理由を説明する人間可読な議論書を生成することによって、透明で説明可能な代替手段を提供する。
関連論文リスト
- Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Single LLM Debate, MoLaCE: Mixture of Latent Concept Experts Against Confirmation Bias [24.182306712604966]
大規模言語モデル(LLM)は入力確認バイアスに対して非常に脆弱である。
MoLaCEは軽量な推論時間フレームワークで、アクティベーション強度の異なる専門家を混在させることで、確認バイアスに対処する。
検証バイアスを一貫して低減し、堅牢性を向上し、マルチエージェントの議論を上回ることを実証的に示す。
論文 参考訳(メタデータ) (2025-12-29T14:52:34Z) - Free-MAD: Consensus-Free Multi-Agent Debate [17.384699873512464]
マルチエージェント討論(MAD)は、大規模言語モデル(LLM)の推論能力を改善するための新しいアプローチである。
既存のMADメソッドは、合意に達するためにエージェント間の複数ラウンドの相互作用に依存しており、最終的な出力は前回のラウンドで多数決によって選択される。
エージェント間のコンセンサスを必要としない新しいMADフレームワークであるtextscFree-MADを提案する。
論文 参考訳(メタデータ) (2025-09-14T01:55:01Z) - Debate-Driven Multi-Agent LLMs for Phishing Email Detection [0.0]
エージェント間の偽りの議論をシミュレートしてフィッシングメールを検出する多エージェント大規模言語モデル(LLM)を提案する。
提案手法では,2つの LLM エージェントを用いて,最終判断を代弁する判断エージェントを用いて,分類課題の論拠を提示する。
結果は、議論の構造自体が、余分なプロンプト戦略を伴わずに正確な決定を下すのに十分であることを示している。
論文 参考訳(メタデータ) (2025-03-27T23:18:14Z) - Quantifying Logical Consistency in Transformers via Query-Key Alignment [20.636818928993684]
本稿では,論理的推論のための新しい軽量評価手法を提案する。
提案手法は,1つのフォワードパスを計算し,慎重に選択されたヘッドから「QKスコア」を抽出することにより,無効な推論から確実に分離した潜在表現を明らかにする。
論文 参考訳(メタデータ) (2025-02-24T10:02:50Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。