論文の概要: SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection
- arxiv url: http://arxiv.org/abs/2508.06803v1
- Date: Sat, 09 Aug 2025 03:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.555409
- Title: SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection
- Title(参考訳): SEVADE:幻覚耐性アイロン検出のための非結合評価による自己進化型マルチエージェント分析
- Authors: Ziqi Liu, Yangbin Chen, Ziyang Zhou, Yilin Li, Mingxuan Hu, Yushan Pan, Zhijie Xu,
- Abstract要約: 本稿では,**D**ecoupled **E**valuation for hallucination-resistant sarcasm detectionについて,**Self-**Ev**olving multi-agent **A**nalysis frameworkを提案する。
我々のフレームワークは最先端のパフォーマンスを実現しており、平均的な精度では**6.75%*、マクロF1スコアでは***6.29%*である。
- 参考スコア(独自算出の注目度): 11.652782877761446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm detection is a crucial yet challenging Natural Language Processing task. Existing Large Language Model methods are often limited by single-perspective analysis, static reasoning pathways, and a susceptibility to hallucination when processing complex ironic rhetoric, which impacts their accuracy and reliability. To address these challenges, we propose **SEVADE**, a novel **S**elf-**Ev**olving multi-agent **A**nalysis framework with **D**ecoupled **E**valuation for hallucination-resistant sarcasm detection. The core of our framework is a Dynamic Agentive Reasoning Engine (DARE), which utilizes a team of specialized agents grounded in linguistic theory to perform a multifaceted deconstruction of the text and generate a structured reasoning chain. Subsequently, a separate lightweight rationale adjudicator (RA) performs the final classification based solely on this reasoning chain. This decoupled architecture is designed to mitigate the risk of hallucination by separating complex reasoning from the final judgment. Extensive experiments on four benchmark datasets demonstrate that our framework achieves state-of-the-art performance, with average improvements of **6.75%** in Accuracy and **6.29%** in Macro-F1 score.
- Abstract(参考訳): Sarcasm検出は、重要なが難しい自然言語処理タスクである。
既存の大規模言語モデル手法は、単一パースペクティブ解析、静的推論経路、複雑な鉄の修辞処理における幻覚への感受性によって制限され、その精度と信頼性に影響を及ぼす。
これらの課題に対処するために、**SEVADE**, a novel **S**elf-**Ev**olving multi-agent **A**nalysis framework with **D*ecoupled **E**valuation for hallucination-resistant sarcasm detectionを提案する。
我々のフレームワークの中核は動的エージェント推論エンジン(DARE)であり、言語理論を基盤とした特殊エージェントのチームを利用して、テキストの多面的デコンストラクションを行い、構造化された推論連鎖を生成する。
その後、別個の軽量有理偏微分器 (RA) が、この推論連鎖のみに基づいて最終分類を行う。
この分離されたアーキテクチャは、最終的な判断から複雑な推論を分離することにより幻覚のリスクを軽減するように設計されている。
4つのベンチマークデータセットに対する大規模な実験により、我々のフレームワークは、精度では**6.75%*、マクロF1スコアでは***6.29%*の平均的な改善により、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Are All Prompt Components Value-Neutral? Understanding the Heterogeneous Adversarial Robustness of Dissected Prompt in Large Language Models [11.625319498017733]
PromptAnatomyは、プロンプトを機能コンポーネントに分解する自動化フレームワークです。
提案手法であるComPerturbを用いて,各コンポーネントを選択的に摂動することで,逆例を生成する。
補完的なリソースとして,PromptAnatomyフレームワークを用いて4つの公開命令チューニングデータセットを注釈付けする。
論文 参考訳(メタデータ) (2025-08-03T02:46:30Z) - Zero-Shot Event Causality Identification via Multi-source Evidence Fuzzy Aggregation with Large Language Models [11.541829239773643]
事象因果同定(ECI)は、テキストコンテキストにおける事象間の因果関係を検出することを目的としている。
既存のECIモデルは、主に管理された方法論に依存しており、大規模な注釈付きデータに依存している。
本稿では,Multi-source Evidence Fuzzy Aggregationに基づく新しいゼロショットフレームワークMEFAを提案する。
論文 参考訳(メタデータ) (2025-06-06T01:56:05Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Joint Evaluation of Answer and Reasoning Consistency for Hallucination Detection in Large Reasoning Models [12.270274049887298]
トレースの推論は冗長あるいは論理的に矛盾する可能性があるため、新しい幻覚の源となる。
既存の幻覚検出法は主に回答レベルの不確実性に焦点を当てている。
LRMにおける幻覚検出に適した新しいフレームワークであるRASを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:54:04Z) - Towards Long Context Hallucination Detection [49.195854802543714]
大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
それらは文脈の幻覚に傾向があり、与えられた文脈に不一致または矛盾した情報を生成する。
本稿では,BERTのような事前学習したエンコーダモデルを用いて,長期のコンテキストを処理し,文脈の幻覚を効果的に検出するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-04-28T03:47:05Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。