論文の概要: SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection
- arxiv url: http://arxiv.org/abs/2508.06803v1
- Date: Sat, 09 Aug 2025 03:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.555409
- Title: SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection
- Title(参考訳): SEVADE:幻覚耐性アイロン検出のための非結合評価による自己進化型マルチエージェント分析
- Authors: Ziqi Liu, Yangbin Chen, Ziyang Zhou, Yilin Li, Mingxuan Hu, Yushan Pan, Zhijie Xu,
- Abstract要約: 本稿では,**D**ecoupled **E**valuation for hallucination-resistant sarcasm detectionについて,**Self-**Ev**olving multi-agent **A**nalysis frameworkを提案する。
我々のフレームワークは最先端のパフォーマンスを実現しており、平均的な精度では**6.75%*、マクロF1スコアでは***6.29%*である。
- 参考スコア(独自算出の注目度): 11.652782877761446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm detection is a crucial yet challenging Natural Language Processing task. Existing Large Language Model methods are often limited by single-perspective analysis, static reasoning pathways, and a susceptibility to hallucination when processing complex ironic rhetoric, which impacts their accuracy and reliability. To address these challenges, we propose **SEVADE**, a novel **S**elf-**Ev**olving multi-agent **A**nalysis framework with **D**ecoupled **E**valuation for hallucination-resistant sarcasm detection. The core of our framework is a Dynamic Agentive Reasoning Engine (DARE), which utilizes a team of specialized agents grounded in linguistic theory to perform a multifaceted deconstruction of the text and generate a structured reasoning chain. Subsequently, a separate lightweight rationale adjudicator (RA) performs the final classification based solely on this reasoning chain. This decoupled architecture is designed to mitigate the risk of hallucination by separating complex reasoning from the final judgment. Extensive experiments on four benchmark datasets demonstrate that our framework achieves state-of-the-art performance, with average improvements of **6.75%** in Accuracy and **6.29%** in Macro-F1 score.
- Abstract(参考訳): Sarcasm検出は、重要なが難しい自然言語処理タスクである。
既存の大規模言語モデル手法は、単一パースペクティブ解析、静的推論経路、複雑な鉄の修辞処理における幻覚への感受性によって制限され、その精度と信頼性に影響を及ぼす。
これらの課題に対処するために、**SEVADE**, a novel **S**elf-**Ev**olving multi-agent **A**nalysis framework with **D*ecoupled **E**valuation for hallucination-resistant sarcasm detectionを提案する。
我々のフレームワークの中核は動的エージェント推論エンジン(DARE)であり、言語理論を基盤とした特殊エージェントのチームを利用して、テキストの多面的デコンストラクションを行い、構造化された推論連鎖を生成する。
その後、別個の軽量有理偏微分器 (RA) が、この推論連鎖のみに基づいて最終分類を行う。
この分離されたアーキテクチャは、最終的な判断から複雑な推論を分離することにより幻覚のリスクを軽減するように設計されている。
4つのベンチマークデータセットに対する大規模な実験により、我々のフレームワークは、精度では**6.75%*、マクロF1スコアでは***6.29%*の平均的な改善により、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Unlocking Cognitive Capabilities and Analyzing the Perception-Logic Trade-off [29.48293757752123]
パーセプションとReasoning機能を統合したプログレッシブトレーニングパイプラインを提案する。
長文音声におけるテンポラルドリフトを同定し、拡張推論により音響タイムスタンプからモデルを非同期化する。
本報告では、アーキテクチャ、データ効率のトレーニングレシピ、頑健な認識と構造化推論のトレードオフの診断分析について詳述する。
論文 参考訳(メタデータ) (2026-02-27T06:56:50Z) - RAM-SD: Retrieval-Augmented Multi-agent framework for Sarcasm Detection [17.814793753195723]
RAM-SDは、Sarcasm Detectionのための検索拡張マルチエージェントフレームワークである。
2)メタプランナはサルクサム型を分類し,事前定義された集合から最適な推論計画を選択し,(3)特殊エージェントのアンサンブルは相補的で多視点的な分析を行う。
RAM-SDは4つの標準ベンチマークで評価され、最先端のマクロF1の77.74%を達成し、GPT-4o+CoCベースラインの7.01を上回った。
論文 参考訳(メタデータ) (2026-01-14T03:19:40Z) - Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation [17.405818788700234]
本稿では,視覚合成から意味的計画を明確に分離する協調的マルチエージェント推論フレームワークを提案する。
提案手法は,画素生成前の構造的,明示的なプランを生成し,視覚的,意味的に整合した単一パス合成を可能にする。
従来の評価基準の限界に対処し,新しい人間対応評価指標MAC-Scoreを導入する。
論文 参考訳(メタデータ) (2025-12-24T04:39:45Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - CAMF: Collaborative Adversarial Multi-agent Framework for Machine Generated Text Detection [16.113113157328662]
既存のゼロショット検出パラダイムは、しばしば重大な欠陥を示す。
マルチLLMエージェントを用いた新しいアーキテクチャである textbfCAMF を紹介する。
この構造化された協調的・敵対的プロセスは、非人間の起源を示す微妙でクロス次元のテキストの不一致の深い分析を可能にする。
論文 参考訳(メタデータ) (2025-08-16T06:25:27Z) - Are All Prompt Components Value-Neutral? Understanding the Heterogeneous Adversarial Robustness of Dissected Prompt in Large Language Models [11.625319498017733]
PromptAnatomyは、プロンプトを機能コンポーネントに分解する自動化フレームワークです。
提案手法であるComPerturbを用いて,各コンポーネントを選択的に摂動することで,逆例を生成する。
補完的なリソースとして,PromptAnatomyフレームワークを用いて4つの公開命令チューニングデータセットを注釈付けする。
論文 参考訳(メタデータ) (2025-08-03T02:46:30Z) - Zero-Shot Event Causality Identification via Multi-source Evidence Fuzzy Aggregation with Large Language Models [11.541829239773643]
事象因果同定(ECI)は、テキストコンテキストにおける事象間の因果関係を検出することを目的としている。
既存のECIモデルは、主に管理された方法論に依存しており、大規模な注釈付きデータに依存している。
本稿では,Multi-source Evidence Fuzzy Aggregationに基づく新しいゼロショットフレームワークMEFAを提案する。
論文 参考訳(メタデータ) (2025-06-06T01:56:05Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Joint Evaluation of Answer and Reasoning Consistency for Hallucination Detection in Large Reasoning Models [12.270274049887298]
トレースの推論は冗長あるいは論理的に矛盾する可能性があるため、新しい幻覚の源となる。
既存の幻覚検出法は主に回答レベルの不確実性に焦点を当てている。
LRMにおける幻覚検出に適した新しいフレームワークであるRASを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:54:04Z) - Towards Long Context Hallucination Detection [49.195854802543714]
大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
それらは文脈の幻覚に傾向があり、与えられた文脈に不一致または矛盾した情報を生成する。
本稿では,BERTのような事前学習したエンコーダモデルを用いて,長期のコンテキストを処理し,文脈の幻覚を効果的に検出するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-04-28T03:47:05Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。