論文の概要: CSE-UOI at SemEval-2026 Task 6: A Two-Stage Heterogeneous Ensemble with Deliberative Complexity Gating for Political Evasion Detection
- arxiv url: http://arxiv.org/abs/2603.12453v1
- Date: Thu, 12 Mar 2026 21:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.765118
- Title: CSE-UOI at SemEval-2026 Task 6: A Two-Stage Heterogeneous Ensemble with Deliberative Complexity Gating for Political Evasion Detection
- Title(参考訳): CSE-UOI at SemEval-2026 Task 6: A Two-Stage Heterogeneous Ensemble with Deliberative Complexity Gating for political Evasion Detection
- Authors: Christos Tzouvaras, Konstantinos Skianis, Athanasios Voulodimos,
- Abstract要約: 本稿では,政治インタビューにおける回答の明瞭さを,クリアリプライ,アンビバウンド,クリアノンリプライの3つのカテゴリに分類するSemEval-2026タスク6について述べる。
自己整合性(SC)と重み付き投票による異種二重大言語モデル(LLM)アンサンブルと,新たなポストホック補正機構であるDeliberative Complexity Gating(DCG)を提案する。
評価セットでマクロF1スコア0.85を達成し,3位を確保した。
- 参考スコア(独自算出の注目度): 3.211619859724084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our system for SemEval-2026 Task 6, which classifies clarity of responses in political interviews into three categories: Clear Reply, Ambivalent, and Clear Non-Reply. We propose a heterogeneous dual large language model (LLM) ensemble via self-consistency (SC) and weighted voting, and a novel post-hoc correction mechanism, Deliberative Complexity Gating (DCG). This mechanism uses cross-model behavioral signals and exploits the finding that an LLM response-length proxy correlates strongly with sample ambiguity. To further examine mechanisms for improving ambiguity detection, we evaluated multi-agent debate as an alternative strategy for increasing deliberative capacity. Unlike DCG, which adaptively gates reasoning using cross-model behavioral signals, debate increases agent count without increasing model diversity. Our solution achieved a Macro-F1 score of 0.85 on the evaluation set, securing 3rd place.
- Abstract(参考訳): 本稿では,政治インタビューにおける回答の明瞭さを,クリアリプライ,アンビバウンド,クリアノンリプライの3つのカテゴリに分類するSemEval-2026タスク6について述べる。
本稿では,自己整合性 (SC) と重み付き投票による異種二重大言語モデル (LLM) アンサンブルと,新たなポストホック補正機構であるDeliberative Complexity Gating (DCG) を提案する。
このメカニズムは、クロスモデル行動信号を使用し、LLM応答長プロキシがサンプルのあいまいさと強く相関していることを発見する。
あいまいさ検出を改善するためのメカニズムをさらに検討するため,検討能力を高めるための代替戦略としてマルチエージェント討論を評価した。
クロスモデル行動信号を用いた推論を適応的にゲートするDCGとは異なり、議論はモデルの多様性を増すことなくエージェント数を増加させる。
評価セットでマクロF1スコア0.85を達成し,3位を確保した。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Collective Reasoning Among LLMs: A Framework for Answer Validation Without Ground Truth [0.0]
いくつかの先進的な大規模言語モデルが複雑で博士レベルの確率問題を生成・解き出す新しいアプローチを導入する。
本研究は, 多様なモデル間の合意が, アウトプットの信頼性を如何に示すかに焦点を当てる。
論文 参考訳(メタデータ) (2025-02-28T06:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。