論文の概要: Duluth at SemEval-2026 Task 6: DeBERTa with LLM-Augmented Data for Unmasking Political Question Evasions
- arxiv url: http://arxiv.org/abs/2604.20168v1
- Date: Wed, 22 Apr 2026 04:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.960541
- Title: Duluth at SemEval-2026 Task 6: DeBERTa with LLM-Augmented Data for Unmasking Political Question Evasions
- Title(参考訳): SemEval-2026 Task 6: DeBERTa with LLM-Augmented Data for Unmasking Political Question Evasions (英語)
- Authors: Shujauddin Syed, Ted Pedersen,
- Abstract要約: タスク1(明度レベル分類)とタスク2(回避レベル分類)に対処する。
本システムは,DeBERTa-V3ベースをベースとして,焦点損失,レイヤワイド学習速度の減衰,Duluth談話の特徴を拡張した。
学習データにおけるクラス不均衡に対処するため,Gemini 3 と Claude Sonnet 4.5 の合成例を用いてマイノリティクラスを拡張した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the Duluth approach to SemEval-2026 Task 6 on CLARITY: Unmasking Political Question Evasions. We address Task 1 (clarity-level classification) and Task 2 (evasion-level classification), both of which involve classifying question--answer pairs from U.S.\ presidential interviews using a two-level taxonomy of response clarity. Our system is based on DeBERTa-V3-base, extended with focal loss, layer-wise learning rate decay, and boolean discourse features. To address class imbalance in the training data, we augment minority classes using synthetic examples generated by Gemini 3 and Claude Sonnet 4.5. Our best configuration achieved a Macro F1 of 0.76 on the Task 1 evaluation set, placing 8th out of 40 teams. The top-ranked system (TeleAI) achieved 0.89, while the mean score across participants was 0.70. Error analysis reveals that the dominant source of misclassification is confusion between Ambivalent and Clear Reply responses, a pattern that mirrors disagreements among human annotators. Our findings demonstrate that LLM-based data augmentation can meaningfully improve minority-class recall on nuanced political discourse tasks.
- Abstract(参考訳): 本稿では,SemEval-2026 Task 6 on CLARITY: Unmasking Political Question Evasionsを提案する。
課題1(明度レベル分類)と課題2(回避レベル分類)に対処し、両者は、応答明度の二段階分類を用いて、米国大統領インタビューから質問回答ペアを分類する。
本システムはDeBERTa-V3ベースをベースとして,焦点損失,階層学習率の低下,ブール談話の特徴を拡張した。
学習データにおけるクラス不均衡に対処するため,Gemini 3 と Claude Sonnet 4.5 の合成例を用いてマイノリティクラスを拡張した。
私たちの最高の構成は、タスク1の評価セットで0.76のマクロF1を獲得し、40チーム中8位でした。
トップランクシステム(TeleAI)は0.89で、参加者の平均スコアは0.70だった。
誤り分析により、誤分類の主な原因は、人間のアノテータ間の不一致を反映するパターンであるAmbivalentとClear Replyの反応の混同であることが明らかになった。
以上の結果から,LLMに基づくデータ拡張は,ヌーアンスな政治談話課題におけるマイノリティクラスのリコールを有意義に改善する可能性が示唆された。
関連論文リスト
- Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection [68.37351671559675]
アクティブな学習は、無視可能なコストで短いプロンプトから何千ものインスタンスに注釈を付けることができる。
LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か?
277,902人のドイツの政治的TikTokコメントの新しいデータセットについて、両方の質問を調査した。
論文 参考訳(メタデータ) (2026-04-15T14:10:58Z) - SemEval-2026 Task 6: CLARITY -- Unmasking Political Question Evasions [17.397909377851366]
政治的話者は、応答性の外観を維持しながら、直接質問に答えることを避けることが多い。
本稿では,政治問題回避の共通課題であるSemEval-2026 Task 6, CLARITYを紹介する。
このベンチマークは、米国の大統領インタビューから作成され、専門家による反応の明確さと回避の分類に追随している。
論文 参考訳(メタデータ) (2026-03-14T17:02:52Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [6.462219916993885]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
我々は,ジェイルブレイク攻撃のための新しい手法を紹介し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。