論文の概要: BITS Pilani at SemEval-2026 Task 9: Structured Supervised Fine-Tuning with DPO Refinement for Polarization Detection
- arxiv url: http://arxiv.org/abs/2604.11121v1
- Date: Mon, 13 Apr 2026 07:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.402031
- Title: BITS Pilani at SemEval-2026 Task 9: Structured Supervised Fine-Tuning with DPO Refinement for Polarization Detection
- Title(参考訳): BITS Pilani at SemEval-2026 Task 9: Structured Supervised Fine-Tuning with DPO Refinement for Polarization Detection
- Authors: Atharva Gupta, Dhruv Kumar, Yash Sinha,
- Abstract要約: ソーシャルメディアのテキストに政治的偏極を検出するための2段階のアプローチを提案する。
解釈可能なスロットフィリングテンプレートを用いてQwen 2.5-7B-インストラクションをLoRAで微調整する。
SemEval 2026 POLAR共有タスクデータセットの実験では、嗜好ベースの改善は両方の精度を改善し、付加的なアノテーションなしで偽陰性を減少させる。
- 参考スコア(独自算出の注目度): 2.2588605422113606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The POLAR SemEval-2026 Shared Task aims to detect online polarization and focuses on the classification and identification of multilingual, multicultural, and multi-event polarization. Accurate computational detection of online polarization is challenging due to nuanced rhetoric, implicit framing, and the high cost of human-in-the-loop annotation. Building on recent findings that contextual prompting enables large language models to function as strong polarization detectors, we present a two-stage approach for detecting political polarization in social media text that combines structured supervised fine-tuning with Direct Preference Optimization (DPO) refinement. We fine-tune Qwen 2.5-7B-Instruct with LoRA using an interpretable slot-filling template (target, claim type, manifestation checklist, and justification). We then apply DPO with automatically generated preference pairs to reduce costly false negatives. Experiments on the SemEval 2026 POLAR shared task dataset show that preference-based refinement improves both accuracy and decreases false negatives without extra annotation. On the English development set, DPO increases recall from 0.5085 to 0.7797 and improves macro-F1 by ~5 points.
- Abstract(参考訳): POLAR SemEval-2026 Shared Taskは、オンライン偏光の検出と、多言語、多文化、多領域偏光の分類と識別に焦点を当てている。
オンライン分極の正確な計算は、ニュアンス付きレトリック、暗黙のフレーミング、高コストのヒューマン・イン・ザ・ループアノテーションにより困難である。
文脈的プロンプトによって大きな言語モデルを強力な分極検出器として機能させることができるという最近の知見に基づいて、構造化された教師付き微調整と直接選好最適化(DPO)の改良を組み合わせたソーシャルメディアテキストにおいて、政治的分極を検出するための2段階のアプローチを提案する。
解釈可能なスロットフィリングテンプレート(ターゲット,クレームタイプ,マニフェストチェックリスト,正当化)を用いて,Qwen 2.5-7B-インストラクションをLoRAで微調整する。
次に、自動生成された選好ペアでDPOを適用し、コストのかかる偽陰性を減らす。
SemEval 2026 POLAR共有タスクデータセットの実験では、嗜好ベースの改善は両方の精度を改善し、付加的なアノテーションなしで偽陰性を減少させる。
英語の開発セットでは、DPOはリコールを0.5085から0.7797に増加し、マクロF1を約5ポイント改善する。
関連論文リスト
- Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE [7.609008983716641]
我々は、一般的なネガティブ選択戦略とDPOトレーニングとの相互作用を比較するために、マルチモーダルシーケンシャルレコメンデーションの実験を行う。
我々の中心的な発見は、決定論的ハードネガティブを動的トップK候補プールからのサンプリングに置き換えた単純な修正により、常にランク付け性能が向上することである。
論文 参考訳(メタデータ) (2026-03-31T04:49:32Z) - Not All Pretraining are Created Equal: Threshold Tuning and Class Weighting for Imbalanced Polarization Tasks in Low-Resource Settings [0.0]
本稿では,SemEval-2025における分極共有タスクへの私の提出について述べる。
英語とスワヒリ語のためのトランスフォーマーベースシステムを開発した。二分極検出,多ラベルターゲット型分類,多ラベル表示識別という3つのサブタスクである。
論文 参考訳(メタデータ) (2026-03-08T15:50:37Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。