論文の概要: FC-CONAN: An Exhaustively Paired Dataset for Robust Evaluation of Retrieval Systems
- arxiv url: http://arxiv.org/abs/2601.01350v1
- Date: Sun, 04 Jan 2026 03:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.241884
- Title: FC-CONAN: An Exhaustively Paired Dataset for Robust Evaluation of Retrieval Systems
- Title(参考訳): FC-CONAN:検索システムのロバスト評価のための豪華なペア付きデータセット
- Authors: Juan Junqueras, Florian Boudin, May-Myo Zin, Ha-Thanh Nguyen, Wachara Fungwacharakorn, Damián Ariel Furman, Akiko Aizawa, Ken Satoh,
- Abstract要約: ヘイトスピーチ(HS)は、オンライン談話において重要な問題である。
これに対抗するための有望な戦略の1つは、反ナラティブ(CN)の使用である。
- 参考スコア(独自算出の注目度): 16.70280302611025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech (HS) is a critical issue in online discourse, and one promising strategy to counter it is through the use of counter-narratives (CNs). Datasets linking HS with CNs are essential for advancing counterspeech research. However, even flagship resources like CONAN (Chung et al., 2019) annotate only a sparse subset of all possible HS-CN pairs, limiting evaluation. We introduce FC-CONAN (Fully Connected CONAN), the first dataset created by exhaustively considering all combinations of 45 English HS messages and 129 CNs. A two-stage annotation process involving nine annotators and four validators produces four partitions-Diamond, Gold, Silver, and Bronze-that balance reliability and scale. None of the labeled pairs overlap with CONAN, uncovering hundreds of previously unlabelled positives. FC-CONAN enables more faithful evaluation of counterspeech retrieval systems and facilitates detailed error analysis. The dataset is publicly available.
- Abstract(参考訳): ヘイトスピーチ(HS)は、オンライン談話において重要な問題であり、それに対抗するための有望な戦略の1つは、反ナラティブ(CN)の使用である。
HSとCNを結びつけるデータセットは、対音声研究を進める上で不可欠である。
しかしながら、CONAN(Chung et al , 2019)のようなフラッグシップリソースでさえ、すべてのHS-CNペアのスパースサブセットに注釈を付け、評価を制限している。
FC-CONAN(Fully Connected CONAN)は,45の英HSメッセージと129のCNの組み合わせを網羅的に検討した最初のデータセットである。
9つのアノテータと4つのバリデータを含む2段階のアノテーションプロセスは、信頼性とスケールのバランスをとるDiamond、Gold、Silver、Bronzeの4つのパーティションを生成する。
ラベル付きペアはいずれもCONANと重なり合っておらず、これまでラベルが付けられていなかった数百の陽性が明らかになった。
FC-CONANは、対音声検索システムのより忠実な評価を可能にし、詳細な誤り解析を容易にする。
データセットは公開されている。
関連論文リスト
- From Points to Coalitions: Hierarchical Contrastive Shapley Values for Prioritizing Data Samples [3.660947142840319]
Hierarchical Contrastive Data Valuation (HCDV)は、対照的に幾何学的な表現を学ぶためのフレームワークである。
HCDVは、決定境界を鋭くし、曲率ベースの滑らかさを通じて規則化する例に報酬を与える。
タブラル、ビジョン、ストリーミング、45MサンプルのCTRタスクに加えて、OpenDataValスイートでは、HCDVの精度が+5ppまで向上し、バリュエーション時間を最大100倍に削減し、拡張フィルタリング、低レイテンシのストリーミング更新、公正なマーケットプレースペイアウトといったタスクを直接サポートしている。
論文 参考訳(メタデータ) (2025-12-22T13:04:16Z) - Swiss Parliaments Corpus Re-Imagined (SPC_R): Enhanced Transcription with RAG-based Correction and Predicted BLEU [1.3658585106879246]
本稿では,スイス議会コーポレーション(Swiss Parliaments Corpus)の長期的リリースについて述べる。
私たちのパイプラインは、すべてのセッションオーディオをWhisper Large-v3を使って、高速な設定で標準ドイツ語に書き起こすことから始まります。
次に、2段階のGPT-4o補正プロセスを適用し、まず、GPT-4oがWhisper出力を公式プロトコルとともに取り込み、主に名前付きエンティティの認識を洗練させる。
最終的なコーパスには801時間分のオーディオが含まれており、そのうち751時間は品質管理に合格する。
論文 参考訳(メタデータ) (2025-06-09T13:11:18Z) - SPLICE: A Singleton-Enhanced PipeLIne for Coreference REsolution [11.062090350704617]
シングルトンは、つまりテキストの中で一度だけ言及される不明瞭さは、理論的な観点から人間が言論を理解する方法において重要であると言及している。
OntoNotesベンチマークでシングルトン参照スパンが欠如しているため、英語のエンドツーエンドのニューラルコア参照解決にそれらの検出を組み込もうとする以前の試みは妨げられていた。
本稿では,既存のネストネストNERシステムとOntoNotes構文木から派生した特徴を組み合わせることで,この制限に対処する。
論文 参考訳(メタデータ) (2024-03-25T22:46:16Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - ReZG: Retrieval-Augmented Zero-Shot Counter Narrative Generation for Hate Speech [8.755129583452915]
ソーシャルメディア上でのヘイトスピーチ(HS)は、社会保障に深刻な脅威をもたらす。
本研究では,Retrieval-Augmented Zero-shot Generation (ReZG)を提案する。
我々は, PLM が異なる知識保存, カウンター, フラレンシ制約関数を利用できるように, エネルギーベースの制約付き復号機構を実装した。
論文 参考訳(メタデータ) (2023-10-09T12:01:26Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers [92.5628632009802]
本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
論文 参考訳(メタデータ) (2020-10-24T09:39:35Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。