論文の概要: FHSTP@EXIST 2025 Benchmark: Sexism Detection with Transparent Speech Concept Bottleneck Models
- arxiv url: http://arxiv.org/abs/2507.20924v1
- Date: Mon, 28 Jul 2025 15:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.183078
- Title: FHSTP@EXIST 2025 Benchmark: Sexism Detection with Transparent Speech Concept Bottleneck Models
- Title(参考訳): FHSTP@EXIST 2025 ベンチマーク:透明音声概念ボトルネックモデルによる性差検出
- Authors: Roberto Labadie-Tamayo, Adrian Jaques Böck, Djordje Slijepčević, Xihui Chen, Andreas Babic, Matthias Zeppelzauer,
- Abstract要約: Subtask 1.1 - つぶやきにおける性差別識別、Subtask 1.2 - つぶやきにおけるソースインテンション、Subtask 1.3 - つぶやきにおける性差別分類。
本研究では,各サブタスクに対応する3つのモデルを実装し,各サブタスクに対して,音声概念ボトルネックモデル(SCBM),音声概念ボトルネックモデル(SCBMT),微調整されたXLM-RoBERTaトランスモデルを提案する。
Subtask 1.1では、XLM-RoBERTaが、以前のデータセットで強化された提供データに基づいて微調整され、英語とスペイン語と4番目の順にランク付けされた。
- 参考スコア(独自算出の注目度): 0.589192422444821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sexism has become widespread on social media and in online conversation. To help address this issue, the fifth Sexism Identification in Social Networks (EXIST) challenge is initiated at CLEF 2025. Among this year's international benchmarks, we concentrate on solving the first task aiming to identify and classify sexism in social media textual posts. In this paper, we describe our solutions and report results for three subtasks: Subtask 1.1 - Sexism Identification in Tweets, Subtask 1.2 - Source Intention in Tweets, and Subtask 1.3 - Sexism Categorization in Tweets. We implement three models to address each subtask which constitute three individual runs: Speech Concept Bottleneck Model (SCBM), Speech Concept Bottleneck Model with Transformer (SCBMT), and a fine-tuned XLM-RoBERTa transformer model. SCBM uses descriptive adjectives as human-interpretable bottleneck concepts. SCBM leverages large language models (LLMs) to encode input texts into a human-interpretable representation of adjectives, then used to train a lightweight classifier for downstream tasks. SCBMT extends SCBM by fusing adjective-based representation with contextual embeddings from transformers to balance interpretability and classification performance. Beyond competitive results, these two models offer fine-grained explanations at both instance (local) and class (global) levels. We also investigate how additional metadata, e.g., annotators' demographic profiles, can be leveraged. For Subtask 1.1, XLM-RoBERTa, fine-tuned on provided data augmented with prior datasets, ranks 6th for English and Spanish and 4th for English in the Soft-Soft evaluation. Our SCBMT achieves 7th for English and Spanish and 6th for Spanish.
- Abstract(参考訳): ソーシャルメディアやオンライン会話で性差別が広まっている。
この問題に対処するために、CLEF 2025で5回目のSexism Identification in Social Networks (EXIST)チャレンジが開始される。
今年の国際ベンチマークでは、ソーシャルメディアのテキスト投稿における性差別の特定と分類を目的とした最初の課題の解決に重点を置いている。
本稿では,3つのサブタスクについて,Subtask 1.1,Subtask 1.2,Subtask 1.3,Sexism Categorization in Tweetsの3つのサブタスクについて述べる。
本研究では,各サブタスクに対応する3つのモデルを実装し,各サブタスクに対して,音声概念ボトルネックモデル(SCBM),音声概念ボトルネックモデル(SCBMT),微調整されたXLM-RoBERTaトランスモデルを提案する。
SCBMは人間の解釈可能なボトルネック概念として記述形容詞を使用している。
SCBMは大きな言語モデル(LLM)を利用して、入力テキストを形容詞の人間解釈可能な表現にエンコードし、下流タスクのための軽量な分類器を訓練する。
SCBMTは、形容詞に基づく表現を変換器からの文脈埋め込みと融合させてSCBMを拡張し、解釈可能性と分類性能のバランスをとる。
競争結果以外にも、これらの2つのモデルはインスタンス(ローカル)とクラス(グローバル)の両方のレベルできめ細かい説明を提供する。
また、アノテータの人口統計プロファイルなどの追加メタデータをどのように活用できるかについても検討する。
Subtask 1.1では、XLM-RoBERTaが、以前のデータセットで強化されたデータに基づいて微調整され、英語とスペイン語で6位、英語で4位にランクインした。
SCBMTは英語とスペイン語で7位、スペイン語で6位です。
関連論文リスト
- Speech-Language Models with Decoupled Tokenizers and Multi-Token Prediction [58.55905182336196]
音声合成モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
本研究では,SLMの性能に及ぼすキーコンポーネント(音声トークン化,音声ヘッド,話者モデルなど)の影響について検討する。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Bilingual Sexism Classification: Fine-Tuned XLM-RoBERTa and GPT-3.5 Few-Shot Learning [0.7874708385247352]
本研究の目的は、自然言語処理モデルを活用することにより、バイリンガル文脈(英語とスペイン語)における性差別の識別を改善することである。
我々はXLM-RoBERTaモデルを微調整し、性差別的コンテンツを分類するための数発の学習プロンプトでGPT-3.5を別々に使用した。
論文 参考訳(メタデータ) (2024-06-11T14:15:33Z) - UPB at SemEval-2022 Task 5: Enhancing UNITER with Image Sentiment and
Graph Convolutional Networks for Multimedia Automatic Misogyny Identification [0.3437656066916039]
本稿ではSemEval-2022 Task 5: MAMI - Multimedia Automatic Misogyny Identificationについて述べる。
私たちのベストモデルは、サブタスクAで71.4%、サブタスクBで67.3%のF1スコアに達し、トップボードの上位3分の1にチームを配置します。
論文 参考訳(メタデータ) (2022-05-29T21:12:36Z) - Sexism Identification in Tweets and Gabs using Deep Neural Networks [6.531659195805749]
本稿では,さまざまなディープニューラルネットワークモデルアーキテクチャを用いて,テキストにおける性差別の分類について検討する。
IberLEF 2021 の Social neTworks (EXIST) タスクにおける sexism Identification から、つぶやきとギャブのデータセットに二項性差別の分類を行う。
これらのモデルは、BERTとマルチフィルタCNNモデルを使用した最高のパフォーマンスで、競合のモデルと比較すると、比較的パフォーマンスがよい。
論文 参考訳(メタデータ) (2021-11-05T16:57:08Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Automatic Sexism Detection with Multilingual Transformer Models [0.0]
本稿では,AIT_FHSTPチームによる2つのsexism Identification in Social neTworksタスクに対するEXIST 2021ベンチマークの貢献について述べる。
これらの課題を解決するために,多言語BERTとXLM-Rをベースとした2つの多言語変換モデルを適用した。
我々のアプローチでは、トランスフォーマーを性差別的コンテンツの検出に適用するために、2つの異なる戦略を用いています。
両方のタスクに対して、最高のモデルは、EXISTデータと追加データセットを教師なしで事前トレーニングしたXLM-Rです。
論文 参考訳(メタデータ) (2021-06-09T08:45:51Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。