論文の概要: Multimodal Sexism Identification and Characterization using Large Language Models and Gradient Boosting
- arxiv url: http://arxiv.org/abs/2606.05997v1
- Date: Thu, 04 Jun 2026 10:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.729638
- Title: Multimodal Sexism Identification and Characterization using Large Language Models and Gradient Boosting
- Title(参考訳): 大規模言語モデルとグラディエントブースティングを用いたマルチモーダル性差の同定と特徴付け
- Authors: Kyriakos Chaviaras, Maria Lymperaiou, Athanasios Voulodimos,
- Abstract要約: 我々は、ミームおよびショートフォームビデオにおけるマルチモーダル性差別の識別と特徴付けに対処する。
ミームでは、視覚的、テキスト的、人口統計学的、生体的、およびLLMから派生した意味指標を組み合わせる。
ビデオでは、特徴選択、フレームベースの視覚表現、OCRベースのテキスト特徴、音響ディスクリプタ、センサ由来のメタデータの影響について検討する。
- 参考スコア(独自算出の注目度): 5.234175699955086
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present the AILS-NTUA submission to the EXIST 2026 Lab at CLEF, addressing multimodal sexism identification and characterization in memes (Task 2) and short-form videos (Task 3). Our system follows a feature-engineered late-fusion pipeline built around gradient-boosted regression models and hierarchical post-processing. For memes, we combine visual, textual, demographic, biometric, and LLM-derived semantic indicators designed to capture high-level cues such as stereotyping, objectification, irony, and misogyny. For videos, we investigate the effect of feature selection, frame-based visual representations, OCR-based textual features, acoustic descriptors, and sensor-derived metadata. Development results show that focused LLM-derived semantic cues improve meme sexism identification, while video performance is highly sensitive to feature dimensionality and cross-modal noise. For videos, development results favor compact feature selection, but official test results show that this conclusion does not fully transfer to unseen data, where the unfiltered representation generalizes better. Overall, our findings highlight the usefulness of targeted semantic feature engineering for static memes and the need for more robust temporal modeling in noisy short-form video settings.
- Abstract(参考訳): CLEFのEXIST 2026 LabにAILS-NTUAを提出し、ミーム(Task 2)とショートフォームビデオ(Task3)におけるマルチモーダル性差別の識別と特徴付けについて述べる。
我々のシステムは、勾配ブースト回帰モデルと階層的後処理を中心に構築された機能駆動の遅延融合パイプラインに従っている。
ミームでは、ステレオタイピング、オブジェクト化、皮肉、誤認識などの高レベルな手がかりを捉えるために、視覚的、テキスト的、人口統計学的、バイオメトリック、およびLLMから派生した意味指標を組み合わせる。
ビデオでは、特徴選択、フレームベースの視覚表現、OCRベースのテキスト特徴、音響ディスクリプタ、センサ由来のメタデータの影響について検討する。
その結果,LLMに基づくセマンティック・キューは性差別の識別を向上し,ビデオ性能は特徴次元やクロスモーダルノイズに非常に敏感であることがわかった。
ビデオの場合、開発結果はコンパクトな特徴選択が好まれるが、公式なテスト結果からは、この結論は、フィルタされていない表現がより一般化された未確認データに完全に変換されないことが示されている。
以上の結果から,静的ミームをターゲットとしたセマンティックな特徴工学の有用性と,ノイズの多いショートビデオ設定において,より堅牢な時間的モデリングの必要性が示唆された。
関連論文リスト
- ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。
本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文 参考訳(メタデータ) (2025-11-01T11:29:14Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。
本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-25T11:50:23Z) - PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement [26.89021788485701]
PolyVividは、フレキシブルでアイデンティティ一貫性のある生成を可能にする、多目的ビデオカスタマイズフレームワークである。
実験では、PolyVividはアイデンティティの忠実さ、ビデオリアリズム、被写体アライメントにおいて優れたパフォーマンスを達成し、既存のオープンソースおよび商用ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-09T15:11:09Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。