論文の概要: MObyGaze: a film dataset of multimodal objectification densely annotated by experts
- arxiv url: http://arxiv.org/abs/2505.22084v1
- Date: Wed, 28 May 2025 08:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.482107
- Title: MObyGaze: a film dataset of multimodal objectification densely annotated by experts
- Title(参考訳): MobyGaze: 専門家が高密度に注釈を付けたマルチモーダルなオブジェクト化の映画データセット
- Authors: Julie Tores, Elisa Ancarani, Lucile Sassatelli, Hui-Yin Wu, Clement Bergman, Lea Andolfi, Victor Ecrement, Remy Sun, Frederic Precioso, Thierry Devars, Magali Guaresi, Virginie Julliard, Sarah Lecossais,
- Abstract要約: 我々は,複雑なマルチモーダル(視覚,音声,音声)の時間的パターンをキャラクタリゼーションし,定量化するための新しいAIタスクを提案する。
対象化レベルと概念について専門家が高密度に注釈を付した20本の映画からなるマルチモーダル・オブジェクトライジング・ゲイズ・データセットを紹介した。
異なる学習課題を定式化し,低数のアノテータ間のラベルの多様性から学習する最善の方法を提案し,検討する。
- 参考スコア(独自算出の注目度): 1.3713315681857832
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Characterizing and quantifying gender representation disparities in audiovisual storytelling contents is necessary to grasp how stereotypes may perpetuate on screen. In this article, we consider the high-level construct of objectification and introduce a new AI task to the ML community: characterize and quantify complex multimodal (visual, speech, audio) temporal patterns producing objectification in films. Building on film studies and psychology, we define the construct of objectification in a structured thesaurus involving 5 sub-constructs manifesting through 11 concepts spanning 3 modalities. We introduce the Multimodal Objectifying Gaze (MObyGaze) dataset, made of 20 movies annotated densely by experts for objectification levels and concepts over freely delimited segments: it amounts to 6072 segments over 43 hours of video with fine-grained localization and categorization. We formulate different learning tasks, propose and investigate best ways to learn from the diversity of labels among a low number of annotators, and benchmark recent vision, text and audio models, showing the feasibility of the task. We make our code and our dataset available to the community and described in the Croissant format: https://anonymous.4open.science/r/MObyGaze-F600/.
- Abstract(参考訳): 視覚的ストーリーテリングコンテンツにおけるジェンダー表現の相違の特徴と定量化は、画面上でステレオタイプがどのように永続するかを理解するために必要である。
本稿では、客観化の高レベルな構成を考察し、映画における客観化を生み出す複雑なマルチモーダル(視覚、音声、音声)の時間的パターンを特徴付け、定量化する新しいAIタスクをMLコミュニティに導入する。
映画研究と心理学に基づいて,3つのモダリティにまたがる11の概念を包含する5つのサブコンストラクトを含む,構造化シソーラスにおける客観化の構成を定義した。
対象化レベルと概念を自由な区切りセグメントで専門家が高度に注釈付けした20本の映画からなるマルチモーダル・オブジェクトライジング・ゲイズ(MObyGaze)データセットについて紹介する。
異なる学習課題を定式化し、低アノテータのラベルの多様性から学習する最善の方法を提案し、最新のビジョン、テキスト、オーディオモデルをベンチマークし、タスクの実現可能性を示す。
コードとデータセットをコミュニティに公開し、Croissantフォーマットで説明した: https://anonymous.4open.science/r/MObyGaze-F600/。
関連論文リスト
- ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation [14.534308478766476]
何千もの挑戦的なビデオを含む新しいデータセットであるViCaSを紹介します。
本ベンチマークでは,全体的/高レベルの理解と言語誘導,画素精度のセグメンテーションに関するモデルを評価する。
論文 参考訳(メタデータ) (2024-12-12T23:10:54Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文 参考訳(メタデータ) (2023-03-14T00:19:11Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。