論文の概要: Visual Objectification in Films: Towards a New AI Task for Video
Interpretation
- arxiv url: http://arxiv.org/abs/2401.13296v1
- Date: Wed, 24 Jan 2024 08:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:06:29.950804
- Title: Visual Objectification in Films: Towards a New AI Task for Video
Interpretation
- Title(参考訳): 映画における視覚物体化:映像解釈のための新しいaiタスクに向けて
- Authors: Julie Tores, Lucile Sassatelli, Hui-Yin Wu, Clement Bergman, Lea
Andolfi, Victor Ecrement, Frederic Precioso, Thierry Devars, Magali Guaresi,
Virginie Julliard, Sarah Lecossais
- Abstract要約: 本稿では,映画におけるキャラクタの客観化を検知する新しい映像解釈タスクを提案する。
本研究の目的は、映画で操作される複雑な時間パターンを明確化し、定量化し、客観化の認知的知覚を生み出すことである。
- 参考スコア(独自算出の注目度): 1.485535845286263
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In film gender studies, the concept of 'male gaze' refers to the way the
characters are portrayed on-screen as objects of desire rather than subjects.
In this article, we introduce a novel video-interpretation task, to detect
character objectification in films. The purpose is to reveal and quantify the
usage of complex temporal patterns operated in cinema to produce the cognitive
perception of objectification. We introduce the ObyGaze12 dataset, made of 1914
movie clips densely annotated by experts for objectification concepts
identified in film studies and psychology. We evaluate recent vision models,
show the feasibility of the task and where the challenges remain with concept
bottleneck models. Our new dataset and code are made available to the
community.
- Abstract(参考訳): 映画ジェンダー研究において、「男の視線」という概念は、登場人物が主題ではなく欲望の対象としてスクリーン上で描かれる方法を指す。
本稿では,フィルム内のキャラクタの客観化を検知する新しい映像解釈タスクを提案する。
その目的は、映画で操作される複雑な時間パターンの使用を解明し、定量化し、対象化の認知的知覚を生み出すことである。
1914年に映画研究や心理学で特定された客観化概念を専門家が密に注釈付けした映画クリップから作られた obygaze12 データセットを紹介する。
我々は、最近のビジョンモデルを評価し、タスクの実現可能性を示し、概念ボトルネックモデルに課題が残るかを示す。
新しいデータセットとコードはコミュニティに公開されています。
関連論文リスト
- Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-06-04T03:51:54Z) - Time-Conditioned Generative Modeling of Object-Centric Representations
for Video Decomposition and Prediction [4.79974591281424]
ビデオの時間条件生成モデルを提案する。
本モデルでは,オブジェクト中心の映像分解を行い,隠蔽対象の完全な形状を再構築し,新しい視点の予測を行う。
論文 参考訳(メタデータ) (2023-01-21T13:39:39Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。