論文の概要: Analyzing Character Representation in Media Content using Multimodal Foundation Model: Effectiveness and Trust
- arxiv url: http://arxiv.org/abs/2506.14799v1
- Date: Mon, 02 Jun 2025 13:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.687265
- Title: Analyzing Character Representation in Media Content using Multimodal Foundation Model: Effectiveness and Trust
- Title(参考訳): マルチモーダルファンデーションモデルを用いたメディアコンテンツにおける文字表現の分析:有効性と信頼
- Authors: Evdoxia Taka, Debadyuti Bhattacharya, Joanne Garde-Hansen, Sanjay Sharma, Tanaya Guha,
- Abstract要約: 人口統計次元に沿った文字分布が利用できるとしても、一般大衆にどの程度役に立つのか?
我々の研究は、新しいAIベースの文字表現と可視化ツールを提案しながら、ユーザースタディを通じてこれらの疑問に対処する。
比較言語画像事前学習(CLIP)基盤モデルを用いて視覚的画面データを解析し,年齢と性別の次元で文字表現を定量化する。
- 参考スコア(独自算出の注目度): 7.985473318714565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in AI has enabled automated analysis of complex media content at scale and generate actionable insights regarding character representation along such dimensions as gender and age. Past work focused on quantifying representation from audio/video/text using various ML models, but without having the audience in the loop. We ask, even if character distribution along demographic dimensions are available, how useful are they to the general public? Do they actually trust the numbers generated by AI models? Our work addresses these questions through a user study, while proposing a new AI-based character representation and visualization tool. Our tool based on the Contrastive Language Image Pretraining (CLIP) foundation model to analyze visual screen data to quantify character representation across dimensions of age and gender. We also designed effective visualizations suitable for presenting such analytics to lay audience. Next, we conducted a user study to seek empirical evidence on the usefulness and trustworthiness of the AI-generated results for carefully chosen movies presented in the form of our visualizations. We note that participants were able to understand the analytics from our visualization, and deemed the tool `overall useful'. Participants also indicated a need for more detailed visualizations to include more demographic categories and contextual information of the characters. Participants' trust in AI-based gender and age models is seen to be moderate to low, although they were not against the use of AI in this context. Our tool including code, benchmarking, and data from the user study can be found here: https://anonymous.4open.science/r/Character-Representation-Media-FF7B
- Abstract(参考訳): 近年のAIの進歩により、複雑なメディアコンテンツを大規模に自動分析し、性別や年齢といった次元に沿った文字表現に関する実用的な洞察を得られるようになった。
過去の研究は、さまざまなMLモデルを使用してオーディオ/ビデオ/テキストから表現を定量化することに重点を置いていたが、そのループには聴衆がいない。
人口統計次元に沿った文字分布が利用できるとしても、一般大衆にどの程度役に立つのか?
彼らは実際に、AIモデルによって生成された数字を信頼していますか?
我々の研究は、新しいAIベースの文字表現と可視化ツールを提案しながら、ユーザースタディを通じてこれらの疑問に対処する。
比較言語画像事前学習(CLIP)基盤モデルを用いて視覚的画面データを解析し,年齢と性別の次元で文字表現を定量化する。
また、このような分析を日常の聴衆に提示するのに適した効果的な視覚化も設計した。
次に、我々は、AI生成結果の有用性と信頼性に関する実証的証拠を求めるユーザスタディを、可視化の形で、慎重に選択された映画に対して行った。
参加者は視覚化から分析を理解することができ、ツールを‘すべて有用’とみなした点に注意が必要だ。
参加者はまた、より多くの人口圏とキャラクターの文脈情報を含むより詳細な視覚化の必要性を示した。
参加者のAIベースの性別と年齢モデルに対する信頼は、この文脈ではAIの使用に反対しなかったが、適度に低いと見られている。
コード、ベンチマーク、ユーザスタディのデータを含む私たちのツールは、以下のとおりです。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Towards Fair and Explainable AI using a Human-Centered AI Approach [5.888646114353372]
分類システムと単語埋め込みにおける説明可能性と公平性の向上を目的とした5つの研究プロジェクトについて述べる。
最初のプロジェクトは、ローカルモデル説明を機械教師のインタフェースとして導入するユーティリティ/ダウンサイドについて検討する。
第二のプロジェクトは、因果性に基づくヒューマン・イン・ザ・ループ視覚ツールであるD-BIASを紹介し、データセットの社会的バイアスを特定し緩和する。
第3のプロジェクトは、グループに対するバイアスに対するトレーニング済みの静的単語埋め込みの監査を支援する、ビジュアルインタラクティブツールであるWordBiasを提示する。
4番目のプロジェクトは、ソーシャルを識別するビジュアル分析ツールDramatVis Personae
論文 参考訳(メタデータ) (2023-06-12T21:08:55Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Data Representativity for Machine Learning and AI Systems [2.588973722689844]
機械学習モデルを通じてデータから推論を描く場合、データの表現力は不可欠である。
本稿では,AIとサンプリングに関する科学文献におけるデータ表現性について分析する。
論文 参考訳(メタデータ) (2022-03-09T13:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。