論文の概要: Analyzing Character Representation in Media Content using Multimodal Foundation Model: Effectiveness and Trust
- arxiv url: http://arxiv.org/abs/2506.14799v2
- Date: Tue, 26 Aug 2025 18:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 14:51:03.008656
- Title: Analyzing Character Representation in Media Content using Multimodal Foundation Model: Effectiveness and Trust
- Title(参考訳): マルチモーダルファンデーションモデルを用いたメディアコンテンツにおける文字表現の分析:有効性と信頼
- Authors: Evdoxia Taka, Debadyuti Bhattacharya, Joanne Garde-Hansen, Sanjay Sharma, Tanaya Guha,
- Abstract要約: 本稿では,AIを用いた文字表現ツールを提案する。
ユーザスタディは、慎重に選択された映画のAI生成結果の有用性と信頼性に関する実証的な証拠を求める。
参加者のAIベースの性別と年齢モデルに対する信頼は、この文脈ではAIの使用に反対しなかったが、適度に低いと見られている。
- 参考スコア(独自算出の注目度): 6.172139400820291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in AI has made automated analysis of complex media content at scale possible while generating actionable insights regarding character representation along such dimensions as gender and age. Past works focused on quantifying representation from audio/video/text using AI models, but without having the audience in the loop. We ask, even if character distribution along demographic dimensions are available, how useful are those to the general public? Do they actually trust the numbers generated by AI models? Our work addresses these open questions by proposing a new AI-based character representation tool and performing a thorough user study. Our tool has two components: (i) An analytics extraction model based on the Contrastive Language Image Pretraining (CLIP) foundation model that analyzes visual screen data to quantify character representation across age and gender; (ii) A visualization component effectively designed for presenting the analytics to lay audience. The user study seeks empirical evidence on the usefulness and trustworthiness of the AI-generated results for carefully chosen movies presented in the form of our visualizations. We found that participants were able to understand the analytics in our visualizations, and deemed the tool `overall useful'. Participants also indicated a need for more detailed visualizations to include more demographic categories and contextual information of the characters. Participants' trust in AI-based gender and age models is seen to be moderate to low, although they were not against the use of AI in this context. Our tool including code, benchmarking, and the user study data can be found at https://github.com/debadyuti0510/Character-Representation-Media.
- Abstract(参考訳): 近年のAIの進歩は、ジェンダーや年齢といった次元に沿った文字表現に関する実用的な洞察を生成しながら、複雑なメディアコンテンツを大規模に自動分析することを可能にする。
過去の研究は、AIモデルを使用してオーディオ/ビデオ/テキストから表現を定量化することに重点を置いていたが、そのループには聴衆がいない。
人口統計学的側面に沿った文字分布が利用できるとしても、それが一般大衆にどの程度役立つのか、私たちは問う。
彼らは実際に、AIモデルによって生成された数字を信頼していますか?
我々の研究は、新しいAIベースの文字表現ツールを提案し、徹底したユーザー調査を行うことによって、これらのオープンな疑問に対処する。
私たちのツールは2つのコンポーネントを持っています。
一 年齢・性別間の文字表現を定量化するための視覚的画面データを解析するコントラスト言語画像事前学習(CLIP)基盤モデルに基づく分析抽出モデル
二 観客に分析を提示するために効果的に設計された可視化コンポーネント。
ユーザスタディは、AI生成結果の有用性と信頼性に関する実証的な証拠を求め、慎重に選択された映画を視覚化の形で提示する。
参加者は視覚化のアナリティクスを理解でき、ツールが‘すべて有用’であることがわかった。
参加者はまた、より多くの人口圏とキャラクターの文脈情報を含むより詳細な視覚化の必要性を示した。
参加者のAIベースの性別と年齢モデルに対する信頼は、この文脈ではAIの使用に反対しなかったが、適度に低いと見られている。
コード、ベンチマーク、ユーザー調査データを含むツールについては、https://github.com/debadyuti0510/Character-Representation-Media.comで確認できます。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - VisAlign: Dataset for Measuring the Degree of Alignment between AI and
Humans in Visual Perception [32.376529738717736]
画像分類の観点からAIと人間の視覚的アライメントを測定するための新しいデータセットを提案する。
我々のデータセットは、Must-Act(Must-Classify)、Must-Abstain、Uncertainの3つのサンプルからなる。
一般的な5つの視覚知覚モデルと7つの禁忌手法の視覚的アライメントと信頼性を分析した。
論文 参考訳(メタデータ) (2023-08-03T04:04:03Z) - Towards Fair and Explainable AI using a Human-Centered AI Approach [5.888646114353372]
分類システムと単語埋め込みにおける説明可能性と公平性の向上を目的とした5つの研究プロジェクトについて述べる。
最初のプロジェクトは、ローカルモデル説明を機械教師のインタフェースとして導入するユーティリティ/ダウンサイドについて検討する。
第二のプロジェクトは、因果性に基づくヒューマン・イン・ザ・ループ視覚ツールであるD-BIASを紹介し、データセットの社会的バイアスを特定し緩和する。
第3のプロジェクトは、グループに対するバイアスに対するトレーニング済みの静的単語埋め込みの監査を支援する、ビジュアルインタラクティブツールであるWordBiasを提示する。
4番目のプロジェクトは、ソーシャルを識別するビジュアル分析ツールDramatVis Personae
論文 参考訳(メタデータ) (2023-06-12T21:08:55Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Data Representativity for Machine Learning and AI Systems [2.588973722689844]
機械学習モデルを通じてデータから推論を描く場合、データの表現力は不可欠である。
本稿では,AIとサンプリングに関する科学文献におけるデータ表現性について分析する。
論文 参考訳(メタデータ) (2022-03-09T13:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。