Fugu-MT 論文翻訳(概要): Depictions of Depression in Generative AI Video Models: A Preliminary Study of OpenAI's Sora 2

論文の概要: Depictions of Depression in Generative AI Video Models: A Preliminary Study of OpenAI's Sora 2

arxiv url: http://arxiv.org/abs/2603.19527v1
Date: Thu, 19 Mar 2026 23:44:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:38.918698
Title: Depictions of Depression in Generative AI Video Models: A Preliminary Study of OpenAI's Sora 2
Title（参考訳）: 生成型AIビデオモデルにおける抑うつの低下--OpenAIのSora 2の予備研究
Authors: Matthew Flathers, Griffin Smith, Julian Herpertz, Zhitong Zhou, John Torous,
Abstract要約: 生成的ビデオモデルは、メンタルヘルス体験の複雑な描写を生み出す能力がますます高まっている。本研究は,OpenAI の Sora 2 生成ビデオモデルがどのようにうつ病を描写しているかを特徴付ける。私たちは、コンシューマアプリと開発者APIという2つのアクセスポイントにまたがって、シングルワードプロンプト"デプレッション"を使って、100のビデオを生成しました。
参考スコア（独自算出の注目度）: 0.06524460254566904
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative video models are increasingly capable of producing complex depictions of mental health experiences, yet little is known about how these systems represent conditions like depression. This study characterizes how OpenAI's Sora 2 generative video model depicts depression and examines whether depictions differ between the consumer App and developer API access points. We generated 100 videos using the single-word prompt "Depression" across two access points: the consumer App (n=50) and developer API (n=50). Two trained coders independently coded narrative structure, visual environments, objects, figure demographics, and figure states. Computational features across visual aesthetics, audio, semantic content, and temporal dynamics were extracted and compared between modalities. App-generated videos exhibited a pronounced recovery bias: 78% (39/50) featured narrative arcs progressing from depressive states toward resolution, compared with 14% (7/50) of API outputs. App videos brightened over time (slope = 2.90 brightness units/second vs. -0.18 for API; d = 1.59, q < .001) and contained three times more motion (d = 2.07, q < .001). Across both modalities, videos converged on a narrow visual vocabulary and featured recurring objects including hoodies (n=194), windows (n=148), and rain (n=83). Figures were predominantly young adults (88% aged 20-30) and nearly always alone (98%). Gender varied by access point: App outputs skewed male (68%), API outputs skewed female (59%). Sora 2 does not invent new visual grammars for depression but compresses and recombines cultural iconographies, while platform-level constraints substantially shape which narratives reach users. Clinicians should be aware that AI-generated mental health video content reflects training data and platform design rather than clinical knowledge, and that patients may encounter such content during vulnerable periods.
Abstract（参考訳）: 生成的ビデオモデルは、メンタルヘルス体験の複雑な描写を生み出す能力がますます高まっているが、これらのシステムがうつ病のような状態をどう表現しているかは分かっていない。本研究は,OpenAI の Sora 2 生成ビデオモデルがどのようにうつ病を描写しているかを特徴付け,コンシューマアプリと開発者 API アクセスポイントの描写の違いを検証した。コンシューマアプリ (n=50) と開発者API (n=50) の2つのアクセスポイントをまたいだシングルワードプロンプト "Depression" を使って,100本のビデオを生成しました。 2つの訓練されたコーダは、独立して物語構造、視覚環境、オブジェクト、人物の人口統計、および図形状態をコーディングした。視覚美学,音声,意味的内容,時間的ダイナミクスの計算的特徴を抽出し,モダリティの比較を行った。 78% (39/50) は抑うつ状態から解像度に向かって進行する物語の弧を特徴とし、API出力の14% (7/50) はAPI出力であった。アプリビデオは時間とともに明るくなり(slope = 2.90 単位/秒 vs. -0.18 API; d = 1.59, q < .001)、さらに3倍の動き(d = 2.07, q < .001)があった。両モードとも、ビデオは狭い視覚語彙に収束し、パーカー(n=194)、ウィンドウ(n=148)、雨(n=83)などの繰り返し物体が特徴的である。調査対象は成人の88%(20～30歳)と,ほぼ1人(98%)であった。アプリはスキュードの男性(68%)を出力し、API出力はスキュードの女性(59%)を出力します。 Sora 2は、抑うつのための新しい視覚文法を発明するのではなく、文化図像を圧縮し、再結合する。臨床医は、AIが生成するメンタルヘルスビデオコンテンツは、臨床知識よりもトレーニングデータやプラットフォームデザインを反映しており、患者は脆弱な期間にそのようなコンテンツに遭遇する可能性があることに気付くべきである。

関連論文リスト

A Multimodal Framework for Depression Detection during Covid-19 via Harvesting Social Media: A Novel Dataset and Method [3.884231159866055]
新型コロナウイルス(COVID-19)はパンデミックとなり、世界中で影響を与えている。うつ病は世界中のほとんどの病気に大きく影響し、人々の精神的な健康状態を検出することは困難である。本稿では,ソーシャルメディア利用者の抑うつを検出するために,テキスト,ユーザ固有,画像分析を組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-01T06:33:14Z)
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding [70.00000053847738]
物理的な世界と対話するAIシステムには、真の視覚的理解が不可欠である。現在の評価では、主にトレーニングデータと同様の実際のビデオを使用する。物理的に不可能または論理的に矛盾する事象を描写するビデオを用いた負制御テストを提案する。
論文参考訳（メタデータ） (2025-05-02T15:58:38Z)
Simple Visual Artifact Detection in Sora-Generated Videos [9.991747596111011]
本研究では,Sora生成ビデオで頻繁に発見・報告される視覚的アーティファクトについて検討する。 4種類の共通アーティファクトラベルを対象とするマルチラベル分類フレームワークを提案する。 ResNet-50で訓練された最高の性能モデルは、平均的なマルチラベル分類精度94.14%を達成した。
論文参考訳（メタデータ） (2025-04-30T05:41:43Z)
Reading Between the Frames: Multi-Modal Depression Detection in Videos from Non-Verbal Cues [11.942057763913208]
世界的障害への顕著な貢献者である抑うつは、人口のかなりの部分に影響を与える。ソーシャルメディアのテキストからうつ病を検知する試みは広く行われているが、ユーザー生成ビデオコンテンツからうつ病を検知する研究はごくわずかしか行われていない。本研究では, ノイズの多い実世界のビデオにおいて, 多様なモーダル性から非言語的抑うつの手がかりを識別できる, 単純で柔軟なマルチモーダル時間モデルを提案する。
論文参考訳（メタデータ） (2024-01-05T10:47:42Z)
How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。 Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。 Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文参考訳（メタデータ） (2022-10-18T17:58:25Z)
Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文参考訳（メタデータ） (2022-07-26T17:39:04Z)
Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文参考訳（メタデータ） (2021-03-29T09:09:39Z)
"Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文参考訳（メタデータ） (2020-06-12T06:51:55Z)
DramaQA: Character-Centered Video Story Understanding with Hierarchical QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文参考訳（メタデータ） (2020-05-07T09:44:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。