論文の概要: A Human-ML Collaboration Framework for Improving Video Content Reviews
- arxiv url: http://arxiv.org/abs/2210.09500v1
- Date: Tue, 18 Oct 2022 00:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:26:10.449249
- Title: A Human-ML Collaboration Framework for Improving Video Content Reviews
- Title(参考訳): ビデオコンテンツレビュー改善のためのヒューマンmlコラボレーションフレームワーク
- Authors: Meghana Deodhar, Xiao Ma, Yixin Cai, Alex Koes, Alex Beutel, Jilin
Chen
- Abstract要約: ビデオコンテンツモデレーション領域におけるビデオ内分類学的人間のアノテーションの局所化の問題に対処する。
私たちの重要な貢献は、人間の意思決定の質と効率を最大化することを目的とした、新しいヒューマンマシンラーニング(ML)コラボレーションフレームワークです。
- 参考スコア(独自算出の注目度): 12.841825384884679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We deal with the problem of localized in-video taxonomic human annotation in
the video content moderation domain, where the goal is to identify video
segments that violate granular policies, e.g., community guidelines on an
online video platform. High quality human labeling is critical for enforcement
in content moderation. This is challenging due to the problem of information
overload - raters need to apply a large taxonomy of granular policy violations
with ambiguous definitions, within a limited review duration to relatively long
videos. Our key contribution is a novel human-machine learning (ML)
collaboration framework aimed at maximizing the quality and efficiency of human
decisions in this setting - human labels are used to train segment-level
models, the predictions of which are displayed as "hints" to human raters,
indicating probable regions of the video with specific policy violations. The
human verified/corrected segment labels can help refine the model further,
hence creating a human-ML positive feedback loop. Experiments show improved
human video moderation decision quality, and efficiency through more granular
annotations submitted within a similar review duration, which enable a 5-8% AUC
improvement in the hint generation models.
- Abstract(参考訳): ビデオコンテンツモデレーションドメインにおける動画内分類学的ヒューマンアノテーションのローカライズの問題に対処し,オンラインビデオプラットフォームにおけるコミュニティガイドラインなど,細かなポリシーに違反するビデオセグメントの特定を目標としている。
高品質な人間のラベル付けは、コンテンツモデレーションの実施に不可欠である。
これは、情報の過負荷の問題のため、難しい。レートは、比較的長いビデオに対するレビュー期間内で、あいまいな定義による粒度のポリシー違反の大きな分類を適用する必要がある。
我々の重要な貢献は、この設定における人間の意思決定の質と効率を最大化することを目的とした、新しいヒューマンマシンラーニング(ML)コラボレーションフレームワークである。
ヒトの検証/修正セグメントラベルは、モデルをさらに洗練し、人間-MLの肯定的なフィードバックループを生成するのに役立つ。
実験では、人間のビデオモデレーション決定品質の向上と、同様のレビュー期間内に提出されたより細かいアノテーションによる効率の向上が示され、ヒント生成モデルの5~8%のauc改善が可能となった。
関連論文リスト
- HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、17の慎重に設計されたタスクで構成されており、内的感情と外的表現、静的、動的、基本的、複雑にまたがる、シングルモーダルとクロスモーダルという2つの主要な側面を探索する。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Use of Affective Visual Information for Summarization of Human-Centric
Videos [13.273989782771556]
本研究では、人間中心のビデオに対する感情情報豊かに教師付きビデオ要約タスクについて検討する。
まず、RECOLAデータセット上で視覚的入力駆動型感情認識モデル(CER-NET)を訓練し、感情特性を推定する。
次に,CER-NETの感情特性と高レベル表現を視覚情報と統合し,提案した情緒的映像要約アーキテクチャ(AVSUM)を定義する。
論文 参考訳(メタデータ) (2021-07-08T11:46:04Z) - On Development and Evaluation of Retargeting Human Motion and Appearance
in Monocular Videos [2.870762512009438]
人間の俳優のビデオ間の人間の動きと外観の転送は、コンピュータビジョンの重要な課題の1つです。
本稿では,競争性のある視覚品質を示すハイブリッドイメージベースレンダリング技術に基づく,新規かつ高性能なアプローチを提案する。
また,人間の動画を合成するタスクを評価するために,アノテートされた人間の動きと異なる映像からなる新しいビデオベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:17:41Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。