論文の概要: SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset
- arxiv url: http://arxiv.org/abs/2406.14477v1
- Date: Thu, 20 Jun 2024 16:38:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:43:03.185570
- Title: SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset
- Title(参考訳): SafeSora: 人間の選好データセットによるText2Video生成の安全アライメントを目指して
- Authors: Josef Dai, Tianle Chen, Xuyao Wang, Ziran Yang, Taiye Chen, Jiaming Ji, Yaodong Yang,
- Abstract要約: このデータセットは、テキスト・ビデオ生成タスクにおける人間の嗜好を2つの主要な次元に沿って包含する。
SafeSoraデータセットには、14,711のユニークなプロンプト、4つの異なるLVMによって生成された57,333のユニークなビデオ、人間によってラベル付けされた51,691対の好みアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 7.585772927643345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To mitigate the risk of harmful outputs from large vision models (LVMs), we introduce the SafeSora dataset to promote research on aligning text-to-video generation with human values. This dataset encompasses human preferences in text-to-video generation tasks along two primary dimensions: helpfulness and harmlessness. To capture in-depth human preferences and facilitate structured reasoning by crowdworkers, we subdivide helpfulness into 4 sub-dimensions and harmlessness into 12 sub-categories, serving as the basis for pilot annotations. The SafeSora dataset includes 14,711 unique prompts, 57,333 unique videos generated by 4 distinct LVMs, and 51,691 pairs of preference annotations labeled by humans. We further demonstrate the utility of the SafeSora dataset through several applications, including training the text-video moderation model and aligning LVMs with human preference by fine-tuning a prompt augmentation module or the diffusion model. These applications highlight its potential as the foundation for text-to-video alignment research, such as human preference modeling and the development and validation of alignment algorithms.
- Abstract(参考訳): 大規模ビジョンモデル(LVM)からの有害な出力のリスクを軽減するため,テキスト・ビデオ生成と人的価値の整合性の研究を促進するため,SafeSoraデータセットを導入した。
このデータセットは、テキスト・ビデオ生成タスクにおける人間の嗜好を2つの主要な次元に沿って包含する。
より詳細な人間の嗜好を把握し,クラウドワーカーによる構造的推論を容易にするため,補助力を4つのサブディメンジョンに分割し,害のないものを12のサブカテゴリに分割し,パイロットアノテーションの基礎となる。
SafeSoraデータセットには、14,711のユニークなプロンプト、4つの異なるLVMによって生成された57,333のユニークなビデオ、人間によってラベル付けされた51,691対の好みアノテーションが含まれている。
さらに,テキストビデオモデレーションモデルのトレーニングや,プロンプト拡張モジュールや拡散モデルを微調整することで,LVMを人間の好みに合わせて調整するなど,SafeSoraデータセットの有用性をいくつかのアプリケーションで実証する。
これらのアプリケーションは、人間の嗜好モデリングやアライメントアルゴリズムの開発と検証など、テキストとビデオのアライメント研究の基礎としての可能性を強調している。
関連論文リスト
- Aegis2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails [4.697160328460634]
大規模言語モデル(LLM)と生成AIが普及している。
LLM関連の安全リスクの完全なスペクトルに対処する、高品質で人間による注釈付きデータセットの欠如は明らかです。
安全リスクを分類するための包括的かつ適応可能な分類法を提案する。
論文 参考訳(メタデータ) (2025-01-15T18:37:08Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。