論文の概要: SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset
- arxiv url: http://arxiv.org/abs/2406.14477v1
- Date: Thu, 20 Jun 2024 16:38:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:43:03.185570
- Title: SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset
- Title(参考訳): SafeSora: 人間の選好データセットによるText2Video生成の安全アライメントを目指して
- Authors: Josef Dai, Tianle Chen, Xuyao Wang, Ziran Yang, Taiye Chen, Jiaming Ji, Yaodong Yang,
- Abstract要約: このデータセットは、テキスト・ビデオ生成タスクにおける人間の嗜好を2つの主要な次元に沿って包含する。
SafeSoraデータセットには、14,711のユニークなプロンプト、4つの異なるLVMによって生成された57,333のユニークなビデオ、人間によってラベル付けされた51,691対の好みアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 7.585772927643345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To mitigate the risk of harmful outputs from large vision models (LVMs), we introduce the SafeSora dataset to promote research on aligning text-to-video generation with human values. This dataset encompasses human preferences in text-to-video generation tasks along two primary dimensions: helpfulness and harmlessness. To capture in-depth human preferences and facilitate structured reasoning by crowdworkers, we subdivide helpfulness into 4 sub-dimensions and harmlessness into 12 sub-categories, serving as the basis for pilot annotations. The SafeSora dataset includes 14,711 unique prompts, 57,333 unique videos generated by 4 distinct LVMs, and 51,691 pairs of preference annotations labeled by humans. We further demonstrate the utility of the SafeSora dataset through several applications, including training the text-video moderation model and aligning LVMs with human preference by fine-tuning a prompt augmentation module or the diffusion model. These applications highlight its potential as the foundation for text-to-video alignment research, such as human preference modeling and the development and validation of alignment algorithms.
- Abstract(参考訳): 大規模ビジョンモデル(LVM)からの有害な出力のリスクを軽減するため,テキスト・ビデオ生成と人的価値の整合性の研究を促進するため,SafeSoraデータセットを導入した。
このデータセットは、テキスト・ビデオ生成タスクにおける人間の嗜好を2つの主要な次元に沿って包含する。
より詳細な人間の嗜好を把握し,クラウドワーカーによる構造的推論を容易にするため,補助力を4つのサブディメンジョンに分割し,害のないものを12のサブカテゴリに分割し,パイロットアノテーションの基礎となる。
SafeSoraデータセットには、14,711のユニークなプロンプト、4つの異なるLVMによって生成された57,333のユニークなビデオ、人間によってラベル付けされた51,691対の好みアノテーションが含まれている。
さらに,テキストビデオモデレーションモデルのトレーニングや,プロンプト拡張モジュールや拡散モデルを微調整することで,LVMを人間の好みに合わせて調整するなど,SafeSoraデータセットの有用性をいくつかのアプリケーションで実証する。
これらのアプリケーションは、人間の嗜好モデリングやアライメントアルゴリズムの開発と検証など、テキストとビデオのアライメント研究の基礎としての可能性を強調している。
関連論文リスト
- Supporting Human Raters with the Detection of Harmful Content using Large Language Models [8.580258386804282]
大規模言語モデル (LLMs) は, 人間の判断と比較して90%の精度を達成できることを実証した。
人間の評価とLLMを統合した5つのデザインパターンを提案する。
提案した手法を現実世界のレビューキューで試行することで、利用可能な人間のレーダ容量の最適化が41.5%向上したことを共有しています。
論文 参考訳(メタデータ) (2024-06-18T17:12:50Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。
LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。
AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Large Language Models for Propaganda Span Annotation [11.64165958410489]
GPT-4のような大規模言語モデル(LLM)が効果的にタスクを実行できるかどうかを検討する。
さまざまな専門知識を持つアノテータからのアノテーションで構成された大規模な社内データセットを使用します。
GPT-4を含む複数のアノテータから収集したスパンレベルラベルをコミュニティに提供する予定です。
論文 参考訳(メタデータ) (2023-11-16T11:37:54Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。