Fugu-MT 論文翻訳(概要): Deep Generative Multimedia Children's Literature

論文の概要: Deep Generative Multimedia Children's Literature

arxiv url: http://arxiv.org/abs/2209.13129v1
Date: Tue, 27 Sep 2022 03:23:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 15:24:16.968455
Title: Deep Generative Multimedia Children's Literature
Title（参考訳）: マルチメディア児童文学の深層化
Authors: Matthew L. Olson
Abstract要約: 私は、複数の公開可能なディープラーニングモデルを組み合わせて、マルチメディアエンターテイメントの世代で完全に自動化されたシステムを作成します。私が提案するフレームワークは,あらゆるジャンルのエンターテイメントに対して十分に汎用的だが,子どものビデオ文学制作の課題に重点を置いている。
参考スコア（独自算出の注目度）: 0.6091702876917279
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The popularity in Deep Learning (DL) based creative endeavours continues to grow without any signs of slowing down. Unpredictable to many a decade ago, the achievements of DL models in a variety of creative domains are spectacular in their own right. In this work, I combine multiple publicly available DL models to create a fully automated system in the generation of multimedia entertainment. The framework I propose is general enough for any genre of entertainment, but I focus on the task of children's video literature production.
Abstract（参考訳）: ディープラーニング(DL)ベースのクリエイティブな取り組みの人気は、減速の兆候なしに成長を続けている。 10年前とは違って、さまざまなクリエイティブドメインにおけるDLモデルの成果は、それ自体が目覚ましいものです。この作業では、複数の公開DLモデルを組み合わせて、マルチメディアエンターテイメントの世代で完全に自動化されたシステムを作成します。私が提案するフレームワークは,あらゆるジャンルのエンターテイメントに対して十分に汎用的だが,子どものビデオ文学制作の課題に重点を置いている。

関連論文リスト

From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
GODBench: A Benchmark for Multimodal Large Language Models in Video Comment Art [38.40471808648207]
ビデオコメントアートはユーモア、風刺、感情共鳴を伝達する創造的なコンテンツを提供することによってユーザーのエンゲージメントを高める。我々は、ビデオとテキストのモダリティを統合した新しいベンチマークであるGODBenchを紹介し、コメントアートを構成するMLLMの能力を体系的に評価する。また,MLLMの創造性向上を目的とした多段階推論フレームワークRipple of Thought (RoT)を提案する。
論文参考訳（メタデータ） (2025-05-16T16:56:40Z)
Cooking Up Creativity: A Cognitively-Inspired Approach for Enhancing LLM Creativity through Structured Representations [53.950760059792614]
大きな言語モデル(LLM)は数え切れないほど多くのタスクで優れていますが、創造性に苦慮しています。我々は、LLMと構造化表現を結合し、より創造的で多様なアイデアを生み出すために認知的にインスピレーションを与える新しいアプローチを導入する。我々は、創造的なレシピを生成するモデルであるDishCOVERを用いて、料理分野における我々のアプローチを実証する。
論文参考訳（メタデータ） (2025-04-29T11:13:06Z)
Wan: Open and Advanced Large-Scale Video Generative Models [83.03603932233275]
Wanは、ビデオ生成の境界を推し進めるために設計された、ビデオファンデーションモデルのスイートである。我々は、ソースコードやすべてのモデルを含む一連のWanをオープンソース化し、ビデオ生成コミュニティの成長を促進することを目的としています。
論文参考訳（メタデータ） (2025-03-26T08:25:43Z)
Generative AI for Cel-Animation: A Survey [40.19745109954743]
CelAnimationの課題には、ストーリーボード、レイアウトデザイン、インベントワイニング、カラー化などがある。生成人工知能(GenAI)の台頭は、フレーム生成、色付け、ストーリーボード作成などのタスクを自動化することで革新的なソリューションを提供する。この調査では、GenAI統合が、技術的な障壁を減らし、より広い範囲のクリエーターへのアクセシビリティを拡大することで、従来のアニメーションに革命をもたらす方法を探る。
論文参考訳（メタデータ） (2025-01-08T20:57:39Z)
Evaluating Creative Short Story Generation in Humans and Large Language Models [0.7965327033045846]
大規模言語モデル (LLM) は高品質なストーリーを生成する能力を示したが、創造的なストーリー記述能力は未探索のままである。我々は,5文の創造的ストーリー記述タスクを用いて,60 LLMと60人の短いストーリー生成において,創造性を体系的に分析する。
論文参考訳（メタデータ） (2024-11-04T17:40:39Z)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文参考訳（メタデータ） (2024-07-23T17:17:05Z)
Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models [38.5896770458884]
我々はArtbreeder上で95Kユーザによって生成された6.8Mイメージと1.8Mプロンプトの包括的なデータセットであるtextttSTYLEBREEDERを紹介した。サイバーパンクやピカソといった従来のカテゴリを超越したユニークなユーザ生成スタイルを文書化することによって,ユニークなクラウドソーススタイルの可能性を探る。本研究は,ユニークな表現の発見と促進を目的としたテキスト・画像拡散モデルの可能性を示すものである。
論文参考訳（メタデータ） (2024-06-20T17:59:56Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文参考訳（メタデータ） (2024-05-13T22:37:52Z)
Real-time Animation Generation and Control on Rigged Models via Large Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文参考訳（メタデータ） (2023-10-27T01:36:35Z)
Luminate: Structured Generation and Exploration of Design Space with Large Language Models for Human-AI Co-Creation [19.62178304006683]
現在のインタラクションパラダイムは不足しており、限られたアイデアの集合に対して、ユーザを迅速なコンバージェンスへと導くものだ、と私たちは主張する。本研究では,ユーザがシームレスに探索し,評価し,多数の応答を合成できる設計空間の構造化を促進するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T17:53:14Z)
State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文参考訳（メタデータ） (2023-10-11T05:32:29Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal Guided Diffusion [78.47285788155818]
現在のデジタルアート合成法は、通常、単一のモダリティ入力をガイダンスとして使用する。拡散型デジタルアートワーク生成手法であるMGADモデルを提案する。
論文参考訳（メタデータ） (2022-09-27T13:10:25Z)
Exploring Latent Dimensions of Crowd-sourced Creativity [0.02294014185517203]
私たちは、AIベースの最大のクリエイティビティプラットフォームであるArtbreederの開発を行っています。このプラットフォーム上で生成された画像の潜在次元を探索し、画像を操作するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-13T19:24:52Z)
Creativity of Deep Learning: Conceptualization and Assessment [1.5738019181349994]
我々は,創造的領域における生成的深層学習の現在の応用を概念化し,評価するために,計算的創造性からの洞察を利用する。私たちは、現在のシステムと、人間の創造性の異なるモデルと、その欠点の類似点を強調します。
論文参考訳（メタデータ） (2020-12-03T21:44:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。