論文の概要: Detecting and Grounding Important Characters in Visual Stories
- arxiv url: http://arxiv.org/abs/2303.17647v1
- Date: Thu, 30 Mar 2023 18:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:14:08.728370
- Title: Detecting and Grounding Important Characters in Visual Stories
- Title(参考訳): ビジュアルストーリーにおける重要人物の検出と接地
- Authors: Danyang Liu, Frank Keller
- Abstract要約: 本稿では,リッチな文字中心アノテーションを提供するVIST-Characterデータセットを紹介する。
このデータセットに基づいて,重要な文字の検出と,視覚的ストーリーにおける文字のグラウンド化という,2つの新しいタスクを提案する。
本研究では,分布類似性と事前学習された視覚・言語モデルに基づく,シンプルで教師なしのモデルを開発する。
- 参考スコア(独自算出の注目度): 18.870236356616907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Characters are essential to the plot of any story. Establishing the
characters before writing a story can improve the clarity of the plot and the
overall flow of the narrative. However, previous work on visual storytelling
tends to focus on detecting objects in images and discovering relationships
between them. In this approach, characters are not distinguished from other
objects when they are fed into the generation pipeline. The result is a
coherent sequence of events rather than a character-centric story. In order to
address this limitation, we introduce the VIST-Character dataset, which
provides rich character-centric annotations, including visual and textual
co-reference chains and importance ratings for characters. Based on this
dataset, we propose two new tasks: important character detection and character
grounding in visual stories. For both tasks, we develop simple, unsupervised
models based on distributional similarity and pre-trained vision-and-language
models. Our new dataset, together with these models, can serve as the
foundation for subsequent work on analysing and generating stories from a
character-centric perspective.
- Abstract(参考訳): 登場人物はどんな物語の筋書きにも欠かせない。
ストーリーを書く前にキャラクターを確立することは、プロットの明快さと物語全体の流れを改善することができる。
しかし、ビジュアルストーリーテリングに関する以前の研究は、画像中のオブジェクトの検出とそれらの間の関係の発見に集中する傾向がある。
このアプローチでは、文字は生成パイプラインに投入されたときに他のオブジェクトと区別されない。
結果として、キャラクター中心のストーリーではなく、イベントのコヒーレントなシーケンスになる。
この制限に対処するために、vist-characterデータセットを導入し、ビジュアルおよびテキストのコリファレンスチェーンと文字の重要性評価を含む、リッチな文字中心のアノテーションを提供する。
このデータセットに基づいて,重要な文字検出と視覚的ストーリーにおける文字グラウンドニングという2つの新しいタスクを提案する。
どちらのタスクでも,分布的類似性と事前学習された視覚言語モデルに基づく,単純で教師なしのモデルを開発する。
我々の新しいデータセットは、これらのモデルとともに、キャラクター中心の視点からストーリーを分析し、生成する作業の基盤となる。
関連論文リスト
- StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization [36.14275850149665]
本稿では,様々なストーリー関連知識を包括的に表現した新しい知識グラフ,すなわちキャラクタグラフ(textbfCG)を提案する。
次に、リッチテキストセマンティクスと一貫したストーリー視覚化が可能な、キャラクタグラフ(textbfC-CG)によるカスタマイズを実現するイメージジェネレータであるStoryWeaverを紹介する。
論文 参考訳(メタデータ) (2024-12-10T10:16:50Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - CHIRON: Rich Character Representations in Long-Form Narratives [98.273323001781]
文字のテキスト情報を整理・フィルタリングする新しい文字シートの表現であるCHIRONを提案する。
実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。
CHIRONから派生したメトリクスは、ストーリーのキャラクター中心性を自動的に推測するために使用することができ、これらのメトリクスは人間の判断と一致している。
論文 参考訳(メタデータ) (2024-06-14T17:23:57Z) - Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models [79.21968152209193]
ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。
EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
論文 参考訳(メタデータ) (2024-05-20T07:54:03Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Personality Understanding of Fictional Characters during Book Reading [81.68515671674301]
この問題に対する最初のラベル付きデータセットPersoNetを提示する。
当社の新たなアノテーション戦略では,オリジナル書籍のプロキシとして,オンライン読書アプリからユーザノートを注釈付けします。
実験と人間の研究は、データセットの構築が効率的かつ正確であることを示している。
論文 参考訳(メタデータ) (2023-05-17T12:19:11Z) - PlotMachines: Outline-Conditioned Generation with Dynamic Plot State
Tracking [128.76063992147016]
PlotMachinesは、動的プロット状態を追跡することによってアウトラインをコヒーレントなストーリーに変換することを学習する、ニューラルな物語モデルである。
さらに,PlotMachinesを高レベルな談話構造で強化し,モデルが物語の異なる部分に対応する筆記スタイルを学習できるようにした。
論文 参考訳(メタデータ) (2020-04-30T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。