Fugu-MT 論文翻訳(概要): Detecting and Grounding Important Characters in Visual Stories

論文の概要: Detecting and Grounding Important Characters in Visual Stories

arxiv url: http://arxiv.org/abs/2303.17647v1
Date: Thu, 30 Mar 2023 18:24:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-03 16:14:08.728370
Title: Detecting and Grounding Important Characters in Visual Stories
Title（参考訳）: ビジュアルストーリーにおける重要人物の検出と接地
Authors: Danyang Liu, Frank Keller
Abstract要約: 本稿では,リッチな文字中心アノテーションを提供するVIST-Characterデータセットを紹介する。このデータセットに基づいて,重要な文字の検出と,視覚的ストーリーにおける文字のグラウンド化という,2つの新しいタスクを提案する。本研究では,分布類似性と事前学習された視覚・言語モデルに基づく,シンプルで教師なしのモデルを開発する。
参考スコア（独自算出の注目度）: 18.870236356616907
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Characters are essential to the plot of any story. Establishing the characters before writing a story can improve the clarity of the plot and the overall flow of the narrative. However, previous work on visual storytelling tends to focus on detecting objects in images and discovering relationships between them. In this approach, characters are not distinguished from other objects when they are fed into the generation pipeline. The result is a coherent sequence of events rather than a character-centric story. In order to address this limitation, we introduce the VIST-Character dataset, which provides rich character-centric annotations, including visual and textual co-reference chains and importance ratings for characters. Based on this dataset, we propose two new tasks: important character detection and character grounding in visual stories. For both tasks, we develop simple, unsupervised models based on distributional similarity and pre-trained vision-and-language models. Our new dataset, together with these models, can serve as the foundation for subsequent work on analysing and generating stories from a character-centric perspective.
Abstract（参考訳）: 登場人物はどんな物語の筋書きにも欠かせない。ストーリーを書く前にキャラクターを確立することは、プロットの明快さと物語全体の流れを改善することができる。しかし、ビジュアルストーリーテリングに関する以前の研究は、画像中のオブジェクトの検出とそれらの間の関係の発見に集中する傾向がある。このアプローチでは、文字は生成パイプラインに投入されたときに他のオブジェクトと区別されない。結果として、キャラクター中心のストーリーではなく、イベントのコヒーレントなシーケンスになる。この制限に対処するために、vist-characterデータセットを導入し、ビジュアルおよびテキストのコリファレンスチェーンと文字の重要性評価を含む、リッチな文字中心のアノテーションを提供する。このデータセットに基づいて,重要な文字検出と視覚的ストーリーにおける文字グラウンドニングという2つの新しいタスクを提案する。どちらのタスクでも,分布的類似性と事前学習された視覚言語モデルに基づく,単純で教師なしのモデルを開発する。我々の新しいデータセットは、これらのモデルとともに、キャラクター中心の視点からストーリーを分析し、生成する作業の基盤となる。

関連論文リスト

StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization [36.14275850149665]
本稿では,様々なストーリー関連知識を包括的に表現した新しい知識グラフ,すなわちキャラクタグラフ(textbfCG)を提案する。次に、リッチテキストセマンティクスと一貫したストーリー視覚化が可能な、キャラクタグラフ(textbfC-CG)によるカスタマイズを実現するイメージジェネレータであるStoryWeaverを紹介する。
論文参考訳（メタデータ） (2024-12-10T10:16:50Z)
CHATTER: A Character Attribution Dataset for Narrative Understanding [31.540540919042154]
我々はCHATTERのサブセットであるCHATTEREVALを検証する。CHATTEREVALは人間のアノテーションを用いて映画スクリプトの文字属性タスクを評価するためのベンチマークとして機能する。 evaldatasetはまた、言語モデルの物語理解と長文モデリング能力を評価する。
論文参考訳（メタデータ） (2024-11-07T22:37:30Z)
BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文参考訳（メタデータ） (2024-10-14T10:55:58Z)
Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文参考訳（メタデータ） (2024-09-20T14:56:33Z)
CHIRON: Rich Character Representations in Long-Form Narratives [98.273323001781]
文字のテキスト情報を整理・フィルタリングする新しい文字シートの表現であるCHIRONを提案する。実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。 CHIRONから派生したメトリクスは、ストーリーのキャラクター中心性を自動的に推測するために使用することができ、これらのメトリクスは人間の判断と一致している。
論文参考訳（メタデータ） (2024-06-14T17:23:57Z)
Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models [79.21968152209193]
ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。 EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
論文参考訳（メタデータ） (2024-05-20T07:54:03Z)
TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文参考訳（メタデータ） (2024-03-18T08:01:23Z)
Personality Understanding of Fictional Characters during Book Reading [81.68515671674301]
この問題に対する最初のラベル付きデータセットPersoNetを提示する。当社の新たなアノテーション戦略では,オリジナル書籍のプロキシとして,オンライン読書アプリからユーザノートを注釈付けします。実験と人間の研究は、データセットの構築が効率的かつ正確であることを示している。
論文参考訳（メタデータ） (2023-05-17T12:19:11Z)
"Let Your Characters Tell Their Story": A Dataset for Character-Centric Narrative Understanding [31.803481510886378]
文芸作品の新しいデータセットLiSCUとその要約を、それらに現れる文字の記述と組み合わせて紹介する。また、LiSCUにおける文字識別と文字記述生成という2つの新しいタスクについても紹介する。これらの課題に適応した事前学習型言語モデルを用いた実験により,より優れた物語理解モデルの必要性が示された。
論文参考訳（メタデータ） (2021-09-12T06:12:55Z)
PlotMachines: Outline-Conditioned Generation with Dynamic Plot State Tracking [128.76063992147016]
PlotMachinesは、動的プロット状態を追跡することによってアウトラインをコヒーレントなストーリーに変換することを学習する、ニューラルな物語モデルである。さらに,PlotMachinesを高レベルな談話構造で強化し,モデルが物語の異なる部分に対応する筆記スタイルを学習できるようにした。
論文参考訳（メタデータ） (2020-04-30T17:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。