論文の概要: Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges
- arxiv url: http://arxiv.org/abs/2406.02748v1
- Date: Tue, 4 Jun 2024 20:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 22:58:01.770026
- Title: Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges
- Title(参考訳): ビジュアルインプットからストーリ生成:テクニック,関連課題,課題
- Authors: Daniel A. P. Oliveira, Eugénio Ribeiro, David Martins de Matos,
- Abstract要約: この調査では、画像やビデオのキャプション、視覚的質問応答など、自動ストーリ生成に関わるタスクについても取り上げている。
これらのタスクは、視覚的なストーリー生成と共通の課題を共有し、現場で使用されるテクニックのインスピレーションとなった。
主要なデータセットと評価指標を分析し、それらの制限について重要な視点を提供する。
- 参考スコア(独自算出の注目度): 0.21847754147782888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating engaging narratives from visual data is crucial for automated digital media consumption, assistive technologies, and interactive entertainment. This survey covers methodologies used in the generation of these narratives, focusing on their principles, strengths, and limitations. The survey also covers tasks related to automatic story generation, such as image and video captioning, and visual question answering, as well as story generation without visual inputs. These tasks share common challenges with visual story generation and have served as inspiration for the techniques used in the field. We analyze the main datasets and evaluation metrics, providing a critical perspective on their limitations.
- Abstract(参考訳): ビジュアルデータから魅力的な物語を作ることは、デジタルメディアの自動消費、補助技術、インタラクティブエンターテイメントにとって不可欠である。
この調査は、これらの物語の生成に使用される方法論を取り上げ、それらの原則、強み、限界に焦点をあてる。
この調査では、画像やビデオのキャプション、視覚的な質問応答、視覚的な入力のないストーリー生成など、自動ストーリ生成に関わるタスクについても取り上げている。
これらのタスクは、視覚的なストーリー生成と共通の課題を共有し、現場で使用されるテクニックのインスピレーションとなった。
主要なデータセットと評価指標を分析し、それらの制限について重要な視点を提供する。
関連論文リスト
- TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - What You Say Is What You Show: Visual Narration Detection in
Instructional Videos [108.77600799637172]
本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。
We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
論文 参考訳(メタデータ) (2023-01-05T21:43:19Z) - Summarization with Graphical Elements [55.5913491389047]
本稿では,グラフィカル要素による要約という新しい課題を提案する。
タスクの研究を支援するために,高品質なラベル付きデータセットを収集する。
論文 参考訳(メタデータ) (2022-04-15T17:16:41Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z) - Cue Me In: Content-Inducing Approaches to Interactive Story Generation [74.09575609958743]
本研究では,対話型物語生成の課題に焦点をあてる。
本稿では、この追加情報を効果的に活用するための2つのコンテンツ誘導手法を提案する。
自動評価と人的評価の両方による実験結果から,これらの手法がよりトポロジ的な一貫性とパーソナライズされたストーリーを生み出すことが示された。
論文 参考訳(メタデータ) (2020-10-20T00:36:15Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - Visual Relationship Detection using Scene Graphs: A Survey [1.3505077405741583]
シーングラフ(Scene Graph)は、シーンとその中のさまざまな関係をよりよく表現するためのテクニックである。
本稿では、シーングラフ生成の様々な技術、視覚的関係を表現するための有効性、下流の様々な課題の解決にどのように使われているかについて、詳細な調査を行う。
論文 参考訳(メタデータ) (2020-05-16T17:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。