論文の概要: StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation
- arxiv url: http://arxiv.org/abs/2505.10292v1
- Date: Thu, 15 May 2025 13:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.335788
- Title: StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation
- Title(参考訳): StoryReasoning Dataset:Scene Understanding and Grounded Story GenerationのためのChain-of-Thoughtの利用
- Authors: Daniel A. P. Oliveira, David Martins de Matos,
- Abstract要約: ビジュアルストーリーテリングシステムは、フレームをまたいだキャラクターのアイデンティティを維持し、適切な主題にアクションをリンクするのに苦労する。
52,016本の映画画像から得られた4,178個のストーリーを含むデータセットであるStoryReasoningを提案する。
Qwen Storytellerを作成し、ストーリー全体を通して一貫したオブジェクト参照を維持しながら、エンドツーエンドのオブジェクト検出、再識別、ランドマーク検出を行います。
- 参考スコア(独自算出の注目度): 0.2455468619225742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual storytelling systems struggle to maintain character identity across frames and link actions to appropriate subjects, frequently leading to referential hallucinations. These issues can be addressed through grounding of characters, objects, and other entities on the visual elements. We propose StoryReasoning, a dataset containing 4,178 stories derived from 52,016 movie images, with both structured scene analyses and grounded stories. Each story maintains character and object consistency across frames while explicitly modeling multi-frame relationships through structured tabular representations. Our approach features cross-frame object re-identification using visual similarity and face recognition, chain-of-thought reasoning for explicit narrative modeling, and a grounding scheme that links textual elements to visual entities across multiple frames. We establish baseline performance by fine-tuning Qwen2.5-VL 7B, creating Qwen Storyteller, which performs end-to-end object detection, re-identification, and landmark detection while maintaining consistent object references throughout the story. Evaluation demonstrates a reduction from 4.06 to 3.56 (-12.3%) hallucinations on average per story when compared to a non-fine-tuned model.
- Abstract(参考訳): ビジュアルストーリーテリングシステムは、フレームをまたいでキャラクターのアイデンティティを維持し、適切な主題にアクションをリンクするのに苦労し、しばしば参照幻覚につながる。
これらの問題は、視覚要素上の文字、オブジェクト、その他のエンティティのグラウンド化によって解決できる。
本稿では,52,016本の映画画像から得られた4,178個のストーリーを収録したStoryReasoningを提案する。
各ストーリーは、構造化された表象表現を通して、多フレーム関係を明示的にモデル化しながら、フレーム間の文字とオブジェクトの一貫性を維持します。
提案手法は,視覚的類似性と顔認識を用いたクロスフレームオブジェクトの再識別,明示的な物語モデリングのためのチェーン・オブ・シント推論,および複数のフレームにわたるテキスト要素と視覚的エンティティをリンクするグラウンドリングスキームを特徴とする。
我々はQwen2.5-VL 7Bを微調整し、ストーリー全体を通して一貫したオブジェクト参照を維持しながら、エンドツーエンドのオブジェクト検出、再識別、ランドマーク検出を行うQwen Storytellerを作成した。
評価は、非微調整モデルと比較して、1ストーリー平均で4.06から3.56(-12.3%)の幻覚を減少させる。
関連論文リスト
- ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Detecting and Grounding Important Characters in Visual Stories [18.870236356616907]
本稿では,リッチな文字中心アノテーションを提供するVIST-Characterデータセットを紹介する。
このデータセットに基づいて,重要な文字の検出と,視覚的ストーリーにおける文字のグラウンド化という,2つの新しいタスクを提案する。
本研究では,分布類似性と事前学習された視覚・言語モデルに基づく,シンプルで教師なしのモデルを開発する。
論文 参考訳(メタデータ) (2023-03-30T18:24:06Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。