論文の概要: Entity Re-identification in Visual Storytelling via Contrastive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.07340v1
- Date: Wed, 09 Jul 2025 23:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.232867
- Title: Entity Re-identification in Visual Storytelling via Contrastive Reinforcement Learning
- Title(参考訳): コントラスト強化学習によるビジュアルストーリーテリングにおけるエンティティ再識別
- Authors: Daniel A. P. Oliveira, David Martins de Matos,
- Abstract要約: ビジュアルストーリーテリングシステムは、フレーム間のキャラクタとオブジェクトの同一性を維持するのに苦労する。
本研究では,コヒーレントな画像列と無関係な画像から物語を識別するモデルを訓練する,対照的な強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.2455468619225742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual storytelling systems, particularly large vision-language models, struggle to maintain character and object identity across frames, often failing to recognize when entities in different images represent the same individuals or objects, leading to inconsistent references and referential hallucinations. This occurs because models lack explicit training on when to establish entity connections across frames. We propose a contrastive reinforcement learning approach that trains models to discriminate between coherent image sequences and stories from unrelated images. We extend the Story Reasoning dataset with synthetic negative examples to teach appropriate entity connection behavior. We employ Direct Preference Optimization with a dual-component reward function that promotes grounding and re-identification of entities in real stories while penalizing incorrect entity connections in synthetic contexts. Using this contrastive framework, we fine-tune Qwen Storyteller (based on Qwen2.5-VL 7B). Evaluation shows improvements in grounding mAP from 0.27 to 0.31 (+14.8%), F1 from 0.35 to 0.41 (+17.1%). Pronoun grounding accuracy improved across all pronoun types except ``its'', and cross-frame character and object persistence increased across all frame counts, with entities appearing in 5 or more frames advancing from 29.3% to 33.3% (+13.7%). Well-structured stories, containing the chain-of-thought and grounded story, increased from 79.1% to 97.5% (+23.3%).
- Abstract(参考訳): 視覚的なストーリーテリングシステム(特に大きな視覚言語モデル)は、フレーム間のキャラクタとオブジェクトの同一性を維持するのに苦労し、しばしば異なる画像内のエンティティが同一の個人またはオブジェクトを表現することを認識できず、矛盾した参照と参照幻覚をもたらす。
これは、モデルがフレーム間のエンティティ接続を確立するための明確なトレーニングを欠いているためである。
本研究では,コヒーレントな画像列と無関係な画像から物語を識別するモデルを訓練する,対照的な強化学習手法を提案する。
我々は、適切なエンティティ接続動作を教えるために、Story Reasoningデータセットを合成ネガティブな例で拡張する。
我々は,現実の物語におけるエンティティのグラウンド化と再同定を促進するために,合成文脈における誤ったエンティティ接続をペナルティ化しながら,二成分報酬関数を用いた直接選好最適化を用いる。
この対照的なフレームワークを使用して、Qwen Storyteller(Qwen2.5-VL 7Bをベースとした)を微調整します。
評価は、接地mAPが0.27から0.31(+14.8%)、F1が0.35から0.41(+17.1%)に改善されたことを示している。
名詞の接頭辞の精度は `its' 以外のすべての代名詞で向上し、クロスフレームの文字とオブジェクトの永続性は全てのフレーム数で増加し、29.3%から33.3%(+13.7%)まで5つ以上のフレームに現れる。
思考の連鎖と接地された物語を含むよく構造化された物語は79.1%から97.5%(+23.3%)に増加した。
関連論文リスト
- Synthetic Visual Genome [88.00433979509218]
本稿では,高品質な高次グラフを大規模に構築できる密接な注釈付き関係を持つ命令設計法であるROBINを紹介する。
我々のデータセットは合計146K画像と2.6Mオブジェクトの5.6M関係を含んでいる。
ROBIN-3Bモデルは300万件未満のインスタンスでトレーニングされているにもかかわらず、関係理解ベンチマークで3億件以上のインスタンスでトレーニングされた類似サイズのモデルを上回っている。
論文 参考訳(メタデータ) (2025-06-09T11:09:10Z) - Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels [69.58063088519852]
本稿では,3D対応の擬似ラベルを用いた意味対応推定法を提案する。
具体的には, 3D-aware chaining を用いて得られた擬似ラベルを用いて, 既製の特徴を洗練するためのアダプタを訓練する。
データセット固有のアノテーションの必要性を減らしながら、SPair-71kに新たな最先端を4%以上の絶対的なゲインに設定しました。
論文 参考訳(メタデータ) (2025-06-05T17:54:33Z) - StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation [0.2455468619225742]
ビジュアルストーリーテリングシステムは、フレームをまたいだキャラクターのアイデンティティを維持し、適切な主題にアクションをリンクするのに苦労する。
52,016本の映画画像から得られた4,178個のストーリーを含むデータセットであるStoryReasoningを提案する。
Qwen Storytellerを作成し、ストーリー全体を通して一貫したオブジェクト参照を維持しながら、エンドツーエンドのオブジェクト検出、再識別、ランドマーク検出を行います。
論文 参考訳(メタデータ) (2025-05-15T13:42:14Z) - Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses [31.85977999591524]
視覚言語モデルは、画像領域と大規模トレーニングデータの単語を暗黙的に関連付けることを学習する。
テキストモダリティ内のリッチな意味的構造と構文的構造は、監督の源として見過ごされている。
階層的構造化学習(HIST)は、追加の人間のアノテーションを使わずに、空間的視覚言語アライメントを強化する。
論文 参考訳(メタデータ) (2024-12-11T05:36:18Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions [6.231370972617915]
ゼロショット参照表現理解は、提供されるテキストプロンプトに対応する画像内のバウンディングボックスをローカライズすることを目的としている。
既存の視覚言語アライメントモデル、例えばCLIPは両方の側面で苦労しているため、このタスクに直接使用することはできない。
我々は、大きな基礎モデルを活用して、画像とテキストの両方を(オブジェクト、述語、オブジェクト)の形式で三つ子に分解する。
論文 参考訳(メタデータ) (2023-11-28T18:55:37Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。