論文の概要: SPoRC-VIST: A Benchmark for Evaluating Generative Natural Narrative in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.01062v1
- Date: Sat, 03 Jan 2026 04:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.985328
- Title: SPoRC-VIST: A Benchmark for Evaluating Generative Natural Narrative in Vision-Language Models
- Title(参考訳): SPoRC-VIST:視覚・言語モデルにおける生成自然現象評価ベンチマーク
- Authors: Yunlin Zeng,
- Abstract要約: エンド・ツー・エンドのビジュアルポッドキャスト生成のための新しいパイプラインを提案する。
Qwen3-VL-32Bモデルを4000対の画像対のキュレートデータセット上に微調整する。
実験により、細調整された32Bモデルは会話自然性において235Bベースモデルよりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable success in descriptive tasks such as image captioning and visual question answering (VQA). However, their ability to generate engaging, long-form narratives -- specifically multi-speaker podcast dialogues -- remains under-explored and difficult to evaluate. Standard metrics like BLEU and ROUGE fail to capture the nuances of conversational naturalness, personality, and narrative flow, often rewarding safe, repetitive outputs over engaging storytelling. In this work, we present a novel pipeline for end-to-end visual podcast generation, and fine-tune a Qwen3-VL-32B model on a curated dataset of 4,000 image-dialogue pairs. Crucially, we use a synthetic-to-real training strategy: we train on high-quality podcast dialogues from the Structured Podcast Research Corpus (SPoRC) paired with synthetically generated imagery, and evaluate on real-world photo sequences from the Visual Storytelling Dataset (VIST). This rigorous setup tests the model's ability to generalize from synthetic training data to real-world visual domains. We propose a comprehensive evaluation framework that moves beyond textual overlap, and use AI-as-a-judge (Gemini 3 Pro, Claude Opus 4.5, GPT 5.2) and novel style metrics (average turn length, speaker switch rate) to assess quality. Our experiments demonstrate that our fine-tuned 32B model significantly outperforms a 235B base model in conversational naturalness ($>$80\% win rate) and narrative depth (+50\% turn length), while maintaining identical visual grounding capabilities (CLIPScore: 20.39).
- Abstract(参考訳): 視覚言語モデル (VLM) は画像キャプションや視覚質問応答 (VQA) といった記述的タスクにおいて顕著な成功を収めている。
しかし、多話者ポッドキャストの対話など、エンゲージメントのある長文の物語を生成する能力は、まだ未熟であり、評価が難しいままである。
BLEUやROUGEのような標準的なメトリクスは、会話の自然さ、個性、物語の流れのニュアンスを捉えず、しばしばエンゲージメントなストーリーテリングよりも安全で反復的なアウトプットを報いる。
そこで本研究では,4000対の画像-対話対のキュレートデータセット上で,エンドツーエンドのビジュアルポッドキャスト生成のための新しいパイプラインと,Qwen3-VL-32Bモデルを微調整する。
重要なことは、我々は合成から現実へのトレーニング戦略を用いて、構造化ポッドキャスト研究コーパス(SPoRC)から高品質なポッドキャスト対話と合成生成画像の組み合わせを訓練し、ビジュアルストーリーテリングデータセット(VIST)から実世界の写真シーケンスを評価する。
この厳密なセットアップは、合成トレーニングデータから現実のビジュアルドメインへモデルを一般化する能力をテストする。
テキストの重なりを超えて、AI-as-a-judge(Gemini 3 Pro, Claude Opus 4.5, GPT 5.2)と新しいスタイルメトリクス(平均ターン長、話者スイッチレート)を用いて品質を評価する総合評価フレームワークを提案する。
実験の結果,細調整32Bモデルは,会話自然度(=80\%)と物語深度(+50\%ターン長)において235Bベースモデルよりも有意に優れ,同一の視覚的接地能力(CLIPScore: 20.39)を維持した。
関連論文リスト
- VIST-GPT: Ushering in the Era of Visual Storytelling with LLMs? [42.362388367152256]
本稿では,視覚的ストーリーテリングタスクにおけるマルチモーダルモデルの最近の進歩を活用する新しいアプローチを提案する。
我々は,視覚的接地,コヒーレンス,非冗長性に着目し,視覚的ストーリーテリングを評価するための新しい基準フリーメトリクスであるRoViSTとGROOVISTを利用する。
論文 参考訳(メタデータ) (2025-04-27T14:55:51Z) - Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。
追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。
音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文 参考訳(メタデータ) (2025-03-19T18:40:45Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。