論文の概要: SPoRC-VIST: A Benchmark for Evaluating Generative Natural Narrative in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.01062v1
- Date: Sat, 03 Jan 2026 04:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.985328
- Title: SPoRC-VIST: A Benchmark for Evaluating Generative Natural Narrative in Vision-Language Models
- Title(参考訳): SPoRC-VIST:視覚・言語モデルにおける生成自然現象評価ベンチマーク
- Authors: Yunlin Zeng,
- Abstract要約: エンド・ツー・エンドのビジュアルポッドキャスト生成のための新しいパイプラインを提案する。
Qwen3-VL-32Bモデルを4000対の画像対のキュレートデータセット上に微調整する。
実験により、細調整された32Bモデルは会話自然性において235Bベースモデルよりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable success in descriptive tasks such as image captioning and visual question answering (VQA). However, their ability to generate engaging, long-form narratives -- specifically multi-speaker podcast dialogues -- remains under-explored and difficult to evaluate. Standard metrics like BLEU and ROUGE fail to capture the nuances of conversational naturalness, personality, and narrative flow, often rewarding safe, repetitive outputs over engaging storytelling. In this work, we present a novel pipeline for end-to-end visual podcast generation, and fine-tune a Qwen3-VL-32B model on a curated dataset of 4,000 image-dialogue pairs. Crucially, we use a synthetic-to-real training strategy: we train on high-quality podcast dialogues from the Structured Podcast Research Corpus (SPoRC) paired with synthetically generated imagery, and evaluate on real-world photo sequences from the Visual Storytelling Dataset (VIST). This rigorous setup tests the model's ability to generalize from synthetic training data to real-world visual domains. We propose a comprehensive evaluation framework that moves beyond textual overlap, and use AI-as-a-judge (Gemini 3 Pro, Claude Opus 4.5, GPT 5.2) and novel style metrics (average turn length, speaker switch rate) to assess quality. Our experiments demonstrate that our fine-tuned 32B model significantly outperforms a 235B base model in conversational naturalness ($>$80\% win rate) and narrative depth (+50\% turn length), while maintaining identical visual grounding capabilities (CLIPScore: 20.39).
- Abstract(参考訳): 視覚言語モデル (VLM) は画像キャプションや視覚質問応答 (VQA) といった記述的タスクにおいて顕著な成功を収めている。
しかし、多話者ポッドキャストの対話など、エンゲージメントのある長文の物語を生成する能力は、まだ未熟であり、評価が難しいままである。
BLEUやROUGEのような標準的なメトリクスは、会話の自然さ、個性、物語の流れのニュアンスを捉えず、しばしばエンゲージメントなストーリーテリングよりも安全で反復的なアウトプットを報いる。
そこで本研究では,4000対の画像-対話対のキュレートデータセット上で,エンドツーエンドのビジュアルポッドキャスト生成のための新しいパイプラインと,Qwen3-VL-32Bモデルを微調整する。
重要なことは、我々は合成から現実へのトレーニング戦略を用いて、構造化ポッドキャスト研究コーパス(SPoRC)から高品質なポッドキャスト対話と合成生成画像の組み合わせを訓練し、ビジュアルストーリーテリングデータセット(VIST)から実世界の写真シーケンスを評価する。
この厳密なセットアップは、合成トレーニングデータから現実のビジュアルドメインへモデルを一般化する能力をテストする。
テキストの重なりを超えて、AI-as-a-judge(Gemini 3 Pro, Claude Opus 4.5, GPT 5.2)と新しいスタイルメトリクス(平均ターン長、話者スイッチレート)を用いて品質を評価する総合評価フレームワークを提案する。
実験の結果,細調整32Bモデルは,会話自然度(=80\%)と物語深度(+50\%ターン長)において235Bベースモデルよりも有意に優れ,同一の視覚的接地能力(CLIPScore: 20.39)を維持した。
関連論文リスト
- Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction [12.216811577733125]
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。
そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。
47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
論文 参考訳(メタデータ) (2025-12-16T19:26:44Z) - Listening Between the Lines: Decoding Podcast Narratives with Language Modeling [17.51119928424848]
既存の大規模言語モデルは、一般的にニュース記事のようなより構造化されたテキストで訓練されており、人間のリスナーが物語のフレームを特定するのに頼っている微妙な手がかりを捉えるのに苦労している。
提案手法では,これらの粒度ラベルを用いて,より広範な談話傾向を明らかにする。
論文 参考訳(メタデータ) (2025-11-07T15:12:06Z) - VIST-GPT: Ushering in the Era of Visual Storytelling with LLMs? [42.362388367152256]
本稿では,視覚的ストーリーテリングタスクにおけるマルチモーダルモデルの最近の進歩を活用する新しいアプローチを提案する。
我々は,視覚的接地,コヒーレンス,非冗長性に着目し,視覚的ストーリーテリングを評価するための新しい基準フリーメトリクスであるRoViSTとGROOVISTを利用する。
論文 参考訳(メタデータ) (2025-04-27T14:55:51Z) - Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。
追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。
音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文 参考訳(メタデータ) (2025-03-19T18:40:45Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。