論文の概要: Humans vs Vision-Language Models: A Unified Measure of Narrative Coherence
- arxiv url: http://arxiv.org/abs/2603.25537v1
- Date: Thu, 26 Mar 2026 15:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.352972
- Title: Humans vs Vision-Language Models: A Unified Measure of Narrative Coherence
- Title(参考訳): 人間対視覚言語モデル:物語的コヒーレンスを統一した尺度
- Authors: Nikolai Ilinykh, Hyewon Jang, Shalom Lappin, Asad Sayeed, Sharid Loáiciga,
- Abstract要約: 本研究では,視覚言語モデル (VLM) が生成する人文物語と,ビジュアルライティング・プリンプッツ・コーパスで生成した物語を比較した。
VLMは、人間のものと体系的に異なる、広く類似したコヒーレンスプロファイルを示す。
以上の結果から,人間のような表面流布性にもかかわらず,モデル物語は,視覚的に根ざした物語の会話を整理する方法において,人間の物語と体系的な違いを示すことが示唆された。
- 参考スコア(独自算出の注目度): 4.301794127844445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study narrative coherence in visually grounded stories by comparing human-written narratives with those generated by vision-language models (VLMs) on the Visual Writing Prompts corpus. Using a set of metrics that capture different aspects of narrative coherence, including coreference, discourse relation types, topic continuity, character persistence, and multimodal character grounding, we compute a narrative coherence score. We find that VLMs show broadly similar coherence profiles that differ systematically from those of humans. In addition, differences for individual measures are often subtle, but they become clearer when considered jointly. Overall, our results indicate that, despite human-like surface fluency, model narratives exhibit systematic differences from those of humans in how they organise discourse across a visually grounded story. Our code is available at https://github.com/GU-CLASP/coherence-driven-humans.
- Abstract(参考訳): 本研究では,視覚的記述型言語モデル(VLM)と視覚的記述型言語モデル(Visual Writing Prompts corpus)を用いて,人間の記述型物語とを比較して,視覚的接地型物語における物語コヒーレンスについて検討する。
コア推論,談話関係型,話題継続性,キャラクタの持続性,マルチモーダルなキャラクタグラウンドリングなど,物語コヒーレンスのさまざまな側面を捉える指標を用いて,物語コヒーレンススコアを算出する。
VLMは、人間のものと体系的に異なる、広く類似したコヒーレンスプロファイルを示す。
また、個別の尺度の違いは微妙な場合が多いが、共同で考えると明確になる。
以上の結果から,人間のような表面流布性にもかかわらず,モデル物語は,視覚的に根ざした物語を通して会話を整理する方法において,人間の物語と体系的な違いを示すことが示唆された。
私たちのコードはhttps://github.com/GU-CLASP/coherence-driven-humansで利用可能です。
関連論文リスト
- LitVISTA: A Benchmark for Narrative Orchestration in Literary Text [20.35180998049897]
計算的物語分析は、文学テキストにおけるリズム、緊張、感情のダイナミクスを捉えることを目的としている。
既存の大きな言語モデルは長いストーリーを生成できるが、因果一貫性に過度にフォーカスする。
本稿では,物語オーケストレーションのための高次元表現フレームワークであるVISTA Spaceを提案する。
論文 参考訳(メタデータ) (2026-01-10T06:08:28Z) - VIST-GPT: Ushering in the Era of Visual Storytelling with LLMs? [42.362388367152256]
本稿では,視覚的ストーリーテリングタスクにおけるマルチモーダルモデルの最近の進歩を活用する新しいアプローチを提案する。
我々は,視覚的接地,コヒーレンス,非冗長性に着目し,視覚的ストーリーテリングを評価するための新しい基準フリーメトリクスであるRoViSTとGROOVISTを利用する。
論文 参考訳(メタデータ) (2025-04-27T14:55:51Z) - Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Paragraph-level Commonsense Transformers with Recurrent Memory [77.4133779538797]
物語からコヒーレントなコモンセンス推論を生成するために,段落レベルの情報を含む談話認識モデルを訓練する。
以上の結果から,PARA-COMETは文レベルのベースライン,特にコヒーレントかつ新規な推論に優れていた。
論文 参考訳(メタデータ) (2020-10-04T05:24:12Z) - Exploring aspects of similarity between spoken personal narratives by
disentangling them into narrative clause types [13.350982138577038]
本稿では,594本の映像から10,296の物語節を含む実世界の音声物語のコーパスを紹介する。
第2に,非ナラティブな専門家に,ラボフの社会言語的個人的物語モデルの下で,これらの節に注釈を付けるよう依頼する。
第3に、最上位の節に対して84.7%のFスコアに達する分類器を訓練する。
我々のアプローチは、個人の物語を研究または表現することを目的とした機械学習の手法を情報提供することを目的としている。
論文 参考訳(メタデータ) (2020-05-26T14:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。