論文の概要: RoViST:Learning Robust Metrics for Visual Storytelling
- arxiv url: http://arxiv.org/abs/2205.03774v1
- Date: Sun, 8 May 2022 03:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 14:15:29.722062
- Title: RoViST:Learning Robust Metrics for Visual Storytelling
- Title(参考訳): RoViST:ビジュアルストーリーテリングのためのロバストなメトリクスの学習
- Authors: Eileen Wang, Caren Han, Josiah Poon
- Abstract要約: 良いストーリーでどの側面を探すかを分析する3つの評価指標セットを提案する。
我々は,機械ストーリーのサンプルを用いて,人間の判断スコアとの相関を解析し,測定値の信頼性を測定する。
- 参考スコア(独自算出の注目度): 2.7124743347047033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual storytelling (VST) is the task of generating a story paragraph that
describes a given image sequence. Most existing storytelling approaches have
evaluated their models using traditional natural language generation metrics
like BLEU or CIDEr. However, such metrics based on n-gram matching tend to have
poor correlation with human evaluation scores and do not explicitly consider
other criteria necessary for storytelling such as sentence structure or topic
coherence. Moreover, a single score is not enough to assess a story as it does
not inform us about what specific errors were made by the model. In this paper,
we propose 3 evaluation metrics sets that analyses which aspects we would look
for in a good story: 1) visual grounding, 2) coherence, and 3) non-redundancy.
We measure the reliability of our metric sets by analysing its correlation with
human judgement scores on a sample of machine stories obtained from 4
state-of-the-arts models trained on the Visual Storytelling Dataset (VIST). Our
metric sets outperforms other metrics on human correlation, and could be served
as a learning based evaluation metric set that is complementary to existing
rule-based metrics.
- Abstract(参考訳): ビジュアルストーリーテリング(VST)は、与えられた画像シーケンスを記述するストーリー段落を生成するタスクである。
既存のストーリーテリングアプローチの多くは、bleuやciderといった従来の自然言語生成メトリクスを使用してモデルを評価している。
しかし,n-gramマッチングに基づくこのような指標は人間の評価スコアと相関が低く,文章構造やトピックコヒーレンスといったストーリーテリングに必要な他の基準を明示的に考慮しない傾向にある。
さらに、ひとつのスコアでストーリーを評価するだけでは十分ではありません。
本稿では、良いストーリーでどの側面を探すかを分析するための3つの評価指標セットを提案する。
1)視覚的接地
2)一貫性,及び
3)非冗長性。
VIST(Visual Storytelling Dataset)でトレーニングされた4つの最先端モデルから得られたマシンストーリーのサンプルから,人間の判断スコアとの相関を解析することにより,測定セットの信頼性を測定した。
我々の測定基準は、人間の相関に関する他の指標よりも優れており、既存のルールベースの測定基準を補完する学習ベースの評価基準セットとして機能することができる。
関連論文リスト
- Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition [8.058451580903123]
人間の類似性の観点から,物語の質を計測する新しい手法を提案する。
次に、この手法を用いて、複数のモデルによって生成されたストーリーを評価する。
TAPMのビジュアルコンポーネントと言語コンポーネントをアップグレードすると、競合するパフォーマンスをもたらすモデルが得られる。
論文 参考訳(メタデータ) (2024-07-05T14:48:15Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures
for Image Captioning Models [1.534667887016089]
本稿では,シーングラフに基づく日本語字幕評価を行うJaSPICEという自動評価指標を提案する。
実験では,STAIRキャプションとPFN-PICで訓練した10の画像キャプションモデルを用いて,103,170人の評価を含む七味データセットを構築した。
論文 参考訳(メタデータ) (2023-11-07T18:33:34Z) - DeltaScore: Fine-Grained Story Evaluation with Perturbations [69.33536214124878]
DELTASCOREは,ニュアンスストーリーの側面の評価に摂動技術を用いた新しい手法である。
私たちの中心的な命題は、物語が特定の側面(例えば、流感)で興奮する程度は、特定の摂動に対するその感受性の大きさと相関している、と仮定している。
事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
論文 参考訳(メタデータ) (2023-03-15T23:45:54Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation [92.42032403795879]
UNIONは、オープンなストーリー生成を評価するための、学習可能な未参照メトリックである。
人書きストーリーとネガティブなサンプルを区別し、ネガティブなストーリーの摂動を回復するように訓練されている。
2つのストーリーデータセットの実験では、UNIONが生成されたストーリーの品質を評価するための信頼性の高い尺度であることが示されている。
論文 参考訳(メタデータ) (2020-09-16T11:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。