論文の概要: Models See Hallucinations: Evaluating the Factuality in Video Captioning
- arxiv url: http://arxiv.org/abs/2303.02961v1
- Date: Mon, 6 Mar 2023 08:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:40:50.878961
- Title: Models See Hallucinations: Evaluating the Factuality in Video Captioning
- Title(参考訳): モデルが幻覚を見る:ビデオキャプションにおける現実性の評価
- Authors: Hui Liu, Xiaojun Wan
- Abstract要約: ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
- 参考スコア(独自算出の注目度): 57.85548187177109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning aims to describe events in a video with natural language. In
recent years, many works have focused on improving captioning models'
performance. However, like other text generation tasks, it risks introducing
factual errors not supported by the input video. These factual errors can
seriously affect the quality of the generated text, sometimes making it
completely unusable. Although factual consistency has received much research
attention in text-to-text tasks (e.g., summarization), it is less studied in
the context of vision-based text generation. In this work, we conduct a
detailed human evaluation of the factuality in video captioning and collect two
annotated factuality datasets. We find that 57.0% of the model-generated
sentences have factual errors, indicating it is a severe problem in this field.
However, existing evaluation metrics are mainly based on n-gram matching and
show little correlation with human factuality annotation. We further propose a
weakly-supervised, model-based factuality metric FactVC, which outperforms
previous metrics on factuality evaluation of video captioning. The datasets and
metrics will be released to promote future research for video captioning.
- Abstract(参考訳): ビデオキャプションは、自然言語でビデオ内のイベントを記述することを目的としている。
近年、多くの作品がキャプションモデルのパフォーマンス向上に力を入れている。
しかし、他のテキスト生成タスクと同様に、入力ビデオがサポートしていない事実エラーを起こす危険性がある。
これらの事実的エラーは、生成したテキストの品質に深刻な影響を与える可能性がある。
事実整合性はテキストからテキストへのタスク(例えば要約)で多くの研究の注目を集めているが、視覚に基づくテキスト生成の文脈ではあまり研究されていない。
本研究では,映像キャプションにおける実感の詳細な評価を行い,注釈付き実感データセットを2つ収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
しかし、既存の評価指標は主にn-gramマッチングに基づいており、人間の事実性アノテーションとはほとんど相関がない。
さらに,映像キャプションの事実性評価において,従来の指標よりも優れたモデルベース事実性指標FactVCを提案する。
データセットとメトリクスは、将来のビデオキャプション研究を促進するためにリリースされる。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative [19.79736018383692]
既存のビデオキャプションベンチマークとモデルは、因果的時間的物語のコヒーレントな表現を欠いている。
本研究では,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新しい因果的ナラティブ(CTN)キャプションベンチマークと,(2)原因と影響のダイナミクスを独立に捉えるための別個のエンコーダを備えた専用因果的ネットワーク(CEN)アーキテクチャからなるナラティブブリッジを提案する。
論文 参考訳(メタデータ) (2024-06-10T17:34:24Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching [90.98122161162644]
現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
EMScore(Embedding Matching-based score)を提案する。
我々は、よく訓練された視覚言語モデルを用いて、EMScore 計算のための視覚的および言語的埋め込みを抽出する。
論文 参考訳(メタデータ) (2021-11-17T06:02:43Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。