論文の概要: BERTHA: Video Captioning Evaluation Via Transfer-Learned Human
Assessment
- arxiv url: http://arxiv.org/abs/2201.10243v1
- Date: Tue, 25 Jan 2022 11:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 01:44:48.571582
- Title: BERTHA: Video Captioning Evaluation Via Transfer-Learned Human
Assessment
- Title(参考訳): BERTHA:トランスファー学習人間によるビデオキャプション評価
- Authors: Luis Lebron, Yvette Graham, Kevin McGuinness, Konstantinos Kouramas,
Noel E. O'Connor
- Abstract要約: 本稿では,映像キャプションシステムを評価するためのディープラーニングモデルに基づく新しい手法を提案する。
このモデルはBERTをベースにしており、複数のNLPタスクでうまく動作することが示されている言語モデルである。
目的は、モデルが人間のものと似た評価を行うことを学習することである。
- 参考スコア(独自算出の注目度): 16.57721566105298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating video captioning systems is a challenging task as there are
multiple factors to consider; for instance: the fluency of the caption,
multiple actions happening in a single scene, and the human bias of what is
considered important. Most metrics try to measure how similar the system
generated captions are to a single or a set of human-annotated captions. This
paper presents a new method based on a deep learning model to evaluate these
systems. The model is based on BERT, which is a language model that has been
shown to work well in multiple NLP tasks. The aim is for the model to learn to
perform an evaluation similar to that of a human. To do so, we use a dataset
that contains human evaluations of system generated captions. The dataset
consists of the human judgments of the captions produce by the system
participating in various years of the TRECVid video to text task. These
annotations will be made publicly available. BERTHA obtain favourable results,
outperforming the commonly used metrics in some setups.
- Abstract(参考訳): ビデオキャプションシステムの評価は、例えば、キャプションの流布、単一のシーンで発生する複数のアクション、重要と考えられるものに対する人間の偏見など、考慮すべき複数の要因があるため、難しい課題である。
ほとんどのメトリクスは、システムが生成したキャプションが1つまたは1つの人間の注釈付きのキャプションにどの程度似ているかを測定する。
本稿では,これらのシステムを評価するための深層学習モデルに基づく新しい手法を提案する。
このモデルはBERTをベースにしており、複数のNLPタスクでうまく動作することが示されている言語モデルである。
目的は、モデルが人間のものと似た評価を行うことを学習することである。
そのために、システム生成キャプションの人間による評価を含むデータセットを使用する。
データセットは、TRECVidビデオからテキストタスクへの様々な年次参加システムによって生成されるキャプションの人為的な判断から成り立っている。
これらのアノテーションは公開されます。
BERTHAは好意的な結果を得て、いくつかの設定で一般的に使用される指標より優れている。
関連論文リスト
- EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [72.52996858794533]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
まず,大規模言語モデルの助けを借りて実世界のプロンプトリストを解析し,テキスト・ビデオ生成のための新しいプロンプトリストを作成する。
次に、視覚的品質、コンテンツ品質、動作品質、テキストキャプションアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Video captioning with stacked attention and semantic hard pull [0.0]
ビデオの意味論的に正確な記述を生成するタスクは非常に複雑です。
本稿では,Semantically Sensible Video Captioning(SSVC)という新しいアーキテクチャを提案する。
論文は、新奇性の使用が最先端アーキテクチャの性能を向上させることを報告している。
論文 参考訳(メタデータ) (2020-09-15T19:34:37Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。