Fugu-MT 論文翻訳(概要): BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment

論文の概要: BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment

arxiv url: http://arxiv.org/abs/2201.10243v1
Date: Tue, 25 Jan 2022 11:29:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-27 01:44:48.571582
Title: BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment
Title（参考訳）: BERTHA:トランスファー学習人間によるビデオキャプション評価
Authors: Luis Lebron, Yvette Graham, Kevin McGuinness, Konstantinos Kouramas, Noel E. O'Connor
Abstract要約: 本稿では,映像キャプションシステムを評価するためのディープラーニングモデルに基づく新しい手法を提案する。このモデルはBERTをベースにしており、複数のNLPタスクでうまく動作することが示されている言語モデルである。目的は、モデルが人間のものと似た評価を行うことを学習することである。
参考スコア（独自算出の注目度）: 16.57721566105298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating video captioning systems is a challenging task as there are multiple factors to consider; for instance: the fluency of the caption, multiple actions happening in a single scene, and the human bias of what is considered important. Most metrics try to measure how similar the system generated captions are to a single or a set of human-annotated captions. This paper presents a new method based on a deep learning model to evaluate these systems. The model is based on BERT, which is a language model that has been shown to work well in multiple NLP tasks. The aim is for the model to learn to perform an evaluation similar to that of a human. To do so, we use a dataset that contains human evaluations of system generated captions. The dataset consists of the human judgments of the captions produce by the system participating in various years of the TRECVid video to text task. These annotations will be made publicly available. BERTHA obtain favourable results, outperforming the commonly used metrics in some setups.
Abstract（参考訳）: ビデオキャプションシステムの評価は、例えば、キャプションの流布、単一のシーンで発生する複数のアクション、重要と考えられるものに対する人間の偏見など、考慮すべき複数の要因があるため、難しい課題である。ほとんどのメトリクスは、システムが生成したキャプションが1つまたは1つの人間の注釈付きのキャプションにどの程度似ているかを測定する。本稿では,これらのシステムを評価するための深層学習モデルに基づく新しい手法を提案する。このモデルはBERTをベースにしており、複数のNLPタスクでうまく動作することが示されている言語モデルである。目的は、モデルが人間のものと似た評価を行うことを学習することである。そのために、システム生成キャプションの人間による評価を含むデータセットを使用する。データセットは、TRECVidビデオからテキストタスクへの様々な年次参加システムによって生成されるキャプションの人為的な判断から成り立っている。これらのアノテーションは公開されます。 BERTHAは好意的な結果を得て、いくつかの設定で一般的に使用される指標より優れている。

関連論文リスト

Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training [44.008094698200026]
PAC-S++はCLIPモデルを利用した学習可能なメトリックであり、Webコンパイルされたデータとクリーンなデータの両方で事前トレーニングされている。 PAC-S++をキャプションモデルの微調整段階に組み込むことで,文の繰り返しや文法的誤りが少なく,意味的に豊かなキャプションが得られることを示す。
論文参考訳（メタデータ） (2024-10-09T18:00:09Z)
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-07-29T18:00:17Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-06-20T15:13:02Z)
Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。 PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文参考訳（メタデータ） (2023-03-21T18:03:14Z)
Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文参考訳（メタデータ） (2021-11-17T07:09:59Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。