論文の概要: G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o
- arxiv url: http://arxiv.org/abs/2412.13647v2
- Date: Thu, 19 Dec 2024 15:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:57.981503
- Title: G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o
- Title(参考訳): G-VEval:GPT-4oを用いた画像とビデオのキャプション評価用バーサタイルメトリック
- Authors: Tony Cheng Tong, Sirui He, Zhiwen Shao, Dit-Yan Yeung,
- Abstract要約: G-VEvalはG-Evalにインスパイアされた新しい測度であり、新しい GPT-4o で駆動される。
G-VEvalは、大規模なマルチモーダルモデルでチェーン・オブ・シント推論を使用しており、参照フリー、参照オンリー、組み合わせの3つのモードをサポートしている。
また,ビデオキャプション評価のための新しいデータセットであるMSVD-Evalを提案する。
- 参考スコア(独自算出の注目度): 15.929657348606018
- License:
- Abstract: Evaluation metric of visual captioning is important yet not thoroughly explored. Traditional metrics like BLEU, METEOR, CIDEr, and ROUGE often miss semantic depth, while trained metrics such as CLIP-Score, PAC-S, and Polos are limited in zero-shot scenarios. Advanced Language Model-based metrics also struggle with aligning to nuanced human preferences. To address these issues, we introduce G-VEval, a novel metric inspired by G-Eval and powered by the new GPT-4o. G-VEval uses chain-of-thought reasoning in large multimodal models and supports three modes: reference-free, reference-only, and combined, accommodating both video and image inputs. We also propose MSVD-Eval, a new dataset for video captioning evaluation, to establish a more transparent and consistent framework for both human experts and evaluation metrics. It is designed to address the lack of clear criteria in existing datasets by introducing distinct dimensions of Accuracy, Completeness, Conciseness, and Relevance (ACCR). Extensive results show that G-VEval outperforms existing methods in correlation with human annotations, as measured by Kendall tau-b and Kendall tau-c. This provides a flexible solution for diverse captioning tasks and suggests a straightforward yet effective approach for large language models to understand video content, paving the way for advancements in automated captioning. Codes are available at https://github.com/ztangaj/gveval
- Abstract(参考訳): 視覚的キャプションの評価基準は重要であるが、十分には検討されていない。
BLEU、METEOR、CIDEr、ROUGEといった従来のメトリクスはセマンティックディープを見逃しがちだが、CLIP-Score、PAC-S、Poosといったトレーニングされたメトリクスはゼロショットシナリオで限られている。
高度な言語モデルに基づくメトリクスは、人間の好みに合わせるのにも苦労する。
G-VEvalはG-Evalにインスパイアされた新しい測度であり、新しい GPT-4o で駆動される。
G-VEvalは、大規模なマルチモーダルモデルにおいてチェーン・オブ・シント推論を使用し、参照なし、参照のみ、および組み合わせの3つのモードをサポートし、ビデオと画像の両方の入力を調節する。
また,ビデオキャプション評価のための新しいデータセットであるMSVD-Evalを提案する。
これは、精度、完全性、簡潔性、関連性(ACCR)の異なる次元を導入することで、既存のデータセットの明確な基準の欠如を解決するように設計されている。
その結果、G-VEvalは、Kendall tau-bとKendall tau-cで測定されたように、人間のアノテーションとの相関関係において既存の手法よりも優れていた。
これは多様なキャプションタスクに対して柔軟なソリューションを提供し、大規模な言語モデルがビデオコンテンツを理解するための簡単かつ効果的なアプローチを提案し、自動キャプションの進歩の道を開く。
コードはhttps://github.com/ztangaj/gvevalで入手できる。
関連論文リスト
- HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - Benchmarking and Improving Detail Image Caption [12.078715675876674]
視覚言語モデル (LVLM) は視覚理解の基本的な課題とされてきた。
本稿では,人間専門家が注釈付けした高品質な評価データセットをキュレートすることで,詳細な画像キャプションタスクのベンチマークを行う。
また、CAPTUREと呼ばれるより信頼性の高いキャプション評価指標も設計する。
論文 参考訳(メタデータ) (2024-05-29T13:54:12Z) - Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - BERTHA: Video Captioning Evaluation Via Transfer-Learned Human
Assessment [16.57721566105298]
本稿では,映像キャプションシステムを評価するためのディープラーニングモデルに基づく新しい手法を提案する。
このモデルはBERTをベースにしており、複数のNLPタスクでうまく動作することが示されている言語モデルである。
目的は、モデルが人間のものと似た評価を行うことを学習することである。
論文 参考訳(メタデータ) (2022-01-25T11:29:58Z) - EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching [90.98122161162644]
現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
EMScore(Embedding Matching-based score)を提案する。
我々は、よく訓練された視覚言語モデルを用いて、EMScore 計算のための視覚的および言語的埋め込みを抽出する。
論文 参考訳(メタデータ) (2021-11-17T06:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。