論文の概要: Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction
- arxiv url: http://arxiv.org/abs/2402.17969v1
- Date: Wed, 28 Feb 2024 01:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:44:12.541332
- Title: Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction
- Title(参考訳): 視覚コンテキスト抽出を用いた視覚言語モデルに基づくキャプション評価法
- Authors: Koki Maeda, Shuhei Kurita, Taiki Miyanishi, Naoaki Okazaki
- Abstract要約: 本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
- 参考スコア(独自算出の注目度): 27.00018283430169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the accelerating progress of vision and language modeling, accurate
evaluation of machine-generated image captions remains critical. In order to
evaluate captions more closely to human preferences, metrics need to
discriminate between captions of varying quality and content. However,
conventional metrics fail short of comparing beyond superficial matches of
words or embedding similarities; thus, they still need improvement. This paper
presents VisCE$^2$, a vision language model-based caption evaluation method.
Our method focuses on visual context, which refers to the detailed content of
images, including objects, attributes, and relationships. By extracting and
organizing them into a structured format, we replace the human-written
references with visual contexts and help VLMs better understand the image,
enhancing evaluation performance. Through meta-evaluation on multiple datasets,
we validated that VisCE$^2$ outperforms the conventional pre-trained metrics in
capturing caption quality and demonstrates superior consistency with human
judgment.
- Abstract(参考訳): 視覚と言語モデリングの急速な進歩を踏まえ、機械による画像キャプションの正確な評価は依然として重要である。
人間の好みにもっと近いキャプションを評価するためには、さまざまな品質と内容のキャプションを区別する必要がある。
しかし、従来のメトリクスは、表面的な単語の一致や類似性を比較できないため、改善が必要である。
本稿では視覚言語モデルを用いた字幕評価手法VisCE$^2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点を当てる。
それらを構造化形式に抽出し整理することにより、人間の記述した参照を視覚的コンテキストに置き換え、VLMが画像をよりよく理解し、評価性能を向上させる。
複数のデータセット上でのメタ評価を通じて, visce$^2$がキャプション品質をキャプチャする従来の事前学習指標を上回っており, 人間の判断と優れた一貫性を示すことを検証した。
関連論文リスト
- Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。