論文の概要: ContextRef: Evaluating Referenceless Metrics For Image Description
Generation
- arxiv url: http://arxiv.org/abs/2309.11710v1
- Date: Thu, 21 Sep 2023 01:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:11:19.738721
- Title: ContextRef: Evaluating Referenceless Metrics For Image Description
Generation
- Title(参考訳): ContextRef:画像記述生成のための参照なしメトリクスの評価
- Authors: Elisa Kreiss and Eric Zelikman and Christopher Potts and Nick Haber
- Abstract要約: 人間の嗜好判断のための基準のない指標を評価するためのベンチマークであるContextRefを紹介する。
ContextRefには、さまざまな確立された品質ディメンションに沿った人間の評価と、根本的な弱点を明らかにするために設計された10のさまざまなチェックの2つのコンポーネントがある。
ContextRefではどのメソッドもうまくいきませんが、注意深い微調整で大幅な改善が得られます。
- 参考スコア(独自算出の注目度): 21.9880261614174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referenceless metrics (e.g., CLIPScore) use pretrained vision--language
models to assess image descriptions directly without costly ground-truth
reference texts. Such methods can facilitate rapid progress, but only if they
truly align with human preference judgments. In this paper, we introduce
ContextRef, a benchmark for assessing referenceless metrics for such alignment.
ContextRef has two components: human ratings along a variety of established
quality dimensions, and ten diverse robustness checks designed to uncover
fundamental weaknesses. A crucial aspect of ContextRef is that images and
descriptions are presented in context, reflecting prior work showing that
context is important for description quality. Using ContextRef, we assess a
variety of pretrained models, scoring functions, and techniques for
incorporating context. None of the methods is successful with ContextRef, but
we show that careful fine-tuning yields substantial improvements. ContextRef
remains a challenging benchmark though, in large part due to the challenge of
context dependence.
- Abstract(参考訳): 参照なしのメトリクス(例えば、CLIPScore)は、訓練済みの視覚言語モデルを使用して、コストのかかる地味な参照テキストなしで画像記述を直接評価する。
このような手法は急速な進歩を促進するが、人間の嗜好判断と真に一致している場合に限られる。
本稿では、このようなアライメントのための参照レスメトリクスを評価するベンチマークであるContextRefを紹介する。
contextrefには2つのコンポーネントがある: 確立されたさまざまな品質次元に沿った人間格付けと、基本的な弱点を明らかにするために設計された10の多様な堅牢性チェックである。
ContextRefの重要な側面は、画像と記述がコンテキストで表示され、記述品質にコンテキストが重要であることを示す事前の作業が反映されていることである。
ContextRefを用いて、事前訓練された様々なモデル、スコアリング機能、コンテキストを組み込むためのテクニックを評価する。
ContextRefではどのメソッドも成功しないが、注意深い微調整が大幅な改善をもたらすことを示す。
しかしContextRefは、コンテキスト依存の課題のために、依然として挑戦的なベンチマークである。
関連論文リスト
- A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - On Measuring Context Utilization in Document-Level MT Systems [12.02023514105999]
本稿では,文脈利用の尺度を用いて,精度に基づく評価を補完することを提案する。
自動アノテート支援コンテキストは人間のアノテートコンテキストに類似した結論を与えることを示す。
論文 参考訳(メタデータ) (2024-02-02T13:37:07Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Context-LGM: Leveraging Object-Context Relation for Context-Aware Object
Recognition [48.5398871460388]
本稿では,オブジェクト・コンテキスト関係を階層的にモデル化する新しいコンテキスト潜在生成モデル(Contextual Latent Generative Model,Context-LGM)を提案する。
文脈的特徴を推定するために、変数自動エンコーダ(VAE)の目的関数を再構成し、対象物に対する後続条件付き分布として文脈的特徴を学習する。
本手法の有効性は,2つのコンテキスト認識オブジェクト認識タスクにおける最先端性能によって検証される。
論文 参考訳(メタデータ) (2021-10-08T11:31:58Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z) - Reference and Document Aware Semantic Evaluation Methods for Korean
Language Summarization [6.826626737986031]
本稿では,参照要約と原文書の意味を反映した評価指標を提案する。
次に,人間の判断とメトリクスの相関性を改善する手法を提案する。
論文 参考訳(メタデータ) (2020-04-29T08:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。