論文の概要: CIDEr-R: Robust Consensus-based Image Description Evaluation
- arxiv url: http://arxiv.org/abs/2109.13701v1
- Date: Tue, 28 Sep 2021 13:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 19:40:47.182230
- Title: CIDEr-R: Robust Consensus-based Image Description Evaluation
- Title(参考訳): CIDEr-R:ロバスト合意に基づく画像記述評価
- Authors: Gabriel Oliveira dos Santos and Esther Luna Colombini and Sandra Avila
- Abstract要約: 画像記述のための従来の評価基準であるCIDEr-Dは、文中の単語数がMS COCO Captionsデータセットよりもはるかに多いデータセットでは適切に機能しない。
我々は,CIDEr-Dを改善したCIDEr-Rを導入する。
- 参考スコア(独自算出の注目度): 6.890235464357029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper shows that CIDEr-D, a traditional evaluation metric for image
description, does not work properly on datasets where the number of words in
the sentence is significantly greater than those in the MS COCO Captions
dataset. We also show that CIDEr-D has performance hampered by the lack of
multiple reference sentences and high variance of sentence length. To bypass
this problem, we introduce CIDEr-R, which improves CIDEr-D, making it more
flexible in dealing with datasets with high sentence length variance. We
demonstrate that CIDEr-R is more accurate and closer to human judgment than
CIDEr-D; CIDEr-R is more robust regarding the number of available references.
Our results reveal that using Self-Critical Sequence Training to optimize
CIDEr-R generates descriptive captions. In contrast, when CIDEr-D is optimized,
the generated captions' length tends to be similar to the reference length.
However, the models also repeat several times the same word to increase the
sentence length.
- Abstract(参考訳): 本稿では、画像記述のための従来の評価基準であるCIDEr-Dが、文中の単語数がMS COCO Captionsデータセットよりもはるかに大きいデータセットでは適切に機能しないことを示す。
また,複数の参照文の欠如と文長のばらつきにより,cider-dの性能が低下することを示した。
この問題を回避するために、CIDEr-Rを導入し、CIDEr-Dを改善し、高い文長分散を伴うデータセットの処理をより柔軟にする。
我々は、CIDEr-RがCIDEr-Dよりも正確で人間の判断に近いことを実証した。
CIDEr-Rを最適化するために自己批判シーケンストレーニングを用いることで,説明文のキャプションを生成する。
対照的に、CIDEr-Dが最適化されると、生成されたキャプションの長さは基準長と似ている傾向にある。
しかし、モデルはまた、文の長さを増加させるために同じ単語を数回繰り返す。
関連論文リスト
- Learning Descriptive Image Captioning via Semipermeable Maximum
Likelihood Estimation [67.2892626924334]
トレーニング対象として最大最大推定を行うと、その予測がラベルと一致しないときにキャプションモデルがペナル化される。
本研究では,精度の最適化をブロックしながらリッチネスの最適化を可能にするSemipermeable MaxImum Likelihood Estimation (SMILE)を提案する。
論文 参考訳(メタデータ) (2023-06-23T12:03:07Z) - Reference-based Image and Video Super-Resolution via C2-Matching [100.0808130445653]
本稿では,C2-Matchingを提案する。
C2-Matchingは、標準的なCUFED5ベンチマークにおいて、最先端のアーツを著しく上回っている。
また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースでビデオスーパーリゾリューションタスクに拡張する。
論文 参考訳(メタデータ) (2022-12-19T16:15:02Z) - SeDR: Segment Representation Learning for Long Documents Dense Retrieval [17.864362372788374]
長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。
SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。
MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-11-20T01:28:44Z) - Inverse Image Frequency for Long-tailed Image Recognition [59.40098825416675]
Inverse Image Frequency (IIF) と呼ばれる新しいデバイアス法を提案する。
IIFは畳み込みニューラルネットワークの分類層におけるロジットの乗法的マージン調整変換である。
我々の実験では、IIFは長い尾のベンチマークにおいて、最先端の技術を超越していることが示されている。
論文 参考訳(メタデータ) (2022-09-11T13:31:43Z) - A Character-Level Length-Control Algorithm for Non-Autoregressive
Sentence Summarization [23.495225374478295]
文要約は、長い文を主幹を保ちながら短い文に圧縮することを目的としており、見出し生成のような広範囲の現実世界の応用がある。
本研究では,要約のための文字レベル長制御の新しい問題に対処し,コネクショニスト時間分類(CTC)モデルに基づく動的プログラミングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-28T21:09:53Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。