論文の概要: CIDEr-R: Robust Consensus-based Image Description Evaluation
- arxiv url: http://arxiv.org/abs/2109.13701v1
- Date: Tue, 28 Sep 2021 13:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 19:40:47.182230
- Title: CIDEr-R: Robust Consensus-based Image Description Evaluation
- Title(参考訳): CIDEr-R:ロバスト合意に基づく画像記述評価
- Authors: Gabriel Oliveira dos Santos and Esther Luna Colombini and Sandra Avila
- Abstract要約: 画像記述のための従来の評価基準であるCIDEr-Dは、文中の単語数がMS COCO Captionsデータセットよりもはるかに多いデータセットでは適切に機能しない。
我々は,CIDEr-Dを改善したCIDEr-Rを導入する。
- 参考スコア(独自算出の注目度): 6.890235464357029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper shows that CIDEr-D, a traditional evaluation metric for image
description, does not work properly on datasets where the number of words in
the sentence is significantly greater than those in the MS COCO Captions
dataset. We also show that CIDEr-D has performance hampered by the lack of
multiple reference sentences and high variance of sentence length. To bypass
this problem, we introduce CIDEr-R, which improves CIDEr-D, making it more
flexible in dealing with datasets with high sentence length variance. We
demonstrate that CIDEr-R is more accurate and closer to human judgment than
CIDEr-D; CIDEr-R is more robust regarding the number of available references.
Our results reveal that using Self-Critical Sequence Training to optimize
CIDEr-R generates descriptive captions. In contrast, when CIDEr-D is optimized,
the generated captions' length tends to be similar to the reference length.
However, the models also repeat several times the same word to increase the
sentence length.
- Abstract(参考訳): 本稿では、画像記述のための従来の評価基準であるCIDEr-Dが、文中の単語数がMS COCO Captionsデータセットよりもはるかに大きいデータセットでは適切に機能しないことを示す。
また,複数の参照文の欠如と文長のばらつきにより,cider-dの性能が低下することを示した。
この問題を回避するために、CIDEr-Rを導入し、CIDEr-Dを改善し、高い文長分散を伴うデータセットの処理をより柔軟にする。
我々は、CIDEr-RがCIDEr-Dよりも正確で人間の判断に近いことを実証した。
CIDEr-Rを最適化するために自己批判シーケンストレーニングを用いることで,説明文のキャプションを生成する。
対照的に、CIDEr-Dが最適化されると、生成されたキャプションの長さは基準長と似ている傾向にある。
しかし、モデルはまた、文の長さを増加させるために同じ単語を数回繰り返す。
関連論文リスト
- Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs [12.878608250420832]
長文大域要約のためのRAGを強化するために,レコードのテキストグラフ(textbfGoR)を提案する。
RAG のtextitretrieve-then-generate パラダイムに着想を得て,検索したテキストチャンクと対応する LLM 生成応答のエッジを確立することでグラフを構築する。
それら間の複雑な相関関係を明らかにするために、GoRは、テキストトグラフニューラルネットワークと、自己教師型モデルトレーニングのための、精巧に設計されたTextitBERTScoreベースの目的を特徴としている。
論文 参考訳(メタデータ) (2024-10-14T18:34:29Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - SeDR: Segment Representation Learning for Long Documents Dense Retrieval [17.864362372788374]
長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。
SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。
MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-11-20T01:28:44Z) - Inverse Image Frequency for Long-tailed Image Recognition [59.40098825416675]
Inverse Image Frequency (IIF) と呼ばれる新しいデバイアス法を提案する。
IIFは畳み込みニューラルネットワークの分類層におけるロジットの乗法的マージン調整変換である。
我々の実験では、IIFは長い尾のベンチマークにおいて、最先端の技術を超越していることが示されている。
論文 参考訳(メタデータ) (2022-09-11T13:31:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。