論文の概要: StyleM: Stylized Metrics for Image Captioning Built with Contrastive
N-grams
- arxiv url: http://arxiv.org/abs/2201.00975v1
- Date: Tue, 4 Jan 2022 04:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 13:06:27.697444
- Title: StyleM: Stylized Metrics for Image Captioning Built with Contrastive
N-grams
- Title(参考訳): StyleM: コントラストN-gramを用いた画像キャプション用スティル化メトリック
- Authors: Chengxi Li, Brent Harrison
- Abstract要約: 本稿では,機械が生成したキャプションと基底的真実文型キャプションの関連性を評価するための2つの自動評価指標を構築した。
- 参考スコア(独自算出の注目度): 8.069209836624495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we build two automatic evaluation metrics for evaluating the
association between a machine-generated caption and a ground truth stylized
caption: OnlyStyle and StyleCIDEr.
- Abstract(参考訳): 本稿では,機械生成キャプションと基底真理スタイライゼーションキャプションの関連性を評価するための2つの自動評価指標,onlystyleとstyleciderを構築した。
関連論文リスト
- BiLMa: Bidirectional Local-Matching for Text-based Person
Re-identification [2.3931689873603603]
テキストベースの人物再識別(TBPReID)は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。
画像やテキストをグローバルに、そしてローカルに効果的に整列する方法は、重要な課題だ。
TBPReIDモデルトレーニングにおいて,マスク付き画像モデリング(MIM)を協調的に最適化する双方向局所マッチング(LMa)フレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-09T04:01:24Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [61.42001469770537]
Inpaired exemplar-based image-to-image (UEI2I) は、ソースイメージをターゲット画像領域に変換することを目的としている。
対照的に、我々はスタイルを高密度な特徴写像として表現し、外部のセマンティック情報を必要とせずに、よりきめ細かいソース画像への転送を可能にすることを提案する。
次に、知覚的・敵対的な損失に頼って、密集したスタイルとコンテンツ表現を混乱させ、教師なしのドメイン間セマンティック対応を利用して、模範的なスタイルをソースコンテンツにワープする。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - Diverse Image Captioning with Grounded Style [19.434931809979282]
我々はCOCOアノテーションから多種多様な字幕を抽出するためのCOCOベースの拡張を提案する。
本研究では,変分オートエンコーダの潜時空間におけるスタイリング情報を符号化する。
SenticapとCOCOデータセットの実験は、正確なキャプションを生成するためのアプローチの能力を示している。
論文 参考訳(メタデータ) (2022-05-03T22:57:59Z) - COSMic: A Coherence-Aware Generation Metric for Image Descriptions [27.41088864449921]
画像メトリクスは、テキスト評価モデルのセマンティックおよび実用的成功の正確な学習された推定を与えるのに苦労してきた。
出力の出力を評価するための最初の学習的生成指標を示す。
提案手法では,BLEURTやBERTなどの他の指標と比較して,複数の最先端キャプションモデルの結果に対する人的判断の精度が高いことを示す。
論文 参考訳(メタデータ) (2021-09-11T13:43:36Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - UMIC: An Unreferenced Metric for Image Captioning via Contrastive
Learning [39.40274917797253]
本稿では,新しいメトリクスUMIC,Unreferenced Metric for Image Captioningを紹介する。
ビジョン・アンド・ランゲージ BERT に基づいてUMIC を訓練し、対照的な学習を通して否定的なキャプションを識別する。
また,画像キャプションの指標について,前回のベンチマークデータセットの問題点を考察し,生成したキャプションに人間のアノテーションの新たなコレクションを導入する。
論文 参考訳(メタデータ) (2021-06-26T13:27:14Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。