論文の概要: Towards Annotation-Free Evaluation of Cross-Lingual Image Captioning
- arxiv url: http://arxiv.org/abs/2012.04925v1
- Date: Wed, 9 Dec 2020 09:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 01:54:44.042440
- Title: Towards Annotation-Free Evaluation of Cross-Lingual Image Captioning
- Title(参考訳): クロスリンガル画像キャプションのアノテーションフリー化に向けて
- Authors: Aozhu Chen, Xinyi Huang, Hailan Lin, Xirong Li
- Abstract要約: 言語間画像キャプションはマルチメディア分野における新たな話題である。
クロスリンガル画像キャプションのアノテーションフリー評価に向けた勇敢な試みを行います。
- 参考スコア(独自算出の注目度): 15.173811449488912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual image captioning, with its ability to caption an unlabeled
image in a target language other than English, is an emerging topic in the
multimedia field. In order to save the precious human resource from re-writing
reference sentences per target language, in this paper we make a brave attempt
towards annotation-free evaluation of cross-lingual image captioning. Depending
on whether we assume the availability of English references, two scenarios are
investigated. For the first scenario with the references available, we propose
two metrics, i.e., WMDRel and CLinRel. WMDRel measures the semantic relevance
between a model-generated caption and machine translation of an English
reference using their Word Mover's Distance. By projecting both captions into a
deep visual feature space, CLinRel is a visual-oriented cross-lingual relevance
measure. As for the second scenario, which has zero reference and is thus more
challenging, we propose CMedRel to compute a cross-media relevance between the
generated caption and the image content, in the same visual feature space as
used by CLinRel. The promising results show high potential of the new metrics
for evaluation with no need of references in the target language.
- Abstract(参考訳): 英語以外のターゲット言語でラベルのない画像をキャプションできるクロスリンガル画像キャプションは、マルチメディア分野における新たなトピックである。
本稿では,対象言語毎の参照文の書き直しから貴重な人的資源を節約するために,言語横断画像キャプションの注釈なし評価に勇敢な試みを行う。
英語の参照が利用可能かどうかによっては,2つのシナリオが検討される。
参照可能な最初のシナリオでは、WMDRelとCLinRelの2つのメトリクスを提案する。
WMDRel は Word Mover's Distance を用いて、モデル生成キャプションと英語参照の機械翻訳のセマンティックな関連性を測定する。
両キャプションを深い視覚的特徴空間に投影することにより、CLinRelは視覚指向の言語間の関連度尺度である。
参照がゼロな第2のシナリオについては,clinrel が使用するのと同じ視覚特徴空間において,生成したキャプションと画像内容とのクロスメディア関係を計算するために cmedrel を提案する。
有望な結果は、対象言語での参照を必要としない評価のための新しい指標の可能性を示している。
関連論文リスト
- HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - UNISON: Unpaired Cross-lingual Image Captioning [17.60054750276632]
本稿では,ソースや対象言語の字幕コーパスに頼らずに画像キャプションを生成する,新たな非ペア型クロスランガル手法を提案する。
具体的には、2つのフェーズから構成される: (i) パラレル (bitext) コーパスを利用して、シーングラフ符号化空間内のソースからターゲット言語へのマッピングを学習し、ターゲット言語内の文をデコードする (ii) エンコードされたシーングラフの特徴を画像モダリティから言語モダリティへマッピングする (i) クロスモーダルな非教師なし特徴マッピングである。
論文 参考訳(メタデータ) (2020-10-03T06:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。