論文の概要: Evaluating authenticity and quality of image captions via sentiment and semantic analyses
- arxiv url: http://arxiv.org/abs/2409.09560v1
- Date: Sat, 14 Sep 2024 23:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:17:37.540440
- Title: Evaluating authenticity and quality of image captions via sentiment and semantic analyses
- Title(参考訳): 感情分析と意味分析による画像キャプションの信頼性と品質評価
- Authors: Aleksei Krotov, Alison Tebo, Dylan K. Picart, Aaron Dean Algave,
- Abstract要約: ディープラーニングは、自然言語処理やコンピュータビジョンといったタスクのための大量のラベル付きデータに大きく依存している。
画像からテキストへのパイプラインや画像へのパイプラインでは、意見(知覚)は人為的な画像キャプションからモデルによって不注意に学習される。
本研究では,感情と意味的豊かさに着目した評価手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growth of deep learning (DL) relies heavily on huge amounts of labelled data for tasks such as natural language processing and computer vision. Specifically, in image-to-text or image-to-image pipelines, opinion (sentiment) may be inadvertently learned by a model from human-generated image captions. Additionally, learning may be affected by the variety and diversity of the provided captions. While labelling large datasets has largely relied on crowd-sourcing or data-worker pools, evaluating the quality of such training data is crucial. This study proposes an evaluation method focused on sentiment and semantic richness. That method was applied to the COCO-MS dataset, comprising approximately 150K images with segmented objects and corresponding crowd-sourced captions. We employed pre-trained models (Twitter-RoBERTa-base and BERT-base) to extract sentiment scores and variability of semantic embeddings from captions. The relation of the sentiment score and semantic variability with object categories was examined using multiple linear regression. Results indicate that while most captions were neutral, about 6% of the captions exhibited strong sentiment influenced by specific object categories. Semantic variability of within-image captions remained low and uncorrelated with object categories. Model-generated captions showed less than 1.5% of strong sentiment which was not influenced by object categories and did not correlate with the sentiment of the respective human-generated captions. This research demonstrates an approach to assess the quality of crowd- or worker-sourced captions informed by image content.
- Abstract(参考訳): ディープラーニング(DL)の成長は、自然言語処理やコンピュータビジョンといったタスクにおいて、大量のラベル付きデータに大きく依存している。
具体的には、画像からテキストへのパイプラインや画像へのパイプラインでは、人為的なイメージキャプションからモデルによって意見(感性)が不注意に学習される可能性がある。
さらに、学習は提供されたキャプションの多様性や多様性に影響される可能性がある。
大規模なデータセットのラベル付けはクラウドソーシングやデータワーカープールに大きく依存しているが、そのようなトレーニングデータの質を評価することは極めて重要である。
本研究では,感情と意味的豊かさに着目した評価手法を提案する。
この手法をCOCO-MSデータセットに適用した。
プレトレーニングモデル(Twitter-RoBERTa-baseとBERT-base)を用いて,キャプションから感情スコアとセマンティック埋め込みの多様性を抽出した。
感情スコアと対象カテゴリーのセマンティック・バリアビリティの関係を,複数線形回帰法を用いて検討した。
その結果、ほとんどのキャプションは中立であったが、約6%のキャプションは特定の対象カテゴリーの影響を受けていた。
画像内キャプションのセマンティック変動は, 対象カテゴリーと相関が認められなかった。
モデル生成キャプションは, 対象カテゴリーの影響を受けない強い感情の1.5%以下であり, それぞれの人生成キャプションの感情と相関しなかった。
本研究は,画像コンテンツから得られるクラウドソースキャプションやワーカーソースのキャプションの品質を評価するためのアプローチを示す。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-28T01:29:36Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Group-based Distinctive Image Captioning with Memory Attention [45.763534774116856]
GdisCap (Group-based Distinctive Captioning Model) は画像キャプションの特異性を改善する。
キャプションの識別性を測定するために,新しい評価指標DisWordRateを提案する。
論文 参考訳(メタデータ) (2021-08-20T12:46:36Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。