論文の概要: Cognitive resilience: Unraveling the proficiency of image-captioning models to interpret masked visual content
- arxiv url: http://arxiv.org/abs/2403.15876v1
- Date: Sat, 23 Mar 2024 15:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:42:03.567734
- Title: Cognitive resilience: Unraveling the proficiency of image-captioning models to interpret masked visual content
- Title(参考訳): 認知的レジリエンス : イメージキャプションモデルの有効性の解明とマスク付き視覚内容の解釈
- Authors: Zhicheng Du, Zhaotian Xie, Huazhang Ying, Likun Zhang, Peiwu Qin,
- Abstract要約: 本研究では,多様なデータセットから得られたマスク付き視覚コンテンツをデコードする画像キャプション(IC)モデルについて検討する。
本研究により, マスク画像からキャプションを生成できるICモデルの能力が, オリジナルとよく似ていることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.391747292299143
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study explores the ability of Image Captioning (IC) models to decode masked visual content sourced from diverse datasets. Our findings reveal the IC model's capability to generate captions from masked images, closely resembling the original content. Notably, even in the presence of masks, the model adeptly crafts descriptive textual information that goes beyond what is observable in the original image-generated captions. While the decoding performance of the IC model experiences a decline with an increase in the masked region's area, the model still performs well when important regions of the image are not masked at high coverage.
- Abstract(参考訳): 本研究では,多様なデータセットから得られたマスク付き視覚コンテンツをデコードする画像キャプション(IC)モデルについて検討する。
本研究により, マスク画像からキャプションを生成できるICモデルの能力が, オリジナルとよく似ていることが明らかとなった。
特に、仮面が存在する場合でも、モデルはオリジナルの画像生成キャプションで観察可能なものを超える記述的なテキスト情報を巧みに作り出す。
ICモデルの復号性能は、マスキング領域の増加とともに低下するが、画像の重要な領域をハイカバレッジで隠蔽しない場合には、モデルが良好に機能する。
関連論文リスト
- FaceAtt: Enhancing Image Captioning with Facial Attributes for Portrait
Images [0.0]
FaceAttは属性中心の画像キャプションに対する新しいアプローチであり、画像内の顔属性の正確な描写を強調する。
本研究は,自動キャプションにおける倫理的考察の広範な議論に寄与する。
論文 参考訳(メタデータ) (2023-09-24T10:30:22Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Vision and Language Modeling for Multi-modal Representation
Learning [62.15254888833132]
視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
我々は,あるモダリティのマスク信号が他のモダリティの助けを借りて再構成される,共同マスク型視覚と言語モデリングを構築することを提案する。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-08-03T15:11:01Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。