論文の概要: Integrating Image Captioning with Rule-based Entity Masking
- arxiv url: http://arxiv.org/abs/2007.11690v1
- Date: Wed, 22 Jul 2020 21:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 22:03:49.901384
- Title: Integrating Image Captioning with Rule-based Entity Masking
- Title(参考訳): ルールに基づくエンティティマスキングと画像キャプションの統合
- Authors: Aditya Mogadala and Xiaoyu Shen and Dietrich Klakow
- Abstract要約: 本稿では,画像キャプションを明示的なオブジェクト(知識グラフエンティティなど)で選択するための新しいフレームワークを提案する。
モデルでは、まず、人解釈マスクに従ってキャプションに含まれるどのローカルエンティティを明示的に選択し、選択したエンティティに出席して適切なキャプションを生成する。
- 参考スコア(独自算出の注目度): 23.79124007406315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an image, generating its natural language description (i.e., caption)
is a well studied problem. Approaches proposed to address this problem usually
rely on image features that are difficult to interpret. Particularly, these
image features are subdivided into global and local features, where global
features are extracted from the global representation of the image, while local
features are extracted from the objects detected locally in an image. Although,
local features extract rich visual information from the image, existing models
generate captions in a blackbox manner and humans have difficulty interpreting
which local objects the caption is aimed to represent. Hence in this paper, we
propose a novel framework for the image captioning with an explicit object
(e.g., knowledge graph entity) selection process while still maintaining its
end-to-end training ability. The model first explicitly selects which local
entities to include in the caption according to a human-interpretable mask,
then generate proper captions by attending to selected entities. Experiments
conducted on the MSCOCO dataset demonstrate that our method achieves good
performance in terms of the caption quality and diversity with a more
interpretable generating process than previous counterparts.
- Abstract(参考訳): 画像が与えられた場合、自然言語記述(つまりキャプション)を生成することはよく研究されている問題である。
この問題に対処するために提案されたアプローチは、通常、解釈が難しい画像特徴に依存する。
特に、これらの画像特徴は、画像のグローバル表現からグローバル特徴を抽出し、画像内で局所的に検出された対象からローカル特徴を抽出するグローバル特徴とローカル特徴に分けられる。
局所的な特徴は画像から豊かな視覚情報を抽出するが、既存のモデルはキャプションをブラックボックス方式で生成し、キャプションが表現しようとするローカルオブジェクトの解釈が困難である。
そこで本稿では,画像キャプションのための新しいフレームワークを提案する。このフレームワークは,エンドツーエンドのトレーニング能力を維持しつつ,明示的なオブジェクト(例えば知識グラフエンティティ)選択プロセスを持つ。
モデルでは、まず、人解釈マスクに従ってキャプションに含まれるどのローカルエンティティを明示的に選択し、選択したエンティティに出席して適切なキャプションを生成する。
MSCOCOデータセットで行った実験により,本手法はキャプションの品質と多様性において,従来の手法よりも解釈可能な生成プロセスで良好な性能を発揮することが示された。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Language Guided Local Infiltration for Interactive Image Retrieval [12.324893780690918]
Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが、要求されたテキスト修正の下で画像を取得することを目的としている。
テキスト情報を完全に活用し,画像特徴にテキスト特徴を浸透させる言語ガイド型局所浸透システム(LGLI)を提案する。
我々の手法は、最先端のIIR手法よりも優れています。
論文 参考訳(メタデータ) (2023-04-16T10:33:08Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Generating image captions with external encyclopedic knowledge [1.452875650827562]
我々は、画像固有の百科事典データを広範囲に活用するエンドツーエンドのキャプション生成システムを構築した。
われわれのアプローチは、画像位置を用いて、外部知識ベースで関連するオープンドメインの事実を識別する新しい方法を含む。
我々のシステムは、自然に生成された知識に富んだキャプションを持つ新しいデータセットで訓練され、テストされている。
論文 参考訳(メタデータ) (2022-10-10T16:09:21Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。