論文の概要: Context-Aware Group Captioning via Self-Attention and Contrastive
Features
- arxiv url: http://arxiv.org/abs/2004.03708v1
- Date: Tue, 7 Apr 2020 20:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:34:56.431852
- Title: Context-Aware Group Captioning via Self-Attention and Contrastive
Features
- Title(参考訳): 自己認識とコントラスト機能によるコンテキスト認識型グループキャプション
- Authors: Zhuowan Li, Quan Tran, Long Mai, Zhe Lin, Alan Yuille
- Abstract要約: 本稿では,他の参照画像のコンテキスト内で対象画像のグループを記述することを目的とした,コンテキスト対応型グループキャプションを提案する。
そこで本研究では,自己認識機構とコントラスト的特徴構成を組み合わせたフレームワークを提案する。
私たちのデータセットは、パブリックなConceptual Captionsデータセットと、新しいStock Captionsデータセットの上に構築されています。
- 参考スコア(独自算出の注目度): 31.94715153491951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While image captioning has progressed rapidly, existing works focus mainly on
describing single images. In this paper, we introduce a new task, context-aware
group captioning, which aims to describe a group of target images in the
context of another group of related reference images. Context-aware group
captioning requires not only summarizing information from both the target and
reference image group but also contrasting between them. To solve this problem,
we propose a framework combining self-attention mechanism with contrastive
feature construction to effectively summarize common information from each
image group while capturing discriminative information between them. To build
the dataset for this task, we propose to group the images and generate the
group captions based on single image captions using scene graphs matching. Our
datasets are constructed on top of the public Conceptual Captions dataset and
our new Stock Captions dataset. Experiments on the two datasets show the
effectiveness of our method on this new task. Related Datasets and code are
released at https://lizw14.github.io/project/groupcap .
- Abstract(参考訳): 画像キャプションは急速に進歩しているが、既存の作品は主に単一の画像の記述に焦点を当てている。
本稿では,別の参照画像群の文脈における対象画像群を記述することを目的とした,コンテキスト認識型グループキャプションを提案する。
コンテキスト認識型グループキャプションは、ターゲット画像群と参照画像群の両方からの情報を要約するだけでなく、それらと対比する。
そこで本稿では,自己着脱機構と対比的特徴構成を組み合わせた枠組みを提案し,各画像群からの共通情報を効果的に要約し,両者の識別情報を収集する。
この課題のためのデータセットを構築するために,画像群をグループ化し,シーングラフマッチングを用いた単一キャプションに基づくグループキャプションを生成することを提案する。
私たちのデータセットは、パブリックコンセプトキャプションデータセットと、新しいストックキャプションデータセットの上に構築されています。
この2つのデータセットの実験から,本手法の有効性が示された。
関連するデータセットとコードはhttps://lizw14.github.io/project/groupcapでリリースされる。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - "Let's not Quote out of Context": Unified Vision-Language Pretraining
for Context Assisted Image Captioning [40.01197694624958]
我々は,One For All(OFA)モデルに基づく新しい統合ビジョンランゲージ(VL)モデルを提案する。
我々のアプローチは、既存のアプローチの文脈に依存しない(画像とテキストは独立して扱われる)性質を克服することを目的としています。
本システムは,ベンチマークニュース画像キャプションデータセットにおいて,最大8.34CIDErのスコアを向上し,最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-06-01T17:34:25Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Partially-supervised novel object captioning leveraging context from
paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文 参考訳(メタデータ) (2021-09-10T21:31:42Z) - Who's Waldo? Linking People Across Text and Images [56.40556801773923]
人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。
我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。
本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T17:36:49Z) - Diverse Image Captioning with Context-Object Split Latent Spaces [22.95979735707003]
本稿では,画像やテキストのコンテキスト記述における多様性をモデル化するために,コンテキストオブジェクト分割と呼ばれる潜在空間の新たな因子分解を導入する。
本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを含まないようにした。
論文 参考訳(メタデータ) (2020-11-02T13:33:20Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。