論文の概要: Dense Relational Image Captioning via Multi-task Triple-Stream Networks
- arxiv url: http://arxiv.org/abs/2010.03855v3
- Date: Mon, 11 Oct 2021 08:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 10:56:07.212704
- Title: Dense Relational Image Captioning via Multi-task Triple-Stream Networks
- Title(参考訳): マルチタスクトリプルストリームネットワークによるDense Relational Image Captioning
- Authors: Dong-Jin Kim, Tae-Hyun Oh, Jinsoo Choi, In So Kweon
- Abstract要約: 視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
- 参考スコア(独自算出の注目度): 95.0476489266988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce dense relational captioning, a novel image captioning task which
aims to generate multiple captions with respect to relational information
between objects in a visual scene. Relational captioning provides explicit
descriptions for each relationship between object combinations. This framework
is advantageous in both diversity and amount of information, leading to a
comprehensive image understanding based on relationships, e.g., relational
proposal generation. For relational understanding between objects, the
part-of-speech (POS; i.e., subject-object-predicate categories) can be a
valuable prior information to guide the causal sequence of words in a caption.
We enforce our framework to learn not only to generate captions but also to
understand the POS of each word. To this end, we propose the multi-task
triple-stream network (MTTSNet) which consists of three recurrent units
responsible for each POS which is trained by jointly predicting the correct
captions and POS for each word. In addition, we found that the performance of
MTTSNet can be improved by modulating the object embeddings with an explicit
relational module. We demonstrate that our proposed model can generate more
diverse and richer captions, via extensive experimental analysis on large scale
datasets and several metrics. Then, we present applications of our framework to
holistic image captioning, scene graph generation, and retrieval tasks.
- Abstract(参考訳): 本研究では,視覚シーン内の物体間の関係情報に関して複数のキャプションを生成することを目的とした,新しい画像キャプションタスクである,高密度リレーショナルキャプションを提案する。
関係キャプションは、オブジェクトの組み合わせ間の関係ごとに明示的な記述を提供する。
このフレームワークは多様性と情報量の両方において有利であり、関係性、例えば関係性の提案生成に基づく包括的なイメージ理解をもたらす。
オブジェクト間の関係理解のために、part-of-speech(つまり、主観-対象-述語カテゴリ)は、キャプション内の単語の因果配列を導くための貴重な事前情報である。
我々は,字幕生成だけでなく,各単語のPOSを理解するための枠組みを強制する。
そこで本研究では,各単語に対する正しいキャプションとposを共同で予測し,各posに責任を持つ3つの再帰ユニットからなるマルチタスクトリプルストリームネットワーク(mtsnet)を提案する。
さらに,mttsnetの性能は,オブジェクト埋め込みを明示的なリレーショナルモジュールで変調することで向上できることがわかった。
大規模データセットと複数のメトリクスの広範な実験分析により,提案モデルがより多様でリッチなキャプションを生成できることを実証した。
次に,本フレームワークの全体像キャプション,シーングラフ生成,検索タスクへの応用について述べる。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Panoptic Perception: A Novel Task and Fine-grained Dataset for Universal Remote Sensing Image Interpretation [19.987706084203523]
本稿では,新しいタスクであるPanoptic Perceptionと,より徹底的で普遍的なRSI解釈を実現するためのFineGrip(FineGrip)を提案する。
新しいタスクは、ピクセルレベル、インスタンスレベル、イメージレベル情報を統合して、普遍的なイメージ知覚を実現する。
FineGripデータセットには、2,649のリモートセンシングイメージ、20のフォアグラウンドに属する12,054のきめ細かいインスタンスセグメンテーションマスク、5つのクラスのための7,599のバックグラウンドセマンティックマスク、13,245のキャプション文が含まれている。
論文 参考訳(メタデータ) (2024-04-06T12:27:21Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。