論文の概要: Human-like Controllable Image Captioning with Verb-specific Semantic
Roles
- arxiv url: http://arxiv.org/abs/2103.12204v1
- Date: Mon, 22 Mar 2021 22:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:14:47.787874
- Title: Human-like Controllable Image Captioning with Verb-specific Semantic
Roles
- Title(参考訳): 動詞固有の意味的役割を持つ人様制御可能な画像キャプション
- Authors: Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu
- Abstract要約: CIC: Verb-specific Semantic Roles (VSR)の新しい制御信号を提案する。
VSRは動詞とセマンティックな役割で構成され、対象とするアクティビティと、このアクティビティに関わるエンティティの役割を表します。
私たちのフレームワークは、2つの困難なCICベンチマークのいくつかの強力なベースラインよりも優れた制御性を達成できます。
- 参考スコア(独自算出の注目度): 15.710374070780077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable Image Captioning (CIC) -- generating image descriptions
following designated control signals -- has received unprecedented attention
over the last few years. To emulate the human ability in controlling caption
generation, current CIC studies focus exclusively on control signals concerning
objective properties, such as contents of interest or descriptive patterns.
However, we argue that almost all existing objective control signals have
overlooked two indispensable characteristics of an ideal control signal: 1)
Event-compatible: all visual contents referred to in a single sentence should
be compatible with the described activity. 2) Sample-suitable: the control
signals should be suitable for a specific image sample. To this end, we propose
a new control signal for CIC: Verb-specific Semantic Roles (VSR). VSR consists
of a verb and some semantic roles, which represents a targeted activity and the
roles of entities involved in this activity. Given a designated VSR, we first
train a grounded semantic role labeling (GSRL) model to identify and ground all
entities for each role. Then, we propose a semantic structure planner (SSP) to
learn human-like descriptive semantic structures. Lastly, we use a role-shift
captioning model to generate the captions. Extensive experiments and ablations
demonstrate that our framework can achieve better controllability than several
strong baselines on two challenging CIC benchmarks. Besides, we can generate
multi-level diverse captions easily. The code is available at:
https://github.com/mad-red/VSR-guided-CIC.
- Abstract(参考訳): 制御可能な画像キャプチャ(CIC) -- 指定された制御信号に従って画像記述を生成する -- は、ここ数年で前例のない注目を集めている。
現在のCIC研究は、キャプション生成を制御する人間の能力をエミュレートするため、興味のある内容や記述パターンなどの客観的特性に関する制御信号のみに焦点を当てている。
しかし,既存の制御信号のほとんどすべてが,理想的な制御信号の2つの不必要な特性を見落としていると論じている。
2) サンプル適合性: 制御信号は特定の画像サンプルに適合すべきである。
そこで我々は,CICの新しい制御信号であるVerb-specific Semantic Roles (VSR)を提案する。
VSRは動詞といくつかの意味的役割から構成されており、これは目的とする活動と、この活動に関わるエンティティの役割を表す。
指定されたVSRが与えられた場合、まず、各ロールのすべてのエンティティを識別およびグラウンド化するために、グラウンドドセマンティックロールラベル(GSRL)モデルを訓練する。
次に,人間のような記述的意味構造を学ぶための意味構造プランナー(ssp)を提案する。
最後に,ロールシフトキャプションモデルを用いてキャプションを生成する。
広範な実験とアブレーションにより,2つのcicベンチマークにおいて,複数の強力なベースラインよりも優れた制御性が得られた。
さらに、多レベル多様なキャプションを簡単に生成できる。
コードはhttps://github.com/mad-red/vsr-guided-cic。
関連論文リスト
- Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained
Vision-Language Model [73.33909351531463]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Zero-shot Visual Relation Detection via Composite Visual Cues from Large
Language Models [44.60439935450292]
本稿では,ゼロショット視覚認識のための新しい手法であるRECODEを提案する。
各述語カテゴリを主題、対象、空間構成要素に分解する。
異なる視覚的手がかりは、異なる視点から類似した関係カテゴリの識別可能性を高める。
論文 参考訳(メタデータ) (2023-05-21T14:40:48Z) - Learning Combinatorial Prompts for Universal Controllable Image
Captioning [46.34624079520254]
制御可能な画像キャプション -- 与えられた制御信号の指示の下で、画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。
我々は,ComPro という名称の Combinatorial Prompts を学習し,CIC のための新しいプロンプトベースのフレームワークを提案する。
当社のComProは、これらのプロンプトを連結することで、より多くの種類の複合制御信号にさらに拡張することができます。
論文 参考訳(メタデータ) (2023-03-11T07:53:15Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - ReADS: A Rectified Attentional Double Supervised Network for Scene Text
Recognition [22.367624178280682]
一般的なシーンテキスト認識のためのRectified Attentional Double Supervised Network (ReADS) を精巧に設計する。
ReADSはエンドツーエンドでトレーニングすることができ、ワードレベルのアノテーションのみが必要とされる。
論文 参考訳(メタデータ) (2020-04-05T02:05:35Z) - MRRC: Multiple Role Representation Crossover Interpretation for Image
Captioning With R-CNN Feature Distribution Composition (FDC) [9.89901717499058]
研究はコンテキストの組み合わせのための新しい概念を提供する。
オブジェクト、アクティビティ、イベントの等価性として視覚的特徴を扱う多くのアプリケーションに影響を与えるだろう。
論文 参考訳(メタデータ) (2020-02-15T19:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。