論文の概要: Human-like Controllable Image Captioning with Verb-specific Semantic
Roles
- arxiv url: http://arxiv.org/abs/2103.12204v1
- Date: Mon, 22 Mar 2021 22:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:14:47.787874
- Title: Human-like Controllable Image Captioning with Verb-specific Semantic
Roles
- Title(参考訳): 動詞固有の意味的役割を持つ人様制御可能な画像キャプション
- Authors: Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu
- Abstract要約: CIC: Verb-specific Semantic Roles (VSR)の新しい制御信号を提案する。
VSRは動詞とセマンティックな役割で構成され、対象とするアクティビティと、このアクティビティに関わるエンティティの役割を表します。
私たちのフレームワークは、2つの困難なCICベンチマークのいくつかの強力なベースラインよりも優れた制御性を達成できます。
- 参考スコア(独自算出の注目度): 15.710374070780077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable Image Captioning (CIC) -- generating image descriptions
following designated control signals -- has received unprecedented attention
over the last few years. To emulate the human ability in controlling caption
generation, current CIC studies focus exclusively on control signals concerning
objective properties, such as contents of interest or descriptive patterns.
However, we argue that almost all existing objective control signals have
overlooked two indispensable characteristics of an ideal control signal: 1)
Event-compatible: all visual contents referred to in a single sentence should
be compatible with the described activity. 2) Sample-suitable: the control
signals should be suitable for a specific image sample. To this end, we propose
a new control signal for CIC: Verb-specific Semantic Roles (VSR). VSR consists
of a verb and some semantic roles, which represents a targeted activity and the
roles of entities involved in this activity. Given a designated VSR, we first
train a grounded semantic role labeling (GSRL) model to identify and ground all
entities for each role. Then, we propose a semantic structure planner (SSP) to
learn human-like descriptive semantic structures. Lastly, we use a role-shift
captioning model to generate the captions. Extensive experiments and ablations
demonstrate that our framework can achieve better controllability than several
strong baselines on two challenging CIC benchmarks. Besides, we can generate
multi-level diverse captions easily. The code is available at:
https://github.com/mad-red/VSR-guided-CIC.
- Abstract(参考訳): 制御可能な画像キャプチャ(CIC) -- 指定された制御信号に従って画像記述を生成する -- は、ここ数年で前例のない注目を集めている。
現在のCIC研究は、キャプション生成を制御する人間の能力をエミュレートするため、興味のある内容や記述パターンなどの客観的特性に関する制御信号のみに焦点を当てている。
しかし,既存の制御信号のほとんどすべてが,理想的な制御信号の2つの不必要な特性を見落としていると論じている。
2) サンプル適合性: 制御信号は特定の画像サンプルに適合すべきである。
そこで我々は,CICの新しい制御信号であるVerb-specific Semantic Roles (VSR)を提案する。
VSRは動詞といくつかの意味的役割から構成されており、これは目的とする活動と、この活動に関わるエンティティの役割を表す。
指定されたVSRが与えられた場合、まず、各ロールのすべてのエンティティを識別およびグラウンド化するために、グラウンドドセマンティックロールラベル(GSRL)モデルを訓練する。
次に,人間のような記述的意味構造を学ぶための意味構造プランナー(ssp)を提案する。
最後に,ロールシフトキャプションモデルを用いてキャプションを生成する。
広範な実験とアブレーションにより,2つのcicベンチマークにおいて,複数の強力なベースラインよりも優れた制御性が得られた。
さらに、多レベル多様なキャプションを簡単に生成できる。
コードはhttps://github.com/mad-red/vsr-guided-cic。
関連論文リスト
- Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文 参考訳(メタデータ) (2024-07-19T05:07:41Z) - Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights [28.963204452040813]
CIC(Contextualized Image Captioning)は、従来の画像キャプションをより複雑なドメインに進化させる。
本稿では,Ctrl-CIC(Contulable Contextualized Image Captioning)の新たな領域を提案する。
本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-16T07:32:48Z) - CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation [9.493755431645313]
そこで本研究では,集中型および視覚的接地型キャプションをサンプリングするための,新しい完全自動手法を提案する。
抽象的意味表現(AMR)を利用して、エンティティ間のすべての意味・意味関係を符号化する。
次に、SSAに分散したデータセットから制御信号を出力する新しいモデルCIC-BART-SSAを開発する。
論文 参考訳(メタデータ) (2024-07-16T05:26:12Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - Learning Combinatorial Prompts for Universal Controllable Image
Captioning [46.34624079520254]
制御可能な画像キャプション -- 与えられた制御信号の指示の下で、画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。
我々は,ComPro という名称の Combinatorial Prompts を学習し,CIC のための新しいプロンプトベースのフレームワークを提案する。
当社のComProは、これらのプロンプトを連結することで、より多くの種類の複合制御信号にさらに拡張することができます。
論文 参考訳(メタデータ) (2023-03-11T07:53:15Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。