Fugu-MT 論文翻訳(概要): Human-like Controllable Image Captioning with Verb-specific Semantic Roles

論文の概要: Human-like Controllable Image Captioning with Verb-specific Semantic Roles

arxiv url: http://arxiv.org/abs/2103.12204v1
Date: Mon, 22 Mar 2021 22:17:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-24 14:14:47.787874
Title: Human-like Controllable Image Captioning with Verb-specific Semantic Roles
Title（参考訳）: 動詞固有の意味的役割を持つ人様制御可能な画像キャプション
Authors: Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu
Abstract要約: CIC: Verb-specific Semantic Roles (VSR)の新しい制御信号を提案する。 VSRは動詞とセマンティックな役割で構成され、対象とするアクティビティと、このアクティビティに関わるエンティティの役割を表します。私たちのフレームワークは、2つの困難なCICベンチマークのいくつかの強力なベースラインよりも優れた制御性を達成できます。
参考スコア（独自算出の注目度）: 15.710374070780077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Controllable Image Captioning (CIC) -- generating image descriptions following designated control signals -- has received unprecedented attention over the last few years. To emulate the human ability in controlling caption generation, current CIC studies focus exclusively on control signals concerning objective properties, such as contents of interest or descriptive patterns. However, we argue that almost all existing objective control signals have overlooked two indispensable characteristics of an ideal control signal: 1) Event-compatible: all visual contents referred to in a single sentence should be compatible with the described activity. 2) Sample-suitable: the control signals should be suitable for a specific image sample. To this end, we propose a new control signal for CIC: Verb-specific Semantic Roles (VSR). VSR consists of a verb and some semantic roles, which represents a targeted activity and the roles of entities involved in this activity. Given a designated VSR, we first train a grounded semantic role labeling (GSRL) model to identify and ground all entities for each role. Then, we propose a semantic structure planner (SSP) to learn human-like descriptive semantic structures. Lastly, we use a role-shift captioning model to generate the captions. Extensive experiments and ablations demonstrate that our framework can achieve better controllability than several strong baselines on two challenging CIC benchmarks. Besides, we can generate multi-level diverse captions easily. The code is available at: https://github.com/mad-red/VSR-guided-CIC.
Abstract（参考訳）: 制御可能な画像キャプチャ(CIC) -- 指定された制御信号に従って画像記述を生成する -- は、ここ数年で前例のない注目を集めている。現在のCIC研究は、キャプション生成を制御する人間の能力をエミュレートするため、興味のある内容や記述パターンなどの客観的特性に関する制御信号のみに焦点を当てている。しかし,既存の制御信号のほとんどすべてが,理想的な制御信号の2つの不必要な特性を見落としていると論じている。 2) サンプル適合性: 制御信号は特定の画像サンプルに適合すべきである。そこで我々は,CICの新しい制御信号であるVerb-specific Semantic Roles (VSR)を提案する。 VSRは動詞といくつかの意味的役割から構成されており、これは目的とする活動と、この活動に関わるエンティティの役割を表す。指定されたVSRが与えられた場合、まず、各ロールのすべてのエンティティを識別およびグラウンド化するために、グラウンドドセマンティックロールラベル(GSRL)モデルを訓練する。次に,人間のような記述的意味構造を学ぶための意味構造プランナー(ssp)を提案する。最後に,ロールシフトキャプションモデルを用いてキャプションを生成する。広範な実験とアブレーションにより,2つのcicベンチマークにおいて,複数の強力なベースラインよりも優れた制御性が得られた。さらに、多レベル多様なキャプションを簡単に生成できる。コードはhttps://github.com/mad-red/vsr-guided-cic。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T02:36:48Z)
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。 RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文参考訳（メタデータ） (2024-10-11T08:28:04Z)
Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文参考訳（メタデータ） (2024-07-19T05:07:41Z)
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights [28.963204452040813]
CIC(Contextualized Image Captioning)は、従来の画像キャプションをより複雑なドメインに進化させる。本稿では,Ctrl-CIC(Contulable Contextualized Image Captioning)の新たな領域を提案する。本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-16T07:32:48Z)
CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation [9.493755431645313]
そこで本研究では,集中型および視覚的接地型キャプションをサンプリングするための,新しい完全自動手法を提案する。抽象的意味表現(AMR)を利用して、エンティティ間のすべての意味・意味関係を符号化する。次に、SSAに分散したデータセットから制御信号を出力する新しいモデルCIC-BART-SSAを開発する。
論文参考訳（メタデータ） (2024-07-16T05:26:12Z)
Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文参考訳（メタデータ） (2024-02-21T03:01:17Z)
SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文参考訳（メタデータ） (2024-01-04T08:42:36Z)
Learning Combinatorial Prompts for Universal Controllable Image Captioning [46.34624079520254]
制御可能な画像キャプション -- 与えられた制御信号の指示の下で、画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。我々は,ComPro という名称の Combinatorial Prompts を学習し,CIC のための新しいプロンプトベースのフレームワークを提案する。当社のComProは、これらのプロンプトを連結することで、より多くの種類の複合制御信号にさらに拡張することができます。
論文参考訳（メタデータ） (2023-03-11T07:53:15Z)
Is a Caption Worth a Thousand Images? A Controlled Study for Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文参考訳（メタデータ） (2022-07-15T17:50:51Z)
Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-27T21:16:10Z)
Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。 SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。 Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文参考訳（メタデータ） (2022-03-19T09:19:55Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。