Fugu-MT 論文翻訳(概要): Language-Driven Region Pointer Advancement for Controllable Image Captioning

論文の概要: Language-Driven Region Pointer Advancement for Controllable Image Captioning

arxiv url: http://arxiv.org/abs/2011.14901v1
Date: Mon, 30 Nov 2020 15:34:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-07 01:44:03.011936
Title: Language-Driven Region Pointer Advancement for Controllable Image Captioning
Title（参考訳）: 制御可能な画像キャプションのための言語駆動型領域ポインタの進歩
Authors: Annika Lindh, Robert J. Ross, John D. Kelleher
Abstract要約: 本稿では,言語構造の自然な部分として進行段階を扱い,領域ポインター進行のタイミングを予測する新しい手法を提案する。 Flickr30k Entitiesテストデータでは、精度86.55%、リコール97.92%である。
参考スコア（独自算出の注目度）: 2.6126186108561895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Controllable Image Captioning is a recent sub-field in the multi-modal task of Image Captioning wherein constraints are placed on which regions in an image should be described in the generated natural language caption. This puts a stronger focus on producing more detailed descriptions, and opens the door for more end-user control over results. A vital component of the Controllable Image Captioning architecture is the mechanism that decides the timing of attending to each region through the advancement of a region pointer. In this paper, we propose a novel method for predicting the timing of region pointer advancement by treating the advancement step as a natural part of the language structure via a NEXT-token, motivated by a strong correlation to the sentence structure in the training data. We find that our timing agrees with the ground-truth timing in the Flickr30k Entities test data with a precision of 86.55% and a recall of 97.92%. Our model implementing this technique improves the state-of-the-art on standard captioning metrics while additionally demonstrating a considerably larger effective vocabulary size.
Abstract（参考訳）: 制御可能な画像キャプションは、画像キャプションのマルチモーダルタスクにおける最近のサブフィールドであり、画像内の領域を生成した自然言語キャプションに記述する制約が置かれている。これにより、より詳細な説明の作成に焦点が当てられ、結果よりもエンドユーザがよりコントロールできるようになる。制御可能な画像キャプションアーキテクチャの重要な構成要素は、領域ポインタの進行を通じて各領域に出席するタイミングを決定する機構である。本論文では,学習データにおける文構造との強い相関によって動機付けられたNEXTトークンを用いて,言語構造の自然な部分として進行段階を扱い,領域ポインター進行のタイミングを予測する新しい手法を提案する。 flickr30kエンティティのテストデータでは、精度86.55%、リコール97.92%のタイミングが一致した。この手法を実装したモデルは、標準キャプションメトリクスの最先端を改善しつつ、より効果的な語彙サイズを示す。

関連論文リスト

Localized Control in Diffusion Models via Latent Vector Prediction [2.4923006485141284]
本稿では,画像のユーザ定義領域を正確に局所的に制御する手法を提案する。本手法は,局所条件を制御した高品質な画像を効果的に合成する。
論文参考訳（メタデータ） (2026-02-02T11:47:48Z)
CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。 CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。視覚言語モデルの領域表現を効果的に強化することができる。
論文参考訳（メタデータ） (2023-12-18T17:39:47Z)
Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文参考訳（メタデータ） (2023-11-05T01:14:02Z)
Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文参考訳（メタデータ） (2023-05-29T10:48:34Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文参考訳（メタデータ） (2021-12-09T22:05:05Z)
Exploring Explicit and Implicit Visual Relationships for Image Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文参考訳（メタデータ） (2021-05-06T01:47:51Z)
MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2020-10-12T00:43:52Z)
UNISON: Unpaired Cross-lingual Image Captioning [17.60054750276632]
本稿では,ソースや対象言語の字幕コーパスに頼らずに画像キャプションを生成する,新たな非ペア型クロスランガル手法を提案する。具体的には、2つのフェーズから構成される: (i) パラレル (bitext) コーパスを利用して、シーングラフ符号化空間内のソースからターゲット言語へのマッピングを学習し、ターゲット言語内の文をデコードする (ii) エンコードされたシーングラフの特徴を画像モダリティから言語モダリティへマッピングする (i) クロスモーダルな非教師なし特徴マッピングである。
論文参考訳（メタデータ） (2020-10-03T06:14:06Z)
Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。 COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文参考訳（メタデータ） (2020-06-17T15:00:53Z)
Exploring and Distilling Cross-Modal Information for Image Captioning [47.62261144821135]
このような理解には、関連した画像領域に対する視覚的注意と、コヒーレントな特徴に対する意味的注意が必要であると論じる。トランスフォーマーに基づくグローバル・ローカル情報探索・蒸留手法を提案する。我々のTransformerベースのモデルでは、COCOテストセットのオフラインCOCO評価においてCIDErスコアが129.3に達し、精度、速度、パラメータ予算の点で著しく効率が良い。
論文参考訳（メタデータ） (2020-02-28T07:46:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。