論文の概要: Label-Attention Transformer with Geometrically Coherent Objects for
Image Captioning
- arxiv url: http://arxiv.org/abs/2109.07799v1
- Date: Thu, 16 Sep 2021 08:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:14:55.585015
- Title: Label-Attention Transformer with Geometrically Coherent Objects for
Image Captioning
- Title(参考訳): 画像キャプションのための幾何学的コヒーレントオブジェクトを用いたラベルアテンショントランスフォーマ
- Authors: Shikha Dubey, Farrukh Olimov, Muhammad Aasim Rafique, Joonmo Kim,
Moongu Jeon
- Abstract要約: 幾何学的コヒーレントオブジェクト(LATGeO)を用いたラベルアテンション変換器を提案する。
提案手法は,ディープニューラルネットワーク(DNN)を用いた幾何学的コヒーレントな物体の提案を取得し,それらの関係性を調査してキャプションを生成する。
実験により、オブジェクトの周囲における関連性や視覚的特徴と幾何学的に局所化された比率との結合が、関連するラベルと組み合わせることで、意味のあるキャプションを定義するのに役立つことが示された。
- 参考スコア(独自算出の注目度): 4.366088315820477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic transcription of scene understanding in images and videos is a step
towards artificial general intelligence. Image captioning is a nomenclature for
describing meaningful information in an image using computer vision techniques.
Automated image captioning techniques utilize encoder and decoder architecture,
where the encoder extracts features from an image and the decoder generates a
transcript. In this work, we investigate two unexplored ideas for image
captioning using transformers: First, we demonstrate the enforcement of using
objects' relevance in the surrounding environment. Second, learning an explicit
association between labels and language constructs. We propose label-attention
Transformer with geometrically coherent objects (LATGeO). The proposed
technique acquires a proposal of geometrically coherent objects using a deep
neural network (DNN) and generates captions by investigating their
relationships using a label-attention module. Object coherence is defined using
the localized ratio of the geometrical properties of the proposals. The
label-attention module associates the extracted objects classes to the
available dictionary using self-attention layers. The experimentation results
show that objects' relevance in surroundings and binding of their visual
feature with their geometrically localized ratios combined with its associated
labels help in defining meaningful captions. The proposed framework is tested
on the MSCOCO dataset, and a thorough evaluation resulting in overall better
quantitative scores pronounces its superiority.
- Abstract(参考訳): 画像やビデオにおけるシーン理解の自動転写は、人工知能への一歩だ。
画像キャプションは、コンピュータビジョン技術を用いて画像に意味のある情報を記述するための命名法である。
自動画像キャプション技術はエンコーダとデコーダアーキテクチャを使用し、エンコーダは画像から特徴を抽出し、デコーダは転写文を生成する。
本研究では,トランスを用いた画像キャプションに関する2つの未探索概念について考察する。
第二に、ラベルと言語構造を明確に関連付けること。
幾何学的コヒーレントオブジェクト(LATGeO)を用いたラベルアテンション変換器を提案する。
提案手法は,ディープニューラルネットワーク(DNN)を用いた幾何学的コヒーレントなオブジェクトの提案を取得し,ラベルアテンションモジュールを用いてそれらの関係を調査してキャプションを生成する。
オブジェクトコヒーレンスは、提案の幾何学的性質の局所化比を用いて定義される。
ラベルアテンションモジュールは、抽出したオブジェクトクラスを自己アテンション層を使用して利用可能な辞書に関連付ける。
実験の結果, 物体の周囲における関連性や視覚的特徴と幾何学的局所化比を関連づけることで, 意味のあるキャプションを定義できることがわかった。
提案したフレームワークは,MSCOCOデータセット上でテストされ,総合的に優れた定量的スコアが優位性を示す。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。
O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。
MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文 参考訳(メタデータ) (2021-08-05T04:17:20Z) - ReFormer: The Relational Transformer for Image Captioning [12.184772369145014]
画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
論文 参考訳(メタデータ) (2021-07-29T17:03:36Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。