論文の概要: Enhancing image captioning with depth information using a
Transformer-based framework
- arxiv url: http://arxiv.org/abs/2308.03767v1
- Date: Mon, 24 Jul 2023 17:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 00:40:22.122442
- Title: Enhancing image captioning with depth information using a
Transformer-based framework
- Title(参考訳): Transformer-based framework を用いた深度情報による画像キャプションの強化
- Authors: Aya Mahmoud Ahmed, Mohamed Yousef, Khaled F. Hussain, Yousef Bassyouni
Mahdy
- Abstract要約: 本稿では,RGB画像と奥行き情報の統合がキャプションタスクを強化し,より優れた記述を生成することができるかを検討する。
3Dシーンの多文記述を生成するためのトランスフォーマーベースのエンコーダデコーダフレームワークを提案する。
実験はNYU-v2データセットとStanford画像パラグラフキャプションデータセットで実施されている。
- 参考スコア(独自算出の注目度): 3.326320568999945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Captioning images is a challenging scene-understanding task that connects
computer vision and natural language processing. While image captioning models
have been successful in producing excellent descriptions, the field has
primarily focused on generating a single sentence for 2D images. This paper
investigates whether integrating depth information with RGB images can enhance
the captioning task and generate better descriptions. For this purpose, we
propose a Transformer-based encoder-decoder framework for generating a
multi-sentence description of a 3D scene. The RGB image and its corresponding
depth map are provided as inputs to our framework, which combines them to
produce a better understanding of the input scene. Depth maps could be ground
truth or estimated, which makes our framework widely applicable to any RGB
captioning dataset. We explored different fusion approaches to fuse RGB and
depth images. The experiments are performed on the NYU-v2 dataset and the
Stanford image paragraph captioning dataset. During our work with the NYU-v2
dataset, we found inconsistent labeling that prevents the benefit of using
depth information to enhance the captioning task. The results were even worse
than using RGB images only. As a result, we propose a cleaned version of the
NYU-v2 dataset that is more consistent and informative. Our results on both
datasets demonstrate that the proposed framework effectively benefits from
depth information, whether it is ground truth or estimated, and generates
better captions. Code, pre-trained models, and the cleaned version of the
NYU-v2 dataset will be made publically available.
- Abstract(参考訳): キャプション画像は、コンピュータビジョンと自然言語処理をつなぐ、困難なシーン理解タスクである。
画像キャプションモデルは優れた記述を生成することに成功しているが、この分野は主に2d画像のための単一文生成に焦点を当てている。
本稿では,RGB画像と奥行き情報の統合がキャプションタスクを強化し,より優れた記述を生成することができるかを検討する。
そこで本稿では,3次元シーンのマルチセンテンス記述を生成するためのトランスフォーマベースのエンコーダ・デコーダフレームワークを提案する。
RGB画像とそれに対応する深度マップは我々のフレームワークへの入力として提供され、それらを組み合わせて入力シーンの理解を深める。
深度マップは、基礎的な真実や推定であり、我々のフレームワークはどんなRGBキャプションデータセットにも広く適用できる。
rgbと深度画像の融合について検討した。
実験はNYU-v2データセットとStanford画像パラグラフキャプションデータセットで実施されている。
NYU-v2データセットを用いた研究で、深度情報によるキャプションタスクの強化のメリットを防止できる一貫性のないラベリングを発見した。
結果は、RGB画像のみを使用するよりもさらに酷かった。
その結果、より一貫性があり、情報的なNYU-v2データセットのクリーン化版を提案する。
両データセットの結果から,提案するフレームワークは,真偽や推定値などの深度情報から有効に活用でき,キャプションの精度が向上することが示された。
コード、事前トレーニングされたモデル、NYU-v2データセットのクリーンバージョンが公開されている。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Scale Invariant Semantic Segmentation with RGB-D Fusion [12.650574326251023]
RGB-D画像を用いたスケール不変セマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを提案する。
画素単位のセマンティックセグメンテーションのためのRGBデータに深度情報を組み込んで,屋外シーンにおける異なるスケールオブジェクトに対処する。
我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2022-04-10T12:54:27Z) - X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D
Dense Captioning [71.36623596807122]
3D高密度キャプションは、通常3DシーンをRGB-Dスキャンまたはポイントクラウドとして表現する3Dシーンにおいて、自然言語で個々のオブジェクトを記述することを目的としている。
本研究では,トランスフォーマーを用いた3次元高密度キャプション用X-Trans2Capを用いたクロスモーダルな知識伝達について検討し,シングルモーダル3Dキャプションの性能を効果的に向上させる。
論文 参考訳(メタデータ) (2022-03-02T03:35:37Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Pose2RGBD. Generating Depth and RGB images from absolute positions [0.0]
本稿では,これまで見てきた映像,深度,ポーズ信号に基づいてRGBD画像を自動的に生成する手法を提案する。
このプロセスは、生成されたシーンをナビゲートするために使用できる関数 f : Pose -> RGBD を得るニューラルレンダリングと考えることができる。
論文 参考訳(メタデータ) (2020-07-14T13:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。