論文の概要: End-to-End 3D Dense Captioning with Vote2Cap-DETR
- arxiv url: http://arxiv.org/abs/2301.02508v1
- Date: Fri, 6 Jan 2023 13:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:51:48.325730
- Title: End-to-End 3D Dense Captioning with Vote2Cap-DETR
- Title(参考訳): Vote2Cap-DETRを用いたエンド・ツー・エンド3次元Dense Captioning
- Authors: Sijin Chen, Hongyuan Zhu, Xin Chen, Yinjie Lei, Tao Chen, Gang YU
- Abstract要約: 3D高密度キャプションは、関連する対象領域にローカライズされた複数のキャプションを生成することを目的としている。
我々は,最近普及しているtextbfDEtection textbfTRansformer (DETR) をベースとした,単純なyet効率のトランスフォーマフレームワークVote2Cap-DETRを提案する。
本フレームワークは,学習可能な投票クエリ駆動オブジェクトデコーダを備えたフルトランスフォーマー・デコーダアーキテクチャと,集合予測方式で高密度キャプションを生成するキャプションデコーダに基づく。
- 参考スコア(独自算出の注目度): 45.18715911775949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D dense captioning aims to generate multiple captions localized with their
associated object regions. Existing methods follow a sophisticated
``detect-then-describe'' pipeline equipped with numerous hand-crafted
components. However, these hand-crafted components would yield suboptimal
performance given cluttered object spatial and class distributions among
different scenes. In this paper, we propose a simple-yet-effective transformer
framework Vote2Cap-DETR based on recent popular \textbf{DE}tection
\textbf{TR}ansformer (DETR). Compared with prior arts, our framework has
several appealing advantages: 1) Without resorting to numerous hand-crafted
components, our method is based on a full transformer encoder-decoder
architecture with a learnable vote query driven object decoder, and a caption
decoder that produces the dense captions in a set-prediction manner. 2) In
contrast to the two-stage scheme, our method can perform detection and
captioning in one-stage. 3) Without bells and whistles, extensive experiments
on two commonly used datasets, ScanRefer and Nr3D, demonstrate that our
Vote2Cap-DETR surpasses current state-of-the-arts by 11.13\% and 7.11\% in
CIDEr@0.5IoU, respectively. Codes will be released soon.
- Abstract(参考訳): 3D高密度キャプションは、関連する対象領域にローカライズされた複数のキャプションを生成することを目的としている。
既存のメソッドは、多数の手作りのコンポーネントを備えた洗練された 'detect-then-describe'' パイプラインに従っている。
しかし、これらの手作りのコンポーネントは、異なるシーン間のオブジェクト空間とクラス分布が散らばった場合、最適以下のパフォーマンスをもたらす。
本稿では,最近普及している textbf{DE}tection \textbf{TR}ansformer (DETR) に基づく,単純なyet効率のトランスフォーマフレームワークである Vote2Cap-DETR を提案する。
先行技術と比較すると、我々の枠組みにはいくつかの魅力があります。
1) 手作り部品は多くないが,本手法は,学習可能な投票クエリ駆動オブジェクトデコーダを備えたフルトランスフォーマー・デコーダアーキテクチャと,集合予測方式で高密度キャプションを生成するキャプションデコーダをベースとしている。
2) この2段階方式とは対照的に, 検出とキャプションを1段階で行うことができる。
3) ベルとホイッスルがなければ、2つの一般的なデータセットであるScanReferとNr3Dの広範な実験により、Vote2Cap-DETRがそれぞれCIDEr@0.5IoUの11.13\%と7.11\%を超えることが実証された。
コードはまもなくリリースされる予定だ。
関連論文リスト
- See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation [34.45033554641476]
視覚的コンテンツの自動キャプション手法は、詳細の欠如、幻覚内容の欠如、後続の指示不足などの課題に直面している。
フレキシブルなトレーニングフリーパイプラインであるVisualFactChecker(VFC)を提案し、2次元画像と3次元オブジェクトの両方に対して高忠実かつ詳細なキャプションを生成する。
VFCは、1)画像からテキストへのキャプションモデルが複数の初期キャプションを提案する提案、2)大規模言語モデル(LLM)がオブジェクト検出やVQAモデルなどのツールを使用して提案されたキャプションをファクトチェックする検証の3段階で構成されている。
論文 参考訳(メタデータ) (2024-04-30T17:55:27Z) - View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文 参考訳(メタデータ) (2024-04-11T17:58:11Z) - Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文 参考訳(メタデータ) (2023-09-22T13:43:22Z) - Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End
3D Dense Captioning [37.44886367452029]
3Dシークエンスキャプションは、入力された3Dシーンの理解を、異なるオブジェクト領域に関連する複数のキャプションに変換するモデルを必要とする。
既存の手法では洗練された"detect-then-describe"パイプラインを採用しており、多数の手作り部品を持つ3D検出器上に明示的な関係モジュールを構築する。
まず,キャプション生成のデコード処理と並列デコードによるオブジェクトローカライゼーションを分離する,単純なyet効率のトランスフォーマフレームワークであるVote2Cap-DETRを提案する。
論文 参考訳(メタデータ) (2023-09-06T13:43:27Z) - X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D
Dense Captioning [71.36623596807122]
3D高密度キャプションは、通常3DシーンをRGB-Dスキャンまたはポイントクラウドとして表現する3Dシーンにおいて、自然言語で個々のオブジェクトを記述することを目的としている。
本研究では,トランスフォーマーを用いた3次元高密度キャプション用X-Trans2Capを用いたクロスモーダルな知識伝達について検討し,シングルモーダル3Dキャプションの性能を効果的に向上させる。
論文 参考訳(メタデータ) (2022-03-02T03:35:37Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。