論文の概要: Image Captioning via Dynamic Path Customization
- arxiv url: http://arxiv.org/abs/2406.00334v1
- Date: Sat, 1 Jun 2024 07:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:34:33.662910
- Title: Image Captioning via Dynamic Path Customization
- Title(参考訳): ダイナミックパスカスタマイズによる画像キャプション
- Authors: Yiwei Ma, Jiayi Ji, Xiaoshuai Sun, Yiyi Zhou, Xiaopeng Hong, Yongjian Wu, Rongrong Ji,
- Abstract要約: 画像キャプションのための新しい動的トランスフォーマーネットワーク(DTNet)を提案する。
提案するDTNetの有効性を検証するため,MS-COCOデータセットの広範な実験を行い,新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 100.15412641586525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores a novel dynamic network for vision and language tasks, where the inferring structure is customized on the fly for different inputs. Most previous state-of-the-art approaches are static and hand-crafted networks, which not only heavily rely on expert knowledge, but also ignore the semantic diversity of input samples, therefore resulting in suboptimal performance. To address these issues, we propose a novel Dynamic Transformer Network (DTNet) for image captioning, which dynamically assigns customized paths to different samples, leading to discriminative yet accurate captions. Specifically, to build a rich routing space and improve routing efficiency, we introduce five types of basic cells and group them into two separate routing spaces according to their operating domains, i.e., spatial and channel. Then, we design a Spatial-Channel Joint Router (SCJR), which endows the model with the capability of path customization based on both spatial and channel information of the input sample. To validate the effectiveness of our proposed DTNet, we conduct extensive experiments on the MS-COCO dataset and achieve new state-of-the-art performance on both the Karpathy split and the online test server.
- Abstract(参考訳): 本稿では,視覚と言語タスクのための新しい動的ネットワークについて検討し,異なる入力に対して推論構造をその場でカスタマイズする。
従来の最先端のアプローチは静的で手作りのネットワークであり、専門家の知識に大きく依存するだけでなく、入力サンプルの意味的な多様性も無視している。
これらの課題に対処するために,画像キャプションのための新しい動的トランスフォーマーネットワーク(DTNet)を提案する。
具体的には、リッチなルーティング空間を構築し、ルーティング効率を向上させるために、5種類の基本セルを導入し、それらの操作領域、すなわち空間とチャネルに応じて2つの別々のルーティング空間にグループ化する。
そこで我々は,入力サンプルの空間情報とチャネル情報の両方に基づいて,経路のカスタマイズが可能な空間チャネルジョイントルータ(SCJR)を設計する。
提案するDTNetの有効性を検証するため,MS-COCOデータセットの広範な実験を行い,Karpathyスプリットとオンラインテストサーバの両方で最先端の性能を実現する。
関連論文リスト
- Self-supervised Pre-training for Semantic Segmentation in an Indoor
Scene [8.357801312689622]
本稿ではセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。
我々は,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するために,コントラスト学習の変種を用いてDCNNモデルを訓練する。
提案手法は、ImageNetで事前訓練されたモデルよりも優れており、全く同じタスクでトレーニングされたモデルと異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-04T20:10:14Z) - DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection [34.42038300372715]
我々は,シーンテキスト検出タスクのグローバルおよびローカル情報をモデル化する,シンプルで効果的なアーキテクチャであるDPTNetを提案する。
本稿では,コンボリューションネットワークと強力な自己認識機構を統合した並列設計を提案し,注目経路と畳み込み経路の相補的な手がかりを提供する。
我々のDPTNetはMSRA-TD500データセットの最先端結果を実現し、検出精度と速度の両面で他の標準ベンチマーク上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-08-21T12:58:45Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z) - CoDiNet: Path Distribution Modeling with Consistency and Diversity for
Dynamic Routing [19.296118763012146]
我々は、新しい光の中で動的ルーティングネットワークを見て、ルーティング手法をサンプル空間からルーティング空間へのマッピングとして定式化する。
本稿では,サンプル空間とルーティング空間の関係をモデル化する新しい手法であるCoDiNetを提案する。
具体的には、類似のセマンティクスを持つサンプルはルーティング空間の同じ領域にマッピングされるべきであり、異種セマンティクスを持つサンプルは異なる領域にマッピングされるべきである。
論文 参考訳(メタデータ) (2020-05-29T08:09:21Z) - Learning Dynamic Routing for Semantic Segmentation [86.56049245100084]
本稿では,動的ルーティングと呼ばれる意味表現のスケール分散を緩和する概念的に新しい手法を提案する。
提案フレームワークは,各画像のスケール分布に適応して,データ依存経路を生成する。
この目的のために、ハエのスケール変換経路を選択するために、ソフトコンディショナルゲートと呼ばれる微分可能なゲーティング関数を提案する。
論文 参考訳(メタデータ) (2020-03-23T17:22:14Z) - Multi-Channel Attention Selection GANs for Guided Image-to-Image
Translation [148.9985519929653]
本稿では,画像から画像への変換のためのマルチチャネルアテンション選択生成支援ネットワーク(SelectionGAN)を提案する。
提案するフレームワークとモジュールは統合されたソリューションであり、セマンティック画像合成などの他の生成タスクに応用できる。
論文 参考訳(メタデータ) (2020-02-03T23:17:10Z) - Gated Path Selection Network for Semantic Segmentation [72.44994579325822]
我々は,適応的な受容場を学習することを目的とした,GPSNetという新しいネットワークを開発した。
GPSNetにおいて、我々はまず2次元のマルチスケールネットワーク、SuperNetを設計する。
望ましいセマンティックコンテキストを動的に選択するために、ゲート予測モジュールがさらに導入される。
論文 参考訳(メタデータ) (2020-01-19T12:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。