論文の概要: ExpansionNet: exploring the sequence length bottleneck in the
Transformer for Image Captioning
- arxiv url: http://arxiv.org/abs/2207.03327v1
- Date: Thu, 7 Jul 2022 14:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:05:26.335663
- Title: ExpansionNet: exploring the sequence length bottleneck in the
Transformer for Image Captioning
- Title(参考訳): ExpansionNet: Image Captioning用Transformerにおけるシーケンス長ボトルネックの探索
- Authors: Jia Cheng Hu
- Abstract要約: 本稿では,入力シーケンスを動的あるいは静的に,異なるシーケンス長を持つ新しいメソッドに変換する拡張メカニズム'を提案する。
このような手法を利用して,MS-COCO 2014データセット上での競合性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most recent state of art architectures rely on combinations and variations of
three approaches: convolutional, recurrent and self-attentive methods. Our work
attempts in laying the basis for a new research direction for sequence modeling
based upon the idea of modifying the sequence length. In order to do that, we
propose a new method called ``Expansion Mechanism'' which transforms either
dynamically or statically the input sequence into a new one featuring a
different sequence length. Furthermore, we introduce a novel architecture that
exploits such method and achieves competitive performances on the MS-COCO 2014
data set, yielding 134.6 and 131.4 CIDEr-D on the Karpathy test split in the
ensemble and single model configuration respectively and 130 CIDEr-D in the
official online testing server, despite being neither recurrent nor fully
attentive. At the same time we address the efficiency aspect in our design and
introduce a convenient training strategy suitable for most computational
resources in contrast to the standard one. Source code is available at
https://github.com/jchenghu/ExpansionNet
- Abstract(参考訳): 最近のアートアーキテクチャの状況は、畳み込み、リカレント、自己注意の3つのアプローチの組み合わせとバリエーションに依存している。
本研究は,シーケンス長の修正という考え方に基づいて,シーケンスモデリングのための新たな研究方向の基礎を構築しようとするものである。
そこで本研究では,入力列を動的または静的に,異なるシーケンス長を持つ新しいものに変換する手法である ``expansion mechanism'' を提案する。
さらに,このような手法を活用し,MS-COCO 2014データセット上での競合性能を実現する新しいアーキテクチャを導入し,Karpathyテストの134.6と131.4のCIDEr-Dをそれぞれアンサンブルとシングルモデル構成に分割し,オンラインテストサーバの130のCIDEr-Dを,再帰性も完全注意力も持たないにもかかわらず実現した。
同時に,我々の設計における効率の面に対処し,標準の手法とは対照的に,ほとんどの計算資源に適した便利なトレーニング戦略を導入する。
ソースコードはhttps://github.com/jchenghu/ExpansionNetで入手できる。
関連論文リスト
- Explaining Modern Gated-Linear RNNs via a Unified Implicit Attention Formulation [54.50526986788175]
効率的なシーケンスモデリングの最近の進歩は、Mamba、RWKV、および様々なゲートRNNのような注意のないレイヤーを生み出している。
我々はこれらのモデルの統一的なビューを示し、暗黙の因果自己注意層のような層を定式化する。
筆者らのフレームワークは,異なるレイヤに対する類似の基盤となるメカニズムを比較検討し,説明可能性の手法を直接適用する手段を提供する。
論文 参考訳(メタデータ) (2024-05-26T09:57:45Z) - Ensemble Quadratic Assignment Network for Graph Matching [52.20001802006391]
グラフマッチングはコンピュータビジョンやパターン認識において一般的に用いられる技法である。
最近のデータ駆動型アプローチは、グラフマッチングの精度を著しく改善した。
データ駆動手法と従来の手法の利点を組み合わせたグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-11T06:34:05Z) - Med-DANet V2: A Flexible Dynamic Architecture for Efficient Medical
Volumetric Segmentation [29.082411035685773]
医用セグメンテーションのための動的アーキテクチャネットワーク(Med-DANet)は、良好な精度と効率のトレードオフを実現している。
本稿では、データ自体とモデル構造の両方の観点から、動的推論フレームワークの統一的な定式化について検討する。
当社のフレームワークでは,BraTS 2019のセグメンテーション結果と同等で,モデル効率を4.1倍と17.3倍に向上しています。
論文 参考訳(メタデータ) (2023-10-28T09:57:28Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Sequential Ensembling for Semantic Segmentation [4.030520171276982]
我々は、複数の独立に訓練された最先端モデルの予測を組み合わせる一般的なアンサンブルアプローチをベンチマークする。
そこで本研究では,素なアンサンブルベースラインを大幅に上回る,逐次アンサンブルネットワークの強化にインスパイアされた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-08T22:13:59Z) - Exploiting Multiple Sequence Lengths in Fast End to End Training for
Image Captioning [52.25026952905702]
本稿では,シーケンス内の要素数に制約されない入力を処理する拡張機構を提案する。
そうすることで、従来の注意に基づくアプローチと比較して、モデルはより効果的に学習できる。
論文 参考訳(メタデータ) (2022-08-13T02:50:35Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Improving Transformer-Kernel Ranking Model Using Conformer and Query
Term Independence [29.442579683405913]
Transformer-Kernel(TK)モデルは、TREC Deep Learningベンチマークで強力なリランクパフォーマンスを示しています。
TKLと呼ばれるTKモデルの変種が開発され、より長い入力シーケンスを効率的に処理するためにローカルの自己意識が組み込まれている。
本稿では,より長い入力列にtkをスケールするための代替手法として,新しい適合層を提案する。
論文 参考訳(メタデータ) (2021-04-19T15:32:34Z) - Learning Dynamic Routing for Semantic Segmentation [86.56049245100084]
本稿では,動的ルーティングと呼ばれる意味表現のスケール分散を緩和する概念的に新しい手法を提案する。
提案フレームワークは,各画像のスケール分布に適応して,データ依存経路を生成する。
この目的のために、ハエのスケール変換経路を選択するために、ソフトコンディショナルゲートと呼ばれる微分可能なゲーティング関数を提案する。
論文 参考訳(メタデータ) (2020-03-23T17:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。