論文の概要: Multi-modal Feature Fusion with Feature Attention for VATEX Captioning
Challenge 2020
- arxiv url: http://arxiv.org/abs/2006.03315v1
- Date: Fri, 5 Jun 2020 09:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:44:52.538996
- Title: Multi-modal Feature Fusion with Feature Attention for VATEX Captioning
Challenge 2020
- Title(参考訳): VATEXキャプションチャレンジ2020におけるマルチモーダル機能融合
- Authors: Ke Lin, Zhuoxin Gan and Liwei Wang
- Abstract要約: 本稿では,VATEX Captioning Challenge 2020のモデルについて述べる。
最終結果を得るために、トップダウンとX-LANの2種類のデコーダを適用します。
私たちは英語と中国のプライベートテストのリーダーボードで2位です。
- 参考スコア(独自算出の注目度): 22.41032544708758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes our model for VATEX Captioning Challenge 2020. First,
to gather information from multiple domains, we extract motion, appearance,
semantic and audio features. Then we design a feature attention module to
attend on different feature when decoding. We apply two types of decoders,
top-down and X-LAN and ensemble these models to get the final result. The
proposed method outperforms official baseline with a significant gap. We
achieve 76.0 CIDEr and 50.0 CIDEr on English and Chinese private test set. We
rank 2nd on both English and Chinese private test leaderboard.
- Abstract(参考訳): 本稿では,VATEX Captioning Challenge 2020のモデルについて述べる。
まず、複数のドメインから情報を収集するために、動き、外観、意味、音声の特徴を抽出する。
次に、デコード時に異なる機能に対応する機能アテンションモジュールを設計する。
トップダウンとX-LANの2種類のデコーダを適用し、これらのモデルをアンサンブルして最終的な結果を得る。
提案手法は公式ベースラインを上回っており,大きなギャップがある。
英語と中国語のプライベートテストセットで76.0 CIDErと50.0 CIDErを達成する。
私たちは英語と中国のテストリーダーボードで2位です。
関連論文リスト
- Exploring Multiple Strategies to Improve Multilingual Coreference Resolution in CorefUD [0.0]
本稿では,エンド・ツー・エンドのニューラル・コアス・リゾリューションシステムについて述べる。
まず、モノリンガルとクロスリンガルのバリエーションを含む強力なベースラインモデルを構築します。
多様な言語文脈における性能向上のためのいくつかの拡張を提案する。
論文 参考訳(メタデータ) (2024-08-29T20:27:05Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest [51.68383826362895]
本稿では,空間的命令チューニングを提案し,その命令における関心領域(RoI)を参照することを提案する。
我々のモデルであるGPT4RoIは、7つのリージョンテキストペアデータセットに基づいて訓練されており、前例のない対話的かつ対話的な体験をもたらす。
論文 参考訳(メタデータ) (2023-07-07T13:43:44Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - The 2021 Urdu Fake News Detection Task using Supervised Machine Learning
and Feature Combinations [0.0]
本稿では,FIRE共有タスクで提出されたシステム記述について述べる:「ウルドゥー語におけるフェイクニュース検出」。
私たちのモデルの1つで達成された最高のF1マクロスコアは0.6674であり、競争で2番目に高いスコアよりも高い。
論文 参考訳(メタデータ) (2022-04-06T20:00:37Z) - XRJL-HKUST at SemEval-2021 Task 4: WordNet-Enhanced Dual Multi-head
Co-Attention for Reading Comprehension of Abstract Meaning [6.55600662108243]
本稿では,SemEval 2021 Task 4: Reading of Abstract Meaningに提出したシステムについて述べる。
本システムでは,エンコーダとして大規模な事前学習型言語モデルと,パスと質問応答ペアの関係性を高めるために,二重多頭部協調層を用いる。
本システムは,WordNet-enhanced DUal Multi-head Co-Attention (WN-DUMA) と呼ばれ,それぞれ86.67%,89.99%の精度を達成している。
論文 参考訳(メタデータ) (2021-03-30T06:22:58Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z) - Fashion-IQ 2020 Challenge 2nd Place Team's Solution [6.660458629649825]
本稿では,CVPR 2020におけるFashion-IQチャレンジへのチームVOAのアプローチについて述べる。
テキストと画像のモダリティを意味空間に効果的に組み合わせることのできる,新しい多モーダル合成手法 RTIC を提案する。
われわれのアプローチはFashion-IQ 2020 Challengeで2位となり、テストスコアは48.02だった。
論文 参考訳(メタデータ) (2020-07-13T14:28:37Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。