論文の概要: Multimodal Feature Fusion for Video Advertisements Tagging Via Stacking
Ensemble
- arxiv url: http://arxiv.org/abs/2108.00679v1
- Date: Mon, 2 Aug 2021 07:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 23:55:55.846562
- Title: Multimodal Feature Fusion for Video Advertisements Tagging Via Stacking
Ensemble
- Title(参考訳): スタッキングアンサンブルによるビデオ広告タギングのためのマルチモーダル特徴融合
- Authors: Qingsong Zhou, Hai Liang, Zhimin Lin, Kele Xu
- Abstract要約: 本稿では,2021年Tencent広告アルゴリズムコンペティションにおけるマルチモーダルビデオ広告のタグ付けについて紹介する。
本稿では,複数モーダルからの相補的情報を組み合わせることを目的とした,新しいマルチモーダル特徴融合フレームワークを提案する。
我々のフレームワークは、関連するアプローチを著しく上回り、我々の手法は、世界平均精度(GAP)82.63%で最終リーダーボードで第1位にランクされる。
- 参考スコア(独自算出の注目度): 8.031116328756625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated tagging of video advertisements has been a critical yet challenging
problem, and it has drawn increasing interests in last years as its
applications seem to be evident in many fields. Despite sustainable efforts
have been made, the tagging task is still suffered from several challenges,
such as, efficiently feature fusion approach is desirable, but under-explored
in previous studies. In this paper, we present our approach for Multimodal
Video Ads Tagging in the 2021 Tencent Advertising Algorithm Competition.
Specifically, we propose a novel multi-modal feature fusion framework, with the
goal to combine complementary information from multiple modalities. This
framework introduces stacking-based ensembling approach to reduce the influence
of varying levels of noise and conflicts between different modalities. Thus,
our framework can boost the performance of the tagging task, compared to
previous methods. To empirically investigate the effectiveness and robustness
of the proposed framework, we conduct extensive experiments on the challenge
datasets. The obtained results suggest that our framework can significantly
outperform related approaches and our method ranks as the 1st place on the
final leaderboard, with a Global Average Precision (GAP) of 82.63%. To better
promote the research in this field, we will release our code in the final
version.
- Abstract(参考訳): ビデオ広告の自動タグ付けは、批判的だが困難な問題であり、多くの分野でその応用が明らかになっているため、近年は関心が高まっている。
持続的努力にもかかわらず、タグづけ作業は、効率的な機能融合アプローチが望ましいなど、いくつかの課題に苦しめられているが、以前の研究では未検討である。
本稿では,2021年のtencent広告アルゴリズムコンペティションにおいて,マルチモーダルビデオ広告タギングのアプローチを提案する。
具体的には,複数のモダリティからの補完情報を組み合わせることを目的とした,新しいマルチモーダル機能融合フレームワークを提案する。
このフレームワークは、様々なレベルのノイズと異なるモダリティ間の衝突の影響を低減するために、スタック方式のアンサンブルアプローチを導入する。
このように、我々のフレームワークは従来の手法と比較してタグ付けタスクの性能を向上させることができる。
提案手法の有効性とロバスト性を実証的に検討するため,課題データセットについて広範な実験を行った。
その結果,我々のフレームワークは関連するアプローチを著しく上回ることができ,最終リーダボードでは第1位にランクインし,グローバル平均精度 (gap) は82.63%であった。
この分野での研究をより促進するために、最終バージョンでコードをリリースします。
関連論文リスト
- Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。
本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。
我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文 参考訳(メタデータ) (2024-07-10T10:13:11Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Improving Multimodal Sentiment Analysis: Supervised Angular Margin-based
Contrastive Learning for Enhanced Fusion Representation [10.44888349041063]
マルチモーダル・センティメント・アナリティクスのためのコントラシブ・ラーニング・フレームワークであるSupervised Angularを導入する。
この枠組みは,マルチモーダル表現の識別と一般化性を高め,融合ベクトルのモダリティのバイアスを克服することを目的としている。
論文 参考訳(メタデータ) (2023-12-04T02:58:19Z) - UniCat: Crafting a Stronger Fusion Baseline for Multimodal
Re-Identification [0.9831489366502301]
遅延融合法は, 単独でモダリティを訓練する手法と比較して, 最適潜伏表現をしばしば生み出すことを示す。
この効果は主に、核融合の際の個々のモダリティに対するトレーニング目標の意図しない緩和によるものであると我々は主張する。
また,UniCat(uniCat)や,非modalバックボーン(unimodal backbones)の遅延アンサンブルが,複数のマルチモーダルReIDベンチマークで現在最先端の性能を上回っていることも確認した。
論文 参考訳(メタデータ) (2023-10-28T20:30:59Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method [3.0903319879656084]
本稿では,マルチモーダル情報の融合に革命をもたらす機能アライメントに対する革新的なアプローチを提案する。
提案手法では,異なるモードをまたいだ特徴表現の遠隔的変位と拡張の新たな反復的プロセスを用いて,共有特徴空間内の一貫性のある統一表現を導出する。
論文 参考訳(メタデータ) (2023-06-29T13:49:06Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。