Fugu-MT 論文翻訳(概要): Multimodal Feature Fusion for Video Advertisements Tagging Via Stacking Ensemble

論文の概要: Multimodal Feature Fusion for Video Advertisements Tagging Via Stacking Ensemble

arxiv url: http://arxiv.org/abs/2108.00679v1
Date: Mon, 2 Aug 2021 07:26:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-03 23:55:55.846562
Title: Multimodal Feature Fusion for Video Advertisements Tagging Via Stacking Ensemble
Title（参考訳）: スタッキングアンサンブルによるビデオ広告タギングのためのマルチモーダル特徴融合
Authors: Qingsong Zhou, Hai Liang, Zhimin Lin, Kele Xu
Abstract要約: 本稿では,2021年Tencent広告アルゴリズムコンペティションにおけるマルチモーダルビデオ広告のタグ付けについて紹介する。本稿では,複数モーダルからの相補的情報を組み合わせることを目的とした,新しいマルチモーダル特徴融合フレームワークを提案する。我々のフレームワークは、関連するアプローチを著しく上回り、我々の手法は、世界平均精度(GAP)82.63%で最終リーダーボードで第1位にランクされる。
参考スコア（独自算出の注目度）: 8.031116328756625
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated tagging of video advertisements has been a critical yet challenging problem, and it has drawn increasing interests in last years as its applications seem to be evident in many fields. Despite sustainable efforts have been made, the tagging task is still suffered from several challenges, such as, efficiently feature fusion approach is desirable, but under-explored in previous studies. In this paper, we present our approach for Multimodal Video Ads Tagging in the 2021 Tencent Advertising Algorithm Competition. Specifically, we propose a novel multi-modal feature fusion framework, with the goal to combine complementary information from multiple modalities. This framework introduces stacking-based ensembling approach to reduce the influence of varying levels of noise and conflicts between different modalities. Thus, our framework can boost the performance of the tagging task, compared to previous methods. To empirically investigate the effectiveness and robustness of the proposed framework, we conduct extensive experiments on the challenge datasets. The obtained results suggest that our framework can significantly outperform related approaches and our method ranks as the 1st place on the final leaderboard, with a Global Average Precision (GAP) of 82.63%. To better promote the research in this field, we will release our code in the final version.
Abstract（参考訳）: ビデオ広告の自動タグ付けは、批判的だが困難な問題であり、多くの分野でその応用が明らかになっているため、近年は関心が高まっている。持続的努力にもかかわらず、タグづけ作業は、効率的な機能融合アプローチが望ましいなど、いくつかの課題に苦しめられているが、以前の研究では未検討である。本稿では,2021年のtencent広告アルゴリズムコンペティションにおいて,マルチモーダルビデオ広告タギングのアプローチを提案する。具体的には,複数のモダリティからの補完情報を組み合わせることを目的とした,新しいマルチモーダル機能融合フレームワークを提案する。このフレームワークは、様々なレベルのノイズと異なるモダリティ間の衝突の影響を低減するために、スタック方式のアンサンブルアプローチを導入する。このように、我々のフレームワークは従来の手法と比較してタグ付けタスクの性能を向上させることができる。提案手法の有効性とロバスト性を実証的に検討するため,課題データセットについて広範な実験を行った。その結果,我々のフレームワークは関連するアプローチを著しく上回ることができ,最終リーダボードでは第1位にランクインし,グローバル平均精度 (gap) は82.63%であった。この分野での研究をより促進するために、最終バージョンでコードをリリースします。

関連論文リスト

I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking [8.758773321492809]
モーダル内およびモーダル間協調反射という,マルチモーダルなエンティティリンクタスクのための新しいフレームワークを提案する。我々のフレームワークは、タスクにおける現在の最先端メソッドを一貫して上回り、それぞれ3.2%、5.1%、および1.6%の改善を実現しています。
論文参考訳（メタデータ） (2025-08-04T09:43:54Z)
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval [30.98084422803278]
データキュレーションやモダリティ対応のトレーニング設定を通じて課題に取り組む普遍的なフレームワークであるUNITEを紹介する。我々の研究は、モダリティ固有のデータプロパティがダウンストリームタスクのパフォーマンスにどのように影響するかを、初めて包括的に分析する。提案フレームワークは,複数のマルチモーダル検索ベンチマークにおいて最先端の結果を達成し,既存の手法を顕著なマージンで上回っている。
論文参考訳（メタデータ） (2025-05-26T08:09:44Z)
An Optimization Algorithm for Multimodal Data Alignment [11.04170042936182]
Kernel CCAにインスパイアされた最適化アルゴリズムを導入し,Nのモダリティ間の類似性を最大化するとともに,いくつかの制約を課す。この研究は、検索や分類など、様々な推論タスクにおけるデータ表現の改善への影響を実証する。
論文参考訳（メタデータ） (2025-03-05T03:07:07Z)
Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文参考訳（メタデータ） (2024-07-10T10:13:11Z)
ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文参考訳（メタデータ） (2024-05-15T13:22:39Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
Improving Multimodal Sentiment Analysis: Supervised Angular Margin-based Contrastive Learning for Enhanced Fusion Representation [10.44888349041063]
マルチモーダル・センティメント・アナリティクスのためのコントラシブ・ラーニング・フレームワークであるSupervised Angularを導入する。この枠組みは,マルチモーダル表現の識別と一般化性を高め,融合ベクトルのモダリティのバイアスを克服することを目的としている。
論文参考訳（メタデータ） (2023-12-04T02:58:19Z)
UniCat: Crafting a Stronger Fusion Baseline for Multimodal Re-Identification [0.9831489366502301]
遅延融合法は, 単独でモダリティを訓練する手法と比較して, 最適潜伏表現をしばしば生み出すことを示す。この効果は主に、核融合の際の個々のモダリティに対するトレーニング目標の意図しない緩和によるものであると我々は主張する。また,UniCat(uniCat)や,非modalバックボーン(unimodal backbones)の遅延アンサンブルが,複数のマルチモーダルReIDベンチマークで現在最先端の性能を上回っていることも確認した。
論文参考訳（メタデータ） (2023-10-28T20:30:59Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method [3.0903319879656084]
本稿では,マルチモーダル情報の融合に革命をもたらす機能アライメントに対する革新的なアプローチを提案する。提案手法では,異なるモードをまたいだ特徴表現の遠隔的変位と拡張の新たな反復的プロセスを用いて,共有特徴空間内の一貫性のある統一表現を導出する。
論文参考訳（メタデータ） (2023-06-29T13:49:06Z)
Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。 QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-03T08:32:35Z)
AntPivot: Livestream Highlight Detection via Hierarchical Attention Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文参考訳（メタデータ） (2022-06-10T05:58:11Z)
COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。 7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文参考訳（メタデータ） (2020-05-07T18:20:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。