Fugu-MT 論文翻訳(概要): Detecting Hateful Memes Using a Multimodal Deep Ensemble

論文の概要: Detecting Hateful Memes Using a Multimodal Deep Ensemble

arxiv url: http://arxiv.org/abs/2012.13235v1
Date: Thu, 24 Dec 2020 13:01:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-25 08:28:16.037871
Title: Detecting Hateful Memes Using a Multimodal Deep Ensemble
Title（参考訳）: マルチモーダルディープ・アンサンブルによる有害ミームの検出
Authors: Vlad Sandulescu
Abstract要約: 本稿では,最新の視覚言語変換アーキテクチャについて検討し,その性能向上のための改良を提案する。提案したモデルは,3100人以上の参加者のうち,リーダボード上で5ドルという大きなマージンで,ベースラインを上回ります。
参考スコア（独自算出の注目度）: 0.5537911706288436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While significant progress has been made using machine learning algorithms to detect hate speech, important technical challenges still remain to be solved in order to bring their performance closer to human accuracy. We investigate several of the most recent visual-linguistic Transformer architectures and propose improvements to increase their performance for this task. The proposed model outperforms the baselines by a large margin and ranks 5$^{th}$ on the leaderboard out of 3,100+ participants.
Abstract（参考訳）: ヘイトスピーチの検出には機械学習アルゴリズムが使用されているが、人間の精度に近づくために重要な技術的課題はまだ解決されていない。直近の視覚言語トランスフォーマーアーキテクチャのいくつかを調査し,その性能向上のための改善を提案する。提案したモデルは,3100名以上の参加者のうち,リーダボード上の5$^{th}$に対して,ベースラインを大きなマージンで上回る。

関連論文リスト

An Effective End-to-End Solution for Multimodal Action Recognition [13.615924349022247]
我々は,マルチモーダル情報を効果的に活用する包括的マルチモーダル行動認識ソリューションを提案する。トップ1の精度は99%,トップ5の精度は100%で,ソリューションの優位性を実証した。
論文参考訳（メタデータ） (2025-06-11T02:54:02Z)
Mastering Massive Multi-Task Reinforcement Learning via Mixture-of-Expert Decision Transformer [56.898822179122476]
M3DTは、モデルのパラメータのスケーラビリティをさらに開放することで、タスクのスケーラビリティに対処する新しいM3DTフレームワークである。実験結果から,M3DTは,専門家の数を増やすことにより,一定のタスク数に対するモデル拡張としての性能を継続的に向上するだけでなく,タスクのスケーラビリティも向上し,性能が向上した160タスクにまで拡張できることが示唆された。
論文参考訳（メタデータ） (2025-05-30T09:08:52Z)
NeuroTrails: Training with Dynamic Sparse Heads as the Key to Effective Ensembling [35.837527844931266]
動的に進化するトポロジを持つスパースなマルチヘッドアーキテクチャであるtextbfNeuroTrails$を紹介した。 NeuroTrailsはコンピュータビジョンと言語タスクの畳み込みとトランスフォーマーベースのアーキテクチャで有効性を示す。
論文参考訳（メタデータ） (2025-05-23T13:53:21Z)
Multi-Grained Feature Pruning for Video-Based Human Pose Estimation [19.297490509277463]
人間のポーズ推定のための新しいマルチスケール・解像度・フレームワークを提案する。我々は,重要な意味情報を提供するトークンを識別するために,密度クラスタリング手法を用いる。提案手法は,ベースラインに比べて推論速度が93.8%向上した。
論文参考訳（メタデータ） (2025-03-07T12:14:51Z)
MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文参考訳（メタデータ） (2024-10-19T04:31:54Z)
A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition [1.8377902806196766]
最高のパフォーマンスの音声モデルは、彼らが目的とする言語で大量のデータに基づいて訓練される。ほとんどの言語はスパースデータを持ち、トレーニングモデルを困難にしている。本研究は、限られたデータ、特に音声感情認識のためのモデルの性能について考察する。
論文参考訳（メタデータ） (2024-10-06T21:33:51Z)
Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-24T13:24:03Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
Data Augmentation for Human Behavior Analysis in Multi-Person Conversations [27.38635423877249]
我々は,ACM Multimedia 2023 の MultiMediate Grand Challenge 2023 に対して,我々のチーム HFUT-VUT の解決策を提示する。このソリューションは、身体行動認識、アイコンタクト検出、次の話者予測という3つのサブチャレンジをカバーしている。
論文参考訳（メタデータ） (2023-08-03T04:04:40Z)
Learning Transferable Adversarial Robust Representations via Multi-view Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-10-19T11:48:01Z)
Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文参考訳（メタデータ） (2022-09-26T01:30:43Z)
Efficient Neural Net Approaches in Metal Casting Defect Detection [0.0]
本研究は,精度と推定時間の観点から効率の良い軽量アーキテクチャを提案する。以上の結果から,深度的に分離可能な畳み込みを持つ590Kパラメータのカスタムモデルが事前学習アーキテクチャよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-08-08T13:54:36Z)
Making DensePose fast and light [78.49552144907513]
このタスクを解くことができる既存のニューラルネットワークモデルは、非常にパラメータ化されている。現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドのインフラをサポートし、安定したインターネット接続が必要である。本研究では,DensePose R-CNNモデルのアーキテクチャを再設計することで,最終的なネットワークがその精度の大部分を維持しつつ,より軽量で高速なネットワークを実現することを目的とする。
論文参考訳（メタデータ） (2020-06-26T19:42:20Z)
Improving 3D Object Detection through Progressive Population Based Augmentation [91.56261177665762]
本稿では3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化するための最初の試みを示す。このアルゴリズムは,探索空間を狭め,過去の反復で発見された最良のパラメータを採用することで,拡張戦略の最適化を学習する。 PPBAは, 拡張のないベースライン3次元検出モデルよりも最大10倍のデータ効率が高く, ラベル付きモデルよりもはるかに少ない精度で3次元検出モデルが競合精度を達成できる可能性が示唆された。
論文参考訳（メタデータ） (2020-04-02T05:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。