論文の概要: Enhance Multimodal Transformer With External Label And In-Domain
Pretrain: Hateful Meme Challenge Winning Solution
- arxiv url: http://arxiv.org/abs/2012.08290v1
- Date: Tue, 15 Dec 2020 13:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 11:58:26.326076
- Title: Enhance Multimodal Transformer With External Label And In-Domain
Pretrain: Hateful Meme Challenge Winning Solution
- Title(参考訳): 外部ラベルとドメイン内プリトレインによるマルチモーダルトランスフォーマーの拡張:ヘイトフルミームチャレンジ勝利ソリューション
- Authors: Ron Zhu
- Abstract要約: このレポートは、Hateful Meme Detection Challenge 2020の第一位ソリューションを要約する。
この問題に取り組むために最先端の視覚言語変換器を拡張する。
レポートの最後には、現在の方法論を改善するための欠点と可能な方向性も指摘しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hateful meme detection is a new research area recently brought out that
requires both visual, linguistic understanding of the meme and some background
knowledge to performing well on the task. This technical report summarises the
first place solution of the Hateful Meme Detection Challenge 2020, which
extending state-of-the-art visual-linguistic transformers to tackle this
problem. At the end of the report, we also point out the shortcomings and
possible directions for improving the current methodology.
- Abstract(参考訳): hateful meme detection(ヘイトフルミーム検出)は、ミームの視覚的、言語的理解と、タスクをうまく実行するための背景知識の両方を必要とする、最近発表された新しい研究領域である。
この技術レポートは、最先端の視覚言語トランスフォーマーを拡張してこの問題に取り組む、ヘイトフルミーム検出チャレンジ2020の1位ソリューションをまとめている。
レポートの最後には、現在の方法論を改善するための欠点と可能性についても指摘します。
関連論文リスト
- Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in Images and Videos [69.29778009769862]
ラベル付きソースから未ラベルのターゲットデータへの識別的知識の堅牢な転送をドメインギャップでガイドするフレームワークであるLaGTranを紹介する。
意味的にリッチなテキストモダリティがより好ましい転送特性を持つという我々の観察に触発された我々は、ソース学習されたテキスト分類器を用いて、ターゲットテキスト記述の予測を生成するための転送機構を考案した。
言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する以前のアプローチよりもはるかに優れています。
論文 参考訳(メタデータ) (2024-03-08T18:58:46Z) - Transformer-Based Visual Segmentation: A Survey [118.01564082499948]
ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。
トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-04-19T17:59:02Z) - TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection [18.015012133043093]
我々は,ミームシナリオにおける暗黙の害を解読するトポロジ対応の最適輸送フレームワークTOTを提案する。
具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。
公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスは、さらなるビジュアル分析とともに、TOTの優位性を示している。
論文 参考訳(メタデータ) (2023-02-27T06:58:19Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Multimedia Generative Script Learning for Task Planning [58.73725388387305]
我々は,テキストと視覚の両モードの履歴状態を追跡することによって,次のステップを生成するために,マルチメディア生成スクリプト学習という新しいタスクを提案する。
この課題は、画像中の視覚状態をキャプチャするマルチメディアチャレンジ、目に見えないタスクを実行するための誘導チャレンジ、個々のステップで異なる情報をカバーする多様性チャレンジの3つの側面において難しい。
実験の結果,本手法は強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-08-25T19:04:28Z) - Transformers in Medical Imaging: A Survey [88.03790310594533]
トランスフォーマーはいくつかのコンピュータビジョン問題に適用され、最先端の結果が得られた。
医療画像はまた、局所受容野を持つCNNと比較して、グローバルな文脈を捉えられるトランスフォーマーへの関心が高まっている。
本稿では,最近提案された建築設計から未解決問題に至るまで,医療画像におけるトランスフォーマーの応用について概説する。
論文 参考訳(メタデータ) (2022-01-24T18:50:18Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Continuous Domain Adaptation with Variational Domain-Agnostic Feature
Replay [78.7472257594881]
非定常環境での学習は、機械学習における最大の課題の1つだ。
非定常性はタスクドリフトまたはドメインドリフトによって引き起こされる。
本稿では,3つのコンポーネントから構成されるアプローチである変分ドメインに依存しない特徴リプレイを提案する。
論文 参考訳(メタデータ) (2020-03-09T19:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。