論文の概要: ReINTEL Challenge 2020: A Multimodal Ensemble Model for Detecting
Unreliable Information on Vietnamese SNS
- arxiv url: http://arxiv.org/abs/2012.10267v1
- Date: Fri, 18 Dec 2020 14:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:17:29.276535
- Title: ReINTEL Challenge 2020: A Multimodal Ensemble Model for Detecting
Unreliable Information on Vietnamese SNS
- Title(参考訳): ReINTEL Challenge 2020: ベトナムSNS上の信頼できない情報を検出するマルチモーダルアンサンブルモデル
- Authors: Nguyen Manh Duc Tuan, Pham Quang Nhat Minh
- Abstract要約: 2つのマルチモーダルモデルを組み合わせて課題を解決する新しいマルチモーダルアンサンブルモデルを提案する。
実験の結果, ROC AUCスコアでは, 単一モデルに対するマルチモーダルアンサンブルモデルが改善された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present our methods for unrealiable information
identification task at VLSP 2020 ReINTEL Challenge. The task is to classify a
piece of information into reliable or unreliable category. We propose a novel
multimodal ensemble model which combines two multimodal models to solve the
task. In each multimodal model, we combined feature representations acquired
from three different data types: texts, images, and metadata. Multimodal
features are derived from three neural networks and fused for classification.
Experimental results showed that our proposed multimodal ensemble model
improved against single models in term of ROC AUC score. We obtained 0.9445 AUC
score on the private test of the challenge.
- Abstract(参考訳): 本稿では,VLSP 2020 ReINTEL Challengeにおいて,実現不可能な情報識別のための手法を提案する。
タスクは、情報の断片を信頼できないカテゴリに分類することである。
本稿では,2つのマルチモーダルモデルを組み合わせた新しいマルチモーダルアンサンブルモデルを提案する。
各マルチモーダルモデルにおいて,テキスト,画像,メタデータの3つの異なるデータ型から得られた特徴表現を組み合わせた。
マルチモーダル特徴は3つのニューラルネットワークから派生し、分類のために融合される。
実験の結果, ROC AUCスコアでは, 単一モデルに対するマルチモーダルアンサンブルモデルが改善された。
課題のプライベートテストで0.9445 AUCのスコアを得た。
関連論文リスト
- MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文 参考訳(メタデータ) (2024-06-13T17:59:42Z) - Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning [7.84845040922464]
本稿では,CVPRマルチモーダルアルゴリズム推論タスク2024におけるSMART-101の課題について述べる。
従来の視覚的な質問や回答タスクとは異なり、この課題はニューラルネットワークの抽象化、推論、一般化能力を評価する。
本モデルは,テキストと画像からそれぞれ特徴を抽出する2つの事前学習モデルに基づく。
論文 参考訳(メタデータ) (2024-06-08T01:45:06Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Informative Data Selection with Uncertainty for Multi-modal Object
Detection [25.602915381482468]
普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。
我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
論文 参考訳(メタデータ) (2023-04-23T16:36:13Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。
アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。
我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文 参考訳(メタデータ) (2021-12-16T23:34:07Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。