Fugu-MT 論文翻訳(概要): ReINTEL Challenge 2020: A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnamese SNS

論文の概要: ReINTEL Challenge 2020: A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnamese SNS

arxiv url: http://arxiv.org/abs/2012.10267v1
Date: Fri, 18 Dec 2020 14:33:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-01 18:17:29.276535
Title: ReINTEL Challenge 2020: A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnamese SNS
Title（参考訳）: ReINTEL Challenge 2020: ベトナムSNS上の信頼できない情報を検出するマルチモーダルアンサンブルモデル
Authors: Nguyen Manh Duc Tuan, Pham Quang Nhat Minh
Abstract要約: 2つのマルチモーダルモデルを組み合わせて課題を解決する新しいマルチモーダルアンサンブルモデルを提案する。実験の結果, ROC AUCスコアでは, 単一モデルに対するマルチモーダルアンサンブルモデルが改善された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we present our methods for unrealiable information identification task at VLSP 2020 ReINTEL Challenge. The task is to classify a piece of information into reliable or unreliable category. We propose a novel multimodal ensemble model which combines two multimodal models to solve the task. In each multimodal model, we combined feature representations acquired from three different data types: texts, images, and metadata. Multimodal features are derived from three neural networks and fused for classification. Experimental results showed that our proposed multimodal ensemble model improved against single models in term of ROC AUC score. We obtained 0.9445 AUC score on the private test of the challenge.
Abstract（参考訳）: 本稿では,VLSP 2020 ReINTEL Challengeにおいて,実現不可能な情報識別のための手法を提案する。タスクは、情報の断片を信頼できないカテゴリに分類することである。本稿では,2つのマルチモーダルモデルを組み合わせた新しいマルチモーダルアンサンブルモデルを提案する。各マルチモーダルモデルにおいて,テキスト,画像,メタデータの3つの異なるデータ型から得られた特徴表現を組み合わせた。マルチモーダル特徴は3つのニューラルネットワークから派生し、分類のために融合される。実験の結果, ROC AUCスコアでは, 単一モデルに対するマルチモーダルアンサンブルモデルが改善された。課題のプライベートテストで0.9445 AUCのスコアを得た。

関連論文リスト

ProM3E: Probabilistic Masked MultiModal Embedding Model for Ecology [19.17623860216468]
ProM3Eは、エコロジーのためのあらゆる世代のマルチモーダル表現のためのマスク付きマルチモーダル埋め込みモデルである。設計により、我々のモデルは埋め込み空間におけるモダリティ反転をサポートする。モーダル間類似点とモーダル間類似点を混合して,全ての検索タスクにおいて優れた性能を実現する,新たなクロスモーダル検索手法を提案する。
論文参考訳（メタデータ） (2025-11-04T19:47:22Z)
Automated Model Discovery via Multi-modal & Multi-step Pipeline [27.271570705491968]
効率的な自動モデル探索のためのマルチモーダル・グラニュアル・マルチステップパイプラインを提案する。我々のパイプラインは、細部を捕捉し、強力な一般化性を保証するモデルを効果的に発見することを示した。
論文参考訳（メタデータ） (2025-09-30T08:40:05Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文参考訳（メタデータ） (2024-06-13T17:59:42Z)
Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning [7.84845040922464]
本稿では,CVPRマルチモーダルアルゴリズム推論タスク2024におけるSMART-101の課題について述べる。従来の視覚的な質問や回答タスクとは異なり、この課題はニューラルネットワークの抽象化、推論、一般化能力を評価する。本モデルは,テキストと画像からそれぞれ特徴を抽出する2つの事前学習モデルに基づく。
論文参考訳（メタデータ） (2024-06-08T01:45:06Z)
On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2023-05-02T07:15:10Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
Informative Data Selection with Uncertainty for Multi-modal Object Detection [25.602915381482468]
普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
論文参考訳（メタデータ） (2023-04-23T16:36:13Z)
Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。 A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文参考訳（メタデータ） (2023-03-13T17:01:42Z)
MultiViz: An Analysis Benchmark for Visualizing and Understanding Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。 MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文参考訳（メタデータ） (2022-06-30T18:42:06Z)
Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文参考訳（メタデータ） (2021-12-16T23:34:07Z)
InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文参考訳（メタデータ） (2020-03-30T03:13:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。