Fugu-MT 論文翻訳(概要): Logically at the Factify 2022: Multimodal Fact Verification

論文の概要: Logically at the Factify 2022: Multimodal Fact Verification

arxiv url: http://arxiv.org/abs/2112.09253v1
Date: Thu, 16 Dec 2021 23:34:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-20 14:02:11.075292
Title: Logically at the Factify 2022: Multimodal Fact Verification
Title（参考訳）: 論理的に、factify 2022: multimodal fact verification
Authors: Jie Gao, Hella-Franziska Hoffmann, Stylianos Oikonomou, David Kiskovski, Anil Bandhakavi
Abstract要約: 本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
参考スコア（独自算出の注目度）: 2.8914815569249823
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper describes our participant system for the multi-modal fact verification (Factify) challenge at AAAI 2022. Despite the recent advance in text based verification techniques and large pre-trained multimodal models cross vision and language, very limited work has been done in applying multimodal techniques to automate fact checking process, particularly considering the increasing prevalence of claims and fake news about images and videos on social media. In our work, the challenge is treated as multimodal entailment task and framed as multi-class classification. Two baseline approaches are proposed and explored including an ensemble model (combining two uni-modal models) and a multi-modal attention network (modeling the interaction between image and text pair from claim and evidence document). We conduct several experiments investigating and benchmarking different SoTA pre-trained transformers and vision models in this work. Our best model is ranked first in leaderboard which obtains a weighted average F-measure of 0.77 on both validation and test set. Exploratory analysis of dataset is also carried out on the Factify data set and uncovers salient patterns and issues (e.g., word overlapping, visual entailment correlation, source bias) that motivates our hypothesis. Finally, we highlight challenges of the task and multimodal dataset for future research.
Abstract（参考訳）: 本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。テキストベースの検証技術や大規模な事前学習されたマルチモーダルモデルが近年進歩しているにもかかわらず、事実チェックプロセスの自動化にマルチモーダル技術を適用する作業は非常に限定的であり、特にソーシャルメディア上の画像やビデオに関するクレームやフェイクニュースの増加を考慮している。本研究では,課題をマルチモーダル・エンテーメント・タスクとして扱い,マルチクラス分類として扱う。アンサンブルモデル(2つのユニモーダルモデルを組み合わせた)とマルチモーダルアテンションネットワーク(クレームとエビデンス文書から画像とテキストペア間の相互作用をモデル化する)を含む2つのベースラインアプローチを提案する。本研究では,様々なSoTA事前学習トランスおよびビジョンモデルの調査とベンチマークを行う。我々の最良のモデルは、検証とテストセットの両方で平均0.77の重み付け値を得るリーダーボードで第1位にランクされている。データセットの探索分析もFactifyデータセット上で行われ、私たちの仮説を動機づける健全なパターンや問題(単語重なり、視覚的包含相関、ソースバイアスなど)を明らかにする。最後に、今後の研究におけるタスクとマルチモーダルデータセットの課題を強調する。

関連論文リスト

Multi-modal Retrieval Augmented Multi-modal Generation: A Benchmark, Evaluate Metrics and Strong Baselines [63.427721165404634]
本稿では,マルチモーダル検索拡張マルチモーダル生成(M$2$RAG)の興味深い課題について検討する。このタスクでは,複数モーダルなWebページを閲覧し,テキストと画像が混在し,ユーザクエリを解決するためのマルチモーダルな応答を生成するための基礎モデルが必要である。我々は,M$2$RAGタスクのベンチマークを構築し,既存の基礎モデルの能力を分析するために,テキストモーダルメトリクスとマルチモーダルメトリクスのセットを備える。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
Piecing It All Together: Verifying Multi-Hop Multimodal Claims [39.68850054331197]
マルチホップマルチモーダルクレーム検証という新しいタスクを導入する。このタスクは、テキスト、画像、テーブルなど、さまざまなソースから複数のエビデンスを推論するモデルに挑戦する。 16kのマルチホップクレームとマルチモーダルなエビデンスを組み合わせた大規模データセットMMCVを構築し,人間からのフィードバックを付加した。
論文参考訳（メタデータ） (2024-11-14T16:01:33Z)
MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文参考訳（メタデータ） (2024-07-18T01:33:20Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文参考訳（メタデータ） (2023-11-02T22:17:03Z)
Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文参考訳（メタデータ） (2023-07-06T08:02:45Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文参考訳（メタデータ） (2023-02-20T15:34:03Z)
Team Triple-Check at Factify 2: Parameter-Efficient Large Foundation Models with Feature Representations for Multi-Modal Fact Verification [5.552606716659022]
ソーシャルメディアでは、マルチモーダルな事実検証が重要だが難しい問題となっている。本稿では,細粒度テキストと照明パラメータを用いた入力埋め込みをモデル化するためのPre-CoFactv2フレームワークを提案する。 AAAI 2023のFactifyチャレンジにおいて,Pre-CoFactv2がPre-CoFactを大きなマージンで上回り,新たな最先端の成果を得たことを示す。
論文参考訳（メタデータ） (2023-02-12T18:08:54Z)
Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文参考訳（メタデータ） (2022-11-04T17:58:02Z)
Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。 MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文参考訳（メタデータ） (2022-05-04T23:40:04Z)
Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文参考訳（メタデータ） (2021-12-27T10:00:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。