論文の概要: M2DF: Multi-grained Multi-curriculum Denoising Framework for Multimodal
Aspect-based Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2310.14605v1
- Date: Mon, 23 Oct 2023 06:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 22:08:38.639412
- Title: M2DF: Multi-grained Multi-curriculum Denoising Framework for Multimodal
Aspect-based Sentiment Analysis
- Title(参考訳): M2DF:マルチモーダルアスペクトに基づく感性分析のための多粒度マルチキュリキュラムDenoisingフレームワーク
- Authors: Fei Zhao, Chunhui Li, Zhen Wu, Yawen Ouyang, Jianbing Zhang, Xinyu Dai
- Abstract要約: マルチモーダルAspect-based Sentiment Analysis (MABSA) はきめ細かな感性分析タスクである。
トレーニングデータの順序を調整することで,マルチグラニュアルなマルチキュリキュラム・デノナイジング・フレームワーク(M2DF)を提案する。
当社のフレームワークは,MABSAの3つのサブタスクにおける最先端の作業よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 32.9772577419091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Aspect-based Sentiment Analysis (MABSA) is a fine-grained
Sentiment Analysis task, which has attracted growing research interests
recently. Existing work mainly utilizes image information to improve the
performance of MABSA task. However, most of the studies overestimate the
importance of images since there are many noise images unrelated to the text in
the dataset, which will have a negative impact on model learning. Although some
work attempts to filter low-quality noise images by setting thresholds, relying
on thresholds will inevitably filter out a lot of useful image information.
Therefore, in this work, we focus on whether the negative impact of noisy
images can be reduced without modifying the data. To achieve this goal, we
borrow the idea of Curriculum Learning and propose a Multi-grained
Multi-curriculum Denoising Framework (M2DF), which can achieve denoising by
adjusting the order of training data. Extensive experimental results show that
our framework consistently outperforms state-of-the-art work on three sub-tasks
of MABSA.
- Abstract(参考訳): マルチモーダルAspect-based Sentiment Analysis (MABSA) はきめ細かな感性分析タスクであり,近年研究関心が高まりつつある。
既存の作業は主に画像情報を利用してMABSAタスクの性能を向上させる。
しかし、ほとんどの研究では、データセットのテキストに関係のないノイズ画像が多く、モデル学習に悪影響を及ぼすため、画像の重要性を過大評価している。
低品質のノイズ画像をしきい値を設定することでフィルタしようとする試みもあるが、しきい値に依存すると必然的に多くの有用な画像情報がフィルタリングされる。
そこで本研究では,ノイズ画像の悪影響をデータを変更することなく低減できるかどうかに注目する。
この目標を達成するために、カリキュラム学習の概念を取り入れ、トレーニングデータの順序を調整することで、復調を実現できるマルチグラデーション・マルチカリキュラム・デノナイジング・フレームワーク(M2DF)を提案する。
実験の結果,MABSAの3つのサブタスクにおいて,我々のフレームワークは一貫して最先端の作業よりも優れていた。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - denoiSplit: a method for joint microscopy image splitting and unsupervised denoising [7.362569187959687]
denoiSplitは、共同セマンティックイメージ分割と教師なし denoising の課題に取り組む方法である。
画像分割は、イメージを識別可能なセマンティック構造に分割することを含む。
この課題に対する現在の最先端の手法は、画像ノイズの存在に苦慮していることを示す。
論文 参考訳(メタデータ) (2024-03-18T15:03:56Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation [36.43428388918294]
ペア化されたテキストイメージデータのWebスケールトレーニングは、ますますマルチモーダルな学習の中心になりつつある。
標準的なデータフィルタリングアプローチでは、ミスマッチしたテキストイメージペアを削除できない。
画像参照なしで字幕テキストを評価し,その具体性を計測する新しい指標である画像キャプション具体性を提案する。
論文 参考訳(メタデータ) (2024-03-02T20:36:10Z) - Impact of Visual Context on Noisy Multimodal NMT: An Empirical Study for
English to Indian Languages [29.416563233407892]
ニューラルネットワーク翻訳(NMT)におけるマルチモーダル情報の利用の有効性について検討した。
驚くべきことに、この研究は、この文脈で画像が冗長であることを発見した。
実験はヒンディー語、ベンガル語、マラヤラム語に翻訳され、最先端のベンチマークを大きく上回っている。
論文 参考訳(メタデータ) (2023-08-30T14:52:14Z) - Generalizable Denoising of Microscopy Images using Generative
Adversarial Networks and Contrastive Learning [0.0]
数発の顕微鏡画像復調のための新しいフレームワークを提案する。
提案手法は,比較学習(CL)を用いて学習したGAN(Generative Adversarial Network)と,損失項を保存する2つの構造を組み合わせたものである。
本手法が3つのよく知られた顕微鏡画像データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-03-27T13:55:07Z) - Masked Image Training for Generalizable Deep Image Denoising [53.03126421917465]
本稿では,デノナイジングネットワークの一般化性能を高めるための新しい手法を提案する。
提案手法では,入力画像のランダムなピクセルをマスキングし,学習中に欠落した情報を再構成する。
提案手法は,他のディープラーニングモデルよりも優れた一般化能力を示し,実世界のシナリオに直接適用可能である。
論文 参考訳(メタデータ) (2023-03-23T09:33:44Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Deformed2Self: Self-Supervised Denoising for Dynamic Medical Imaging [0.0]
Deformed2Selfは動的撮像のためのエンドツーエンドの自己教師型ディープラーニングフレームワークである。
シングルイメージとマルチイメージのデノゲーションを組み合わせて画像品質を改善し、空間トランスフォーマーネットワークを使用して異なるスライス間の動きをモデル化する。
論文 参考訳(メタデータ) (2021-06-23T05:50:19Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。