Fugu-MT 論文翻訳(概要): DocMSU: A Comprehensive Benchmark for Document-level Multimodal Sarcasm Understanding

論文の概要: DocMSU: A Comprehensive Benchmark for Document-level Multimodal Sarcasm Understanding

arxiv url: http://arxiv.org/abs/2312.16023v1
Date: Tue, 26 Dec 2023 12:24:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 15:10:36.137482
Title: DocMSU: A Comprehensive Benchmark for Document-level Multimodal Sarcasm Understanding
Title（参考訳）: DocMSU: ドキュメントレベルのマルチモーダルサーカズム理解のための総合ベンチマーク
Authors: Hang Du and Guoshun Nan and Sicheng Zhang and Binzhu Xie and Junrui Xu and Hehe Fan and Qimei Cui and Xiaofeng Tao and Xudong Jiang
Abstract要約: 文書レベルのマルチモーダルサルカズム理解(DocMSU)のためのベンチマークを提案する。私たちのデータセットには102,588のニュースとテキストイメージペアが含まれており、健康やビジネスなど、9つのさまざまなトピックをカバーしています。
参考スコア（独自算出の注目度）: 44.16443721348539
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Sarcasm Understanding (MSU) has a wide range of applications in the news field such as public opinion analysis and forgery detection. However, existing MSU benchmarks and approaches usually focus on sentence-level MSU. In document-level news, sarcasm clues are sparse or small and are often concealed in long text. Moreover, compared to sentence-level comments like tweets, which mainly focus on only a few trends or hot topics (e.g., sports events), content in the news is considerably diverse. Models created for sentence-level MSU may fail to capture sarcasm clues in document-level news. To fill this gap, we present a comprehensive benchmark for Document-level Multimodal Sarcasm Understanding (DocMSU). Our dataset contains 102,588 pieces of news with text-image pairs, covering 9 diverse topics such as health, business, etc. The proposed large-scale and diverse DocMSU significantly facilitates the research of document-level MSU in real-world scenarios. To take on the new challenges posed by DocMSU, we introduce a fine-grained sarcasm comprehension method to properly align the pixel-level image features with word-level textual features in documents. Experiments demonstrate the effectiveness of our method, showing that it can serve as a baseline approach to the challenging DocMSU. Our code and dataset are available at https://github.com/Dulpy/DocMSU.
Abstract（参考訳）: マルチモーダルサルカズム理解(MSU)は、世論分析や偽造検出など、ニュース分野に幅広い応用がある。しかし、既存のMSUベンチマークとアプローチは通常文レベルのMSUに焦点を当てている。文書レベルのニュースでは、皮肉の手がかりはささや小さく、しばしば長いテキストで隠される。さらに、いくつかのトレンドやホットトピック(スポーツイベントなど)のみに焦点を当てたツイートのような文レベルのコメントに比べて、ニュースの内容はかなり多様である。文レベルのMSUのために作成されたモデルは、文書レベルのニュースで皮肉な手がかりを捉えるのに失敗する。このギャップを埋めるために、文書レベルのマルチモーダルサルカズム理解(DocMSU)のための包括的なベンチマークを示す。私たちのデータセットには102,588のニュースとテキストイメージペアが含まれており、健康やビジネスなど、9つのさまざまなトピックをカバーしています。提案した大規模かつ多様なDocMSUは,実世界のシナリオにおける文書レベルのMSUの研究を著しく促進する。 DocMSUがもたらす新たな課題に対処するため,文書中の画素レベルの画像特徴と単語レベルのテキスト特徴とを適切に整合させる,きめ細かなsarcasm理解手法を提案する。提案手法の有効性を実証し,挑戦的なdocmsuのベースライン・アプローチとして利用できることを示した。私たちのコードとデータセットはhttps://github.com/dulpy/docmsuで利用可能です。

関連論文リスト

M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。 M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文参考訳（メタデータ） (2025-03-27T07:28:32Z)
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-02-06T17:07:22Z)
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。 MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
論文参考訳（メタデータ） (2025-01-15T14:30:13Z)
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文参考訳（メタデータ） (2024-12-10T16:05:56Z)
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。 M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。 M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2024-11-07T18:29:38Z)
AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文参考訳（メタデータ） (2024-10-21T02:19:24Z)
Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-11-22T06:46:37Z)
On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文参考訳（メタデータ） (2023-06-08T11:30:43Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Shuffle & Divide: Contrastive Learning for Long Text [6.187839874846451]
コントラスト学習に基づく長文文書の自己教師型学習手法を提案する。我々の手法の鍵は、単純なテキスト拡張アルゴリズムであるShuffle and Divide (SaD)である。我々は、20のニュースグループ、Reuters-21578、BBC、BBCSportのデータセットで教師なしテキスト分類を行うことにより、我々の手法を実証的に評価した。
論文参考訳（メタデータ） (2023-04-19T02:02:29Z)
MGDoc: Pre-training with Multi-granular Hierarchy for Document Image Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。 MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文参考訳（メタデータ） (2022-11-27T22:47:37Z)
Few-Shot Document-Level Event Argument Extraction [2.680014762694412]
イベント引数抽出(EAE)は文レベルではよく研究されているが、文書レベルでは未探索である。 FewDocAE は Few-Shot Document-Level Event Argument extract ベンチマークである。
論文参考訳（メタデータ） (2022-09-06T03:57:23Z)
Corpora Evaluation and System Bias Detection in Multi-document Summarization [25.131744693121508]
MDS(Multi-document summarization)は、文書の集合から簡潔なテキスト段落にキーポイントを反映するタスクである。タスクの標準的な定義がないため、さまざまなレベルの重複と、参加するドキュメント間のコンフリクトを持つデータセットに遭遇する。新しいシステムは、選択したデータセットのセットについて結果を報告し、他のデータセットのパフォーマンスと相関しないかもしれない。
論文参考訳（メタデータ） (2020-10-05T05:25:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。