論文の概要: DocMSU: A Comprehensive Benchmark for Document-level Multimodal Sarcasm
Understanding
- arxiv url: http://arxiv.org/abs/2312.16023v1
- Date: Tue, 26 Dec 2023 12:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:10:36.137482
- Title: DocMSU: A Comprehensive Benchmark for Document-level Multimodal Sarcasm
Understanding
- Title(参考訳): DocMSU: ドキュメントレベルのマルチモーダルサーカズム理解のための総合ベンチマーク
- Authors: Hang Du and Guoshun Nan and Sicheng Zhang and Binzhu Xie and Junrui Xu
and Hehe Fan and Qimei Cui and Xiaofeng Tao and Xudong Jiang
- Abstract要約: 文書レベルのマルチモーダルサルカズム理解(DocMSU)のためのベンチマークを提案する。
私たちのデータセットには102,588のニュースとテキストイメージペアが含まれており、健康やビジネスなど、9つのさまざまなトピックをカバーしています。
- 参考スコア(独自算出の注目度): 44.16443721348539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Sarcasm Understanding (MSU) has a wide range of applications in
the news field such as public opinion analysis and forgery detection. However,
existing MSU benchmarks and approaches usually focus on sentence-level MSU. In
document-level news, sarcasm clues are sparse or small and are often concealed
in long text. Moreover, compared to sentence-level comments like tweets, which
mainly focus on only a few trends or hot topics (e.g., sports events), content
in the news is considerably diverse. Models created for sentence-level MSU may
fail to capture sarcasm clues in document-level news. To fill this gap, we
present a comprehensive benchmark for Document-level Multimodal Sarcasm
Understanding (DocMSU). Our dataset contains 102,588 pieces of news with
text-image pairs, covering 9 diverse topics such as health, business, etc. The
proposed large-scale and diverse DocMSU significantly facilitates the research
of document-level MSU in real-world scenarios. To take on the new challenges
posed by DocMSU, we introduce a fine-grained sarcasm comprehension method to
properly align the pixel-level image features with word-level textual features
in documents. Experiments demonstrate the effectiveness of our method, showing
that it can serve as a baseline approach to the challenging DocMSU. Our code
and dataset are available at https://github.com/Dulpy/DocMSU.
- Abstract(参考訳): マルチモーダルサルカズム理解(MSU)は、世論分析や偽造検出など、ニュース分野に幅広い応用がある。
しかし、既存のMSUベンチマークとアプローチは通常文レベルのMSUに焦点を当てている。
文書レベルのニュースでは、皮肉の手がかりはささや小さく、しばしば長いテキストで隠される。
さらに、いくつかのトレンドやホットトピック(スポーツイベントなど)のみに焦点を当てたツイートのような文レベルのコメントに比べて、ニュースの内容はかなり多様である。
文レベルのMSUのために作成されたモデルは、文書レベルのニュースで皮肉な手がかりを捉えるのに失敗する。
このギャップを埋めるために、文書レベルのマルチモーダルサルカズム理解(DocMSU)のための包括的なベンチマークを示す。
私たちのデータセットには102,588のニュースとテキストイメージペアが含まれており、健康やビジネスなど、9つのさまざまなトピックをカバーしています。
提案した大規模かつ多様なDocMSUは,実世界のシナリオにおける文書レベルのMSUの研究を著しく促進する。
DocMSUがもたらす新たな課題に対処するため,文書中の画素レベルの画像特徴と単語レベルのテキスト特徴とを適切に整合させる,きめ細かなsarcasm理解手法を提案する。
提案手法の有効性を実証し,挑戦的なdocmsuのベースライン・アプローチとして利用できることを示した。
私たちのコードとデータセットはhttps://github.com/dulpy/docmsuで利用可能です。
関連論文リスト
- Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。
画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。
このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T17:07:22Z) - MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。
MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z) - OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
我々はOmniDocBenchを紹介した。OmniDocBenchは自動文書コンテンツ抽出のための新しいベンチマークである。
私たちのベンチマークには、厳密にキュレートされ、注釈付けされた高品質な評価データセットが含まれています。
既存のモジュール・パイプラインとマルチモーダル・エンド・ツー・エンド・メソッドの徹底的な比較分析を行う。
論文 参考訳(メタデータ) (2024-12-10T16:05:56Z) - M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Shuffle & Divide: Contrastive Learning for Long Text [6.187839874846451]
コントラスト学習に基づく長文文書の自己教師型学習手法を提案する。
我々の手法の鍵は、単純なテキスト拡張アルゴリズムであるShuffle and Divide (SaD)である。
我々は、20のニュースグループ、Reuters-21578、BBC、BBCSportのデータセットで教師なしテキスト分類を行うことにより、我々の手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-04-19T02:02:29Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - Corpora Evaluation and System Bias Detection in Multi-document
Summarization [25.131744693121508]
MDS(Multi-document summarization)は、文書の集合から簡潔なテキスト段落にキーポイントを反映するタスクである。
タスクの標準的な定義がないため、さまざまなレベルの重複と、参加するドキュメント間のコンフリクトを持つデータセットに遭遇する。
新しいシステムは、選択したデータセットのセットについて結果を報告し、他のデータセットのパフォーマンスと相関しないかもしれない。
論文 参考訳(メタデータ) (2020-10-05T05:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。