論文の概要: YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2409.13592v1
- Date: Fri, 20 Sep 2024 15:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:19:44.870619
- Title: YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
- Title(参考訳): yesBut: 視覚言語モデルのサファイア理解能力を評価するための高品質アノテーション付きマルチモーダルデータセット
- Authors: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly,
- Abstract要約: サテライト画像検出(画像が風刺的かどうかを検出する)、理解(画像の背後にある理由を生成する)、完成(画像の片方に画像の残りの半分を風刺的であるような2つのオプションから選択する)を提案する。
我々は、さらなる研究のために、119枚のリアルな風刺写真データセットを公開します。
- 参考スコア(独自算出の注目度): 21.290282716770157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding satire and humor is a challenging task for even current Vision-Language models. In this paper, we propose the challenging tasks of Satirical Image Detection (detecting whether an image is satirical), Understanding (generating the reason behind the image being satirical), and Completion (given one half of the image, selecting the other half from 2 given options, such that the complete image is satirical) and release a high-quality dataset YesBut, consisting of 2547 images, 1084 satirical and 1463 non-satirical, containing different artistic styles, to evaluate those tasks. Each satirical image in the dataset depicts a normal scenario, along with a conflicting scenario which is funny or ironic. Despite the success of current Vision-Language Models on multimodal tasks such as Visual QA and Image Captioning, our benchmarking experiments show that such models perform poorly on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both automated as well as human evaluation. Additionally, we release a dataset of 119 real, satirical photographs for further research. The dataset and code are available at https://github.com/abhi1nandy2/yesbut_dataset.
- Abstract(参考訳): 風刺やユーモアを理解することは、現在のVision-Languageモデルでも難しい課題です。
本稿では,風刺画像検出(画像が風刺的かどうかを検出する),理解(画像の背景にある理由を生成する),コンプリート(画像の一方が風刺的であるような2つの選択肢から残りの半分を選択),高品質なデータセットYesBut(2547枚,風刺的1084枚,非風刺的1463枚)の課題を提示し,それらの課題を評価する。
データセットの各風刺画像は、笑いや皮肉のような矛盾するシナリオとともに、通常のシナリオを描いている。
視覚的QAや画像キャプションなどのマルチモーダルタスクにおける現在のビジョンランゲージモデルの成功にもかかわらず、ベンチマーク実験により、ゼロショット設定におけるYesButデータセットにおける提案されたタスクでは、自動化と人的評価の両方において、そのようなモデルが不十分であることが示されている。
さらに、さらなる研究のために、119枚のリアルな風刺写真データセットをリリースする。
データセットとコードはhttps://github.com/abhi1nandy2/yesbut_datasetで公開されている。
関連論文リスト
- Satellite Captioning: Large Language Models to Augment Labeling [0.0]
キャプションデータセットは、言語の違い、文法、そして人間がそれらを生成するのに要する時間により、はるかに難しい課題を示します。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合、問題となる。
本稿では,キャプションデータセットにおける潜在的な情報やコミュニケーションの欠陥の問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-12-18T03:21:58Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Towards Pragmatic Semantic Image Synthesis for Urban Scenes [4.36080478413575]
合成画像とラベル付きデータセットとラベルなしの実画像付きデータセットが与えられた場合、入力マスクの内容と実際の画像の外観で画像を生成することができるモデルを学ぶことが目的である。
合成画像は, パッチレベルでの高次特徴の違いをペナルティ化することにより, 生成画像の内容のガイドとして活用する。
対象領域のセマンティックな分布に過度に適合する1つの識別器を用いた以前の研究とは対照的に、画像全体の識別器と画像パッチ上のマルチスケール識別器を用いる。
論文 参考訳(メタデータ) (2023-05-16T18:01:12Z) - HL Dataset: Visually-grounded Description of Scenes, Actions and
Rationales [5.010418546872244]
我々はCOCOデータセットから14997の画像を拡張し、新たに134,973の人称注釈(ハイレベル)キャプションをセットしたデータセットを提示する。
さらに、このデータセットを、独立した読者の集合から収集した信頼度スコアと、合成的に生成されたナラティブキャプションのセットで拡張する。
論文 参考訳(メタデータ) (2023-02-23T17:30:18Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - A Multi-Modal Method for Satire Detection using Textual and Visual Cues [5.147194328754225]
サティレはユーモラスな批評の一形態であるが、読者によって正統なニュースと誤解されることもある。
風刺ニュース記事で使用される画像は、しばしばばかばかしい内容やばかげた内容を含んでいる。
我々は、最先端のビオ言語モデルであるViLBERTに基づくマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-13T20:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。