Fugu-MT 論文翻訳(概要): !Qu\'e maravilla! Multimodal Sarcasm Detection in Spanish: a Dataset and a Baseline

論文の概要: !Qu\'e maravilla! Multimodal Sarcasm Detection in Spanish: a Dataset and a Baseline

arxiv url: http://arxiv.org/abs/2105.05542v1
Date: Wed, 12 May 2021 09:43:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-13 21:24:05.680790
Title: !Qu\'e maravilla! Multimodal Sarcasm Detection in Spanish: a Dataset and a Baseline
Title（参考訳）: さよならマラヴィラ! スペイン語におけるマルチモーダルサーカズム検出:データセットとベースライン
Authors: Khalid Alnajjar and Mika H\"am\"al\"ainen
Abstract要約: このデータセットは、ラテンアメリカの品種とスペイン半島の品種の2つの品種を表しています。最良の結果は、テキスト、オーディオ、ビデオといったすべてのモダリティを組み合わせることで得られる。
参考スコア（独自算出の注目度）: 0.685316573653194
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We construct the first ever multimodal sarcasm dataset for Spanish. The audiovisual dataset consists of sarcasm annotated text that is aligned with video and audio. The dataset represents two varieties of Spanish, a Latin American variety and a Peninsular Spanish variety, which ensures a wider dialectal coverage for this global language. We present several models for sarcasm detection that will serve as baselines in the future research. Our results show that results with text only (89%) are worse than when combining text with audio (91.9%). Finally, the best results are obtained when combining all the modalities: text, audio and video (93.1%).
Abstract（参考訳）: 我々はスペイン語で最初のマルチモーダル・サーカズムデータセットを構築した。 audiovisualデータセットは、ビデオとオーディオにアライメントされたsarcasmアノテートされたテキストで構成されている。このデータセットは2種類のスペイン語、ラテンアメリカの品種、半島のスペイン語の品種を表しており、このグローバルな言語に対するより広い方言のカバレッジを保証している。本稿では,今後研究のベースラインとなるサーカズム検出モデルをいくつか提示する。その結果, テキストのみを用いた結果(89%)は, テキストとオーディオを組み合わせる場合 (91.9%) よりも悪いことがわかった。最後に、テキスト、オーディオ、ビデオのすべてのモダリティ(93.1%)を組み合わせると、最良の結果が得られる。

関連論文リスト

ViSP: A PPO-Driven Framework for Sarcasm Generation with Contrastive Learning [4.4400358459143074]
M2SaGは4,970個のサンプルを持つマルチモーダルサルカズム生成データセットであり,それぞれが画像,皮肉テキスト,皮肉ターゲットを含む。 M2SaGをベンチマークするために,PPO(Proximal Policy Optimization)とコントラスト学習を統合した生成フレームワークであるViSPを提案する。提案手法は,5つの測度集合にまたがる ViSP の評価を行い,大言語モデルを含むすべてのベースラインを超越し,サルカズム生成の限界を過小評価する。
論文参考訳（メタデータ） (2025-07-13T04:03:05Z)
VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features [13.922091192207718]
サルカズム認識は、日常の対話に埋め込まれた隠された皮肉、批判、比喩的な情報を識別することを目的としている。本稿では,軽量な奥行き注意モジュールと自己制御型ConvNetを組み合わせることで,視覚データの最も重要な特徴に集中する手法を提案する。我々はまた、別のデータセットMUStARD++の見知らぬサンプルを用いて、VyAnG-Netの適応性をテストするために、クロスデータセット解析を行った。
論文参考訳（メタデータ） (2024-08-05T15:36:52Z)
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文参考訳（メタデータ） (2024-06-13T00:13:32Z)
Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文参考訳（メタデータ） (2024-06-11T07:12:12Z)
LyricSIM: A novel Dataset and Benchmark for Similarity Detection in Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文参考訳（メタデータ） (2023-06-02T07:48:20Z)
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文参考訳（メタデータ） (2023-03-30T14:07:47Z)
Language Variety Identification with True Labels [7.9815074811220175]
本稿では,言語多様性を識別する最初の人間アノテーション付き多言語データセットであるDSL True Labels (-TL)を提案する。 DSL-TLは、ポルトガル語で12,900件、ポルトガル語で12,900件、スペイン語でアルゼンチン語でスペイン語とカスティーリャ語でスペイン語、英語でアメリカ英語とイギリス英語に分けられている。我々はこれらの言語品種を識別するために複数のモデルを訓練し、その結果を詳細に提示した。
論文参考訳（メタデータ） (2023-03-02T18:51:58Z)
ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文参考訳（メタデータ） (2022-09-06T22:48:29Z)
Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。 LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文参考訳（メタデータ） (2022-03-28T23:47:57Z)
M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。 M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文参考訳（メタデータ） (2021-08-03T02:54:09Z)
Tusom2021: A Phonetically Transcribed Speech Dataset from an Endangered Language for Universal Phone Recognition Experiments [7.286387368812729]
本稿では,絶滅危惧国タングク語東トゥーソム語で2255発の発声を公に書き起こしたコーパスを提示する。データセットは音素ではなく電話の点で転写されるため、多くの大きなデータセットよりも普遍的な電話認識システムに適しています。
論文参考訳（メタデータ） (2021-04-02T00:26:10Z)
"Did you really mean what you said?" : Sarcasm Detection in Hindi-English Code-Mixed Data using Bilingual Word Embeddings [0.0]
我々は、カスタム単語埋め込みを訓練するためのツイートのコーパスと、皮肉検出のためのラベル付きHinglishデータセットを提示する。我々は,ヒンディー語と英語の混合ツイートにおける皮肉検出の問題に対処するために,ディープラーニングに基づくアプローチを提案する。
論文参考訳（メタデータ） (2020-10-01T11:41:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。