論文の概要: !Qu\'e maravilla! Multimodal Sarcasm Detection in Spanish: a Dataset and
a Baseline
- arxiv url: http://arxiv.org/abs/2105.05542v1
- Date: Wed, 12 May 2021 09:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 21:24:05.680790
- Title: !Qu\'e maravilla! Multimodal Sarcasm Detection in Spanish: a Dataset and
a Baseline
- Title(参考訳): さよならマラヴィラ!
スペイン語におけるマルチモーダルサーカズム検出:データセットとベースライン
- Authors: Khalid Alnajjar and Mika H\"am\"al\"ainen
- Abstract要約: このデータセットは、ラテンアメリカの品種とスペイン半島の品種の2つの品種を表しています。
最良の結果は、テキスト、オーディオ、ビデオといったすべてのモダリティを組み合わせることで得られる。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We construct the first ever multimodal sarcasm dataset for Spanish. The
audiovisual dataset consists of sarcasm annotated text that is aligned with
video and audio. The dataset represents two varieties of Spanish, a Latin
American variety and a Peninsular Spanish variety, which ensures a wider
dialectal coverage for this global language. We present several models for
sarcasm detection that will serve as baselines in the future research. Our
results show that results with text only (89%) are worse than when combining
text with audio (91.9%). Finally, the best results are obtained when combining
all the modalities: text, audio and video (93.1%).
- Abstract(参考訳): 我々はスペイン語で最初のマルチモーダル・サーカズムデータセットを構築した。
audiovisualデータセットは、ビデオとオーディオにアライメントされたsarcasmアノテートされたテキストで構成されている。
このデータセットは2種類のスペイン語、ラテンアメリカの品種、半島のスペイン語の品種を表しており、このグローバルな言語に対するより広い方言のカバレッジを保証している。
本稿では,今後研究のベースラインとなるサーカズム検出モデルをいくつか提示する。
その結果, テキストのみを用いた結果(89%)は, テキストとオーディオを組み合わせる場合 (91.9%) よりも悪いことがわかった。
最後に、テキスト、オーディオ、ビデオのすべてのモダリティ(93.1%)を組み合わせると、最良の結果が得られる。
関連論文リスト
- VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features [13.922091192207718]
サルカズム認識は、日常の対話に埋め込まれた隠された皮肉、批判、比喩的な情報を識別することを目的としている。
本稿では,軽量な奥行き注意モジュールと自己制御型ConvNetを組み合わせることで,視覚データの最も重要な特徴に集中する手法を提案する。
我々はまた、別のデータセットMUStARD++の見知らぬサンプルを用いて、VyAnG-Netの適応性をテストするために、クロスデータセット解析を行った。
論文 参考訳(メタデータ) (2024-08-05T15:36:52Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。
我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。
提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文 参考訳(メタデータ) (2024-06-11T07:12:12Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Language Variety Identification with True Labels [7.9815074811220175]
本稿では,言語多様性を識別する最初の人間アノテーション付き多言語データセットであるDSL True Labels (-TL)を提案する。
DSL-TLは、ポルトガル語で12,900件、ポルトガル語で12,900件、スペイン語でアルゼンチン語でスペイン語とカスティーリャ語でスペイン語、英語でアメリカ英語とイギリス英語に分けられている。
我々はこれらの言語品種を識別するために複数のモデルを訓練し、その結果を詳細に提示した。
論文 参考訳(メタデータ) (2023-03-02T18:51:58Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - Tusom2021: A Phonetically Transcribed Speech Dataset from an Endangered
Language for Universal Phone Recognition Experiments [7.286387368812729]
本稿では,絶滅危惧国タングク語東トゥーソム語で2255発の発声を公に書き起こしたコーパスを提示する。
データセットは音素ではなく電話の点で転写されるため、多くの大きなデータセットよりも普遍的な電話認識システムに適しています。
論文 参考訳(メタデータ) (2021-04-02T00:26:10Z) - "Did you really mean what you said?" : Sarcasm Detection in
Hindi-English Code-Mixed Data using Bilingual Word Embeddings [0.0]
我々は、カスタム単語埋め込みを訓練するためのツイートのコーパスと、皮肉検出のためのラベル付きHinglishデータセットを提示する。
我々は,ヒンディー語と英語の混合ツイートにおける皮肉検出の問題に対処するために,ディープラーニングに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-01T11:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。