論文の概要: !Qu\'e maravilla! Multimodal Sarcasm Detection in Spanish: a Dataset and
a Baseline
- arxiv url: http://arxiv.org/abs/2105.05542v1
- Date: Wed, 12 May 2021 09:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 21:24:05.680790
- Title: !Qu\'e maravilla! Multimodal Sarcasm Detection in Spanish: a Dataset and
a Baseline
- Title(参考訳): さよならマラヴィラ!
スペイン語におけるマルチモーダルサーカズム検出:データセットとベースライン
- Authors: Khalid Alnajjar and Mika H\"am\"al\"ainen
- Abstract要約: このデータセットは、ラテンアメリカの品種とスペイン半島の品種の2つの品種を表しています。
最良の結果は、テキスト、オーディオ、ビデオといったすべてのモダリティを組み合わせることで得られる。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We construct the first ever multimodal sarcasm dataset for Spanish. The
audiovisual dataset consists of sarcasm annotated text that is aligned with
video and audio. The dataset represents two varieties of Spanish, a Latin
American variety and a Peninsular Spanish variety, which ensures a wider
dialectal coverage for this global language. We present several models for
sarcasm detection that will serve as baselines in the future research. Our
results show that results with text only (89%) are worse than when combining
text with audio (91.9%). Finally, the best results are obtained when combining
all the modalities: text, audio and video (93.1%).
- Abstract(参考訳): 我々はスペイン語で最初のマルチモーダル・サーカズムデータセットを構築した。
audiovisualデータセットは、ビデオとオーディオにアライメントされたsarcasmアノテートされたテキストで構成されている。
このデータセットは2種類のスペイン語、ラテンアメリカの品種、半島のスペイン語の品種を表しており、このグローバルな言語に対するより広い方言のカバレッジを保証している。
本稿では,今後研究のベースラインとなるサーカズム検出モデルをいくつか提示する。
その結果, テキストのみを用いた結果(89%)は, テキストとオーディオを組み合わせる場合 (91.9%) よりも悪いことがわかった。
最後に、テキスト、オーディオ、ビデオのすべてのモダリティ(93.1%)を組み合わせると、最良の結果が得られる。
関連論文リスト
- Voxceleb-ESP: preliminary experiments detecting Spanish celebrities from
their voices [1.7446273568461808]
VoxCeleb-ESPは、多様な話し方、ノイズ、チャンネル歪みを取り入れた現実世界のシナリオをキャプチャする。
スペインでは160人の有名人が様々なカテゴリーにまたがっており、年齢層やスペインにおける地理的地域を代表して分布している。
ResNet事前学習モデルの言語間評価を伴い、話者識別タスクを2つの話者トライアルリストとして、それぞれが同じビデオまたは異なるビデオのターゲットトライアルを行う。
論文 参考訳(メタデータ) (2023-12-20T11:55:06Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - BIG-C: a Multimodal Multi-Purpose Dataset for Bemba [30.058814706934147]
データセットは、画像に基づいてベンバ話者間のマルチターン対話で構成され、翻訳され、英語に翻訳される。
92,000以上の発話/文があり、対応する書き起こしと英訳を伴う180時間以上の音声データである。
論文 参考訳(メタデータ) (2023-05-26T18:49:55Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for
Audio-Language Multimodal Research [90.01270531446059]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Language Variety Identification with True Labels [7.9815074811220175]
本稿では,言語多様性を識別する最初の人間アノテーション付き多言語データセットであるDSL True Labels (-TL)を提案する。
DSL-TLは、ポルトガル語で12,900件、ポルトガル語で12,900件、スペイン語でアルゼンチン語でスペイン語とカスティーリャ語でスペイン語、英語でアメリカ英語とイギリス英語に分けられている。
我々はこれらの言語品種を識別するために複数のモデルを訓練し、その結果を詳細に提示した。
論文 参考訳(メタデータ) (2023-03-02T18:51:58Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - Tusom2021: A Phonetically Transcribed Speech Dataset from an Endangered
Language for Universal Phone Recognition Experiments [7.286387368812729]
本稿では,絶滅危惧国タングク語東トゥーソム語で2255発の発声を公に書き起こしたコーパスを提示する。
データセットは音素ではなく電話の点で転写されるため、多くの大きなデータセットよりも普遍的な電話認識システムに適しています。
論文 参考訳(メタデータ) (2021-04-02T00:26:10Z) - "Did you really mean what you said?" : Sarcasm Detection in
Hindi-English Code-Mixed Data using Bilingual Word Embeddings [0.0]
我々は、カスタム単語埋め込みを訓練するためのツイートのコーパスと、皮肉検出のためのラベル付きHinglishデータセットを提示する。
我々は,ヒンディー語と英語の混合ツイートにおける皮肉検出の問題に対処するために,ディープラーニングに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-01T11:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。