論文の概要: Text Is Not All You Need: Multimodal Prompting Helps LLMs Understand Humor
- arxiv url: http://arxiv.org/abs/2412.05315v1
- Date: Sun, 01 Dec 2024 06:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-15 08:00:23.164825
- Title: Text Is Not All You Need: Multimodal Prompting Helps LLMs Understand Humor
- Title(参考訳): マルチモーダル・プロンプティングは、LLMが噂に答えてくれる
- Authors: Ashwin Baluja,
- Abstract要約: ユーモアはしばしば多モーダルであり、意味を伝えるための音声的曖昧さ、リズム、タイミングに依存している。
そこで本研究では,TTSシステムを用いて生成したジョークのテキストと音声形式の両方をLLMで表現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: While Large Language Models (LLMs) have demonstrated impressive natural language understanding capabilities across various text-based tasks, understanding humor has remained a persistent challenge. Humor is frequently multimodal, relying on phonetic ambiguity, rhythm and timing to convey meaning. In this study, we explore a simple multimodal prompting approach to humor understanding and explanation. We present an LLM with both the text and the spoken form of a joke, generated using an off-the-shelf text-to-speech (TTS) system. Using multimodal cues improves the explanations of humor compared to textual prompts across all tested datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なテキストベースのタスクにまたがる印象的な自然言語理解能力を示してきたが、ユーモアの理解は依然として永続的な課題である。
ユーモアはしばしば多モーダルであり、意味を伝えるための音声的曖昧さ、リズム、タイミングに依存している。
本研究では,ユーモアの理解と説明のためのシンプルなマルチモーダル・プロンプト手法について検討する。
そこで本研究では,TTSシステムを用いて生成したジョークのテキストと音声形式の両方をLLMで表現する。
マルチモーダルキューを使用することで、テストされたすべてのデータセットのテキストプロンプトと比較してユーモアの説明が改善される。
関連論文リスト
- Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - M2-CTTS: End-to-End Multi-scale Multi-modal Conversational
Text-to-Speech Synthesis [38.85861825252267]
M2-CTTSは、歴史的会話を包括的に活用し、韻律表現を強化することを目的としている。
我々は、粗粒度と細粒度の両方のモデリングにより、テキストコンテキストモジュールと音響コンテキストモジュールを設計する。
論文 参考訳(メタデータ) (2023-05-03T16:59:38Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - DeHumor: Visual Analytics for Decomposing Humor [36.300283476950796]
公言におけるユーモラスな行動を分析する視覚システムであるDeHumorを開発した。
それぞれの具体例の構成要素を直感的に明らかにするために、DeHumorはユーモラスな動画をマルチモーダルな特徴に分解する。
DeHumorはユーモアのユーモアの例として、さまざまなビルディングブロックをハイライトすることができる。
論文 参考訳(メタデータ) (2021-07-18T04:01:07Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。