論文の概要: SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter
- arxiv url: http://arxiv.org/abs/2605.28084v1
- Date: Wed, 27 May 2026 07:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.851955
- Title: SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter
- Title(参考訳): SMILE-Next:大規模言語モデルによる娘の発見・分類・推論
- Authors: Lee Jung-Mok, Kim Sung-Bin, Joohyun Chang, Lee Hyun, Tae-Hyun Oh,
- Abstract要約: SMILE-Nextは,マルチモーダルテキスト表現と質問応答アノテーションを用いた実世界の笑い理解のためのデータセットである。
SMILE-Nextをベースとして,現実の文脈における笑いの微妙な理解が可能な笑い特化大言語モデルの構築を目指す。
我々は、笑い特有の自己指導と、Mixture-of-Laugh-Expertsフレームワークという2つの重要なコンポーネントを提案する。
- 参考スコア(独自算出の注目度): 26.23604565651714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Laughter is a complex social signal that conveys communicative intent beyond amusement. While prior work has focused on isolated laughter analysis tasks, a comprehensive understanding of laughter in real-world scenarios remains underexplored. Therefore, we introduce SMILE-Next, a dataset for real-world laughter understanding with multimodal textual representations and question-answer annotations across three tasks: laughter detection, laughter type classification, and laughter reasoning. Building upon SMILE-Next, we aim to develop a laughter-specialized large language model capable of nuanced understanding of laughter in real-world contexts. To this end, we propose two key components: laughter-specific Self-Instruct and the Mixture-of-Laugh-Experts (MoLE) framework. Laughter-specific Self-Instruct enhances generalization across tasks and domains by automatically synthesizing diverse laughter-centric instructions. MoLE introduces a task-adaptive expert routing mechanism that dynamically selects specialized experts tailored to each laughter-related task, improving task-specific performance and efficiency. Experimental results show that the combination of our proposed components substantially outperforms multimodal LLM baselines, advancing robust real-world laughter understanding. Project page is at: https://mok0102.github.io/smile-next/.
- Abstract(参考訳): 娘 (Laughter) は、娯楽を超えたコミュニケーションの意図を伝える複雑な社会信号である。
以前の研究は孤立した笑い分析タスクに焦点を合わせてきたが、現実のシナリオにおける笑いの包括的理解はいまだに解明されていない。
そこで本研究では,マルチモーダルなテキスト表現と質問応答アノテーションを用いた実世界の笑い理解のためのデータセットSMILE-Nextを紹介し,笑い検出,笑い型分類,笑い推論の3つの課題について述べる。
SMILE-Nextをベースとして,現実の文脈における笑いの微妙な理解が可能な笑い特化大言語モデルの構築を目指す。
この目的のために、笑い特有のセルフインストラクションとMixture-of-Laugh-Experts(MoLE)フレームワークという2つの重要なコンポーネントを提案する。
Laughter-specific Self-Instructは、様々な笑い中心の指示を自動的に合成することによって、タスクやドメイン間の一般化を促進する。
MoLEはタスク適応型エキスパートルーティング機構を導入し、それぞれの笑いに関連するタスクに合わせて専門の専門家を動的に選択し、タスク固有のパフォーマンスと効率を改善する。
実験結果から,提案手法の組合せはマルチモーダルLLMベースラインを著しく上回り,より堅牢な実世界の笑い理解を促進することが示された。
プロジェクトページは以下の通り。
関連論文リスト
- On the Wings of Imagination: Conflicting Script-based Multi-role Framework for Humor Caption Generation [10.157232656580659]
ユーモア(英: Humor)は、日常生活において一般的に用いられ、複雑な人間の言語である。
本稿では,基本的ユーモア理論であるGTVHに基づく新しいユーモア生成機構を開発する。
そこで本研究では,ユーモア理論に基づくマルチロールLLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-06T06:41:33Z) - V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs [72.59885036868499]
v-HUBは視覚中心のビデオユーモア理解ベンチマークである。
各ビデオクリップは、キャプション、説明、説明を含むリッチなアノテーションとペアリングされる。
我々は,特殊なビデオLLMから音声処理が可能な汎用OmniLLMまで,MLLMの多様なセットを評価する。
論文 参考訳(メタデータ) (2025-09-30T04:33:52Z) - Why Do We Laugh? Annotation and Taxonomy Generation for Laughable Contexts in Spontaneous Text Conversation [22.249086790195634]
本研究は、笑いやすい文脈の根底にある理由を分類する分類法を開発した。
また、笑いやすい文脈の大多数のラベルを認識し、F1スコア43.14%のGPT-4oのパフォーマンスも評価した。
これらの知見は、よりニュアンスな認識と笑いの生成の基礎を確立することによって、会話型AIの進歩に寄与する。
論文 参考訳(メタデータ) (2025-01-28T02:16:18Z) - Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like [49.2096391012794]
ELaTEはゼロショットのTSであり、短い音声プロンプトに基づいて、あらゆる話者の自然な笑い声を生成することができる。
本研究では,条件付きフローマッチングに基づくゼロショットTSに基づくモデルを開発した。
ELaTE は従来のモデルに比べて格段に高い品質と制御性で笑い音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-02-12T02:58:10Z) - SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models [32.60274453610208]
我々は、ビデオにおける笑いの背景にある理性を理解するための新しい挑戦に取り組む。
提案するデータセットSMILEは、人々がなぜ笑うのかをビデオクリップと言語記述で記述する。
論文 参考訳(メタデータ) (2023-12-15T14:17:45Z) - Laughing Matters: Introducing Laughing-Face Generation using Diffusion
Models [35.688696422879175]
そこで本研究では,静止画と笑いを含む音声クリップを用いて,リアルな笑い系列を生成する新しいモデルを提案する。
我々は、さまざまな笑いデータセットに基づいてモデルをトレーニングし、笑いのために特別に設計された評価指標を導入する。
本モデルでは,笑声生成のために再訓練された場合でも,すべての指標に対して最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2023-05-15T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。