論文の概要: OpenMic: A Multi-Agent-Based Stand-Up Comedy Generation System
- arxiv url: http://arxiv.org/abs/2601.08288v1
- Date: Tue, 13 Jan 2026 07:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.09776
- Title: OpenMic: A Multi-Agent-Based Stand-Up Comedy Generation System
- Title(参考訳): OpenMic:マルチエージェントベースのスタンドアップコメディ生成システム
- Authors: Yuyang Wu, Hanzhong Cao, Jianhao Chen, Yufei Li,
- Abstract要約: OpenMicはAutoGen上に構築されたエンドツーエンドのマルチエージェントシステムで、ユーザが提供するライフトピックを3-5分の中国のスタンドアップパフォーマンスに変換する。
データセットとタスクのミスマッチを緩和するため、材料接地とアイデア展開のための検索強化生成(RAG)により生成を増強する。
- 参考スコア(独自算出の注目度): 8.62415178584333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese stand-up comedy generation goes beyond plain text generation, requiring culturally grounded humor, precise timing, stage-performance cues, and implicit multi-step reasoning. Moreover, commonly used Chinese humor datasets are often better suited for humor understanding and evaluation than for long-form stand-up generation, making direct supervision misaligned with the target task. To address these challenges, we present OpenMic, an end-to-end multi-agent system built on AutoGen that transforms a user-provided life topic into a 3-5 minute Chinese stand-up performance and further produces a narrated comedy video. OpenMic orchestrates multiple specialized agents in a multi-round iterative loop-planning to jointly optimize humor, timing, and performability. To mitigate the dataset-task mismatch, we augment generation with retrieval-augmented generation (RAG) for material grounding and idea expansion, and we fine-tune a dedicated JokeWriter to better internalize stand-up-specific setup-punchline structures and long-range callbacks.
- Abstract(参考訳): 中国のスタンドアップコメディー生成は、平易なテキスト生成を超えて、文化的に根ざしたユーモア、正確なタイミング、ステージパフォーマンス、暗黙の多段階推論を必要とする。
さらに、一般的に使われている中国のユーモアデータセットは、長文のスタンドアップ生成よりもユーモアの理解や評価に適しており、直接の監督が目的のタスクと一致しないことが多い。
これらの課題に対処するため,AutoGen上に構築されたエンドツーエンドのマルチエージェントシステムであるOpenMicを紹介した。
OpenMicは複数の特殊エージェントを複数ラウンドの反復ループ計画で編成し、ユーモア、タイミング、実行性を共同で最適化する。
データセットとタスクのミスマッチを緩和するため、材料接地とアイデア拡張のための検索強化世代(RAG)による生成を強化し、スタンドアップ固有のセットアップ・パンチライン構造や長距離コールバックをより適切に内部化する専用のJokeWriterを微調整する。
関連論文リスト
- LongVideoAgent: Multi-Agent Reasoning with Long Videos [69.28914905197426]
本稿では,主LLMが問題関連セグメントの局所化のために接地エージェントをコーディネートするマルチエージェントフレームワークと,対象とするテキスト観察を抽出する視覚エージェントを提案する。
マスターエージェントは、ステップ制限で計画し、簡潔で正確で効率的なマルチエージェント協調を促進するために強化学習で訓練されている。
テレビQA/TVQA+から集約したエピソードレベルのデータセットであるLongTVQAとLongTVQA+では,マルチエージェントシステムは強力な非エージェントベースラインよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-12-23T18:59:49Z) - MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos [22.175314789730667]
MultiHateLocは、弱教師付きマルチモーダルヘイトローカライゼーションのためのフレームワークである。
微粒で解釈可能なフレームレベルの予測を生成する。
HateMMとMultiHateClipの実験により,本手法がローカライゼーションタスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-11T08:18:22Z) - MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - Hollywood Town: Long-Video Generation via Cross-Modal Multi-Agent Orchestration [73.65102758687289]
本研究は,マルチエージェントコラボレーションを改善するための3つのイノベーションを紹介する。
まず、長いビデオ生成のための階層型グラフベースのマルチエージェントフレームワークであるOmniAgentを提案する。
第2に,文脈工学にヒントを得たハイパーグラフノードを提案する。
論文 参考訳(メタデータ) (2025-10-25T20:34:18Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - StandUp4AI: A New Multilingual Dataset for Humor Detection in Stand-up Comedy Videos [0.0]
7つの言語でスタンドアップコメディーのマルチモーダルデータセットを提案する。
データセット全体が自動的にアノテートされます。
本稿では,音声認識誤りに基づく自動笑い検出手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T23:31:52Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning on Language-Video Foundation Models [43.46536102838717]
VideoDreamerは、カスタマイズされたマルチオブジェクトのテキスト・ツー・ビデオ生成のための新しいフレームワークである。
与えられた複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。