論文の概要: Click-to-Ask: An AI Live Streaming Assistant with Offline Copywriting and Online Interactive QA
- arxiv url: http://arxiv.org/abs/2603.18649v1
- Date: Thu, 19 Mar 2026 09:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.054553
- Title: Click-to-Ask: An AI Live Streaming Assistant with Offline Copywriting and Online Interactive QA
- Title(参考訳): Click-to-Ask:オフラインコピーライトとオンラインインタラクティブQAを備えたAIライブストリーミングアシスタント
- Authors: Ruizhi Yu, Keyang Zhong, Peng Liu, Qi Wu, Haoran Zhang, Yanhao Zhang, Chen Chen, Haonan Lu,
- Abstract要約: Click-to-Askは、オフラインおよびオンラインコンポーネントを補完するライブストリーミングコマースのためのAI駆動のアシスタントである。
ライブ放送中、オンラインモジュールは視聴者の質問に対するリアルタイム応答を可能にし、ストリーマーが質問をクリックできるようにする。
提案手法は 0.913 の質問認識精度と 0.876 の応答品質スコアを達成し,実用的な応用の可能性を示した。
- 参考スコア(独自算出の注目度): 20.419246341966065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Live streaming commerce has become a prominent form of broadcasting in the modern era. To facilitate more efficient and convenient product promotions for streamers, we present Click-to-Ask, an AI-driven assistant for live streaming commerce with complementary offline and online components. The offline module processes diverse multimodal product information, transforming complex inputs into structured product data and generating compliant promotional copywriting. During live broadcasts, the online module enables real-time responses to viewer inquiries by allowing streamers to click on questions and leveraging both the structured product information generated by the offline module and an event-level historical memory maintained in a streaming architecture. This system significantly reduces the time needed for promotional preparation, enhances content engagement, and enables prompt interaction with audience inquiries, ultimately improving the effectiveness of live streaming commerce. On our collected dataset of TikTok live stream frames, the proposed method achieves a Question Recognition Accuracy of 0.913 and a Response Quality score of 0.876, demonstrating considerable potential for practical application. The video demonstration can be viewed here: https://www.youtube.com/shorts/mWIXK-SWhiE.
- Abstract(参考訳): ライブストリーミングの商業は、現代において顕著な放送形態となっている。
ストリーマーのより効率的で便利な製品プロモーションを容易にするために、私たちはClick-to-Askを紹介します。
オフラインモジュールは、多様なマルチモーダル製品情報を処理し、複雑な入力を構造化された製品データに変換し、準拠したプロモーションの複写を生成する。
ライブ放送中、オンラインモジュールは、ストリーマーが質問をクリックし、オフラインモジュールによって生成された構造化製品情報とストリーミングアーキテクチャで保持されるイベントレベルの履歴記憶の両方を活用することにより、視聴者の問い合わせに対するリアルタイム応答を可能にする。
本システムは、プロモーション準備に必要な時間を大幅に短縮し、コンテンツエンゲージメントを高め、視聴者との迅速な対話を可能にし、最終的にライブストリーミングコマースの有効性を向上する。
収集したTikTokライブストリームフレームのデータセットにおいて,提案手法は0.913の質問認識精度と0.876の応答品質スコアを達成し,実用的な応用の可能性を示した。
ビデオデモは、https://www.youtube.com/shorts/mWIXK-SWhiE.com/で見ることができる。
関連論文リスト
- SUMMA: A Multimodal Large Language Model for Advertisement Summarization [15.514886325064792]
本研究では,ビデオ広告を商品価値の高いコンテンツを強調する要約に加工するモデルであるSUMMAを提案する。
SUMMAは2段階の訓練戦略-マルチモーダル指導型微調整と強化学習によって開発される。
オンライン実験は、統計的に広告収入が1.5%増加したことを示している。
論文 参考訳(メタデータ) (2025-08-28T09:19:53Z) - StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [52.55809460075286]
本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-03T18:15:42Z) - Learning Streaming Video Representation via Multitask Training [38.83730146750222]
オフラインの動画理解とは異なり、ストリーミングビデオ理解にはフレーム単位でビデオストリームを処理し、過去の情報を保存し、低レイテンシの決定を行う能力が必要である。
本稿では,事前学習した視覚変換器に因果的注意を組み込むことにより,StreamFormerと呼ばれる新しいストリーミングビデオバックボーンを開発する。
オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:59:54Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - Online Multi-modal Person Search in Videos [74.75432003006432]
本研究では,映像中の人物をリアルタイムで認識するオンライン人物検索フレームワークを提案する。
大規模な映画データセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-08T15:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。