論文の概要: Transforming Podcast Preview Generation: From Expert Models to LLM-Based Systems
- arxiv url: http://arxiv.org/abs/2505.23908v2
- Date: Tue, 03 Jun 2025 13:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.688775
- Title: Transforming Podcast Preview Generation: From Expert Models to LLM-Based Systems
- Title(参考訳): ポッドキャストプレビュー生成の変換:エキスパートモデルからLCMベースのシステムへ
- Authors: Winstead Zhu, Ann Clifton, Azin Ghazimatin, Edgar Tanaka, Edward Ronan,
- Abstract要約: ポッドキャストエピソードのプレビューを生成し,大規模に展開するためのLCMベースのアプローチを提案する。
総合的なオフライン評価とオンラインA/Bテストにより、LLM生成プレビューは、さまざまなMLエキスパートモデルの上に構築された強力なベースラインを一貫して上回っていることが示された。
オフラインの結果は、理解可能性、文脈的明確性、関心のレベルが顕著に向上し、オンラインA/Bテストでは、プレビューコンテンツによるユーザエンゲージメントが4.6%増加したことを示している。
- 参考スコア(独自算出の注目度): 2.2040732307094446
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Discovering and evaluating long-form talk content such as videos and podcasts poses a significant challenge for users, as it requires a considerable time investment. Previews offer a practical solution by providing concise snippets that showcase key moments of the content, enabling users to make more informed and confident choices. We propose an LLM-based approach for generating podcast episode previews and deploy the solution at scale, serving hundreds of thousands of podcast previews in a real-world application. Comprehensive offline evaluations and online A/B testing demonstrate that LLM-generated previews consistently outperform a strong baseline built on top of various ML expert models, showcasing a significant reduction in the need for meticulous feature engineering. The offline results indicate notable enhancements in understandability, contextual clarity, and interest level, and the online A/B test shows a 4.6% increase in user engagement with preview content, along with a 5x boost in processing efficiency, offering a more streamlined and performant solution compared to the strong baseline of feature-engineered expert models.
- Abstract(参考訳): ビデオやポッドキャストなどの長文のトークコンテンツを発見し評価することは、かなりの時間的投資を必要とするため、ユーザにとって大きな課題となる。
プレビューは、コンテンツの重要な瞬間を示す簡潔なスニペットを提供することで、ユーザーがより情報と自信のある選択をすることができる、実用的なソリューションを提供する。
実世界のアプリケーションで数十万のポッドキャストをプレビューするLLMベースのアプローチを提案し,そのソリューションを大規模に展開する。
総合的なオフライン評価とオンラインA/Bテストにより、LLM生成プレビューはさまざまなMLエキスパートモデルの上に構築された強力なベースラインを一貫して上回り、細心の注意を要する機能エンジニアリングの必要性が大幅に低下していることが示された。
オフラインの結果は、理解可能性、文脈的明確性、関心のレベルが顕著に向上し、オンラインA/Bテストでは、プレビューコンテンツへのユーザエンゲージメントが4.6%増加し、処理効率が5倍向上し、フィーチャエンジニアリングの専門家モデルの強力なベースラインに比べて、より合理化され、パフォーマンスの高いソリューションを提供する。
関連論文リスト
- Evaluating AI capabilities in detecting conspiracy theories on YouTube [0.1474723404975345]
本研究では,オープンウェイトなLarge Language Models (LLMs) のテキストのみとマルチモーダルの両方を用いて,YouTube上での陰謀論のビデオの識別を行う。
我々は、ゼロショット設定で様々なLLMを評価し、その性能を微調整されたRoBERTaベースラインと比較した。
その結果,テキストベースのLLMは高いリコール精度,低い精度を実現し,偽陽性が増大した。
マルチモーダルモデルはテキストのみのモデルよりも遅れており、ビジュアルデータ統合のメリットが限定されている。
論文 参考訳(メタデータ) (2025-05-29T15:44:36Z) - video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model [33.70837005629285]
一般的なビデオ理解タスク用に設計された,初のオープンソース推論拡張型音声視覚LLMである video-SALMONN-o1 を提案する。
我々は,ステップバイステップのソリューションを用いて,音声視覚問題に挑戦する推論集約型データセットを開発した。
また、RivaBenchは、最初の推論集約型ビデオ理解ベンチマークであり、4000以上の高品質で専門家による質問応答ペアを備えている。
論文 参考訳(メタデータ) (2025-02-17T13:07:40Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - PUMGPT: A Large Vision-Language Model for Product Understanding [18.70740237744492]
PumGPTは、マルチモーダル製品理解タスク用に設計された最初の電子商取引専用LVLMである。
実験の結果,PumGPTは製品理解タスクにおいて,他の5つのオープンソースLVLMおよびGPT-4Vより優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-18T14:01:37Z) - Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。
彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。
ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文 参考訳(メタデータ) (2023-05-23T12:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。