論文の概要: HIPPO-Video: Simulating Watch Histories with Large Language Models for Personalized Video Highlighting
- arxiv url: http://arxiv.org/abs/2507.16873v1
- Date: Tue, 22 Jul 2025 08:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.706691
- Title: HIPPO-Video: Simulating Watch Histories with Large Language Models for Personalized Video Highlighting
- Title(参考訳): HIPPO-Video:パーソナライズされたビデオハイライトのための大規模言語モデルによる時計履歴のシミュレーション
- Authors: Jeongeun Lee, Youngjae Yu, Dongha Lee,
- Abstract要約: パーソナライズされたビデオハイライトのための新しいデータセットであるHIPPO-Videoを紹介する。
データセットには2,040対(履歴、給与スコア)が含まれており、170のセマンティックカテゴリにわたる20,400のビデオをカバーしている。
提案手法は,これらの個人化された時計履歴を利用して,嗜好条件付きセグメント・サリエンシスコアを推定する手法である。
- 参考スコア(独自算出の注目度): 27.92094212778288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of video content has made personalized video highlighting an essential task, as user preferences are highly variable and complex. Existing video datasets, however, often lack personalization, relying on isolated videos or simple text queries that fail to capture the intricacies of user behavior. In this work, we introduce HIPPO-Video, a novel dataset for personalized video highlighting, created using an LLM-based user simulator to generate realistic watch histories reflecting diverse user preferences. The dataset includes 2,040 (watch history, saliency score) pairs, covering 20,400 videos across 170 semantic categories. To validate our dataset, we propose HiPHer, a method that leverages these personalized watch histories to predict preference-conditioned segment-wise saliency scores. Through extensive experiments, we demonstrate that our method outperforms existing generic and query-based approaches, showcasing its potential for highly user-centric video highlighting in real-world scenarios.
- Abstract(参考訳): ビデオコンテンツの指数関数的成長は、ユーザの好みが高度に変動し複雑であるため、パーソナライズされたビデオハイライトを必須課題にしている。
しかし、既存のビデオデータセットはパーソナライズを欠くことが多く、孤立したビデオや、ユーザの振る舞いの複雑さを捉えるのに失敗する単純なテキストクエリに依存している。
本研究では,LLMベースのユーザシミュレータを用いて,多様なユーザの好みを反映したリアルなウォッチ履歴を生成する,パーソナライズされたビデオハイライトのための新しいデータセットであるHIPPO-Videoを紹介する。
データセットには2,040対(履歴、給与スコア)が含まれており、170のセマンティックカテゴリにわたる20,400のビデオをカバーしている。
提案手法は,これらの個人化された時計履歴を利用して,嗜好条件付きセグメント・サリエンシスコアを推定する手法である。
広範にわたる実験により,本手法は既存のジェネリックおよびクエリベースのアプローチよりも優れており,実世界のシナリオにおけるユーザ中心のビデオハイライトの可能性を示している。
関連論文リスト
- Short Video Segment-level User Dynamic Interests Modeling in Personalized Recommendation [23.082810471266235]
短いビデオの成長は、進化する好みに合わせてユーザーとコンテンツをマッチングする効果的なレコメンデーションシステムを必要としている。
現在のビデオレコメンデーションモデルは、主に各ビデオ全体を扱い、特定のビデオセグメントでユーザーの好みの動的な性質を見渡す。
本稿では,ハイブリッド表現モジュール,マルチモーダルなユーザビデオエンコーダ,セグメント関心デコーダを統合した革新的なモデルを提案する。
論文 参考訳(メタデータ) (2025-04-05T17:45:32Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。
VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。
提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文 参考訳(メタデータ) (2024-11-05T22:14:35Z) - LLMs + Persona-Plug = Personalized LLMs [41.60364110693824]
パーソナライゼーションは多くの言語タスクやアプリケーションにおいて重要な役割を担っている。
これにより、大きな言語モデル(LLM)を適用して、ユーザの好みに合わせてカスタマイズされたアウトプットを生成する、さまざまなパーソナライズされたアプローチが開発された。
そこで我々は,LLMモデルを提案する。軽量なプラグインユーザ埋め込みモジュールを用いて,過去の状況をすべてモデル化し,個人毎のユーザ固有の埋め込みを構築する。
論文 参考訳(メタデータ) (2024-09-18T11:54:45Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Show Me What I Like: Detecting User-Specific Video Highlights Using Content-Based Multi-Head Attention [52.84233165201391]
そこで本稿では,従来視聴したビデオに表示されていたハイライトクリップに基づいて,対象ビデオの個別化ハイライトを検出する手法を提案する。
本手法は,対象物と人的活動の事前学習機能を用いて,好むクリップの内容と対象ビデオの両方を明示的に活用する。
論文 参考訳(メタデータ) (2022-07-18T02:32:48Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。