論文の概要: LUST: A Multi-Modal Framework with Hierarchical LLM-based Scoring for Learned Thematic Significance Tracking in Multimedia Content
- arxiv url: http://arxiv.org/abs/2508.04353v1
- Date: Wed, 06 Aug 2025 11:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.701937
- Title: LUST: A Multi-Modal Framework with Hierarchical LLM-based Scoring for Learned Thematic Significance Tracking in Multimedia Content
- Title(参考訳): LUST: マルチメディアコンテンツにおける学習主題追跡のための階層的LLMに基づくスコア付きマルチモーダルフレームワーク
- Authors: Anderson de Lima Luiz,
- Abstract要約: Learned User Significance Tracker (LUST)は、ビデオコンテンツを分析し、そのセグメントの主題的関連性を定量化するように設計されたフレームワークである。
中心となるイノベーションは、Large Language Models (LLMs) を用いた階層的で2段階の関連性スコアリングメカニズムにある。
LUSTフレームワークは、ユーザ定義の重要度を微妙に認識し、視覚化された関連スコアと包括的な分析ログを備えた注釈付き動画を出力することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the Learned User Significance Tracker (LUST), a framework designed to analyze video content and quantify the thematic relevance of its segments in relation to a user-provided textual description of significance. LUST leverages a multi-modal analytical pipeline, integrating visual cues from video frames with textual information extracted via Automatic Speech Recognition (ASR) from the audio track. The core innovation lies in a hierarchical, two-stage relevance scoring mechanism employing Large Language Models (LLMs). An initial "direct relevance" score, $S_{d,i}$, assesses individual segments based on immediate visual and auditory content against the theme. This is followed by a "contextual relevance" score, $S_{c,i}$, that refines the assessment by incorporating the temporal progression of preceding thematic scores, allowing the model to understand evolving narratives. The LUST framework aims to provide a nuanced, temporally-aware measure of user-defined significance, outputting an annotated video with visualized relevance scores and comprehensive analytical logs.
- Abstract(参考訳): 本稿では,ビデオコンテンツの分析と意味のテキスト記述に関するセグメンテーションの主題的関連を定量化するフレームワークであるLearted User Significance Tracker(LUST)を紹介する。
LUSTはマルチモーダル分析パイプラインを活用し、ビデオフレームからの視覚的手がかりと音声トラックから自動音声認識(ASR)を介して抽出されたテキスト情報を統合する。
中心となるイノベーションは、LLM(Large Language Models)を採用した階層的で2段階の関連性スコアリングメカニズムにあります。
最初の「直接関連」スコアである$S_{d,i}$は、テーマに対する即時的な視覚的および聴覚的コンテンツに基づいて個々のセグメントを評価する。
これに続く「コンテキスト関連」スコアである$S_{c,i}$は、先行する主題的スコアの時間的進行を取り入れて評価を洗練し、モデルが進化する物語を理解することを可能にする。
LUSTフレームワークは、ユーザ定義の重要度を微妙に認識し、視覚化された関連スコアと包括的な分析ログを備えた注釈付き動画を出力することを目的としている。
関連論文リスト
- DTECT: Dynamic Topic Explorer & Context Tracker [0.8962460460173959]
DTECT(Dynamic Topic Explorer & Context Tracker)は、テキストデータと意味のある時間的洞察のギャップを埋めるエンドツーエンドシステムである。
DTECTは、データ前処理、複数のモデルアーキテクチャ、時間的トピックモデルのトピック品質を分析するための専用の評価メトリクスをサポートする統合ワークフローを提供する。
LLMによる自動トピックラベリング、時間順な単語によるトレンド分析、文書レベルの要約によるインタラクティブな可視化、直感的なデータクエリのための自然言語チャットインターフェースの導入により、解釈可能性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-10T16:44:33Z) - VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。