論文の概要: Moment and Highlight Detection via MLLM Frame Segmentation
- arxiv url: http://arxiv.org/abs/2512.12246v1
- Date: Sat, 13 Dec 2025 09:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.18264
- Title: Moment and Highlight Detection via MLLM Frame Segmentation
- Title(参考訳): MLLMフレームセグメンテーションによるモーメントと光検出
- Authors: I Putu Andika Bagas Jiwanta, Ayu Purwarianti,
- Abstract要約: 本稿では,自然言語クエリから映像のモーメントとハイライトを検出する新しい手法を提案する。
提案手法は,モーメント検索のためのベースライン(35.28MAP)の上にスコアを付ける。
- 参考スコア(独自算出の注目度): 3.7199696376626457
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Detecting video moments and highlights from natural-language queries have been unified by transformer-based methods. Other works use generative Multimodal LLM (MLLM) to predict moments and/or highlights as text timestamps, utilizing its reasoning capability. While effective, text-based generation cannot provide direct gradients for frame-level predictions because the model only emits language tokens. Although recent Reinforcement Learning (RL) methods attempt to address the issue, we propose a novel approach by applying segmentation objectives directly on the LLM's output tokens. The LLM is fed with a fixed number of frames alongside a prompt that enforces it to output a sequence of continuous "0" and/or "1" characters, with one character per frame. The "0"/"1" characters benefit from the LLM's inherent language capability while also acting as background and foreground probabilities, respectively. Training employs segmentation losses on the probabilities alongside a normal causal LM loss. At inference, beam search generates sequence and logits, acting as moments and saliency scores, respectively. Despite sampling only 25 frames -- less than half of comparable methods -- our method achieved strong highlight detection (56.74 HIT@1) on QVHighlights. Additionally, our efficient method scores above the baseline (35.28 MAP) for moment retrieval. Empirically, segmentation losses provide a stable complementary learning signal even when the causal LM loss plateaus.
- Abstract(参考訳): 自然言語クエリからビデオモーメントやハイライトを検出することは、トランスフォーマーベースの方法によって統一されている。
他の作品では、生成的マルチモーダル LLM (MLLM) を使用して、その推論能力を利用して、モーメントやハイライトをテキストタイムスタンプとして予測する。
効果的なテキストベースの生成は、モデルが言語トークンのみを出力するので、フレームレベルの予測に直接的な勾配を与えることはできない。
近年の強化学習(Reinforcement Learning, RL)法ではこの問題に対処しようとしているが, LLMの出力トークンに直接セグメント化目的を適用することによって, 新たなアプローチを提案する。
LLMには一定数のフレームとプロンプトが与えられ、連続した「0」文字と/または「1」文字のシーケンスをフレームごとに1文字ずつ出力するように強制される。
0"/"1"文字は、それぞれ背景と前景の確率として機能しながら、LLM固有の言語能力の恩恵を受ける。
トレーニングでは、正常な因果性LM損失と並行して、確率にセグメンテーション損失を採用する。
推定では、ビームサーチはシーケンスとロジットを生成し、それぞれモーメントとサリエンシスコアとして機能する。
QVHighlightsでは25フレーム(半分未満)しかサンプリングできなかったが,強いハイライト検出(56.74 HIT@1)を達成した。
さらに,本手法はモーメント検索のためのベースライン(35.28MAP)よりも高いスコアを得る。
実験的に、セグメンテーション損失は、因果的LM損失台地であっても安定した相補的な学習信号を提供する。
関連論文リスト
- Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T12:23:57Z) - Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding [47.400649582392255]
大規模言語モデル(MLLM)を用いて,STVGのゼロショットソリューションを探索する。
STVGのためのMLLMベースのゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:35:50Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It) [16.673210422615348]
LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。
固定だがランダム化されたレコードやモデルに依存する従来のMIAとは対照的に、これらの方法は主にトレーニングされ、ポストホックで収集されたデータセットでテストされる。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
論文 参考訳(メタデータ) (2024-06-25T23:12:07Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。