論文の概要: Addressing the ID-Matching Challenge in Long Video Captioning
- arxiv url: http://arxiv.org/abs/2510.06973v1
- Date: Wed, 08 Oct 2025 12:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.499859
- Title: Addressing the ID-Matching Challenge in Long Video Captioning
- Title(参考訳): 長大ビデオキャプションにおけるIDマッチング問題への取り組み
- Authors: Zhantao Yang, Huangji Wang, Ruili Feng, Han Zhang, Yuting Hu, Shangwen Zhu, Junyan Li, Yu Liu, Fan Cheng,
- Abstract要約: 長いビデオキャプションの鍵となる課題は、異なるフレームに現れる同じ個人を正確に認識することである。
RICE(Recognizing Identities for Captioning Effectively)と呼ばれる新しい動画キャプション手法を提案する。
- 参考スコア(独自算出の注目度): 16.41663075626347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating captions for long and complex videos is both critical and challenging, with significant implications for the growing fields of text-to-video generation and multi-modal understanding. One key challenge in long video captioning is accurately recognizing the same individuals who appear in different frames, which we refer to as the ID-Matching problem. Few prior works have focused on this important issue. Those that have, usually suffer from limited generalization and depend on point-wise matching, which limits their overall effectiveness. In this paper, unlike previous approaches, we build upon LVLMs to leverage their powerful priors. We aim to unlock the inherent ID-Matching capabilities within LVLMs themselves to enhance the ID-Matching performance of captions. Specifically, we first introduce a new benchmark for assessing the ID-Matching capabilities of video captions. Using this benchmark, we investigate LVLMs containing GPT-4o, revealing key insights that the performance of ID-Matching can be improved through two methods: 1) enhancing the usage of image information and 2) increasing the quantity of information of individual descriptions. Based on these insights, we propose a novel video captioning method called Recognizing Identities for Captioning Effectively (RICE). Extensive experiments including assessments of caption quality and ID-Matching performance, demonstrate the superiority of our approach. Notably, when implemented on GPT-4o, our RICE improves the precision of ID-Matching from 50% to 90% and improves the recall of ID-Matching from 15% to 80% compared to baseline. RICE makes it possible to continuously track different individuals in the captions of long videos.
- Abstract(参考訳): 長大で複雑なビデオのキャプションを生成することは、批判的かつ困難であり、テキスト・ツー・ビデオの生成とマルチモーダル理解の分野に重大な影響を及ぼす。
長編ビデオキャプションにおける重要な課題は、異なるフレームに現れる同一人物を正確に認識することである。
この重要な問題に焦点を当てた以前の作業はほとんどありません。
通常、限定的な一般化に悩まされ、ポイントワイドマッチングに依存しているものは、その全体的な効果を制限する。
本稿では,従来のアプローチと異なり,従来のLVLMを基盤として,従来のLVLMを応用した手法を提案する。
我々は,LVLM自体に固有のIDマッチング機能を開放し,キャプションのIDマッチング性能を向上させることを目的としている。
具体的には,ビデオキャプションのIDマッチング機能を評価するための新しいベンチマークを提案する。
本ベンチマークを用いて,GPT-4oを含むLVLMについて検討し,IDマッチングの性能を2つの手法により改善できることを示す。
1【画像情報の利用・利用の促進】
2)個々の記述の情報量を増やすこと。
そこで本研究では,映像キャプション手法であるRecognizing Identities for Captioning Effectively (RICE)を提案する。
キャプションの品質評価やIDマッチング性能の評価を含む大規模な実験は,我々のアプローチの優位性を実証している。
特に, GPT-4o に実装した場合, RICE は ID-Matching の精度を 50% から 90% に改善し, ベースラインに比べて ID-Matching のリコール率を 15% から 80% に改善する。
RICEは、長いビデオのキャプションの中で、さまざまな個人を継続的に追跡できる。
関連論文リスト
- Captioning for Text-Video Retrieval via Dual-Group Direct Preference Optimization [30.445325065182868]
補助キャプションは、しばしばビデオ理解を強化するために使われ、モダリティ間のギャップを埋める。
本稿では,検索関連スコアを用いた字幕生成を直接最適化する検索フレームワークである$textbfCaRe-DPOを提案する。
本研究では,CaRe-DPOが補助知識を効果的に活用して検索のためのきめ細かいキャプションを生成することにより,検索性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-09-20T07:36:53Z) - Expertized Caption Auto-Enhancement for Video-Text Retrieval [10.250004732070494]
本稿では,自動字幕強調手法を提案する。
本手法は完全にデータ駆動型であり,データ収集や計算処理の負荷を軽減できるだけでなく,自己適応性も向上する。
MSR-VTTでは68.5%,MSVDでは68.1%,DiDeMoでは62.0%,Top-1リコール精度は68.5%であった。
論文 参考訳(メタデータ) (2025-02-05T04:51:46Z) - AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model [52.697180472760635]
本稿では,複数の視覚シナリオにまたがるキャラクタ・アイデンティティ・メモリと認識の可能性について検討する。
我々は,ID参照を用いた視覚的指導チューニングを提案し,ID対応大規模視覚言語モデル IDA-VLM を開発した。
本研究は,4次元にわたるインスタンスIDのメモリと認識におけるLVLMの検証を行うための,新しいベンチマークMM-IDを提案する。
論文 参考訳(メタデータ) (2024-07-10T12:11:59Z) - MICap: A Unified Model for Identity-aware Movie Descriptions [16.287294191608893]
空白字幕を付与した場合に,ID認識キャプション生成やFITBをシームレスに切り替えることのできる,新しい単一ステージアプローチを提案する。
私たちのモデルであるMICap(Movie-Identity Captioner)は、FITBとフルキャプション生成のトレーニングの恩恵を受ける、共有自動回帰デコーダを使用します。
論文 参考訳(メタデータ) (2024-05-19T08:54:12Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。