論文の概要: VideoSTF: Stress-Testing Output Repetition in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2602.10639v1
- Date: Wed, 11 Feb 2026 08:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.599658
- Title: VideoSTF: Stress-Testing Output Repetition in Video Large Language Models
- Title(参考訳): VideoSTF:ビデオ大言語モデルにおけるストレステスト出力繰り返し
- Authors: Yuxin Cao, Wei Song, Shangzhi Xu, Jingling Xue, Jin Song Dong,
- Abstract要約: 我々は,ビデオLLMの出力繰り返しを系統的に測定し,ストレステストする最初のフレームワークであるVideoSTFを紹介した。
映像入力の時間的摂動に対して,出力繰り返しが広範かつ重要であり,非常に敏感であることがわかった。
この結果から,現代のビデオLLMにおける基本安定性問題としての出力繰り返しが明らかになり,映像言語システムにおける安定性を意識した評価が動機となった。
- 参考スコア(独自算出の注目度): 18.707229361658527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (VideoLLMs) have recently achieved strong performance in video understanding tasks. However, we identify a previously underexplored generation failure: severe output repetition, where models degenerate into self-reinforcing loops of repeated phrases or sentences. This failure mode is not captured by existing VideoLLM benchmarks, which focus primarily on task accuracy and factual correctness. We introduce VideoSTF, the first framework for systematically measuring and stress-testing output repetition in VideoLLMs. VideoSTF formalizes repetition using three complementary n-gram-based metrics and provides a standardized testbed of 10,000 diverse videos together with a library of controlled temporal transformations. Using VideoSTF, we conduct pervasive testing, temporal stress testing, and adversarial exploitation across 10 advanced VideoLLMs. We find that output repetition is widespread and, critically, highly sensitive to temporal perturbations of video inputs. Moreover, we show that simple temporal transformations can efficiently induce repetitive degeneration in a black-box setting, exposing output repetition as an exploitable security vulnerability. Our results reveal output repetition as a fundamental stability issue in modern VideoLLMs and motivate stability-aware evaluation for video-language systems. Our evaluation code and scripts are available at: https://github.com/yuxincao22/VideoSTF_benchmark.
- Abstract(参考訳): Video Large Language Models (VideoLLMs) は近年,ビデオ理解タスクにおいて高いパフォーマンスを達成している。
しかし,本研究では,繰り返し句や文の自己強化ループに縮退する重大出力繰り返し(重大出力繰り返し)という,未探索な生成障害を同定する。
この障害モードは既存のVideoLLMベンチマークではキャプチャされない。
我々は,ビデオLLMの出力繰り返しを系統的に測定し,ストレステストする最初のフレームワークであるVideoSTFを紹介した。
VideoSTFは3つの相補的なn-gramベースのメトリクスを使用して反復を形式化し、制御された時間変換のライブラリとともに10,000の多様なビデオの標準テストベッドを提供する。
VideoSTFを用いて, 広汎なテスト, 時間的ストレステスト, および10種類の先進的ビデオLLMの対向的利用を行う。
映像入力の時間的摂動に対して,出力繰り返しが広範かつ重要であり,非常に敏感であることがわかった。
さらに, ブラックボックス設定において, 簡単な時間変換が繰り返しの退化を効果的に誘導し, アウトプットの繰り返しを悪用可能なセキュリティ脆弱性として露呈することを示す。
この結果から,現代のビデオLLMにおける基本安定性問題としての出力繰り返しが明らかになり,映像言語システムにおける安定性を意識した評価が動機となった。
評価コードとスクリプトは、https://github.com/yuxincao22/VideoSTF_benchmark.comで利用可能です。
関連論文リスト
- VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models [9.896951371033229]
VideoPerceiverはビデオ理解における微細な認識を高めるビデオマルチモーダル大言語モデル(VMLLM)である。
そこで我々は,キャプションからイベントアクションキーワードを抽出し,対応するキーフレームを識別し,隣接するフレームに置き換えることで,キー情報伝達ビデオを構築する。
VideoPerceiverは、詳細なアクション理解とまれなイベントキャプションベンチマークにおいて、最先端のVMLLMを大幅に上回っている。
論文 参考訳(メタデータ) (2025-11-24T06:57:26Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs [37.52094200472755]
本稿では,既存のビデオ関連LVLMの言語バイアスから,ほとんど探索されていない問題を明らかにする。
ビデオ関連LVLMの言語バイアスを評価するために,まずビデオ言語バイアス評価ベンチマークを収集する。
また,言語バイアスに対処するため,Multi-branch Contrastive Decoding (MCD)を提案する。
論文 参考訳(メタデータ) (2025-02-23T15:04:23Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。