論文の概要: Unhackable Temporal Rewarding for Scalable Video MLLMs
- arxiv url: http://arxiv.org/abs/2502.12081v1
- Date: Mon, 17 Feb 2025 17:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:42.717779
- Title: Unhackable Temporal Rewarding for Scalable Video MLLMs
- Title(参考訳): スケーラブルなビデオMLLMのためのハック不能なテンポラルリワード
- Authors: En Yu, Kangheng Lin, Liang Zhao, Yana Wei, Zining Zhu, Haoran Wei, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Jingyu Wang, Wenbing Tao,
- Abstract要約: 時間的ハッキング」とは、モデルが特定のフレームに固定することでショートカットし、完全なビデオ物語を欠く現象である。
この研究は、時間的ハッキングを軽減するために、unhackable Temporal Rewarding (UTR)フレームワークを提案する。
UTRは時間的ハッキングに対処するだけでなく、ビデオの理解能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 43.46133973656315
- License:
- Abstract: In the pursuit of superior video-processing MLLMs, we have encountered a perplexing paradox: the "anti-scaling law", where more data and larger models lead to worse performance. This study unmasks the culprit: "temporal hacking", a phenomenon where models shortcut by fixating on select frames, missing the full video narrative. In this work, we systematically establish a comprehensive theory of temporal hacking, defining it from a reinforcement learning perspective, introducing the Temporal Perplexity (TPL) score to assess this misalignment, and proposing the Unhackable Temporal Rewarding (UTR) framework to mitigate the temporal hacking. Both theoretically and empirically, TPL proves to be a reliable indicator of temporal modeling quality, correlating strongly with frame activation patterns. Extensive experiments reveal that UTR not only counters temporal hacking but significantly elevates video comprehension capabilities. This work not only advances video-AI systems but also illuminates the critical importance of aligning proxy rewards with true objectives in MLLM development.
- Abstract(参考訳): 優れたビデオ処理MLLMの追求において、我々は、より多くのデータとより大きなモデルがパフォーマンスを悪化させる「反スケーリング法則」という難解なパラドックスに直面した。
これは、特定のフレームに固定することでモデルをショートカットし、完全なビデオ物語を欠く現象である。
本研究では、時間的ハッキングの包括的理論を体系的に確立し、強化学習の観点から定義し、時間的パープレクティリティ(TPL)スコアを導入して、このミスアライメントを評価し、時間的ハッキングを緩和するアンハック不可能な時間的リワード(UTR)フレームワークを提案する。
理論的にも経験的にも、TPLはフレームアクティベーションパターンと強く関連し、時間的モデリング品質の信頼できる指標であることが証明されている。
大規模な実験により、UTRは時間的ハッキングに対処するだけでなく、ビデオ理解能力を大幅に向上させることが明らかとなった。
この研究は、ビデオAIシステムを進化させるだけでなく、MLLM開発における真の目的とプロキシ報酬を整合させることの重要性も強調している。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Advancing TTP Analysis: Harnessing the Power of Large Language Models with Retrieval Augmented Generation [1.2289361708127877]
大規模言語モデル(LLM)が、サイバーセキュリティなどの重要なドメインに対して正確な応答を提供するために、効率的かつ適切な方法でどのように使用できるかは、不明である。
この研究は、デコーダのみのLLMに対するエンコーダのみのLLM(Retrieval Augmented Generation, RAG)に対する教師付き微調整(SFT)の使用について研究し、比較する。
本研究では,RAGを用いたデコーダのみのLLMが,SFTを用いたエンコーダのみのモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-12-30T16:56:24Z) - T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning [22.002220932086693]
本稿では,T-MAE (Temporal Masked Auto-Encoders) という,効果的な事前学習戦略を提案する。
T-MAEは、時間的隣接フレームとして入力を受け取り、時間的依存を学習する。
我々のT-MAE事前学習戦略は、注釈付きデータに対する需要を軽減する。
論文 参考訳(メタデータ) (2023-12-15T21:30:49Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。
我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。
我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文 参考訳(メタデータ) (2022-06-22T02:16:47Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Recursive Fusion and Deformable Spatiotemporal Attention for Video
Compression Artifact Reduction [36.255863808004065]
低品質圧縮ビデオから高品質な映像を復元するためのディープラーニングアルゴリズムが提案されている。
本稿では,長い時間範囲内での時間依存性をモデル化するための再帰核融合(RF)モジュールを提案する。
また,効率的な変形可能な時間的時間的注意(DSTA)モジュールを設計し,人工物に富む領域の復元により多くの労力を費やす。
論文 参考訳(メタデータ) (2021-08-04T15:25:27Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。