論文の概要: ChronoForge-RL: Chronological Forging through Reinforcement Learning for Enhanced Video Understanding
- arxiv url: http://arxiv.org/abs/2509.15800v1
- Date: Fri, 19 Sep 2025 09:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.105681
- Title: ChronoForge-RL: Chronological Forging through Reinforcement Learning for Enhanced Video Understanding
- Title(参考訳): ChronoForge-RL:強化ビデオ理解のための強化学習による時系列鍛造
- Authors: Kehua Chen,
- Abstract要約: 我々はChronoForge-RLと呼ばれる新しいビデオ理解フレームワークを提案する。
テンポラルアペックス蒸留(TAD)とキーフレーム対応グループ相対政策最適化(KF-GRPO)を組み合わせる。
提案したChronoForge-RLは,ビデオMMEでは69.1%,LVBenchでは52.7%,ベースライン法では52.7%である。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art video understanding methods typically struggle with two critical challenges: (1) the computational infeasibility of processing every frame in dense video content and (2) the difficulty in identifying semantically significant frames through naive uniform sampling strategies. In this paper, we propose a novel video understanding framework, called ChronoForge-RL, which combines Temporal Apex Distillation (TAD) and KeyFrame-aware Group Relative Policy Optimization (KF-GRPO) to tackle these issues. Concretely, we introduce a differentiable keyframe selection mechanism that systematically identifies semantic inflection points through a three-stage process to enhance computational efficiency while preserving temporal information. Then, two particular modules are proposed to enable effective temporal reasoning: Firstly, TAD leverages variation scoring, inflection detection, and prioritized distillation to select the most informative frames. Secondly, we introduce KF-GRPO which implements a contrastive learning paradigm with a saliency-enhanced reward mechanism that explicitly incentivizes models to leverage both frame content and temporal relationships. Finally, our proposed ChronoForge-RL achieves 69.1% on VideoMME and 52.7% on LVBench compared to baseline methods, clearly surpassing previous approaches while enabling our 7B parameter model to achieve performance comparable to 72B parameter alternatives.
- Abstract(参考訳): 現在最先端のビデオ理解手法は,(1)高密度映像コンテンツにおけるフレームの処理能力の計算不可能性,(2)一貫した一貫したサンプリング戦略によって意味的に重要なフレームを特定することの難しさ,という2つの重要な課題に苦慮している。
本稿では,時間的頂点蒸留(TAD)とKeyFrame-aware Group Relative Policy Optimization(KF-GRPO)を組み合わせた新しいビデオ理解フレームワークChronoForge-RLを提案する。
具体的には、時間情報を保持しながら計算効率を向上させるために、3段階のプロセスを通して意味的屈折点を体系的に識別する、識別可能なキーフレーム選択機構を導入する。
次に、効果的な時間的推論を可能にするために、2つの特定のモジュールが提案されている: まず、TADは、最も情報性の高いフレームを選択するために、変量評価、屈折検出、優先蒸留を利用する。
第二に、KF-GRPOは、フレームの内容と時間的関係の両方を活用するモデルに明示的にインセンティブを与えるサリエンシ強化報酬機構を備えた、対照的な学習パラダイムを実装している。
最後に,提案したChronoForge-RLは,ビデオMMEで69.1%,LVBenchで52.7%を達成した。
関連論文リスト
- Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [24.337139909108117]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。