論文の概要: CyberV: Cybernetics for Test-time Scaling in Video Understanding
- arxiv url: http://arxiv.org/abs/2506.07971v1
- Date: Mon, 09 Jun 2025 17:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.088345
- Title: CyberV: Cybernetics for Test-time Scaling in Video Understanding
- Title(参考訳): CyberV: ビデオ理解におけるテストタイムスケーリングのためのサイバネティクス
- Authors: Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen,
- Abstract要約: 現在のMLLM(Multimodal Large Language Models)は、長いビデオや複雑なビデオを理解するのに苦労する可能性がある。
本稿では,ビデオMLLMを適応システムとして再設計する,サイバネティックな原理にインスパイアされた新しいフレームワークを提案する。
当社のアプローチであるCyberVでは,MLLM推論システム,センサ,コントローラで構成されるサイバネティックループを導入している。
- 参考スコア(独自算出の注目度): 46.693118184157626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Multimodal Large Language Models (MLLMs) may struggle with understanding long or complex videos due to computational demands at test time, lack of robustness, and limited accuracy, primarily stemming from their feed-forward processing nature. These limitations could be more severe for models with fewer parameters. To address these limitations, we propose a novel framework inspired by cybernetic principles, redesigning video MLLMs as adaptive systems capable of self-monitoring, self-correction, and dynamic resource allocation during inference. Our approach, CyberV, introduces a cybernetic loop consisting of an MLLM Inference System, a Sensor, and a Controller. Specifically, the sensor monitors forward processes of the MLLM and collects intermediate interpretations, such as attention drift, then the controller determines when and how to trigger self-correction and generate feedback to guide the next round. This test-time adaptive scaling framework enhances frozen MLLMs without requiring retraining or additional components. Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0% improvement, achieving performance even comparable to human experts. Furthermore, our method demonstrates consistent gains on general-purpose benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and generalization capabilities in making MLLMs more robust and accurate for dynamic video understanding. The code is released at https://github.com/marinero4972/CyberV.
- Abstract(参考訳): 現在のMLLM(Multimodal Large Language Models)は、テスト時の計算要求、堅牢性の欠如、精度の制限により、主にフィードフォワード処理の性質から、長いビデオや複雑なビデオを理解するのに苦労する可能性がある。
これらの制限は、パラメータが少ないモデルではより深刻になる可能性がある。
これらの制約に対処するために,ビデオMLLMを自己監視,自己補正,動的リソース割り当てが可能な適応システムとして再設計する,サイバーネティックな原理に着想を得た新しいフレームワークを提案する。
当社のアプローチであるCyberVでは,MLLM推論システム,センサ,コントローラで構成されるサイバネティックループを導入している。
具体的には、センサーはMLLMの前処理を監視し、アテンションドリフトなどの中間解釈を収集し、コントローラはいつ、どのように自己補正をトリガーするかを決定し、次のラウンドを導くフィードバックを生成する。
このテストタイム適応スケーリングフレームワークは、再トレーニングや追加のコンポーネントを必要とせずに、凍結MLLMを強化する。
CyberVはQwen2.5-VL-7Bを8.3%アップし、InternVL3-8Bを5.5%アップし、競合するプロプライエタリモデルであるGPT-4oを上回った。
Qwen2.5-VL-72Bに適用すると、10.0%の改善が得られ、人間の専門家に匹敵するパフォーマンスを達成できる。
さらに,ビデオMME や WorldSense などの汎用ベンチマークでは,MLLM を動的ビデオ理解においてより堅牢で精度の高いものにする上で,その有効性と一般化性を強調した。
コードはhttps://github.com/marinero4972/CyberVで公開されている。
関連論文リスト
- Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [19.373906873461703]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。
RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文 参考訳(メタデータ) (2025-05-04T10:55:21Z) - Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models [36.81503322875839]
MLLM(Multimodal large language model)は、画像キャプションや視覚的質問応答といったタスクの視覚的データとテキスト的データを組み合わせたモデルである。
本稿では,MLLMの代表例について,様々なシナリオにおけるキャリブレーションに着目して検討する。
その結果, キャリブレーションの相違は認められなかったが, キャリブレーションの相違は認められなかった。
論文 参考訳(メタデータ) (2024-12-19T09:10:07Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。