論文の概要: MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration
- arxiv url: http://arxiv.org/abs/2510.08508v1
- Date: Thu, 09 Oct 2025 17:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.260568
- Title: MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration
- Title(参考訳): MoA-VR:オールインワンビデオ再生のためのMixture-of-Agentsシステム
- Authors: Lu Liu, Chunlei Cai, Shaocheng Shen, Jianfeng Liang, Weimin Ouyang, Tianxiao Ye, Jian Mao, Huiyu Duan, Jiangchao Yao, Xiaoyun Zhang, Qiang Hu, Guangtao Zhai,
- Abstract要約: 実世界のビデオは、ノイズ、圧縮アーティファクト、低照度歪みなどの複雑な劣化に悩まされることが多い。
3つの協調エージェントによる人間のプロの推論・処理手順を模倣したMoA-VRを提案する。
具体的には、大規模かつ高解像度なビデオ劣化認識ベンチマークを構築し、視覚言語モデル(VLM)による劣化識別子を構築する。
- 参考スコア(独自算出の注目度): 62.929029990341796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world videos often suffer from complex degradations, such as noise, compression artifacts, and low-light distortions, due to diverse acquisition and transmission conditions. Existing restoration methods typically require professional manual selection of specialized models or rely on monolithic architectures that fail to generalize across varying degradations. Inspired by expert experience, we propose MoA-VR, the first \underline{M}ixture-\underline{o}f-\underline{A}gents \underline{V}ideo \underline{R}estoration system that mimics the reasoning and processing procedures of human professionals through three coordinated agents: Degradation Identification, Routing and Restoration, and Restoration Quality Assessment. Specifically, we construct a large-scale and high-resolution video degradation recognition benchmark and build a vision-language model (VLM) driven degradation identifier. We further introduce a self-adaptive router powered by large language models (LLMs), which autonomously learns effective restoration strategies by observing tool usage patterns. To assess intermediate and final processed video quality, we construct the \underline{Res}tored \underline{V}ideo \underline{Q}uality (Res-VQ) dataset and design a dedicated VLM-based video quality assessment (VQA) model tailored for restoration tasks. Extensive experiments demonstrate that MoA-VR effectively handles diverse and compound degradations, consistently outperforming existing baselines in terms of both objective metrics and perceptual quality. These results highlight the potential of integrating multimodal intelligence and modular reasoning in general-purpose video restoration systems.
- Abstract(参考訳): 実世界のビデオは、様々な取得と送信条件のために、ノイズ、圧縮アーティファクト、低光歪みなどの複雑な劣化に悩まされることが多い。
既存の復元法は、通常、専門的なモデルの専門的な手作業による選択を必要とするか、あるいは様々な劣化に対して一般化に失敗するモノリシックなアーキテクチャに依存している。
専門家の体験に触発されて,3つの調整されたエージェントによる人的専門家の推論・処理手順を模倣した,第1回 \underline{M}ixture-\underline{o}f-\underline{A}gents \underline{V}ideo \underline{R}estorationシステムであるMoA-VRを提案する。
具体的には、大規模かつ高解像度なビデオ劣化認識ベンチマークを構築し、視覚言語モデル(VLM)による劣化識別子を構築する。
さらに,大規模言語モデル(LLM)を用いた自己適応型ルータを導入し,ツールの使用パターンを観察することで,効率的な修復戦略を自律的に学習する。
中間および最終処理されたビデオ品質を評価するため、修復作業に適した専用のVLMベースのビデオ品質評価(VQA)モデルを構築した。
大規模な実験により、MoA-VRは多種多様な複合的な劣化を効果的に処理し、客観的な指標と知覚的品質の両方の観点から、既存のベースラインを一貫して上回ります。
これらの結果は、汎用ビデオ修復システムにおいて、マルチモーダルインテリジェンスとモジュール推論を統合する可能性を強調している。
関連論文リスト
- OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - Team of One: Cracking Complex Video QA with Model Synergy [24.75732964829523]
本稿では,複雑な実世界のシナリオにおける推論深度と堅牢性を高める,オープンエンドなビデオ質問応答のための新しいフレームワークを提案する。
既存のビデオラージマルチモーダルモデル (Video-LMM) では、文脈的理解の制限、時間的モデリングの弱さ、曖昧さや構成的クエリへの一般化の低さがしばしば見られる。
論文 参考訳(メタデータ) (2025-07-18T11:12:44Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - Training-Free Large Model Priors for Multiple-in-One Image Restoration [24.230376300759573]
大型モデル駆動画像復元フレームワーク(LMDIR)
我々のアーキテクチャは、グローバルな劣化知識を注入するクエリベースのプロンプトエンコーダ、分解対応トランスフォーマーブロックで構成されている。
この設計は、自動修復とユーザガイド修復の両方をサポートしながら、様々な劣化に対処するためのシングルステージトレーニングパラダイムを促進する。
論文 参考訳(メタデータ) (2024-07-18T05:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。