Fugu-MT 論文翻訳(概要): AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State

論文の概要: AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State

arxiv url: http://arxiv.org/abs/2605.10723v1
Date: Mon, 11 May 2026 15:31:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.941743
Title: AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State
Title（参考訳）: AllocMV:構造化された永続状態による音楽ビデオ生成のための最適資源配分
Authors: Huimin Wang, Leilei Ouyang, Chang Xia, Yongqi Kang, Yu Fu, Yuqi Ouyang,
Abstract要約: AllocMVは、音楽ビデオ合成をMultiple-Choice Knapsack Problem (MCKP)として定式化した階層型フレームワークである。マルチモーダルキューからセグメントサリエンシを推定することにより、動的プログラミングに基づくグループレベルのMCKPソルバは、High-Gen、Mid-Gen、Reuseの各ブランチにリソースを最適に割り当てる。反復的な音楽モチーフに対しては,視覚的接頭辞を再利用してコストを低減し,モチーフレベルの連続性を確保した分岐型フォーク戦略を実装した。
参考スコア（独自算出の注目度）: 11.142961605053806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating long-horizon music videos (MVs) is frequently constrained by prohibitive computational costs and difficulty maintaining cross-shot consistency. We propose AllocMV, a hierarchical framework formulating music video synthesis as a Multiple-Choice Knapsack Problem (MCKP). AllocMV represents the video's persistent state as a compact, structured object comprising character entities, scene priors, and sharing graphs, produced by a global planner prior to realization. By estimating segment saliency from multimodal cues, a group-level MCKP solver based on dynamic programming optimally allocates resources across High-Gen, Mid-Gen, and Reuse branches. For repetitive musical motifs, we implement a divergence-based forking strategy that reuses visual prefixes to reduce costs while ensuring motif-level continuity. Evaluated via the Cost-Quality Ratio (CQR), AllocMV achieves an optimal trade-off between perceived quality and resource expenditure under strict budgetary and rhythmic constraints.
Abstract（参考訳）: ロングホライズン・ミュージック・ビデオ(MV)の生成は、計算コストの禁止と、ショット間の一貫性の維持が困難であることによって、しばしば制限される。本稿では,音楽ビデオ合成の階層的枠組みであるAllocMVを,MCKP問題として提案する。 AllocMVは、ビデオの永続状態を、文字エンティティ、シーン先行、共有グラフからなるコンパクトで構造化されたオブジェクトとして表現し、実現前にグローバルプランナーが生成する。マルチモーダルキューからセグメントサリエンシを推定することにより、動的プログラミングに基づくグループレベルのMCKPソルバは、High-Gen、Mid-Gen、Reuseの各ブランチにリソースを最適に割り当てる。反復的な音楽モチーフに対しては,視覚的接頭辞を再利用してコストを低減し,モチーフレベルの連続性を確保した分岐型フォーク戦略を実装した。 CQR(Cost-Quality Ratio)を通じて評価されたAllocMVは、厳格な予算とリズミカルな制約の下で、知覚された品質とリソース支出の間の最適なトレードオフを達成する。

関連論文リスト

Top-Down Semantic Refinement for Image Captioning [15.716415599823243]
大きな視覚言語モデル(VLM)は、画像キャプションに固有の矛盾に直面している。その強力なシングルステップ生成能力は、しばしばミオピックな意思決定プロセスに繋がる。生成過程をマルコフ決定過程(MDP)としてモデル化したTDSR(Top-Down Semantic Refinement)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-25T18:27:00Z)
Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。 EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-10-04T15:23:07Z)
ReCon-GS: Continuum-Preserved Gaussian Streaming for Fast and Compact Reconstruction of Dynamic Scenes [41.108974064267436]
ReCon-GSは、高忠実なオンライン動的シーン再構築とリアルタイムレンダリングを可能にするストレージ対応フレームワークである。本稿では,ReCon-GSがトレーニング効率を約15%向上し,FVV合成品質が向上することを示す。同等のレンダリング品質では、ReCon-GSは最先端の方法と比較して、メモリ要求を50%以上削減する。
論文参考訳（メタデータ） (2025-09-29T06:23:47Z)
InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。 InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文参考訳（メタデータ） (2025-05-23T07:33:25Z)
Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。 DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文参考訳（メタデータ） (2024-11-21T18:30:11Z)
Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文参考訳（メタデータ） (2024-05-24T15:56:40Z)
Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文参考訳（メタデータ） (2024-05-10T09:18:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。