Fugu-MT 論文翻訳(概要): IVCA: Inter-Relation-Aware Video Complexity Analyzer

論文の概要: IVCA: Inter-Relation-Aware Video Complexity Analyzer

arxiv url: http://arxiv.org/abs/2407.00280v1
Date: Sat, 29 Jun 2024 02:09:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 05:41:03.360366
Title: IVCA: Inter-Relation-Aware Video Complexity Analyzer
Title（参考訳）: IVCA: 相互対応型ビデオ複合分析装置
Authors: Junqi Liao, Yao Li, Zhuoyuan Li, Li Li, Dong Liu,
Abstract要約: ビデオストリーミングアプリケーションのリアルタイム解析要求を満たすために,IVCA (Inter-relation-aware Video complexity analysisr) を提案する。 IVCAは、フレーム間の関係、つまり運動と参照構造を考慮し、VCAの限界に対処する。実験の結果,IVCAにより達成された複雑性推定精度は,時間的複雑性が最小限に向上した。
参考スコア（独自算出の注目度）: 12.900432875406153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To meet the real-time analysis requirements of video streaming applications, we propose an inter-relation-aware video complexity analyzer (IVCA) as an extension to VCA. The IVCA addresses the limitation of VCA by considering inter-frame relations, namely motion and reference structure. First, we enhance the accuracy of temporal features by introducing feature-domain motion estimation into the IVCA. Next, drawing inspiration from the hierarchical reference structure in codecs, we design layer-aware weights to adjust the majorities of frame complexity in different layers. Additionally, we expand the scope of temporal features by considering frames that be referred to, rather than relying solely on the previous frame. Experimental results show the significant improvement in complexity estimation accuracy achieved by IVCA, with minimal time complexity increase.
Abstract（参考訳）: ビデオストリーミングアプリケーションのリアルタイム解析要求を満たすため、VCAの拡張として、相互対応型ビデオ複雑性解析器(IVCA)を提案する。 IVCAは、フレーム間の関係、つまり運動と参照構造を考慮し、VCAの限界に対処する。まず,IVCAに特徴領域の動作推定を導入することにより,時間的特徴の精度を向上させる。次に、コーデックの階層的参照構造からインスピレーションを得て、異なるレイヤにおけるフレームの複雑さの重み付けを調整できるように、レイヤ対応の重み付けを設計する。さらに,従来のフレームのみに依存するのではなく,参照するフレームを考慮し,時間的特徴の範囲を広げる。実験の結果,IVCAにより達成された複雑性推定精度は,時間的複雑性が最小限に向上した。

関連論文リスト

Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文参考訳（メタデータ） (2025-07-29T14:31:17Z)
FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文参考訳（メタデータ） (2025-06-13T07:59:52Z)
DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment [17.85550556489256]
本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-16T03:20:28Z)
Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文参考訳（メタデータ） (2025-01-27T10:57:24Z)
Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-07-13T15:27:39Z)
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文参考訳（メタデータ） (2024-06-12T21:41:32Z)
LADDER: An Efficient Framework for Video Frame Interpolation [12.039193291203492]
ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-17T06:47:17Z)
Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文参考訳（メタデータ） (2023-03-17T12:55:22Z)
Continuous Space-Time Video Super-Resolution Utilizing Long-Range Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文参考訳（メタデータ） (2023-02-26T08:02:39Z)
Temporal Consistency Learning of inter-frames for Video Super-Resolution [38.26035126565062]
ビデオ超解像(VSR)は、低解像度(LR)参照フレームと複数の隣接フレームから高解像度(HR)フレームを再構成することを目的としたタスクである。既存の手法は一般に情報伝達とフレームアライメントを探求し、VSRの性能を向上させる。本稿では,再建されたビデオの一貫性を高めるため,VSRのための時間一貫性学習ネットワーク(TCNet)を提案する。
論文参考訳（メタデータ） (2022-11-03T08:23:57Z)
Dense but Efficient VideoQA for Intricate Compositional Reasoning [9.514382838449928]
複雑なタスクに対処するための変形性アテンション機構を備えたトランスフォーマーに基づく新しいビデオQA手法を提案する。複雑な質問文内の係り受け構造は、言語埋め込みと組み合わせて、質問語間の意味的関係を容易に理解する。
論文参考訳（メタデータ） (2022-10-19T05:01:20Z)
STDAN: Deformable Attention Network for Space-Time Video Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文参考訳（メタデータ） (2022-03-14T03:40:35Z)
TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。 TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文参考訳（メタデータ） (2021-12-07T09:27:56Z)
Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文参考訳（メタデータ） (2021-11-27T05:35:10Z)
Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文参考訳（メタデータ） (2021-04-23T10:08:15Z)
Hierarchical Conditional Relation Networks for Multimodal Video Question Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文参考訳（メタデータ） (2020-10-18T02:31:06Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。