論文の概要: DreamRelation: Relation-Centric Video Customization
- arxiv url: http://arxiv.org/abs/2503.07602v1
- Date: Mon, 10 Mar 2025 17:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:04.751220
- Title: DreamRelation: Relation-Centric Video Customization
- Title(参考訳): DreamRelation:リレーショナルビデオのカスタマイズ
- Authors: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan,
- Abstract要約: ビデオのカスタマイズ(英: video customization)とは、2つの主題間のユーザー特定関係を描写したパーソナライズされたビデオを作成することを指す。
既存の手法では、被写体や動きをパーソナライズできるが、複雑なビデオのカスタマイズには苦戦している。
本稿では,DreamRelationを提案する。DreamRelationはビデオの小さな集合を捉え,デカップリング学習とダイナミックエンハンスメントという2つの重要なコンポーネントを活用する。
- 参考スコア(独自算出の注目度): 33.65405972817795
- License:
- Abstract: Relational video customization refers to the creation of personalized videos that depict user-specified relations between two subjects, a crucial task for comprehending real-world visual content. While existing methods can personalize subject appearances and motions, they still struggle with complex relational video customization, where precise relational modeling and high generalization across subject categories are essential. The primary challenge arises from the intricate spatial arrangements, layout variations, and nuanced temporal dynamics inherent in relations; consequently, current models tend to overemphasize irrelevant visual details rather than capturing meaningful interactions. To address these challenges, we propose DreamRelation, a novel approach that personalizes relations through a small set of exemplar videos, leveraging two key components: Relational Decoupling Learning and Relational Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle relations from subject appearances using relation LoRA triplet and hybrid mask training strategy, ensuring better generalization across diverse relationships. Furthermore, we determine the optimal design of relation LoRA triplet by analyzing the distinct roles of the query, key, and value features within MM-DiT's attention mechanism, making DreamRelation the first relational video generation framework with explainable components. Second, in Relational Dynamics Enhancement, we introduce space-time relational contrastive loss, which prioritizes relational dynamics while minimizing the reliance on detailed subject appearances. Extensive experiments demonstrate that DreamRelation outperforms state-of-the-art methods in relational video customization. Code and models will be made publicly available.
- Abstract(参考訳): リレーショナルビデオのカスタマイズ(Relational Video customization)とは、現実世界のビジュアルコンテンツを解釈するための重要なタスクである、2つの被験者間のユーザー特定関係を描写するパーソナライズされたビデオを作成することを指す。
既存の手法では、対象の外観や動きをパーソナライズできるが、複雑なリレーショナルビデオのカスタマイズに苦慮している。
主な課題は、関係に固有の複雑な空間配置、レイアウトのバリエーション、微妙な時間的ダイナミクスから生じ、その結果、現在のモデルは意味のある相互作用を捉えるよりも、無関係な視覚的詳細を過度に強調する傾向にある。
これらの課題に対処するために,リレーショナルデカップリング学習とリレーショナルダイナミクス強化という2つの重要な要素を生かして,リレーショナル・デカップリング・ラーニングとリレーショナル・ダイナミクス・エンハンスメントという,小さなビデオを通してリレーショナルをパーソナライズする新しいアプローチであるDreamRelationを提案する。
まず,リレーショナル・デカップリング・ラーニングにおいて,ロラ三重項とハイブリッドマスク・トレーニング・ストラテジーを用いて,主観的外見から関係性を切り離し,多種多様な関係の一般化を確実にする。
さらに、MM-DiTのアテンションメカニズムにおけるクエリ、キー、値の特徴の異なる役割を解析し、ロラ三重項の最適設計を決定し、DreamRelationを説明可能なコンポーネントを持つ最初のリレーショナルビデオ生成フレームワークとした。
第2に、リレーショナル・ダイナミクス・エンハンスメント(Relational Dynamics Enhancement)において、詳細な被写体への依存を最小限に抑えつつ、リレーショナル・ダイナミクスを優先する時空間リレーショナル・コントラッシブ・ロスを導入する。
大規模な実験により、DreamRelationはリレーショナルビデオのカスタマイズにおいて最先端の手法より優れていることが示された。
コードとモデルは公開されます。
関連論文リスト
- KGIF: Optimizing Relation-Aware Recommendations with Knowledge Graph Information Fusion [16.971592142597544]
本研究は, 自己認識機構を用いて, エンティティと関係埋め込みを明示的にマージするように設計された, 特殊なフレームワークを提案する。
この明示的な融合は、ユーザとイテムの相互作用とアイテムと属性の関係の相互作用を強化し、ユーザ中心とアイテム中心の表現の微妙なバランスを与える。
この研究の貢献には、明示的な情報融合のための革新的な方法、スパース知識グラフの堅牢性の改善、解釈可能な経路可視化を通じて説明可能なレコメンデーションを生成する能力が含まれる。
論文 参考訳(メタデータ) (2025-01-07T22:19:15Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Open-Vocabulary Video Relation Extraction [37.40717383505057]
OVRE(Open-vocabulary Video Relation extract)は,行動中心関係三重項のレンズを通して行動理解を行う新しいタスクである。
OVREは、アクションに参加するペアワイズ関係に焦点を当て、これらの関係三つ子と自然言語を記述する。
マルチラベルアクション分類データセットをベースとした,アクション中心リレーショナルトリプレットを備えた180KビデオからなるMoments-OVREデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-12-25T09:29:34Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Cross-Modality Time-Variant Relation Learning for Generating Dynamic
Scene Graphs [16.760066844287046]
動的シーングラフにおける関係の時間的変化をモデル化するために,時間変動型関係対応TRansformer (TR$2$)を提案する。
TR$2$は2つの異なる設定下で従来の最先端メソッドよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-15T10:30:38Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。