論文の概要: FAME: Fairness-aware Attention-modulated Video Editing
- arxiv url: http://arxiv.org/abs/2510.22960v1
- Date: Mon, 27 Oct 2025 03:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.433863
- Title: FAME: Fairness-aware Attention-modulated Video Editing
- Title(参考訳): FAME:Fairness-aware Attention-modulated Video Editing
- Authors: Zhangkai Wu, Xuhui Fan, Zhongyuan Xie, Kaize Shi, Zhidong Li, Longbing Cao,
- Abstract要約: トレーニングフリーのビデオ編集モデルは、職業関連のプロンプトをレンダリングする際、ジェンダーのステレオタイプに取って代わる傾向がある。
本研究では,職業関連性バイアスを緩和する意図変調ビデオ編集のためのtextbfFAMEを提案する。
FAMEは、公平性変調を時間的自己注意と地域間相互注意の両方に統合する。
- 参考スコア(独自算出の注目度): 29.34768695353493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training-free video editing (VE) models tend to fall back on gender stereotypes when rendering profession-related prompts. We propose \textbf{FAME} for \textit{Fairness-aware Attention-modulated Video Editing} that mitigates profession-related gender biases while preserving prompt alignment and temporal consistency for coherent VE. We derive fairness embeddings from existing minority representations by softly injecting debiasing tokens into the text encoder. Simultaneously, FAME integrates fairness modulation into both temporal self attention and prompt-to-region cross attention to mitigate the motion corruption and temporal inconsistency caused by directly introducing fairness cues. For temporal self attention, FAME introduces a region constrained attention mask combined with time decay weighting, which enhances intra-region coherence while suppressing irrelevant inter-region interactions. For cross attention, it reweights tokens to region matching scores by incorporating fairness sensitive similarity masks derived from debiasing prompt embeddings. Together, these modulations keep fairness-sensitive semantics tied to the right visual regions and prevent temporal drift across frames. Extensive experiments on new VE fairness-oriented benchmark \textit{FairVE} demonstrate that FAME achieves stronger fairness alignment and semantic fidelity, surpassing existing VE baselines.
- Abstract(参考訳): トレーニングフリーのビデオ編集(VE)モデルは、職業関連のプロンプトをレンダリングする際、ジェンダーのステレオタイプに取って代わる傾向がある。
本稿では,コヒーレントVEの即時アライメントと時間的整合性を維持しつつ,職業関係の性別バイアスを緩和する「textit{Fairness-aware Attention-modulated Video Editing」のための「textbf{FAME}」を提案する。
テキストエンコーダにデバイアストークンをソフトに注入することで,既存の少数表現からフェアネス埋め込みを導出する。
同時に、FAMEはフェアネス変調を時間的自己注意と地域間クロスアテンションの両方に統合し、フェアネスキューを直接導入することによって生じる動きの腐敗と時間的不整合を緩和する。
時間的自己注意のために、FAMEは時間減衰重み付けと組み合わせた領域制限された注意マスクを導入し、領域間相互作用を抑えながら領域内コヒーレンスを高める。
クロスアテンションのために、デバイアスングプロンプト埋め込みから派生したフェアネスに敏感な類似性マスクを組み込むことにより、トークンを領域マッチングスコアに重み付けする。
同時に、これらの変調は、適切な視覚領域にフェアネスに敏感なセマンティクスを保持し、フレーム間の時間的ドリフトを防ぐ。
新たなVEフェアネス指向ベンチマークであるtextit{FairVE} の広範な実験は、FAMEが既存のVEベースラインを超え、より強いフェアネスアライメントとセマンティック忠実性を達成することを示した。
関連論文リスト
- VALA: Learning Latent Anchors for Training-Free and Temporally Consistent [29.516179213427694]
本稿では,キーフレームを適応的に選択し,その潜在機能をセマンティックアンカーに圧縮し,一貫したビデオ編集を行う変分アライメントモジュールであるVALAを提案する。
本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
論文 参考訳(メタデータ) (2025-10-27T03:44:11Z) - Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval [54.90229711181207]
TIPR (Text-to-Image Person Retrieval) は、与えられたテキストクエリに基づいて、最も関連性の高い人物画像を取得することを目的としている。
TIPRの鍵となる課題は、テキストと視覚のモダリティの効果的なアライメントを達成することである。
FMFA, クロスモーダルフルモーデファインファインファインファインアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T07:12:05Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Temporal Alignment-Free Video Matching for Few-shot Action Recognition [20.79048009076496]
提案手法は, 動作表現における時間単位の必要性を排除し, マッチング中にブルートフォースアライメントを不要とした, TEmporal Alignment-free Matching手法を提案する。
具体的には、TEAMは、アクションの長さや速度に関わらず、ビデオインスタンス内のグローバルな識別ヒントをキャプチャする、固定されたパターントークンセットで、各ビデオを表現する。
本稿では,クラス間の共通情報を識別・削除する適応プロセスを提案し,新しいカテゴリ間においても明確な境界を確立する。
論文 参考訳(メタデータ) (2025-04-08T12:11:11Z) - LLaFEA: Frame-Event Complementary Fusion for Fine-Grained Spatiotemporal Understanding in LMMs [55.81291976637705]
大規模モデル(LMM)はシーン理解に優れるが、言語的表現と視覚的表現の微妙なアライメントのために微妙な時間的推論に苦慮する。
既存の方法は、フレームベースのビデオからテキストの位置と期間を視覚空間にマッピングするが、時間的調整を制限する時間的間隔に悩まされる。
LFEAを導入してイベントカメラを時間的に密集した認識とフレームイベント融合に活用する。
論文 参考訳(メタデータ) (2025-03-10T05:30:30Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。