論文の概要: DFIMat: Decoupled Flexible Interactive Matting in Multi-Person Scenarios
- arxiv url: http://arxiv.org/abs/2410.09788v1
- Date: Sun, 13 Oct 2024 10:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:52:52.364133
- Title: DFIMat: Decoupled Flexible Interactive Matting in Multi-Person Scenarios
- Title(参考訳): DFIMat: マルチパーソンシナリオにおけるフレキシブルなインタラクティブなマッチングの分離
- Authors: Siyi Jiao, Wenzheng Zeng, Changxin Gao, Nong Sang,
- Abstract要約: 本稿では,フレキシブル・インタラクティブ・マッティングを実現する非結合型フレームワークDFIMatを提案する。
具体的には、まず、シーンの意味やフレキシブルなユーザ入力を理解してターゲットインスタンスをローカライズし、インスタンスレベルのマッチングの洗練を行う。
サブタスクを学習し易くし、柔軟なマルチタイプ入力により効率と効率がさらに向上するので、デカップリングによる明らかなパフォーマンス向上が観察できる。
- 参考スコア(独自算出の注目度): 32.77825044757212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive portrait matting refers to extracting the soft portrait from a given image that best meets the user's intent through their inputs. Existing methods often underperform in complex scenarios, mainly due to three factors. (1) Most works apply a tightly coupled network that directly predicts matting results, lacking interpretability and resulting in inadequate modeling. (2) Existing works are limited to a single type of user input, which is ineffective for intention understanding and also inefficient for user operation. (3) The multi-round characteristics have been under-explored, which is crucial for user interaction. To alleviate these limitations, we propose DFIMat, a decoupled framework that enables flexible interactive matting. Specifically, we first decouple the task into 2 sub-ones: localizing target instances by understanding scene semantics and the flexible user inputs, and conducting refinement for instance-level matting. We observe a clear performance gain from decoupling, as it makes sub-tasks easier to learn, and the flexible multi-type input further enhances both effectiveness and efficiency. DFIMat also considers the multi-round interaction property, where a contrastive reasoning module is designed to enhance cross-round refinement. Another limitation for multi-person matting task is the lack of training data. We address this by introducing a new synthetic data generation pipeline that can generate much more realistic samples than previous arts. A new large-scale dataset SMPMat is subsequently established. Experiments verify the significant superiority of DFIMat. With it, we also investigate the roles of different input types, providing valuable principles for users. Our code and dataset can be found at https://github.com/JiaoSiyi/DFIMat.
- Abstract(参考訳): インタラクティブ・ポートレート・マッティング(Interactive portrait matting)とは、入力によってユーザの意図に最も合う画像からソフト・ポートレートを抽出することである。
既存の手法は、主に3つの要因により、複雑なシナリオでは性能が劣ることが多い。
1)ほとんどの研究は,マッチング結果を直接予測する密結合ネットワークを適用し,解釈性に欠け,モデリングに不適当な結果をもたらす。
2) 既存の作業は1種類のユーザ入力に限られており, 意図的理解には効果がなく, ユーザ操作にも非効率である。
(3) ユーザインタラクションに不可欠なマルチラウンド特性について検討が進められている。
これらの制約を緩和するために,フレキシブルなインタラクティブなマッティングを可能にする非結合フレームワークDFIMatを提案する。
具体的には、まず、シーンの意味やフレキシブルなユーザ入力を理解してターゲットインスタンスをローカライズし、インスタンスレベルのマッチングの洗練を行う。
サブタスクを学習し易くし、柔軟なマルチタイプ入力により効率と効率がさらに向上するので、デカップリングによる明らかなパフォーマンス向上が観察できる。
DFIMatはまた、マルチラウンドの相互作用特性についても検討しており、対照的な推論モジュールは、クロスラウンドの洗練を強化するように設計されている。
マルチパーソンマッチングタスクのもうひとつの制限は、トレーニングデータの欠如である。
我々は,従来よりもはるかにリアルなサンプルを生成することができる新しい合成データ生成パイプラインを導入することで,この問題に対処する。
その後、新たな大規模データセットSMPMatが確立された。
実験はDFIMatの顕著な優位性を検証する。
また、異なる入力タイプの役割も調査し、ユーザにとって価値のある原則を提供します。
私たちのコードとデータセットはhttps://github.com/JiaoSiyi/DFIMat.com/で確認できます。
関連論文リスト
- LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。
提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Compressed Interaction Graph based Framework for Multi-behavior
Recommendation [46.16750419508853]
不均衡なデータ分布とスパースターゲットの振る舞いのため、マルチビヘイビアデータの探索は困難である。
上記の制限を克服するために、圧縮インタラクショングラフベースのフレームワークであるCIGFを提案する。
マルチタスク学習のためのCIGCNの上部に個別の入力を持つMulti-Expert with Separate Input (MESI) ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:41:36Z) - Does a Technique for Building Multimodal Representation Matter? --
Comparative Analysis [0.0]
マルチモーダル表現を構築するためのテクニックの選択は、可能な限り高いモデルの性能を得るために不可欠であることを示す。
Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-06-09T21:30:10Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Multimodal Personality Recognition using Cross-Attention Transformer and
Behaviour Encoding [0.0]
利用可能なすべてのデータを利用するタスクのフレキシブルなモデルを提案する。
この課題は複雑な関係を伴い、特にビデオ処理に大規模なモデルを用いることを避けるため、動作符号化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-22T19:14:55Z) - Disentangled Graph Collaborative Filtering [100.26835145396782]
Disentangled Graph Collaborative Filtering (DGCF)は、インタラクションデータからユーザとアイテムの情報表現を学ぶための新しいモデルである。
ユーザ・イテムのインタラクション毎に意図を超越した分布をモデル化することにより、インテント・アウェアなインタラクショングラフと表現を反復的に洗練する。
DGCFはNGCF、DisenGCN、MacridVAEといった最先端モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-03T15:37:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。