Fugu-MT 論文翻訳(概要): EPCFormer: Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation

論文の概要: EPCFormer: Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation

arxiv url: http://arxiv.org/abs/2308.04162v1
Date: Tue, 8 Aug 2023 09:48:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 13:27:32.803432
Title: EPCFormer: Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation
Title（参考訳）: epcformer:ユニバーサル参照ビデオオブジェクトセグメンテーションのための表現プロンプト協調トランス
Authors: Jiajun Chen, Jiacheng Lin, Zhiqiang Xiao, Haolong Fu, Ke Nai, Kailun Yang, Zhiyong Li
Abstract要約: A-VOSとR-VOSは、ユーザが提供する表現プロンプトに従って、ビデオシーケンスから特定のオブジェクトをセグメントすることを目的としている。本稿では,共通アーキテクチャであるExpression Prompt Collaboration Transformerを提案する。音声およびテキスト表現のコントラスト学習を導入することにより,提案するEPCFormerは,音声とテキスト表現間の意味的等価性の理解を実現する。良く認識されたベンチマークの実験は、我々の普遍的なEPCFormerが両方のタスクで最先端の結果を得ることを示した。
参考スコア（独自算出の注目度）: 23.567932511931385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-guided Video Object Segmentation (A-VOS) and Referring Video Object Segmentation (R-VOS) are two highly-related tasks, which both aim to segment specific objects from video sequences according to user-provided expression prompts. However, due to the challenges in modeling representations for different modalities, contemporary methods struggle to strike a balance between interaction flexibility and high-precision localization and segmentation. In this paper, we address this problem from two perspectives: the alignment representation of audio and text and the deep interaction among audio, text, and visual features. First, we propose a universal architecture, the Expression Prompt Collaboration Transformer, herein EPCFormer. Next, we propose an Expression Alignment (EA) mechanism for audio and text expressions. By introducing contrastive learning for audio and text expressions, the proposed EPCFormer realizes comprehension of the semantic equivalence between audio and text expressions denoting the same objects. Then, to facilitate deep interactions among audio, text, and video features, we introduce an Expression-Visual Attention (EVA) mechanism. The knowledge of video object segmentation in terms of the expression prompts can seamlessly transfer between the two tasks by deeply exploring complementary cues between text and audio. Experiments on well-recognized benchmarks demonstrate that our universal EPCFormer attains state-of-the-art results on both tasks. The source code of EPCFormer will be made publicly available at https://github.com/lab206/EPCFormer.
Abstract（参考訳）: 音声誘導型ビデオオブジェクトセグメンテーション(A-VOS)と参照型ビデオオブジェクトセグメンテーション(R-VOS)は、どちらもユーザが提供する表現プロンプトに従って、ビデオシーケンスから特定のオブジェクトをセグメントすることを目的としている。しかし、異なるモダリティの表現をモデル化する際の課題のため、現代の手法は相互作用の柔軟性と高精度なローカライゼーションとセグメンテーションのバランスをとるのに苦労している。本稿では,音声とテキストのアライメント表現と,音声,テキスト,視覚的特徴間の深い相互作用という2つの観点からこの問題に対処する。まず,epcformerにおいて,汎用アーキテクチャであるexpression prompt collaboration transformerを提案する。次に,音声およびテキスト表現のための表現アライメント(EA)機構を提案する。音声およびテキスト表現のコントラスト学習を導入することにより,同じオブジェクトを表す音声とテキスト表現間の意味的等価性の理解を実現する。次に,音声,テキスト,映像間の深いインタラクションを容易にするために,表現・視覚注意(eva)機構を導入する。表現プロンプトの観点からの映像オブジェクトのセグメンテーションの知識は,テキストと音声の相補的手がかりを深く探求することにより,2つのタスク間のシームレスな移動を可能にする。良く認識されたベンチマークの実験は、我々の普遍的なEPCFormerが両方のタスクで最先端の結果を得ることを示した。 EPCFormerのソースコードはhttps://github.com/lab206/EPCFormerで公開されている。

関連論文リスト

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-30T08:40:36Z)
Can Textual Semantics Mitigate Sounding Object Segmentation Preference? [10.368382203643739]
音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
論文参考訳（メタデータ） (2024-07-15T17:45:20Z)
VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。 VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-04-01T07:44:24Z)
Discovering Sounding Objects by Audio Queries for Audio Visual Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文参考訳（メタデータ） (2023-09-18T05:58:06Z)
Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。 CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-08T06:48:41Z)
AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文参考訳（メタデータ） (2023-07-03T16:37:10Z)
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。 MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文参考訳（メタデータ） (2023-05-25T17:59:47Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
Multi-Attention Network for Compressed Video Referring Object Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文参考訳（メタデータ） (2022-07-26T03:00:52Z)
The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文参考訳（メタデータ） (2022-06-24T02:15:06Z)
Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。 Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。私たちのコードと事前訓練されたモデルはリリースされます。
論文参考訳（メタデータ） (2021-12-17T15:55:53Z)
V2C: Visual Voice Cloning [55.55301826567474]
我々はVisual Voice Cloning (V2C) という新しいタスクを提案する。 V2Cは、参照音声によって特定された所望の音声と、参照ビデオによって特定された所望の感情の両方で、テキストの段落を音声に変換する。私たちのデータセットには、さまざまなジャンルをカバーする10,217本のアニメーション映画クリップが含まれています。
論文参考訳（メタデータ） (2021-11-25T03:35:18Z)
FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。 FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文参考訳（メタデータ） (2020-10-27T09:21:03Z)
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。その結果,全ての評価指標について最先端の性能を示すことができた。
論文参考訳（メタデータ） (2020-07-08T02:00:22Z)
Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文参考訳（メタデータ） (2020-06-27T08:24:26Z)
Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network Language Model [26.78064626111014]
自動音声認識システムを構築する際には,ビデオメタデータが提供する文脈情報を利用することができる。まず、ビデオメタデータの文脈ベクトル表現を抽出するために注意に基づく手法を用い、これらの表現をニューラルネットワークモデルへの入力の一部として利用する。次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。
論文参考訳（メタデータ） (2020-05-15T07:47:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。