Fugu-MT 論文翻訳(概要): Reliable Propagation-Correction Modulation for Video Object Segmentation

論文の概要: Reliable Propagation-Correction Modulation for Video Object Segmentation

arxiv url: http://arxiv.org/abs/2112.02853v1
Date: Mon, 6 Dec 2021 08:22:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-08 03:30:17.224110
Title: Reliable Propagation-Correction Modulation for Video Object Segmentation
Title（参考訳）: 映像オブジェクトセグメンテーションのための信頼性伝搬補正
Authors: Xiaohao Xu, Jinglu Wang, Xiao Li, Yan Lu
Abstract要約: 本稿では,2つの変調器,伝搬変調器と補正変調器を導入し,ターゲットフレームの埋め込みに対してチャネルワイズ再校正を行う。これにより、伝搬変調器による信頼性補正変調器の効果のオーバーライドを回避することができる。提案手法は,YouTube-VOS18/19およびDAVIS17-Val/Testベンチマーク上での最先端性能を実現する。
参考スコア（独自算出の注目度）: 19.51247081512788
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Error propagation is a general but crucial problem in online semi-supervised video object segmentation. We aim to suppress error propagation through a correction mechanism with high reliability. The key insight is to disentangle the correction from the conventional mask propagation process with reliable cues. We introduce two modulators, propagation and correction modulators, to separately perform channel-wise re-calibration on the target frame embeddings according to local temporal correlations and reliable references respectively. Specifically, we assemble the modulators with a cascaded propagation-correction scheme. This avoids overriding the effects of the reliable correction modulator by the propagation modulator. Although the reference frame with the ground truth label provides reliable cues, it could be very different from the target frame and introduce uncertain or incomplete correlations. We augment the reference cues by supplementing reliable feature patches to a maintained pool, thus offering more comprehensive and expressive object representations to the modulators. In addition, a reliability filter is designed to retrieve reliable patches and pass them in subsequent frames. Our model achieves state-of-the-art performance on YouTube-VOS18/19 and DAVIS17-Val/Test benchmarks. Extensive experiments demonstrate that the correction mechanism provides considerable performance gain by fully utilizing reliable guidance. Code is available at: https://github.com/JerryX1110/RPCMVOS.
Abstract（参考訳）: エラー伝搬は、オンラインの半教師付きビデオオブジェクトセグメンテーションにおいて一般的なが重要な問題である。信頼性の高い補正機構により誤りの伝播を抑制することを目的とする。鍵となる洞察は、従来のマスク伝播プロセスから、信頼できる手がかりで補正を外すことである。本稿では,2つの変調器,伝搬変調器と補正変調器を導入し,それぞれに局所時間相関と信頼基準に基づいて,対象フレームの埋め込みに対してチャネルワイズ再校正を行う。具体的には、変調器をカスケードした伝搬補正方式で組み立てる。これにより、伝搬変調器による信頼できる補正変調器の影響を克服する。 ground truthラベル付き参照フレームは信頼できる手がかりを提供するが、ターゲットフレームとは大きく異なり、不確かまたは不完全な相関をもたらす可能性がある。我々は、信頼できる特徴パッチを保守プールに補足することで参照キューを強化し、より包括的で表現力のあるオブジェクト表現をモジュレータに提供します。さらに、信頼性フィルタは信頼できるパッチを取得し、それに続くフレームに渡すように設計されている。本モデルでは,YouTube-VOS18/19およびDAVIS17-Val/Testベンチマークを用いて,最先端のパフォーマンスを実現する。広範な実験により、この補正機構は信頼性の高いガイダンスを十分に活用することでかなりの性能向上をもたらすことが示されている。コードはhttps://github.com/jerryx1110/rpcmvos。

関連論文リスト

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
REACT: Representation Extraction And Controllable Tuning to Overcome Overfitting in LLM Knowledge Editing [42.89229070245538]
本稿では,正確かつ制御可能な知識編集のためのフレームワークであるREACTを紹介する。最初の段階では、調整された刺激を用いて、潜在的な事実表現を抽出する。第2段階では,大小スカラーのベクトルを用いて,制御可能な摂動を隠蔽状態に適用する。
論文参考訳（メタデータ） (2025-05-25T01:57:06Z)
Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval [39.65722543824425]
Gap-Aware Retrievalフレームワークは、テキストt_iとビデオv_jの間で学習可能な、ペア固有のインクリメントDelta_ijを導入している。 GAREは、アライメントの正確さと頑健さをノイズ管理に継続的に改善する。
論文参考訳（メタデータ） (2025-05-18T17:18:06Z)
Efficient Temporal Consistency in Diffusion-Based Video Editing with Adaptor Modules: A Theoretical Framework [14.23793349540553]
DDIMモデルにおけるフレーム一貫性を時間的整合性損失下で維持するアダプタの一般的な理論的枠組みを提供する。 DDIM逆転手順におけるモジュールの安定性を解析し、関連するエラーが制御されていることを示す。
論文参考訳（メタデータ） (2025-04-22T16:28:35Z)
FT-Transformer: Resilient and Reliable Transformer with End-to-End Fault Tolerant Attention [5.044679241062448]
トランスフォーマーモデルは、依存関係をキャプチャするために自己保持機構を活用し、様々なアプリケーションで例外的なパフォーマンスを示す。既存のフォールトトレランス法は、切り離されたカーネルを使用して各操作を別々に保護し、かなりの計算とメモリオーバーヘッドを発生させる。本稿では、エンドツーエンドのフォールトトレラントな注意を組み込んだトランスフォーマーモデルのための新しいエラー耐性フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T02:05:08Z)
Building the Self-Improvement Loop: Error Detection and Correction in Goal-Oriented Semantic Communications [2.677520298504178]
意味コミュニケーション(SemCom)はシンボルよりも意味の伝達に重点を置いており、コミュニケーション効率が大幅に向上している。これらの利点にもかかわらず、送信された意味と受信された意味の相違から生じるセマンティックエラーは、システムの信頼性に対する大きな課題である。本稿では,SemComシステムにおけるセマンティックエラーの検出と修正のための包括的フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-03T12:29:23Z)
Perception-Oriented Video Frame Interpolation via Asymmetric Blending [20.0024308216849]
ビデオフレーム補間(VFI)の従来の手法は、特にぼやけやゴースト効果の顕在化といった問題に直面している。本稿では,これらの課題を軽減するためにPerVFI(Perception-oriented Video Frame Interpolation)を提案する。実験により,PerVFIの優位性が検証され,既存の手法に比べて知覚品質が有意に向上した。
論文参考訳（メタデータ） (2024-04-10T02:40:17Z)
Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文参考訳（メタデータ） (2024-04-06T22:08:20Z)
Removing the need for ground truth UWB data collection: self-supervised ranging error correction using deep reinforcement learning [1.4061979259370274]
マルチパス効果と非視界条件は、アンカーとタグの間の範囲エラーを引き起こす。これらの範囲の誤差を緩和するための既存のアプローチは、大きなラベル付きデータセットの収集に依存している。本稿では,ラベル付き真実データを必要としない自己教師付き深層強化学習手法を提案する。
論文参考訳（メタデータ） (2024-03-28T09:36:55Z)
Friendly Attacks to Improve Channel Coding Reliability [0.33993877661368754]
フレンドリーアタック」は、エラー訂正チャネルコードの性能を向上させることを目的としている。敵攻撃の概念に触発された本手法は,ニューラルネットワーク入力にわずかな摂動を導入するという考え方を活用する。提案手法は,異なるチャネル,変調,コード,デコーダ間の信頼性を向上させることができることを示す。
論文参考訳（メタデータ） (2024-01-25T13:46:21Z)
Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。 OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-03T05:41:25Z)
RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文参考訳（メタデータ） (2023-08-11T12:17:24Z)
Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文参考訳（メタデータ） (2022-03-27T15:25:58Z)
Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文参考訳（メタデータ） (2022-02-21T10:36:09Z)
Self-Conditioned Generative Adversarial Networks for Image Editing [61.50205580051405]
Generative Adversarial Networks (GAN) はバイアスの影響を受けやすい。我々は、このバイアスが公平性だけでなく、分布のコアから逸脱する際の潜在トラバース編集手法の崩壊に重要な役割を果たしていると論じる。
論文参考訳（メタデータ） (2022-02-08T18:08:24Z)
Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文参考訳（メタデータ） (2022-01-28T22:03:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。