論文の概要: ELVIS: Enhance Low-Light for Video Instance Segmentation in the Dark
- arxiv url: http://arxiv.org/abs/2512.01495v1
- Date: Mon, 01 Dec 2025 10:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.79733
- Title: ELVIS: Enhance Low-Light for Video Instance Segmentation in the Dark
- Title(参考訳): ELVIS:暗黒空間におけるビデオインスタンスセグメンテーションの低照度化
- Authors: Joanne Lin, Ruirui Lin, Yini Li, David Bull, Nantheera Anantrasirichai,
- Abstract要約: textbfELVIS (textbfEnhance textbfLow-light for textbfVideo textbfInstance textbfSegmentation)は、最先端のVISモデルの低照度シナリオへの効果的なドメイン適応を可能にする新しいフレームワークである。
合成低照度YouTube-VIS 2019データセット上での textbf+3.7AP のパフォーマンスを改善する。
- 参考スコア(独自算出の注目度): 6.743827417653301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video instance segmentation (VIS) for low-light content remains highly challenging for both humans and machines alike, due to adverse imaging conditions including noise, blur and low-contrast. The lack of large-scale annotated datasets and the limitations of current synthetic pipelines, particularly in modeling temporal degradations, further hinder progress. Moreover, existing VIS methods are not robust to the degradations found in low-light videos and, as a result, perform poorly even when finetuned on low-light data. In this paper, we introduce \textbf{ELVIS} (\textbf{E}nhance \textbf{L}ow-light for \textbf{V}ideo \textbf{I}nstance \textbf{S}egmentation), a novel framework that enables effective domain adaptation of state-of-the-art VIS models to low-light scenarios. ELVIS comprises an unsupervised synthetic low-light video pipeline that models both spatial and temporal degradations, a calibration-free degradation profile synthesis network (VDP-Net) and an enhancement decoder head that disentangles degradations from content features. ELVIS improves performances by up to \textbf{+3.7AP} on the synthetic low-light YouTube-VIS 2019 dataset. Code will be released upon acceptance.
- Abstract(参考訳): 低照度コンテンツのためのビデオインスタンスセグメンテーション(VIS)は、ノイズ、ぼかし、低コントラストなどの悪い画像条件のため、人間と機械の両方にとって非常に困難である。
大規模な注釈付きデータセットの欠如と、現在の合成パイプラインの制限、特に時間的劣化のモデル化は、さらなる進歩を妨げる。
さらに、既存のVIS法は、低照度ビデオで見られる劣化に対して堅牢ではなく、その結果、低照度データに微調整しても性能が劣る。
本稿では, 最先端VISモデルの低照度シナリオへの効果的なドメイン適応を実現する新しいフレームワークである \textbf{ELVIS} (\textbf{E}nhance \textbf{L}ow-light for \textbf{V}ideo \textbf{I}nstance \textbf{S}egmentation) を紹介する。
ELVISは、空間的劣化と時間的劣化の両方をモデル化した教師なしの低照度ビデオパイプラインと、キャリブレーションのない劣化プロファイル合成ネットワーク(VDP-Net)と、コンテンツ特徴から劣化を分離する拡張デコーダヘッドを備える。
ELVISは、合成低照度YouTube-VIS 2019データセット上でのtextbf{+3.7AP}のパフォーマンスを改善する。
コードは受理時にリリースされる。
関連論文リスト
- FRBNet: Revisiting Low-Light Vision through Frequency-Domain Radial Basis Network [7.386546521017689]
我々は、低照度画像形成を再考し、古典ランベルトモデルを拡張して、低照度条件をより正確に特徴付ける。
textbfFrequency- domain textbfRadial textbfBasis textbfNetwork。
プラグアンドプレイモジュールとして、FRBNetは損失関数を変更することなく、ダウンストリームタスクのために既存のネットワークに統合することができる。
論文 参考訳(メタデータ) (2025-10-27T15:46:07Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Rethinking High-speed Image Reconstruction Framework with Spike Camera [48.627095354244204]
スパイクカメラは連続的なスパイクストリームを生成し、従来のRGBカメラよりも低帯域幅でダイナミックレンジの高速シーンをキャプチャする。
従来のトレーニングパラダイムを超える新しいスパイク・ツー・イメージ再構築フレームワークであるSpikeCLIPを導入する。
実世界の低照度データセットに対する実験により、SpikeCLIPはテクスチャの詳細と回復した画像の輝度バランスを大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-01-08T13:00:17Z) - Event-guided Low-light Video Semantic Segmentation [6.938849566816958]
イベントカメラは、モーションダイナミクスをキャプチャし、時間依存情報をフィルタリングし、照明条件に対して堅牢である。
本稿では、イベントモダリティを利用した軽量なフレームワークであるEVSNetを提案し、統一照明不変表現の学習を指導する。
具体的には、動き抽出モジュールを利用して、事象のモーダルから短期・長期の時間的動きを抽出し、モーションフュージョンモジュールを用いて画像特徴と動き特徴を適応的に統合する。
論文 参考訳(メタデータ) (2024-11-01T14:54:34Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - A Spatio-temporal Aligned SUNet Model for Low-light Video Enhancement [44.1973928137492]
STA-SUNetモデルは、新しい完全に登録されたデータセット(BVI)に基づいて訓練される
3つのテストデータセット上で、他のさまざまなモデルに対して比較的分析されている。
極端に低照度な条件下では特に有効であり、非常に良好な視覚化結果をもたらす。
論文 参考訳(メタデータ) (2024-03-04T19:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。