論文の概要: JVLGS: Joint Vision-Language Gas Leak Segmentation
- arxiv url: http://arxiv.org/abs/2508.19485v1
- Date: Wed, 27 Aug 2025 00:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.451694
- Title: JVLGS: Joint Vision-Language Gas Leak Segmentation
- Title(参考訳): JVLGS:ジョイントビジョンランゲージガス漏れセグメンテーション
- Authors: Xinlong Zhao, Qixiang Pang, Shan Du,
- Abstract要約: ガス漏れは人間の健康に深刻な脅威をもたらす。
効率的な検出方法の欠如は、ガス漏れのタイムリーかつ正確な識別を妨げている。
我々はJVLGS(Joint Vision-Language Gas leak)と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.309853978315187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gas leaks pose serious threats to human health and contribute significantly to atmospheric pollution, drawing increasing public concern. However, the lack of effective detection methods hampers timely and accurate identification of gas leaks. While some vision-based techniques leverage infrared videos for leak detection, the blurry and non-rigid nature of gas clouds often limits their effectiveness. To address these challenges, we propose a novel framework called Joint Vision-Language Gas leak Segmentation (JVLGS), which integrates the complementary strengths of visual and textual modalities to enhance gas leak representation and segmentation. Recognizing that gas leaks are sporadic and many video frames may contain no leak at all, our method incorporates a post-processing step to reduce false positives caused by noise and non-target objects, an issue that affects many existing approaches. Extensive experiments conducted across diverse scenarios show that JVLGS significantly outperforms state-of-the-art gas leak segmentation methods. We evaluate our model under both supervised and few-shot learning settings, and it consistently achieves strong performance in both, whereas competing methods tend to perform well in only one setting or poorly in both. Code available at: https://github.com/GeekEagle/JVLGS
- Abstract(参考訳): ガス漏れは人間の健康に深刻な脅威をもたらし、大気汚染に大きく寄与し、公衆の懸念が高まっている。
しかし、効果的な検出方法が欠如していることは、ガス漏れのタイムリーかつ正確な識別を妨げている。
いくつかの視覚ベースの技術は、赤外線映像を利用して漏れを検知するが、ガス雲のぼやけた非剛性は、その効果を制限していることが多い。
これらの課題に対処するため,我々はJVLGS(Joint Vision-Language Gas leak Segmentation)と呼ばれる新しいフレームワークを提案する。
ガス漏れが散発的であり,多くのビデオフレームに漏れが全くない可能性があることを認識し,ノイズや非ターゲットオブジェクトによる偽陽性を減らすための後処理のステップを取り入れた。
JVLGSは, ガス漏れセグメンテーション法において, ガス漏れセグメンテーション法を著しく上回っている。
我々は,教師付きおよび少数ショットの学習環境下でのモデルの評価を行い,両者の強い性能を一貫して達成する一方,競合する手法は1つの設定でのみ良好に機能する傾向にある。
https://github.com/GeekEagle/JVLGS
関連論文リスト
- Multi-source Plume Tracing via Multi-Agent Reinforcement Learning [41.03292974500013]
ブホバル災害のような産業災害は、迅速で信頼性の高いプルームトレースアルゴリズムの必要性を示している。
勾配に基づく、あるいは生物学的にインスパイアされたアプローチのような伝統的な手法は、しばしば現実的で乱暴な状況で失敗する。
本稿では,複数の大気汚染源をローカライズするマルチエージェント強化学習(MARL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-12T21:33:15Z) - Fine-grained spatial-temporal perception for gas leak segmentation [7.3459436191836796]
ガス漏れは人間の健康と環境に重大なリスクをもたらす。
ガス漏れセグメンテーションのためのFGSTPアルゴリズムを提案する。
FGSTPはフレーム間の重要な動きの手がかりをキャプチャし、それをエンドツーエンドのネットワークで洗練されたオブジェクト機能に統合する。
論文 参考訳(メタデータ) (2025-05-01T04:35:57Z) - Modeling State Shifting via Local-Global Distillation for Event-Frame Gaze Tracking [61.44701715285463]
本稿では,イベントデータとフレームデータの両方を用いた受動的視線推定の問題に取り組む。
我々は、現在の状態からいくつかの事前登録されたアンカー状態に移行する状態の定量化として、視線推定を再構成する。
大規模視線推定ネットワークを直接学習する代わりに,地域の専門家グループと学生ネットワークを連携させることにより,一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-03-31T03:30:37Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - 'Labelling the Gaps': A Weakly Supervised Automatic Eye Gaze Estimation [28.245662058349854]
本稿では,ラベル付きデータの限られた量で視線推定を行うという,興味深い課題について検討する。
提案手法は,視覚的特徴を持つラベル付きサブセットから知識を抽出し,識別特異な外観,視線軌跡の整合性,運動特徴などの特徴を抽出する。
提案手法は,4つのベンチマークデータセット (CAVE, TabletGaze, MPII, Gaze360) と,ウェブクローリングしたYouTubeビデオを用いて評価する。
論文 参考訳(メタデータ) (2022-08-03T04:51:56Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery
Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。
視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。
その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文 参考訳(メタデータ) (2020-12-14T15:53:56Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。