Fugu-MT 論文翻訳(概要): Learning to Find Missing Video Frames with Synthetic Data Augmentation: A General Framework and Application in Generating Thermal Images Using RGB Cameras

論文の概要: Learning to Find Missing Video Frames with Synthetic Data Augmentation: A General Framework and Application in Generating Thermal Images Using RGB Cameras

arxiv url: http://arxiv.org/abs/2403.00196v1
Date: Thu, 29 Feb 2024 23:52:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 18:48:08.885737
Title: Learning to Find Missing Video Frames with Synthetic Data Augmentation: A General Framework and Application in Generating Thermal Images Using RGB Cameras
Title（参考訳）: 合成データ拡張によるビデオフレームの欠落発見の学習--rgbカメラを用いた熱画像生成のためのフレームワークと応用
Authors: Mathias Viborg Andersen, Ross Greer, Andreas M{\o}gelmose, Mohan Trivedi
Abstract要約: 本稿では,センサフレームレートのミスマッチによるデータ不足の問題に対処する。本研究では, 条件付き生成逆数ネットワーク(cGAN)を用いて, 合成的かつ現実的な熱画像を作成することを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advanced Driver Assistance Systems (ADAS) in intelligent vehicles rely on accurate driver perception within the vehicle cabin, often leveraging a combination of sensing modalities. However, these modalities operate at varying rates, posing challenges for real-time, comprehensive driver state monitoring. This paper addresses the issue of missing data due to sensor frame rate mismatches, introducing a generative model approach to create synthetic yet realistic thermal imagery. We propose using conditional generative adversarial networks (cGANs), specifically comparing the pix2pix and CycleGAN architectures. Experimental results demonstrate that pix2pix outperforms CycleGAN, and utilizing multi-view input styles, especially stacked views, enhances the accuracy of thermal image generation. Moreover, the study evaluates the model's generalizability across different subjects, revealing the importance of individualized training for optimal performance. The findings suggest the potential of generative models in addressing missing frames, advancing driver state monitoring for intelligent vehicles, and underscoring the need for continued research in model generalization and customization.
Abstract（参考訳）: インテリジェントカーにおけるアドバンストドライバー支援システム(ADAS)は、車両キャビン内の正確なドライバー認識に依存しており、しばしば知覚モダリティの組み合わせを利用する。しかし、これらのモダリティは様々なレートで動作し、リアルタイムで包括的な運転状態監視の課題となっている。本稿では,センサフレームレートのミスマッチによるデータ不足の問題に対処し,合成的かつ現実的な熱画像を作成するための生成モデルを提案する。本稿では, 条件付き生成逆数ネットワーク (cGAN) を用いて, pix2pix と CycleGAN アーキテクチャを比較した。実験の結果,Pix2pixはCycleGANより優れており,特に積み重ねたビューを多視点入力スタイルで利用することで,熱画像生成の精度が向上することがわかった。さらに,各対象に対するモデルの一般化可能性を評価し,最適性能に対する個別化訓練の重要性を明らかにした。この知見は、欠落したフレームへの対処、インテリジェントな車両の運転状態監視の進展、モデルの一般化とカスタマイズに関する継続的な研究の必要性を示唆する。

関連論文リスト

DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving [9.882070476776274]
一般化可能なカメラシミュレーションフレームワークDriveCamSimを提案する。私たちの中心となるイノベーションは、提案されているExplicit Camera Modelingメカニズムにあります。制御可能な生成のために、既存の条件エンコーディングおよびインジェクションパイプラインに固有の情報損失の問題を同定する。
論文参考訳（メタデータ） (2025-05-26T08:50:15Z)
Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文参考訳（メタデータ） (2025-03-21T12:27:49Z)
Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文参考訳（メタデータ） (2024-12-11T06:35:18Z)
Exploring Fully Convolutional Networks for the Segmentation of Hyperspectral Imaging Applied to Advanced Driver Assistance Systems [1.8874331450711404]
高度運転支援システム(ADAS)におけるハイパースペクトルイメージング(HSI)の利用について検討する。本稿では,完全な畳み込みネットワーク(FCN)をADAS用HSIの画像セグメント化に適用した実験結果について述べる。我々はHSI-Drive v1.1データセットを使用し、実際の運転条件で記録されたラベル付き画像のセットを、小型のNIR-HSIカメラで提供する。
論文参考訳（メタデータ） (2024-12-05T08:58:25Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning [13.613407983544427]
車両内のカメラ位置の変化に耐えられるような頑健なモデルを導入する。我々のドライバ行動監視ネットワーク(DBMNet)は軽量なバックボーンに依存し、アンタングルメントモジュールを統合する。 100-Driverデータセットの夜間および夜間のサブセットで行った実験は、我々のアプローチの有効性を検証した。
論文参考訳（メタデータ） (2024-11-20T10:27:12Z)
LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution [1.747623282473278]
複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
論文参考訳（メタデータ） (2024-11-12T12:23:19Z)
Analysis of Classifier Training on Synthetic Data for Cross-Domain Datasets [4.696575161583618]
本研究は、高度な運転支援システムと自律運転のためのカメラベースの交通標識認識アプリケーションに焦点を当てた。合成データセットの増補パイプラインは、構造化影やガウスの特異なハイライトのような新しい増補プロセスを含む。実験の結果、クロスドメインテストデータセットに適用した場合、ほとんどの場合、合成画像ベースアプローチは実際の画像ベーストレーニングよりも優れていた。
論文参考訳（メタデータ） (2024-10-30T07:11:41Z)
Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文参考訳（メタデータ） (2024-04-23T21:00:22Z)
CarPatch: A Synthetic Benchmark for Radiance Field Evaluation on Vehicle Components [77.33782775860028]
車両の新たな総合ベンチマークであるCarPatchを紹介する。内在カメラパラメータと外在カメラパラメータを付加した画像のセットに加えて、各ビューに対して対応する深度マップとセマンティックセグメンテーションマスクが生成されている。グローバルとパートベースのメトリクスは、いくつかの最先端技術を評価し、比較し、より良い特徴付けるために定義され、使われてきた。
論文参考訳（メタデータ） (2023-07-24T11:59:07Z)
Physics-Driven Turbulence Image Restoration with Stochastic Refinement [80.79900297089176]
大気乱流による画像歪みは、長距離光学画像システムにおいて重要な問題である。ディープラーニングモデルが現実世界の乱流条件に適応するために、高速で物理学的なシミュレーションツールが導入された。本稿では,物理統合復元ネットワーク(PiRN)を提案する。
論文参考訳（メタデータ） (2023-07-20T05:49:21Z)
Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。我々は、最先端の核融合法を初めてベンチマークした。
論文参考訳（メタデータ） (2022-05-30T09:35:37Z)
Monitoring and Adapting the Physical State of a Camera for Autonomous Vehicles [10.490646039938252]
本稿では,データおよび物理モデルに基づくカメラの汎用的・タスク指向型自己維持フレームワークを提案する。このフレームワークを現実世界の地上車両に実装し、カメラが粗悪な状況に対応するためにパラメータを調整できることを実証する。われわれのフレームワークは、カメラの健康状態を監視し維持するための実用的なソリューションを提供するだけでなく、より高度な問題に対処するための拡張の基盤としても機能する。
論文参考訳（メタデータ） (2021-12-10T11:14:44Z)
Predicting Take-over Time for Autonomous Driving with Real-World Data: Robust Data Augmentation, Models, and Evaluation [11.007092387379076]
我々は、運転者向けカメラビューで動作するコンピュータビジョンアルゴリズムによって作成される中高レベルの機能で動作するテイクオーバー時間(TOT)モデルを開発し、訓練する。拡張データでサポートされたTOTモデルを用いて,遅延なく連続的なテイクオーバー時間を推定できることを示す。
論文参考訳（メタデータ） (2021-07-27T16:39:50Z)
TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。 TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文参考訳（メタデータ） (2021-05-28T19:08:43Z)
Towards Automated Neural Interaction Discovery for Click-Through Rate Prediction [64.03526633651218]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最も重要な機械学習タスクの1つである。本稿では,AutoCTR と呼ばれる CTR 予測のための自動インタラクションアーキテクチャ探索フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-29T04:33:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。