論文の概要: Modality-Buffet for Real-Time Object Detection
- arxiv url: http://arxiv.org/abs/2011.08726v1
- Date: Tue, 17 Nov 2020 15:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 16:29:51.192100
- Title: Modality-Buffet for Real-Time Object Detection
- Title(参考訳): 実時間物体検出のためのモダリティビュッフェ
- Authors: Nicolai Dorka, Johannes Meyer, Wolfram Burgard
- Abstract要約: 軽量ハードウェアを用いたビデオにおけるリアルタイム物体検出は多くのロボット作業において重要な要素である。
1つの選択肢は、フレーム毎にすべてのモダリティを同時に予測できる非常に軽量なモデルを持つことです。
我々は、このタスクを逐次決定問題として定式化し、強化学習(RL)を使用して、次の予測を行うために、異なる対象検出器のポートフォリオから検出するRGB入力から決定するポリシーを生成する。
- 参考スコア(独自算出の注目度): 25.89199578900324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time object detection in videos using lightweight hardware is a crucial
component of many robotic tasks. Detectors using different modalities and with
varying computational complexities offer different trade-offs. One option is to
have a very lightweight model that can predict from all modalities at once for
each frame. However, in some situations (e.g., in static scenes) it might be
better to have a more complex but more accurate model and to extrapolate from
previous predictions for the frames coming in at processing time. We formulate
this task as a sequential decision making problem and use reinforcement
learning (RL) to generate a policy that decides from the RGB input which
detector out of a portfolio of different object detectors to take for the next
prediction. The objective of the RL agent is to maximize the accuracy of the
predictions per image. We evaluate the approach on the Waymo Open Dataset and
show that it exceeds the performance of each single detector.
- Abstract(参考訳): 軽量ハードウェアを用いたビデオのリアルタイムオブジェクト検出は、多くのロボットタスクの重要なコンポーネントである。
異なるモダリティと異なる計算複雑性を持つ検出器は、異なるトレードオフを提供する。
1つの選択肢は、フレーム毎にすべてのモダリティを同時に予測できる非常に軽量なモデルを持つことです。
しかし、ある状況(例えば静的なシーン)では、より複雑だがより正確なモデルを持ち、処理時にやってくるフレームの以前の予測から外挿する方がよいかもしれない。
我々は、このタスクを逐次決定問題として定式化し、強化学習(RL)を使用して、次の予測を行うために、異なる対象検出器のポートフォリオから検出するRGB入力から決定するポリシーを生成する。
rlエージェントの目的は、画像当たりの予測の精度を最大化することである。
Waymo Open Datasetのアプローチを評価し,各検出器の性能を上回っていることを示す。
関連論文リスト
- Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Identifying Light-curve Signals with a Deep Learning Based Object
Detection Algorithm. II. A General Light Curve Classification Framework [0.0]
弱教師付き物体検出モデルを用いて光曲線を分類するための新しいディープラーニングフレームワークを提案する。
本フレームワークは,光曲線とパワースペクトルの両方に最適なウィンドウを自動同定し,対応するデータにズームインする。
我々は、変動星と過渡星の宇宙と地上の両方のマルチバンド観測から得られたデータセットに基づいてモデルを訓練する。
論文 参考訳(メタデータ) (2023-11-14T11:08:34Z) - 3D Video Object Detection with Learnable Object-Centric Global
Optimization [65.68977894460222]
対応性に基づく最適化は3次元シーン再構成の基盤となるが、3次元ビデオオブジェクト検出では研究されていない。
オブジェクト中心の時間対応学習と特徴量付きオブジェクトバンドル調整を備えた、エンドツーエンドで最適化可能なオブジェクト検出器であるBA-Detを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:39:39Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - RMOPP: Robust Multi-Objective Post-Processing for Effective Object
Detection [0.0]
RMOPPは統計的に駆動された後処理アルゴリズムであり、精度とリコールの同時最適化を可能にする。
MS-COCOデータセットを用いて、YOLOv2上で魅力的なテストケースを提供する。
論文 参考訳(メタデータ) (2021-02-09T00:02:38Z) - Decoupled Appearance and Motion Learning for Efficient Anomaly Detection
in Surveillance Video [9.80717374118619]
我々は、純粋に教師なしの方法で正常な振る舞いを学習する新しいニューラルネットワークアーキテクチャを提案する。
我々のモデルは、関連するアプローチの16倍から45倍のフレームを毎秒処理できる。
論文 参考訳(メタデータ) (2020-11-10T11:40:06Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。