Fugu-MT 論文翻訳(概要): Robust Object Detection with Multi-input Multi-output Faster R-CNN

論文の概要: Robust Object Detection with Multi-input Multi-output Faster R-CNN

arxiv url: http://arxiv.org/abs/2111.13065v1
Date: Thu, 25 Nov 2021 12:59:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-29 16:45:31.413306
Title: Robust Object Detection with Multi-input Multi-output Faster R-CNN
Title（参考訳）: 多出力マルチ出力高速R-CNNによるロバスト物体検出
Authors: Sebastian Cygert, Andrzej Czyzewski
Abstract要約: 本研究は、汎用的なFaster R-CNNモデルを用いたオブジェクト検出のタスクに対して、MIMO(multi-input multi-output architecture)を適用した。 MIMOは強力な特徴表現の構築を可能にし、入力/出力ペアを2つだけ使う場合、非常に競争力のある精度を得る。また、0.5%追加のモデルパラメータを追加し、標準のFaster R-CNNと比較して推論時間を15.9%向上させた。
参考スコア（独自算出の注目度）: 2.9823962001574182
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have seen impressive progress in visual recognition on many benchmarks, however, generalization to the real-world in out-of-distribution setting remains a significant challenge. A state-of-the-art method for robust visual recognition is model ensembling. however, recently it was shown that similarly competitive results could be achieved with a much smaller cost, by using multi-input multi-output architecture (MIMO). In this work, a generalization of the MIMO approach is applied to the task of object detection using the general-purpose Faster R-CNN model. It was shown that using the MIMO framework allows building strong feature representation and obtains very competitive accuracy when using just two input/output pairs. Furthermore, it adds just 0.5\% additional model parameters and increases the inference time by 15.9\% when compared to the standard Faster R-CNN. It also works comparably to, or outperforms the Deep Ensemble approach in terms of model accuracy, robustness to out-of-distribution setting, and uncertainty calibration when the same number of predictions is used. This work opens up avenues for applying the MIMO approach in other high-level tasks such as semantic segmentation and depth estimation.
Abstract（参考訳）: 近年、多くのベンチマークで視覚認識が著しく進歩しているが、配布外設定での現実世界への一般化は大きな課題である。堅牢な視覚認識のための最先端の手法はモデルアンサンブルである。しかし、近年、MIMO(Multi-Input Multi-output Architecture)を用いることで、同様の競合的な結果が得られることが示されている。本研究では,MIMO手法の一般化を汎用的なFaster R-CNNモデルを用いたオブジェクト検出のタスクに適用する。 MIMOフレームワークを使うことで、強力な特徴表現を構築することができ、入力/出力ペアを2つだけ使う場合、非常に競争力のある精度が得られる。さらに、0.5\%の追加モデルパラメータを追加し、標準のFaster R-CNNと比較して推論時間を15.9\%増加させる。また、モデル精度、分布外セッティングに対する堅牢性、同じ数の予測が使用される場合の不確実性キャリブレーションの観点から、Deep Ensembleアプローチに比較して、あるいは性能を向上する。この研究は、意味的セグメンテーションや深さ推定といった他のハイレベルなタスクにMIMOアプローチを適用するための道を開く。

関連論文リスト

Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-27T17:09:44Z)
CEC-MMR: Cross-Entropy Clustering Approach to Multi-Modal Regression [8.127496643086701]
本稿では,回帰問題における成分数の自動検出を可能にするCEC-MMRを提案する。属性とその値が与えられた場合、そのメソッドは基盤となるコンポーネントと一意に識別することができる。その結果,CEC-MMRは古典的MDNよりも優れた結果が得られた。
論文参考訳（メタデータ） (2025-04-09T21:51:38Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Towards Unified Benchmark and Models for Multi-Modal Perceptual Metrics [37.86612817818566]
CLIPや大規模マルチモーダルモデル(LMM)などの汎用視覚言語モデルは、ゼロショット知覚メトリクスとして適用することができる。提案するUniSim-Benchは、7つのマルチモーダルな知覚的類似性タスクと合計25のデータセットを包含するベンチマークである。我々の評価では、汎用モデルは平均的に合理的に機能するが、個々のタスクの特化モデルに遅れが生じることが多い。
論文参考訳（メタデータ） (2024-12-13T22:38:09Z)
Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter [32.64004722423187]
RGB-スケルトン行動認識モデルのロバスト性を改善する方法について述べる。本稿では,formatwordAMR(formatwordAttention-based formatwordModality formatwordReweighter)を提案する。私たちのAMRはプラグアンドプレイで、マルチモーダルモデルと簡単に統合できます。
論文参考訳（メタデータ） (2024-07-29T13:15:51Z)
XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文参考訳（メタデータ） (2024-05-28T03:00:58Z)
RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文参考訳（メタデータ） (2023-10-18T07:30:08Z)
Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文参考訳（メタデータ） (2023-10-03T01:13:17Z)
Probabilistic MIMO U-Net: Efficient and Accurate Uncertainty Estimation for Pixel-wise Regression [1.4528189330418977]
機械学習における不確実性推定は、予測モデルの信頼性と解釈可能性を高めるための最重要課題である。画素ワイド回帰タスクに対するMIMO(Multiple-Input Multiple-Output)フレームワークの適応について述べる。
論文参考訳（メタデータ） (2023-08-14T22:08:28Z)
Mutual Information Regularization for Weakly-supervised RGB-D Salient Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文参考訳（メタデータ） (2023-06-06T12:36:57Z)
IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-01-06T10:08:11Z)
RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文参考訳（メタデータ） (2021-10-27T05:37:12Z)
SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文参考訳（メタデータ） (2021-10-11T19:23:50Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)
FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。このアプローチは、検出と追跡の両方において高い精度を達成する。
論文参考訳（メタデータ） (2020-04-04T08:18:00Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。