Fugu-MT 論文翻訳(概要): Recognize Any Regions

論文の概要: Recognize Any Regions

arxiv url: http://arxiv.org/abs/2311.01373v1
Date: Thu, 2 Nov 2023 16:31:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 12:48:49.676545
Title: Recognize Any Regions
Title（参考訳）: 地域を認識する
Authors: Haosen Yang, Chuofan Ma, Bin Wen, Yi Jiang, Zehuan Yuan, Xiatian Zhu
Abstract要約: RegionSpotは、ローカライゼーション基盤モデルから位置認識のローカライゼーション知識と、ViLモデルから抽出されたセマンティック情報を統合するように設計されている。我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。
参考スコア（独自算出の注目度）: 59.08881073582635
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the semantics of individual regions or patches within unconstrained images, such as in open-world object detection, represents a critical yet challenging task in computer vision. Building on the success of powerful image-level vision-language (ViL) foundation models like CLIP, recent efforts have sought to harness their capabilities by either training a contrastive model from scratch with an extensive collection of region-label pairs or aligning the outputs of a detection model with image-level representations of region proposals. Despite notable progress, these approaches are plagued by computationally intensive training requirements, susceptibility to data noise, and deficiency in contextual information. To address these limitations, we explore the synergistic potential of off-the-shelf foundation models, leveraging their respective strengths in localization and semantics. We introduce a novel, generic, and efficient region recognition architecture, named RegionSpot, designed to integrate position-aware localization knowledge from a localization foundation model (e.g., SAM) with semantic information extracted from a ViL model (e.g., CLIP). To fully exploit pretrained knowledge while minimizing training overhead, we keep both foundation models frozen, focusing optimization efforts solely on a lightweight attention-based knowledge integration module. Through extensive experiments in the context of open-world object recognition, our RegionSpot demonstrates significant performance improvements over prior alternatives, while also providing substantial computational savings. For instance, training our model with 3 million data in a single day using 8 V100 GPUs. Our model outperforms GLIP by 6.5 % in mean average precision (mAP), with an even larger margin by 14.8 % for more challenging and rare categories.
Abstract（参考訳）: オープンワールドオブジェクト検出など、制約のない画像内の個々の領域やパッチの意味を理解することは、コンピュータビジョンにおいて重要な課題である。 CLIPのような強力な画像レベルの視覚言語(ViL)基盤モデルの成功に基づいて、最近の取り組みは、領域ラベルペアの広範なコレクションで対照的なモデルをスクラッチからトレーニングするか、検出モデルの出力を領域提案の画像レベル表現と整合させることによって、それらの能力を活用しようとしている。注目すべき進歩にもかかわらず、これらのアプローチは計算集約的なトレーニング要求、データノイズに対する感受性、文脈情報の不足によって苦しめられている。これらの制約に対処するために、我々は、各強みをローカライズとセマンティクスに生かして、既成の基盤モデルの相乗的ポテンシャルを探求する。本研究では,VLモデル(例えばCLIP)から抽出したセマンティック情報と局所化基盤モデル(SAM)から位置認識ローカライゼーション知識を統合するために設計された,新しい,汎用的で効率的なリージョン認識アーキテクチャであるRereaSpotを紹介する。トレーニングのオーバーヘッドを最小限に抑えながら、トレーニング済みの知識を十分に活用するために、基礎モデルの両方を凍結し、軽量な注意に基づく知識統合モジュールのみに最適化の取り組みを集中させます。オープンワールドオブジェクト認識の文脈における広範な実験を通じて、我々のRereaSpotは、従来の代替よりも大幅に性能が向上し、計算コストを大幅に削減する。例えば、8v100 gpuを使用して、1日に300万のデータでモデルをトレーニングします。我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。

関連論文リスト

Region-based Cluster Discrimination for Visual Representation Learning [30.79223671093668]
Region-Aware Cluster Discrimination (RICE)は、地域レベルの視覚とOCR機能を強化する新しい手法である。 RICEは、セグメンテーション、密集検知、視覚知覚など、タスクにおける従来の手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-07-26T17:47:09Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
UAL-Bench: The First Comprehensive Unusual Activity Localization Benchmark [20.15425745473231]
ビデオにおけるヒューマンエラーや監視インシデントなどの異常な活動のローカライズは、現実的に重要な意味を持つ。異常な活動のローカライズにおける基礎モデルの能力を探るため,UAL-Benchを紹介する。 UAL-Benchには、UAG-OOPS、UAG-SSBD、UAG-FunQAという3つのビデオデータセットと、OOPS-UAG-Instructというインストラクション・トゥンデータセットがある。以上の結果から,VLM-LLMアプローチはVid-LLMよりも短時間の異常事象の局所化や開始時刻の予測に優れていた。
論文参考訳（メタデータ） (2024-10-02T02:33:09Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。 MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文参考訳（メタデータ） (2024-01-29T08:13:40Z)
Revisiting Active Learning in the Era of Vision Foundation Models [0.0]
ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルなしまたはノイズの多いデータに基づいて訓練される。これらは、ラベル付け効率を最大化することを目的としたアクティブラーニング(AL)に自然に適合する。基礎モデルが有効ALの3つの重要な構成要素にどのように影響するかを評価する。
論文参考訳（メタデータ） (2024-01-25T22:50:39Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)
Lightweight Portrait Matting via Regional Attention and Refinement [7.206702064210176]
我々は高解像度のポートレート・マッティングのための軽量モデルを提案する。モデルはトリマップやバックグラウンドキャプチャのような補助的な入力を使用しない。 HDビデオではリアルタイムのパフォーマンスを実現し、4Kではほぼリアルタイムである。
論文参考訳（メタデータ） (2023-11-07T07:14:28Z)
Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。 SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。この新しいアプローチはSAMを認識能力で強化する。
論文参考訳（メタデータ） (2023-10-03T07:19:59Z)
ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection [52.16237548064387]
Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。本研究では,局所的な部分に応じて大域的オブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。
論文参考訳（メタデータ） (2023-09-15T06:55:43Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Conditioning Covert Geo-Location (CGL) Detection on Semantic Class Information [5.660207256468971]
サハらによってCCGL(Covert Geo-Location)検出と呼ばれる潜在的な隠蔽物を特定するタスクが提案された。セマンティッククラス情報を利用する試みは行われなかった。本稿では,2つの目標を達成するためのマルチタスク学習に基づくアプローチを提案する。i) 意味クラス情報を持つ特徴の抽出;i) 共通エンコーダの堅牢なトレーニング。
論文参考訳（メタデータ） (2022-11-27T07:21:59Z)
PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文参考訳（メタデータ） (2020-11-25T11:03:11Z)
Pairwise Similarity Knowledge Transfer for Weakly Supervised Object Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。 COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文参考訳（メタデータ） (2020-03-18T17:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。