Fugu-MT 論文翻訳(概要): AM-RADIO: Agglomerative Model -- Reduce All Domains Into One

論文の概要: AM-RADIO: Agglomerative Model -- Reduce All Domains Into One

arxiv url: http://arxiv.org/abs/2312.06709v1
Date: Sun, 10 Dec 2023 17:07:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 18:47:32.785433
Title: AM-RADIO: Agglomerative Model -- Reduce All Domains Into One
Title（参考訳）: AM-RADIO: 集約モデル - すべてのドメインをひとつに
Authors: Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov
Abstract要約: このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
参考スコア（独自算出の注目度）: 51.98777863920393
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A handful of visual foundation models (VFMs) have recently emerged as the backbones for numerous downstream tasks. VFMs like CLIP, DINOv2, SAM are trained with distinct objectives, exhibiting unique characteristics for various downstream tasks. We find that despite their conceptual differences, these models can be effectively merged into a unified model through multi-teacher distillation. We name this approach AM-RADIO (Agglomerative Model -- Reduce All Domains Into One). This integrative approach not only surpasses the performance of individual teacher models but also amalgamates their distinctive features, such as zero-shot vision-language comprehension, detailed pixel-level understanding, and open vocabulary segmentation capabilities. In pursuit of the most hardware-efficient backbone, we evaluated numerous architectures in our multi-teacher distillation pipeline using the same training recipe. This led to the development of a novel architecture (E-RADIO) that exceeds the performance of its predecessors and is at least 7x faster than the teacher models. Our comprehensive benchmarking process covers downstream tasks including ImageNet classification, ADE20k semantic segmentation, COCO object detection and LLaVa-1.5 framework. Code: https://github.com/NVlabs/RADIO
Abstract（参考訳）: いくつかのビジュアルファンデーションモデル(VFM)が最近、下流タスクのバックボーンとして登場した。 CLIP、DINOv2、SAMなどのVFMは、異なる目的でトレーニングされており、さまざまな下流タスクに固有の特性を示している。概念的相違にもかかわらず、これらのモデルはマルチティーチンガー蒸留により効果的に統一モデルにマージ可能である。このアプローチをAM-RADIO(Agglomerative Model -- Reduce All Domains Into One)と呼ぶ。この統合的アプローチは、個々の教師モデルのパフォーマンスを超えるだけでなく、ゼロショット視覚言語理解、詳細なピクセルレベルの理解、オープンボキャブラリセグメンテーション機能などの特徴を融合させる。最もハードウェア効率のよいバックボーンを追求するため、同じトレーニングレシピを用いてマルチティーチンガー蒸留パイプラインの多数のアーキテクチャを評価した。これは、前任者の性能を超え、教師モデルよりも少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)の開発につながった。包括的なベンチマークプロセスは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーする。コード: https://github.com/nvlabs/radio

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。多様な視覚的目標を認識し、位置を特定する能力を持つべきである。いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文参考訳（メタデータ） (2025-05-23T15:27:57Z)
DINOv2-powered Few-Shot Semantic Segmentation: A Unified Framework via Cross-Model Distillation and 4D Correlation Mining [30.564216896513596]
セマンティックセグメンテーションは、その一般化能力によって関心が高まっている。近年,表現の伝達性向上のための基礎モデルが提案されている。 DINOv2エンコーダと軽量セグメンタのみを備えたFS-DINOを提案する。
論文参考訳（メタデータ） (2025-04-22T07:47:06Z)
Leveraging Foundation Models via Knowledge Distillation in Multi-Object Tracking: Distilling DINOv2 Features to FairMOT [0.5999777817331317]
この研究は、知識蒸留を用いて、DINOv2と呼ばれる1つの基礎モデルを活用することを試みている。その結果,提案手法は特定のシナリオの改善を示すが,本来のFairMOTモデルよりも常に優れているわけではないことが示唆された。
論文参考訳（メタデータ） (2024-07-25T14:21:35Z)
OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。 OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-01-18T18:59:34Z)
Gramian Attention Heads are Strong yet Efficient Vision Learners [26.79263390835444]
複数のヘッダ分類器(e, classification head)を組み込むことで表現性を向上する新しいアーキテクチャ設計を提案する。本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用したアグリゲーションを用いる。われわれのモデルは最終的に、ImageNet-1Kの精度の細かいトレードオフに関して、最先端のCNNやViTを上回ることになる。
論文参考訳（メタデータ） (2023-10-25T09:08:58Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
Progressive Volume Distillation with Active Learning for Efficient NeRF Architecture Conversion [27.389511043400635]
ニューラルフィールド(NeRF)は3次元シーンの実用的で汎用的な表現として広く採用されている。本稿では, 系統的蒸留法として, アクティブラーニングを用いたプログレッシブボリューム蒸留法 (PVD-AL) を提案する。 PVD-ALは、各構造を2つの部分に分解し、より浅い体積表現からより深い体積表現への蒸留を徐々に行う。
論文参考訳（メタデータ） (2023-04-08T13:59:18Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文参考訳（メタデータ） (2022-01-15T19:49:00Z)
Universal Representation Learning from Multiple Domains for Few-shot Classification [41.821234589075445]
複数の個別に訓練されたネットワークの知識を蒸留し,一組の普遍的な深層表現を学習することを提案する。より効率的な適応ステップにより、未確認領域に対する普遍表現をさらに洗練できることが示される。
論文参考訳（メタデータ） (2021-03-25T13:49:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。