論文の概要: C-RADIOv4 (Tech Report)
- arxiv url: http://arxiv.org/abs/2601.17237v1
- Date: Sat, 24 Jan 2026 00:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.435547
- Title: C-RADIOv4 (Tech Report)
- Title(参考訳): C-RADIOv4 (技術報告)
- Authors: Mike Ranzinger, Greg Heinrich, Collin McCarthy, Jan Kautz, Andrew Tao, Bryan Catanzaro, Pavlo Molchanov,
- Abstract要約: AM-RADIO/RADIOv2.5をベースとした最新のC-RADIOモデルであるC-RADIOv4について述べる。
我々は-SO400M (412M params) と-H (631M) モデル版をリリースし、どちらもSigLIP2, DINOv3, SAM3という教師セットでトレーニングした。
- 参考スコア(独自算出の注目度): 75.59244323745321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By leveraging multi-teacher distillation, agglomerative vision backbones provide a unified student model that retains and improves the distinct capabilities of multiple teachers. In this tech report, we describe the most recent release of the C-RADIO family of models, C-RADIOv4, which builds upon AM-RADIO/RADIOv2.5 in design, offering strong improvements on key downstream tasks at the same computational complexity. We release -SO400M (412M params), and -H (631M) model variants, both trained with an updated set of teachers: SigLIP2, DINOv3, and SAM3. In addition to improvements on core metrics and new capabilities from imitating SAM3, the C-RADIOv4 model family further improves any-resolution support, brings back the ViTDet option for drastically enhanced efficiency at high-resolution, and comes with a permissive license.
- Abstract(参考訳): マルチティーチンガー蒸留を活用することで、集合的視覚バックボーンは、複数の教師の異なる能力を維持し、改善する統合された学生モデルを提供する。
この技術レポートでは、AM-RADIO/RADIOv2.5をベースとしたC-RADIOモデルの最新のリリースであるC-RADIOv4について説明する。
我々は-SO400M (412M params) と-H (631M) モデル版をリリースし、どちらもSigLIP2, DINOv3, SAM3という教師セットでトレーニングした。
C-RADIOv4モデルファミリは、SAM3の模倣によるコアメトリックと新機能の改善に加えて、任意の解像度サポートを改善し、高解像度での大幅な効率向上のためのViTDetオプションを復活させ、パーミッシブライセンスを提供する。
関連論文リスト
- One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - RadioLLM: Introducing Large Language Model into Cognitive Radio via Hybrid Prompt and Token Reprogrammings [15.98684925275276]
大言語モデル(LLM)は認知無線技術(CRT)の進展に新たな可能性をもたらす
提案するRadioLLMは,無線信号特徴と専門知識を組み合わせたHPTR(Hybrid Prompt and Token Regramming)と高頻度特徴モデリングのためのFAF( Frequency-Attuned Fusion)モジュールを組み合わせた新しいフレームワークである。
論文 参考訳(メタデータ) (2025-01-28T07:38:04Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。