論文の概要: C-RADIOv4 (Tech Report)
- arxiv url: http://arxiv.org/abs/2601.17237v1
- Date: Sat, 24 Jan 2026 00:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.435547
- Title: C-RADIOv4 (Tech Report)
- Title(参考訳): C-RADIOv4 (技術報告)
- Authors: Mike Ranzinger, Greg Heinrich, Collin McCarthy, Jan Kautz, Andrew Tao, Bryan Catanzaro, Pavlo Molchanov,
- Abstract要約: AM-RADIO/RADIOv2.5をベースとした最新のC-RADIOモデルであるC-RADIOv4について述べる。
我々は-SO400M (412M params) と-H (631M) モデル版をリリースし、どちらもSigLIP2, DINOv3, SAM3という教師セットでトレーニングした。
- 参考スコア(独自算出の注目度): 75.59244323745321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By leveraging multi-teacher distillation, agglomerative vision backbones provide a unified student model that retains and improves the distinct capabilities of multiple teachers. In this tech report, we describe the most recent release of the C-RADIO family of models, C-RADIOv4, which builds upon AM-RADIO/RADIOv2.5 in design, offering strong improvements on key downstream tasks at the same computational complexity. We release -SO400M (412M params), and -H (631M) model variants, both trained with an updated set of teachers: SigLIP2, DINOv3, and SAM3. In addition to improvements on core metrics and new capabilities from imitating SAM3, the C-RADIOv4 model family further improves any-resolution support, brings back the ViTDet option for drastically enhanced efficiency at high-resolution, and comes with a permissive license.
- Abstract(参考訳): マルチティーチンガー蒸留を活用することで、集合的視覚バックボーンは、複数の教師の異なる能力を維持し、改善する統合された学生モデルを提供する。
この技術レポートでは、AM-RADIO/RADIOv2.5をベースとしたC-RADIOモデルの最新のリリースであるC-RADIOv4について説明する。
我々は-SO400M (412M params) と-H (631M) モデル版をリリースし、どちらもSigLIP2, DINOv3, SAM3という教師セットでトレーニングした。
C-RADIOv4モデルファミリは、SAM3の模倣によるコアメトリックと新機能の改善に加えて、任意の解像度サポートを改善し、高解像度での大幅な効率向上のためのViTDetオプションを復活させ、パーミッシブライセンスを提供する。
関連論文リスト
- On-Policy Context Distillation for Language Models [92.82835176360864]
本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。
実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-12T18:58:28Z) - MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models [123.90007730845876]
MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation frameworkを提案する。
私たちの重要なイノベーションは、クリーンな機能の保存と堅牢な機能の強化を協調的に最適化する、デュアルテスタの知識融合アーキテクチャです。
ImageNetとゼロショットベンチマークの実験では、MT-ARDは頑健な精度を+4.32%、ゼロショットの精度を+3.5%改善している。
論文 参考訳(メタデータ) (2025-11-21T17:46:44Z) - LLM4Rec: Large Language Models for Multimodal Generative Recommendation with Causal Debiasing [4.638507244153875]
本稿では,5つの重要なイノベーションを取り入れた改良型生成レコメンデーションフレームワークを提案する。
マルチモーダル融合アーキテクチャ、検索強化生成機構、因果推論に基づくデバイアス、説明可能なレコメンデーション生成、リアルタイム適応学習機能。
論文 参考訳(メタデータ) (2025-10-02T02:53:05Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Beam Selection in ISAC using Contextual Bandit with Multi-modal Transformer and Transfer Learning [10.728362890819392]
第6世代 (6G) 無線技術は, インテグレート・センシング・コミュニケーション (ISAC) をトランスフォーメーションパラダイムとして導入する予定である。
本稿では、ISACセンシングデータを利用して複雑な屋内環境におけるビーム選択プロセスを強化する先駆的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T22:35:19Z) - RadioLLM: Introducing Large Language Model into Cognitive Radio via Hybrid Prompt and Token Reprogrammings [15.98684925275276]
大言語モデル(LLM)は認知無線技術(CRT)の進展に新たな可能性をもたらす
提案するRadioLLMは,無線信号特徴と専門知識を組み合わせたHPTR(Hybrid Prompt and Token Regramming)と高頻度特徴モデリングのためのFAF( Frequency-Attuned Fusion)モジュールを組み合わせた新しいフレームワークである。
論文 参考訳(メタデータ) (2025-01-28T07:38:04Z) - Tulu 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
トゥル3(Tulu 3)は、最先端の訓練後モデルである。
Tulu 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文 参考訳(メタデータ) (2024-11-22T18:44:04Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - Improved Multi-Stage Training of Online Attention-based Encoder-Decoder
Models [20.81248613653279]
本稿では,オンラインアテンションベースのエンコーダデコーダモデルの性能向上を目的としたマルチステージマルチタスクトレーニング手法を提案する。
3段階のアーキテクチャ粒度、文字エンコーダ、バイトペアエンコーダ(BPE)ベースのエンコーダ、アテンションデコーダに基づく3段階のトレーニングを提案する。
我々のモデルでは,小モデルと大モデルでそれぞれ5.04%と4.48%の単語誤り率(WER)をLibrispeechテストクリーンデータ上で達成している。
論文 参考訳(メタデータ) (2019-12-28T02:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。