論文の概要: Ruyi2.5 Technical Report
- arxiv url: http://arxiv.org/abs/2603.17311v1
- Date: Wed, 18 Mar 2026 03:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.493307
- Title: Ruyi2.5 Technical Report
- Title(参考訳): Ruyi2.5技術報告
- Authors: Huan Song, Shuyu Tian, Qingfei Zhao, Wenhao Hong, Jiang Liu, Ting Long, Jiawei Shao, Xuelong Li,
- Abstract要約: Ruyi2.5はAI Flowフレームワーク上に構築されたマルチモーダル家族モデルである。
Ruyi2.5-Cameraモデルは、プライバシ保護カメラサービスシステムとして開発されている。
BPPOはバイナリ応答の選択によってサンプルの冗長性を低減し、応答プレフィックスの勾配更新に集中する。
- 参考スコア(独自算出の注目度): 46.52711895674739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Ruyi2.5, a multimodal familial model built on the AI Flow framework. Extending Ruyi2's "Train Once, Deploy Many" paradigm to the multimodal domain, Ruyi2.5 constructs a shared-backbone architecture that co-trains models of varying scales within a single unified pipeline, ensuring semantic consistency across all deployment tiers. Built upon Ruyi2.5, Ruyi2.5-Camera model is developed as a privacy-preserving camera service system, which instantiates Ruyi2.5-Camera into a two-stage recognition pipeline: an edge model applies information-bottleneck-guided irreversible feature mapping to de-identify raw frames at the source, while a cloud model performs deep behavior reasoning. To accelerate reinforcement learning fine-tuning, we further propose Binary Prefix Policy Optimization (BPPO), which reduces sample redundancy via binary response selection and focuses gradient updates on response prefixes, achieving a 2 to 3 times training speedup over GRPO. Experiments show Ruyi2.5 matches Qwen3-VL on the general multimodal benchmarks, while Ruyi2.5-Camera substantially outperforms Qwen3-VL on privacy-constrained surveillance tasks.
- Abstract(参考訳): 本稿では,AI Flowフレームワーク上に構築されたマルチモーダル家族モデルであるRuyi2.5を紹介する。
Ruyi2.5は、Ruyi2の"Train Once, Deploy Many"パラダイムをマルチモーダルドメインに拡張し、単一の統一パイプライン内でさまざまなスケールのモデルをコトレーニングする共有バックボーンアーキテクチャを構築し、すべてのデプロイメント層にわたってセマンティック一貫性を確保する。
Ruyi2.5をベースとしたRuyi2.5-Cameraモデルは、プライバシ保護カメラサービスシステムとして開発されており、Ruyi2.5-Cameraを2段階の認識パイプラインにインスタンス化する。
さらに,強化学習の微調整を高速化するため,バイナリ応答選択によるサンプルの冗長性を低減し,応答プレフィックスの勾配更新に焦点を合わせ,GRPOよりも2~3倍のトレーニング高速化を実現する2次修正ポリシー最適化(BPPO)を提案する。
実験によると、Ruyi2.5は一般的なマルチモーダルベンチマークでQwen3-VLと一致し、Ruyi2.5-Cameraはプライバシーに制約された監視タスクでQwen3-VLを大幅に上回っている。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - BasicAVSR: Arbitrary-Scale Video Super-Resolution via Image Priors and Enhanced Motion Compensation [70.27358326228399]
任意スケールビデオ超解像(AVSR)のためのベーシックAVSRを提案する。
AVSRは、ビデオフレームの解像度、潜在的に様々なスケーリング要素を強化することを目的としている。
超高分解能, 一般化能力, 推論速度の点で, BasicAVSR は既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-10-30T05:08:45Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - RCNet: Reverse Feature Pyramid and Cross-scale Shift Network for Object
Detection [10.847953426161924]
本稿では,RevFP(Reverse Feature Pyramid)とCSN(Cross-scale Shift Network)で構成されるRCNetを提案する。
RevFPは、局所的な双方向特徴融合を利用して、双方向ピラミッド推論パイプラインを簡素化する。
CSNは、隣接レベルと非隣接レベルの両方に直接表現を伝播し、より相関性の高いマルチスケール機能を実現する。
論文 参考訳(メタデータ) (2021-10-23T04:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。