論文の概要: RynnEC: Bringing MLLMs into Embodied World
- arxiv url: http://arxiv.org/abs/2508.14160v1
- Date: Tue, 19 Aug 2025 18:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.237149
- Title: RynnEC: Bringing MLLMs into Embodied World
- Title(参考訳): RynnEC:MLLMをエボダイドの世界に持ち込む
- Authors: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao,
- Abstract要約: RynnECは、認知の具体化のために設計されたビデオ多モーダル大言語モデルである。
RynnECにはリージョンエンコーダとマスクデコーダが組み込まれており、フレキシブルなリージョンレベルのビデオインタラクションを可能にする。
RynnECは、オブジェクトプロパティ理解、オブジェクトセグメンテーション、空間推論において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 20.393755405283365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RynnEC, a video multimodal large language model designed for embodied cognition. Built upon a general-purpose vision-language foundation model, RynnEC incorporates a region encoder and a mask decoder, enabling flexible region-level video interaction. Despite its compact architecture, RynnEC achieves state-of-the-art performance in object property understanding, object segmentation, and spatial reasoning. Conceptually, it offers a region-centric video paradigm for the brain of embodied agents, providing fine-grained perception of the physical world and enabling more precise interactions. To mitigate the scarcity of annotated 3D datasets, we propose an egocentric video based pipeline for generating embodied cognition data. Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for evaluating embodied cognitive capabilities. We anticipate that RynnEC will advance the development of general-purpose cognitive cores for embodied agents and facilitate generalization across diverse embodied tasks. The code, model checkpoints, and benchmark are available at: https://github.com/alibaba-damo-academy/RynnEC
- Abstract(参考訳): RynnECは、認知の具体化のために設計されたビデオ多モーダル大言語モデルである。
汎用視覚言語基盤モデルに基づいて構築されたRynnECには、リージョンエンコーダとマスクデコーダが組み込まれており、フレキシブルなリージョンレベルのビデオインタラクションを可能にする。
コンパクトなアーキテクチャにもかかわらず、RynnECはオブジェクトのプロパティ理解、オブジェクトのセグメンテーション、空間的推論において最先端のパフォーマンスを達成する。
概念的には、エンボディエージェントの脳に領域中心のビデオパラダイムを提供し、物理的な世界に対するきめ細かい認識を提供し、より正確な相互作用を可能にする。
アノテーション付き3Dデータセットの不足を軽減するため,エゴセントリックなビデオベースパイプラインを提案する。
さらに,具体的認知能力を評価するための地域中心ベンチマークRynnEC-Benchを紹介する。
我々は、RynnECが、エンボディエージェントのための汎用認知コアの開発を進め、多様なエンボディタスクにおける一般化を促進することを期待する。
コード、モデルチェックポイント、ベンチマークは、https://github.com/alibaba-damo-academy/RynnECで入手できる。
関連論文リスト
- ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark [44.64084739916821]
ECBenchは、大規模視覚言語モデル(LVLM)の具体的認知能力を体系的に評価するために設計されたベンチマークである。
ECBenchは多様なシーンビデオソース、オープンで多様な質問フォーマット、30次元のエンボディド認知を備えている。
我々は、プロプライエタリ、オープンソース、タスク固有のLVLMの広範な評価を行う。
論文 参考訳(メタデータ) (2025-01-09T07:43:49Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Spherical World-Locking for Audio-Visual Localization in Egocentric Videos [53.658928180166534]
我々は,エゴセントリックなシーン表現のための一般的なフレームワークとして,球状ワールドロックを提案する。
従来の2次元平面場を持つ自己中心表現と比較して、SWLは自動による課題を効果的に相殺する。
シーン表現の球面構造を保存する統一エンコーダデコーダトランスアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-08-09T22:29:04Z) - HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - Monocular Per-Object Distance Estimation with Masked Object Modeling [33.59920084936913]
本稿では、Masked Image Modeling (MiM) からインスピレーションを得て、マルチオブジェクトタスクに拡張する。
Masked Object Modeling (MoM) と呼ばれる我々の戦略は、マスキング技術の新しい応用を可能にする。
我々は、標準KITTI、NuScenes、MOT Synthデータセット上の新しい参照アーキテクチャ(DistFormer)におけるMoMの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - REACT: Recognize Every Action Everywhere All At Once [8.10024991952397]
グループ・アクティビティ・デコーダ(GAR)はコンピュータビジョンにおける基本的な問題であり、スポーツ分析、監視、社会場面の理解に様々な応用がある。
本稿では,変換器エンコーダ・デコーダモデルにインスパイアされたREACTアーキテクチャを提案する。
提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T20:48:54Z) - NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex
Real-World Scenes [80.59831861186227]
本論文では,複雑な現実世界のシーンに対して,NeRFを用いたオブジェクトセグメンテーションのための自己教師型学習の探索を行う。
我々のフレームワークは、NeRF(NeRF with Self-supervised Object NeRF-SOS)と呼ばれ、NeRFモデルがコンパクトな幾何認識セグメンテーションクラスタを蒸留することを奨励している。
他の2Dベースの自己教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。
論文 参考訳(メタデータ) (2022-09-19T06:03:17Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。