論文の概要: DORAEMON: A Unified Library for Visual Object Modeling and Representation Learning at Scale
- arxiv url: http://arxiv.org/abs/2511.04394v1
- Date: Thu, 06 Nov 2025 14:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.449236
- Title: DORAEMON: A Unified Library for Visual Object Modeling and Representation Learning at Scale
- Title(参考訳): DORAEMON: 大規模オブジェクトモデリングと表現学習のための統一ライブラリ
- Authors: Ke Du, Yimin Peng, Chao Gao, Fan Zhou, Siqiao Xue,
- Abstract要約: DORAEMONは、ビジュアルオブジェクトモデリングと表現学習を統合するオープンソースライブラリである。
単一のYAML駆動ワークフローは、分類、検索、メトリック学習をカバーしている。
DORAEMONは、視覚認識と表現学習の迅速な実験のためのスケーラブルな基盤を提供する。
- 参考スコア(独自算出の注目度): 30.62473367561577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DORAEMON is an open-source PyTorch library that unifies visual object modeling and representation learning across diverse scales. A single YAML-driven workflow covers classification, retrieval and metric learning; more than 1000 pretrained backbones are exposed through a timm-compatible interface, together with modular losses, augmentations and distributed-training utilities. Reproducible recipes match or exceed reference results on ImageNet-1K, MS-Celeb-1M and Stanford online products, while one-command export to ONNX or HuggingFace bridges research and deployment. By consolidating datasets, models, and training techniques into one platform, DORAEMON offers a scalable foundation for rapid experimentation in visual recognition and representation learning, enabling efficient transfer of research advances to real-world applications. The repository is available at https://github.com/wuji3/DORAEMON.
- Abstract(参考訳): DORAEMONはオープンソースのPyTorchライブラリで、様々なスケールで視覚オブジェクトモデリングと表現学習を統合する。
単一のYAML駆動ワークフローは、分類、検索、メトリック学習をカバーしている。1000以上の事前トレーニングされたバックボーンは、モジュールの損失、拡張、分散トレーニングユーティリティとともに、ティム互換インターフェースを通じて公開されている。
再現可能なレシピはImageNet-1K、MS-Celeb-1M、スタンフォードのオンライン製品で参照結果と一致するか超える。
データセット、モデル、トレーニング技術をひとつのプラットフォームに統合することで、DORAEMONは、視覚認識と表現学習の迅速な実験のためのスケーラブルな基盤を提供する。
リポジトリはhttps://github.com/wuji3/DORAEMONで公開されている。
関連論文リスト
- OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation [44.34131932968147]
マルチモーダルな理解と生成を統一するための軽量でオープンソースなベースラインであるOpenUniを紹介します。
統一モデル学習における一般的なプラクティスに触発されて、トレーニングの複雑さとオーバーヘッドを最小限にする効率的なトレーニング戦略を採用しました。
我々は,1) 高品質で命令整合性のある画像を生成すること,2) GenEval, DPG-Bench, WISE などの標準ベンチマークにおいて,1.1B と 3.1B のみ活性化パラメータで例外的な性能を達成できることを実証した。
論文 参考訳(メタデータ) (2025-05-29T17:09:44Z) - Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。
強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。
私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文 参考訳(メタデータ) (2025-05-05T08:52:49Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。