論文の概要: MultiNet: An Open-Source Software Toolkit \& Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models
- arxiv url: http://arxiv.org/abs/2506.09172v1
- Date: Tue, 10 Jun 2025 18:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.869176
- Title: MultiNet: An Open-Source Software Toolkit \& Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models
- Title(参考訳): MultiNet:マルチモーダルアクションモデルの評価と適応のためのオープンソースソフトウェアツールキット \& Benchmark Suite
- Authors: Pranav Guruprasad, Yangyue Wang, Harshvardhan Sikka,
- Abstract要約: MultiNetは、ビジョン、言語、アクションドメインにわたるモデルを厳格に評価し、適応するために設計された、新しい完全にオープンソースなベンチマークである。
視覚言語モデル(VLM)と視覚言語アクションモデル(VLA)を評価するための標準化された評価プロトコルを確立する。
画像キャプション,視覚的質問応答,コモンセンス推論,ロボット制御,デジタルゲームプレイ,模擬ロコモーション/操作,その他多くのタスクからなる複合データセットを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent innovations in multimodal action models represent a promising direction for developing general-purpose agentic systems, combining visual understanding, language comprehension, and action generation. We introduce MultiNet - a novel, fully open-source benchmark and surrounding software ecosystem designed to rigorously evaluate and adapt models across vision, language, and action domains. We establish standardized evaluation protocols for assessing vision-language models (VLMs) and vision-language-action models (VLAs), and provide open source software to download relevant data, models, and evaluations. Additionally, we provide a composite dataset with over 1.3 trillion tokens of image captioning, visual question answering, commonsense reasoning, robotic control, digital game-play, simulated locomotion/manipulation, and many more tasks. The MultiNet benchmark, framework, toolkit, and evaluation harness have been used in downstream research on the limitations of VLA generalization.
- Abstract(参考訳): マルチモーダルアクションモデルにおける最近の革新は、視覚的理解、言語理解、行動生成を組み合わせた汎用エージェントシステムの開発に期待できる方向を示している。
ビジョン、言語、アクションドメインのモデルを厳格に評価し、適応するために設計された、新しい、完全にオープンソースなベンチマークと周辺のソフトウェアエコシステムであるMultiNetを紹介します。
我々は、視覚言語モデル(VLM)と視覚言語アクションモデル(VLA)を評価するための標準化された評価プロトコルを確立し、関連するデータ、モデル、評価をダウンロードするためのオープンソースソフトウェアを提供する。
さらに,画像キャプション,視覚的質問応答,コモンセンス推論,ロボット制御,デジタルゲームプレイ,模擬ロコモーション/操作,その他多くのタスクを含む複合データセットを提供する。
マルチネットベンチマーク、フレームワーク、ツールキット、評価ハーネスは、VLA一般化の限界について下流の研究で使われている。
関連論文リスト
- Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [25.31489336119893]
重要なロボットビジョンタスクにおけるマルチモーダル融合の応用を体系的に検討する。
視覚言語モデル(VLM)と従来のマルチモーダル融合法を比較し,その利点,限界,シナジーを分析した。
クロスモーダルアライメント、効率的な融合戦略、リアルタイムデプロイメント、ドメイン適応といった重要な研究課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。